본문 바로가기

Statistics

(30)

베이지안 선형 회귀(Bayesian linear regression) R의 car 패키지의 Leihardt 데이터를 이용하여 베이지안 선형 회귀(Bayesian linear regression) 분석을 수행할 것이다. 수행 과정은 다음과 같다. 1. 데이터 확인 2. 모델링 3. 모델 확인 4. 잔차 분석 1. 데이터 확인 In: library(car) data('Leinhardt') pairs(Leinhardt) Out: ▷ Leihardt 데이터는 연속형 변수인 income, infant, region과 범주형 변수인 oil로 구성되어 있다. ▷ income과 infant가 비선형적인 관계를 나타내고 있는 것을 확인할 수 있다. 선형모델은 기본적으로 변수간 선형관계를 가정하기 때문에 두 변수에 로그를 취하여 변형할 것이다. In: Leinhardt$log_income ..

MCMC(Markov Chain Monte-Carlo)의 수렴(Convergence) MCMC(Markov Chain Monte-Carlo)를 통해 생성한 데이터를 활용하기 위해서는 마르코프 체인(Markov Chain)이 정상상태(Stationary)에 수렴(Convergence)해야 한다. 이를 확인하고 다루는 방법에 대해 다룰 것이다. 1. Trace plot 2. 자기상관성(Autocorrelation) 3. 초기 단계(Burn-in period) 1. Trace plot MCMC의 수렴을 확인하는 가장 직관적인 방법은 데이터의 생성 과정을 직접 그림으로 나타내는 것이다. 시행횟수에 따른 생성된 데이터의 분포를 통해 이를 확인할 수 있다. In: log_g

깁스 샘플링(Gibbs sampling) 깁스 샘플링(Gibbs sampling)에 대해 알아볼 것이다. 다룰 내용은 다음과 같다. 1. 깁스 샘플링 2. 깁스 샘플링의 예제 1. 깁스 샘플링 깁스 샘플링은 Metropolis Hastings(이하 MH) 알고리즘의 특별한 형태로, 제안 분포(Proposal distribution)를 자신의 Full conditional distribution로 두어 샘플링하는 방법이다. 이렇게 함으로써, 각 시행에서 발생하는 데이터에 대해 Acceptance probability는 1이 되는 성질을 가지게 된다. 다음의 증명을 통하여 이를 확인해보자. ▷ 제안 분포를 Full conditional posterior로 둠으로써 미세 균형 조건(Detailed balance condition)이 성립하게 된다. ..

JAGS(Just Another Gibbs Sampler) 사용법 R의 JAGS(Just Another Gibbs Sampler)의 사용법에 대해 알아볼 것이다. JAGS를 통한 데이터 생성 과정은 4단계로 나눌 수 있다. 1. Specify the model 2. Set up the model 3. Run the MCMC(Markov Chain Monte Carlo) sampler 4. Post processing 다음의 모델에 이를 단계별로 적용하여 사후분포로부터 데이터를 생성하여 보자. 1. Specify the model In: library(rjags) mod_string = " model { for (i in 1:n) { y[i] ~ dnorm(mu, 1.0/sig2) } mu ~ dt(0.0, 1.0/1.0, 1) sig2 = 1.0 } " ▷ 위의 코드와..

메트로폴리스 헤이스팅스 알고리즘(Metropolis-Hastings algorithm) Metropolis-Hastings(이하 MH) 알고리즘에 대해 알아볼 것이다. MH 알고리즘은 MCMC(Markov Chain Monte-Carlo)의 일반적인 형태로써 특정 분포로부터 정상분포로 갖는 체인을 발생시킬 수 있다. 이를 이용하여 특정 분포로부터 데이터를 생성할 수 있다. 다룰 내용으로는 다음과 같다. 1. MH 알고리즘 2. Random walk MH 알고리즘 구현 1. MH 알고리즘 MH 알고리즘은 다음과 같다. ▷ q는 제안 분포(Proposal distribution)를 의미하고, g는 우리의 목적 분포(Target distribution)에서 정규화 상수(Normalizing constant)를 제외한 부분이다. 즉, 목적 분포와 g(theta)는 비례 관계가 성립한다. ▷ 초기값..

몬테카를로 추정(Monte-carlo estimation) 문제와 예시를 통해 몬테카를로 추정(Monte-carlo estimation)에 대해 알아볼 것이다. 문제) 감마분포(alpha = 2, beta = 1/3)의 평균을 수식적인 계산과 몬테카를로 추정을 통해 구하고 결과를 비교하여라. 풀이) In: alpha = 2 beta = 1/3 m = 10^8 theta_star

그래프 표현(Graphical representation) 예시를 통해 베이지안 모델을 나타내기 위한 그래프 표현(Graphical representation) 방법에 대해 알아볼 것이다. 예시 1) 가능도 함수가 정규분포를 따르고, 정규분포의 두 모수가 위와 같이 사전분포를 따를 때, 이를 그래프로 표현해보자. ▷ 동그라미는 노드(Node)라고 부른다. 노드는 확률변수(Random variable)를 의미한다. 사전분포를 가지고 있는 mu와 sigma^2를 노드로 정하였다. ▷ 위의 그림에서 mu와 sigma^2 밑에 y1, y2, ... , yn도 확률변수이지만, 관측할 수 있기 때문에 이중 동그라미로 나타내었다. ▷ 각 노드별 종속(Dependence) 관계를 나타내기 화살표(Arrow)를 이용하였다. 화살이 가리키는 노드는 화살이 나오는 노드로부터 종속되..

통계 모델링 과정(Statistical modeling process) 데이터 분석 또는 문제 해결을 위한 통계 모델링 과정(Statistical modeling process)에 대해 알아볼 것이다. 단계는 8개로 나눌 수 있고, 아래와 같다. 1. Understand the problem 2. Plan and collect data 3. Explore data 4. Postulate model 5. Fit model 6. Check model 7. Iterate 8. Use model 각 단계에 대해 자세히 알아보자. 1. Understand the problem 가장 먼저 해야하는 것은 문제를 이해하는 것이다. 당연하기 때문에 간과하기 쉬운데, 이는 매우 중요하다. 예를 들어, 프랜차이즈의 수익 데이터를 각 지역에서 얻었다고 가정하자. 수익의 평균을 통해 프랜차이즈 사..

통계 모델(Statistical model) 통계 모델(Statistical model)에 대해 알아볼 것이다. 다룰 내용은 다음과 같다. 1. 통계 모델의 정의 2. 통계 모델의 목적 1. 통계 모델의 정의 통계 모델이란 데이터 생성 구조(Data generating process)를 모방(Imitation) 또는 근사(Approximation)하기 위한 수학적 구조(Mathematical structure)를 말한다. 일반적으로 통계 모델은 변수간의 관계를 나타내며, 데이터의 불확실성(Uncertainty)과 변동성(Variability)를 설명한다. 통계 모델은 인과관계 또는 노이즈 데이터로부터 은닉 변수(Hidden variable)를 파악하는데 도움을 줄 수 있다. 2. 통계 모델의 목적 통계 모델의 목적은 크게 4가지로 나눌 수 있다. ..

제프리 사전분포(Jeffrey's prior) 제프리 사전분포(Jeffrey's prior)에 대해 알아볼 것이다. 다룰 내용으로는 다음과 같다. 1. 제프리 사전분포의 정의 2. 제프리 사전분포의 예제 1. 제프리 사전분포의 정의 단변수 theta의 제프리 사전분포(Jeffrey's prior)는 다음과 같이 정의된다. 여기서 I(theta)는 기대 피셔 정보값(Expected Fisher information)을 나타내며 다음과 같이 계산된다. ▷ 제프리 사전분포의 가장 큰 특징은 불변성(Invariance)을 가지고 있다는 것이다. 즉, 제프리 사전분포를 사용할 경우, 모수의 사후분포와 모수의 함수에 대한 사후분포가 있을 때, 변수변환을 통해 같음을 보일 수 있다. 2. 제프리 사전분포의 예제 문제) 가능도 함수가 지수분포일 때, 제프리 사전분..

무정보 사전분포(Non-informative prior distribution) 무정보 사전분포(Non-informative prior distribution)에 알아볼 것이다. 관심있는 모수에 대한 정보를 주고 싶지 않다면, 모수의 모든 가능한 값들에 동일한 가중치를 부여하는 것이 합리적일 것이다. 따라서 사전분포로 균등분포를 사용할 것이다. 이를 적용하여 다음의 상황에 대해 생각해보자. ▷ 균등분포는 베타분포의 특이한 경우이다. 이를 이용하여, ESS(Effective Sample Size)를 구할 수 있다. 즉, 2개의 샘플만큼 사후분포에 영향을 미치므로 완전한 무정보 사전분포라고 할 수 없다. 데이터에만 종속적인(Dependent) 사후분포를 추정하기 위해 ESS를 줄여보자. ▷ 사전분포의 두 모수를 0으로 정하여 ESS를 0으로 만들었다. ESS가 0인 무정보 사전분포를 사..

다양한 켤레사전분포(Conjugate prior distribution) 문제를 통해 다양한 켤레사전분포(Conjugate prior distribution)에 대해 알아보자. 문제 1) 10분동안 정류장에 도착하는 버스 수의 분포가 지수분포를 따르고, 지수분포의 모수가 감마분포(alpha = 100, beta = 1000)를 따른다. 10분동안 12대의 버스가 도착하였다. 이때, 사후분포와 사후평균을 구하여라. 풀이) ▷ 사후분포는 alpha가 101, beta가 1012인 감마분포이다. 사전분포와 사후분포가 감마 분포를 따르므로 켤레사전분포라고 할 수 있다. ▷ 사전분포의 ESS(Effective Sample Size)는 alpha와 beta의 합이므로, 1100이다. ▷ 사후평균은 0.0998로 거의 변화가 없는 것으로 나타났다. 이는 ESS가 데이터의 개수에 비해 압도..

이전 1 2 3 다음

티스토리툴바