본문 바로가기

Statistics/Bayesian Statistics

(23)

혼합 모델(Mixture model) 다음의 데이터의 히스토그램을 확인하고, 이를 적합할 분포에 대하여 생각해 보자. In: data = read.csv('../input/mixture.csv', header = F) y = data$V1 n = length(y) hist(y, breaks = 20) Out: ▷ 일반적인 분포와는 다르게 -2와 1 근처에 두 개의 봉우리를 형성하고 있는 것을 확인할 수 있다. 우리가 알고 있는 정규분포, 지수분포, 감마분포는 단봉형태를 띄고 있다. 따라서 이를 위의 데이터에 적합할 경우, 두 개의 봉우리에 대해 적합한 분포를 얻을 수 없다. ▶ 혼합 모델(Mixture model)은 두 개이상의 분포를 합쳐서 만든 모델로 기존 분포에 비하여 자유도 높은 적합이 가능하다는 장점을 가지고 있다. 또한 복잡한 분..

임의절편 모델(Random intercept model) R의 car 패키지의 Leinhardt 데이터를 이용하여 임의절편 모델(Random intercept model)을 모델을 만들어보자. 수행과정은 다음과 같다. 1. 데이터 확인 2. 모델링 3. 모델확인 1. 데이터 확인 In: library(car) data('Leinhardt') pairs(Leinhardt) head(Leinhardt) Out: income infant region oil Australia 3426 26.7 Asia no Austria 3350 23.7 Europe no Belgium 3346 17.0 Europe no Canada 4751 16.8 Americas no Denmark 5029 13.5 Europe no Finland 3312 10.1 Europe no ▷ 연속형 ..

Bayesian linear model for New York air quality measurements 캘리포니아 대학교의 "Bayesian Statistics: Techniques and Models"을 이수하기 위한 프로젝트 결과물이다. ########################## # setting & loading data # ########################## set.seed(777) library(dplyr) library(tidyr) library(ggplot2) library(GGally) library(rjags) theme_set(theme_light() + theme(plot.title = element_text(face = 'bold', colour = 'grey10'), plot.subtitle = element_text(colour = 'grey25'), panel...

계층적 모델(Hierarchical model) 다음의 예제를 통해 계층적 모델(Hierarchical model)의 특징을 알아보고, 모델링 결과에 대해 분석해 보자. 문제) 칙촉을 생산하는 5개의 공장이 있다. 각 공장에서 생산된 칙촉 과자 1개에 박혀 있는 초코칩 개수가 포아송 분포를 따르고, 포아송 분포의 모수는 감마분포를 따른다. cookies 데이터를 이용하여 칙촉 과자가 생산될 때, 박혀 있는 초코칩 개수에 대한 모델링을 수행한 후, 분석하시오. 풀이) ▷ 위의 문제에 대해 크게 3가지 모델링 방법으로 접근이 가능하다. (1) Fully independent model: 모든 데이터가 독립이라 가정하고, 하나의 포아송 모델을 만드는 것이다. 이는 각 공장별 차이와 같은 공장에서 생산된 칙촉의 비슷한 특성을 고려하지 못한다는 한계가 있다. ..

베이지안 포아송 회귀(Bayesian poisson regression) 단순 포아송 회귀(Simple poisson regression) 모델은 다음과 같다. ▷ 가능도는 포아송 분포로 정하고, 가능도 모수의 로그를 취한 것에 대하여 독립변수의 선형결합으로 정의한다. 이때, 위의 식에서는 하나의 독립변수에 대한 선형결합으로 표현하였지만, 독립변수가 여러개이면 이 독립변수들의 선형결합을 통해 가능도 모수의 로그를 취한 값에 대하여 정의한다. ▷ 포아송 회귀 모델의 예측은 개별 데이터의 가능도의 평균, 즉, 가능도의 모수를 통해 이루어진다. ▷ 베이지안 포아송 회귀(Bayesian poisson regression)는 독립변수와 선형결합된 모수 beta의 사전분포를 정의한다는 점에서 포아송 회귀와 차이가 있다. R의 COUNT 패키지의 badhealth 데이터를 이용하여 베이지..

베이지안 로지스틱 회귀(Bayesian logistic regression) 단순 로지스틱 회귀(Simple logistic regression) 모델은 다음과 같다. ▷ 가능도는 베르누이 분포로 정하고, 가능도 모수의 로짓(Logit)을 독립변수의 선형결합으로 정의한다. 이때, 위의 식에서는 하나의 독립변수에 대한 선형결합으로 표현하였지만, 독립변수가 여러개이면 이 독립변수들의 선형결합을 통해 로짓을 정의한다. ▷ 로지스틱 회귀의 예측은 개별 데이터의 가능도의 평균, 즉 가능도의 모수를 통해 이루어진다. ▶ 베이지안 로지스틱 회귀(Bayesian logistic regression)는 로짓을 나타내는 독립변수의 선형결합된 모수의 사전분포를 정의한다는 점에서 로지스틱 회귀와 차이가 있다. R의 boot 패키지의 urine 데이터를 이용하여 베이지안 로지스틱 회귀 분석을 수행할 것..

DIC(Deviance Information Criterion) 베이지안 모델에서는 모델 선택을 위한 정보의 기준으로써 DIC(Deviance Information Criterion)을 제시하고 있다. DIC의 공식은 다음과 같다. ▷ theta hat은 각 모수의 사후평균이고, 사후분포로부터 얻은 theta hat의 로그 가능도와 실질적인 모수의 갯수(Effective number of parameters)를 고려하여 DIC를 구할 수 있다. ▶ 실질적인 모수의 갯수는 모델의 추정치 사이에 상관(Correlation)을 고려하기 위한 것이다. 예를 들어, 모델의 추정치 사이에 0.99의 상관이 존재한다면 이를 독립적인 모수로 간주한다면 합리적이지 않을 것이다. R의 car 패키지의 Leihardt 데이터를 이용한 두 모델을 DIC를 통해 비교하여보자. In: lib..

베이지안 선형 회귀(Bayesian linear regression) R의 car 패키지의 Leihardt 데이터를 이용하여 베이지안 선형 회귀(Bayesian linear regression) 분석을 수행할 것이다. 수행 과정은 다음과 같다. 1. 데이터 확인 2. 모델링 3. 모델 확인 4. 잔차 분석 1. 데이터 확인 In: library(car) data('Leinhardt') pairs(Leinhardt) Out: ▷ Leihardt 데이터는 연속형 변수인 income, infant, region과 범주형 변수인 oil로 구성되어 있다. ▷ income과 infant가 비선형적인 관계를 나타내고 있는 것을 확인할 수 있다. 선형모델은 기본적으로 변수간 선형관계를 가정하기 때문에 두 변수에 로그를 취하여 변형할 것이다. In: Leinhardt$log_income ..

MCMC(Markov Chain Monte-Carlo)의 수렴(Convergence) MCMC(Markov Chain Monte-Carlo)를 통해 생성한 데이터를 활용하기 위해서는 마르코프 체인(Markov Chain)이 정상상태(Stationary)에 수렴(Convergence)해야 한다. 이를 확인하고 다루는 방법에 대해 다룰 것이다. 1. Trace plot 2. 자기상관성(Autocorrelation) 3. 초기 단계(Burn-in period) 1. Trace plot MCMC의 수렴을 확인하는 가장 직관적인 방법은 데이터의 생성 과정을 직접 그림으로 나타내는 것이다. 시행횟수에 따른 생성된 데이터의 분포를 통해 이를 확인할 수 있다. In: log_g

깁스 샘플링(Gibbs sampling) 깁스 샘플링(Gibbs sampling)에 대해 알아볼 것이다. 다룰 내용은 다음과 같다. 1. 깁스 샘플링 2. 깁스 샘플링의 예제 1. 깁스 샘플링 깁스 샘플링은 Metropolis Hastings(이하 MH) 알고리즘의 특별한 형태로, 제안 분포(Proposal distribution)를 자신의 Full conditional distribution로 두어 샘플링하는 방법이다. 이렇게 함으로써, 각 시행에서 발생하는 데이터에 대해 Acceptance probability는 1이 되는 성질을 가지게 된다. 다음의 증명을 통하여 이를 확인해보자. ▷ 제안 분포를 Full conditional posterior로 둠으로써 미세 균형 조건(Detailed balance condition)이 성립하게 된다. ..

JAGS(Just Another Gibbs Sampler) 사용법 R의 JAGS(Just Another Gibbs Sampler)의 사용법에 대해 알아볼 것이다. JAGS를 통한 데이터 생성 과정은 4단계로 나눌 수 있다. 1. Specify the model 2. Set up the model 3. Run the MCMC(Markov Chain Monte Carlo) sampler 4. Post processing 다음의 모델에 이를 단계별로 적용하여 사후분포로부터 데이터를 생성하여 보자. 1. Specify the model In: library(rjags) mod_string = " model { for (i in 1:n) { y[i] ~ dnorm(mu, 1.0/sig2) } mu ~ dt(0.0, 1.0/1.0, 1) sig2 = 1.0 } " ▷ 위의 코드와..

메트로폴리스 헤이스팅스 알고리즘(Metropolis-Hastings algorithm) Metropolis-Hastings(이하 MH) 알고리즘에 대해 알아볼 것이다. MH 알고리즘은 MCMC(Markov Chain Monte-Carlo)의 일반적인 형태로써 특정 분포로부터 정상분포로 갖는 체인을 발생시킬 수 있다. 이를 이용하여 특정 분포로부터 데이터를 생성할 수 있다. 다룰 내용으로는 다음과 같다. 1. MH 알고리즘 2. Random walk MH 알고리즘 구현 1. MH 알고리즘 MH 알고리즘은 다음과 같다. ▷ q는 제안 분포(Proposal distribution)를 의미하고, g는 우리의 목적 분포(Target distribution)에서 정규화 상수(Normalizing constant)를 제외한 부분이다. 즉, 목적 분포와 g(theta)는 비례 관계가 성립한다. ▷ 초기값..

이전 1 2 다음

티스토리툴바