Statistics (30) ์ธ๋ค์ผํ ๋ฆฌ์คํธํ ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network)๋ฅผ ํ์ฉํ King County์ ์ง๊ฐ ๋ถ์ ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network)๋ฅผ ํ์ฉํ์ฌ King County์ ์ง๊ฐ์ ์ํฅ์ ๋ฏธ์น๋ ๋ค์ํ ์์์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ํ์ธํ๊ณ , ๋ถ์ํ๋ ๊ฒ์ด ์ด ํ๋ก์ ํธ์ ๋ชฉ์ ์ด๋ค. ๋ฐ์ดํฐ์ ์ถ์ฒ๋ ์ฌ๊ธฐ(www.kaggle.com/harlfoxem/housesalesprediction)์ด๊ณ , ์๋์ ๊ตฌ์ฑ ์์๋๋ก ๋ถ์ ๋ฐ ๋ชจ๋ธ๋ง ๊ณผ์ ์ ์ํํ ๊ฒ์ด๋ค. ๋ชจ๋ ์ฝ๋๋ R๋ก ์์ฑ๋์๋ค. 1. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ 2. ์๊ฐํ ๋ฐ ์๊ด๊ด๊ณ ๋ถ์ 3. ๋ค์คํ๊ท๋ถ์ 4. ๋ฒ ์ด์ง์ ๋คํธ์ํฌ ๋ชจ๋ธ๋ง 1. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ In: # Statistic library(car) # Data manipulation library(dplyr) library(tidyr) # Visualization library(ggplot2) librar.. ๋งค๊ฐํจ๊ณผ(Mediating effect) โก ๋งค๊ฐํจ๊ณผ(Mediating effect) - ๋ ๋ฆฝ๋ณ์๊ฐ ์ข ์๋ณ์์ ์ ์ํ ์ํฅ์ ๋ฏธ์น ๋, ๊ทธ ์ฌ์ด์ ๋งค๊ฐ๋ณ์๋ฅผ ํตํด ๊ทธ ์ํฅ์ด ์ ๋ฌ๋๋ ๊ฒฝ์ฐ - X(๋ ๋ฆฝ๋ณ์) → M(๋งค๊ฐ๋ณ์) → Y(์ข ์๋ณ์) โก ๋งค๊ฐํจ๊ณผ์ ์ข ๋ฅ (1) ๋ถ๋ถ๋งค๊ฐ ํจ๊ณผ (2) ์์ ๋งค๊ฐ ํจ๊ณผ โก ๋งค๊ฐํจ๊ณผ ๊ฒ์ฆ๋ฐฉ๋ฒ - Baron & Kenny (1986) ๋ฐฉ๋ฒ [1๋จ๊ณ] X → M [2๋จ๊ณ] X → Y [3๋จ๊ณ] X + M → Y (1) ๋ถ๋ถ๋งค๊ฐ ํจ๊ณผ ๊ฒ์ฆ [1๋จ๊ณ] M = a + b1*X → b1 ์ ์ [2๋จ๊ณ] Y = a + phi*X → phi ์ ์ [3๋จ๊ณ] Y = a + b2*X + b3*M → b3, b2 ์ ์ โท ์์ 3๋จ๊ณ์ ๊ฐ ๊ณ์์ ์ ์ ์กฐ๊ฑด์ ๋ง์กฑํ ๊ฒฝ์ฐ, ๋ถ๋ถ๋งค๊ฐํจ๊ณผ๊ฐ ๋ํ๋๋ค๊ณ ๋ณผ ์ ์๋ค. (2) ์์ ๋งค๊ฐ ํจ๊ณผ.. ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network) (3) ๋ณธ ํฌ์คํ ์ ์นด์ด์คํธ ๋ฌธ์ผ์ฒ ๊ต์๋์ ์ธ๊ณต์ง๋ฅ ๋ฐ ๊ธฐ๊ณํ์ต ๊ฐ๋ก 2์ ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network) ๊ฐ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. Potential functions 2. Absorption in clique graph 3. Example of belief propagation 1. Potential functions โท Potential function์ ์ ์ฌ์ ์ผ๋ก ํ๋ฅ ์ด ๋๋ ํจ์๋ก์จ, ์์ง ํ๋ฅ ์ ์กฐ๊ฑด์ ๋ง์กฑํ๊ธฐ์ ์ถฉ๋ถํ์ง ์์ ํจ์๋ฅผ ์๋ฏธํ๋ค. ์ด ํจ์๋ Belief propagation์ ํตํด ํ๋ฅ ๋ก์จ ๋ฐ๋๊ฒ ๋๋ค. ์ด์ ๋ํ ๋ด์ฉ์ ์ดํ์ ๋ค๋ฃจ๊ธฐ๋ก ํ๊ฒ ๋ค. โท ์์ ์๋ Potential function์ ์ค๋ช ํ๊ธฐ ์ฝ๊ฒ ๋ํ๋ธ ๋ฒ ์ด์ง์ ๋คํธ์ํฌ.. ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network) (2) ๋ณธ ํฌ์คํ ์ ์นด์ด์คํธ ๋ฌธ์ผ์ฒ ๊ต์๋์ ์ธ๊ณต์ง๋ฅ ๋ฐ ๊ธฐ๊ณํ์ต ๊ฐ๋ก 2์ ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network) ๊ฐ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. Factorization of Bayesian network 2. Conditional probability 3. Most probable assignment 4. Marginalization and elimination 5. Variable elimination 1. Factorization of Bayesian network โท ๋ฒ ์ด์ง์ ๋คํธ์ํฌ์ Factorization์ Full joint distribution์ ๊ตฌํ ๋, ๊ฐ๋ณ ๋ ธ๋์ Conditional probability์ Condition์ ํฌํจ๋๋ ๋ ธ๋๋ฅผ ๊ฐ.. ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network) (1) ๋ณธ ํฌ์คํ ์ ์นด์ด์คํธ ๋ฌธ์ผ์ฒ ๊ต์๋์ ์ธ๊ณต์ง๋ฅ ๋ฐ ๊ธฐ๊ณํ์ต ๊ฐ๋ก 2์ ๋ฒ ์ด์ง์ ๋คํธ์ํฌ(Bayesian network) ๊ฐ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. Conditional vs. Marginal independence 2. Bayesian network 3. Interpretation of Bayesian network 4. Typical local structures 5. Bayes ball algorithm 1. Conditional vs. Marginal independence โท Conditional independence์ Marginal independence๋ ๋ ๋ค ๋ ๋ฆฝ์ ์๋ฏธํ์ง๋ง, ์ฝ๊ฐ์ ์ฐจ์ด๊ฐ ์๋ค. Marginal independence๋ P(A|B) .. ํผํฉ ๋ชจ๋ธ(Mixture model) ๋ค์์ ๋ฐ์ดํฐ์ ํ์คํ ๊ทธ๋จ์ ํ์ธํ๊ณ , ์ด๋ฅผ ์ ํฉํ ๋ถํฌ์ ๋ํ์ฌ ์๊ฐํด ๋ณด์. In: data = read.csv('../input/mixture.csv', header = F) y = data$V1 n = length(y) hist(y, breaks = 20) Out: โท ์ผ๋ฐ์ ์ธ ๋ถํฌ์๋ ๋ค๋ฅด๊ฒ -2์ 1 ๊ทผ์ฒ์ ๋ ๊ฐ์ ๋ด์ฐ๋ฆฌ๋ฅผ ํ์ฑํ๊ณ ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ์ ๊ท๋ถํฌ, ์ง์๋ถํฌ, ๊ฐ๋ง๋ถํฌ๋ ๋จ๋ดํํ๋ฅผ ๋๊ณ ์๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ์์ ๋ฐ์ดํฐ์ ์ ํฉํ ๊ฒฝ์ฐ, ๋ ๊ฐ์ ๋ด์ฐ๋ฆฌ์ ๋ํด ์ ํฉํ ๋ถํฌ๋ฅผ ์ป์ ์ ์๋ค. โถ ํผํฉ ๋ชจ๋ธ(Mixture model)์ ๋ ๊ฐ์ด์์ ๋ถํฌ๋ฅผ ํฉ์ณ์ ๋ง๋ ๋ชจ๋ธ๋ก ๊ธฐ์กด ๋ถํฌ์ ๋นํ์ฌ ์์ ๋ ๋์ ์ ํฉ์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ ๊ฐ์ง๊ณ ์๋ค. ๋ํ ๋ณต์กํ ๋ถ.. ์์์ ํธ ๋ชจ๋ธ(Random intercept model) R์ car ํจํค์ง์ Leinhardt ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ์์์ ํธ ๋ชจ๋ธ(Random intercept model)์ ๋ชจ๋ธ์ ๋ง๋ค์ด๋ณด์. ์ํ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ๋ฐ์ดํฐ ํ์ธ 2. ๋ชจ๋ธ๋ง 3. ๋ชจ๋ธํ์ธ 1. ๋ฐ์ดํฐ ํ์ธ In: library(car) data('Leinhardt') pairs(Leinhardt) head(Leinhardt) Out: income infant region oil Australia 3426 26.7 Asia no Austria 3350 23.7 Europe no Belgium 3346 17.0 Europe no Canada 4751 16.8 Americas no Denmark 5029 13.5 Europe no Finland 3312 10.1 Europe no โท ์ฐ์ํ .. Bayesian linear model for New York air quality measurements ์บ๋ฆฌํฌ๋์ ๋ํ๊ต์ "Bayesian Statistics: Techniques and Models"์ ์ด์ํ๊ธฐ ์ํ ํ๋ก์ ํธ ๊ฒฐ๊ณผ๋ฌผ์ด๋ค. ########################## # setting & loading data # ########################## set.seed(777) library(dplyr) library(tidyr) library(ggplot2) library(GGally) library(rjags) theme_set(theme_light() + theme(plot.title = element_text(face = 'bold', colour = 'grey10'), plot.subtitle = element_text(colour = 'grey25'), panel... ๊ณ์ธต์ ๋ชจ๋ธ(Hierarchical model) ๋ค์์ ์์ ๋ฅผ ํตํด ๊ณ์ธต์ ๋ชจ๋ธ(Hierarchical model)์ ํน์ง์ ์์๋ณด๊ณ , ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ์ ๋ํด ๋ถ์ํด ๋ณด์. ๋ฌธ์ ) ์น์ด์ ์์ฐํ๋ 5๊ฐ์ ๊ณต์ฅ์ด ์๋ค. ๊ฐ ๊ณต์ฅ์์ ์์ฐ๋ ์น์ด ๊ณผ์ 1๊ฐ์ ๋ฐํ ์๋ ์ด์ฝ์นฉ ๊ฐ์๊ฐ ํฌ์์ก ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ , ํฌ์์ก ๋ถํฌ์ ๋ชจ์๋ ๊ฐ๋ง๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค. cookies ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ์น์ด ๊ณผ์๊ฐ ์์ฐ๋ ๋, ๋ฐํ ์๋ ์ด์ฝ์นฉ ๊ฐ์์ ๋ํ ๋ชจ๋ธ๋ง์ ์ํํ ํ, ๋ถ์ํ์์ค. ํ์ด) โท ์์ ๋ฌธ์ ์ ๋ํด ํฌ๊ฒ 3๊ฐ์ง ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผ์ด ๊ฐ๋ฅํ๋ค. (1) Fully independent model: ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ๋ ๋ฆฝ์ด๋ผ ๊ฐ์ ํ๊ณ , ํ๋์ ํฌ์์ก ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฐ ๊ณต์ฅ๋ณ ์ฐจ์ด์ ๊ฐ์ ๊ณต์ฅ์์ ์์ฐ๋ ์น์ด์ ๋น์ทํ ํน์ฑ์ ๊ณ ๋ คํ์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์๋ค. .. ๋ฒ ์ด์ง์ ํฌ์์ก ํ๊ท(Bayesian poisson regression) ๋จ์ ํฌ์์ก ํ๊ท(Simple poisson regression) ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ๋ค. โท ๊ฐ๋ฅ๋๋ ํฌ์์ก ๋ถํฌ๋ก ์ ํ๊ณ , ๊ฐ๋ฅ๋ ๋ชจ์์ ๋ก๊ทธ๋ฅผ ์ทจํ ๊ฒ์ ๋ํ์ฌ ๋ ๋ฆฝ๋ณ์์ ์ ํ๊ฒฐํฉ์ผ๋ก ์ ์ํ๋ค. ์ด๋, ์์ ์์์๋ ํ๋์ ๋ ๋ฆฝ๋ณ์์ ๋ํ ์ ํ๊ฒฐํฉ์ผ๋ก ํํํ์์ง๋ง, ๋ ๋ฆฝ๋ณ์๊ฐ ์ฌ๋ฌ๊ฐ์ด๋ฉด ์ด ๋ ๋ฆฝ๋ณ์๋ค์ ์ ํ๊ฒฐํฉ์ ํตํด ๊ฐ๋ฅ๋ ๋ชจ์์ ๋ก๊ทธ๋ฅผ ์ทจํ ๊ฐ์ ๋ํ์ฌ ์ ์ํ๋ค. โท ํฌ์์ก ํ๊ท ๋ชจ๋ธ์ ์์ธก์ ๊ฐ๋ณ ๋ฐ์ดํฐ์ ๊ฐ๋ฅ๋์ ํ๊ท , ์ฆ, ๊ฐ๋ฅ๋์ ๋ชจ์๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค. โท ๋ฒ ์ด์ง์ ํฌ์์ก ํ๊ท(Bayesian poisson regression)๋ ๋ ๋ฆฝ๋ณ์์ ์ ํ๊ฒฐํฉ๋ ๋ชจ์ beta์ ์ฌ์ ๋ถํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ํฌ์์ก ํ๊ท์ ์ฐจ์ด๊ฐ ์๋ค. R์ COUNT ํจํค์ง์ badhealth ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๋ฒ ์ด์ง.. ๋ฒ ์ด์ง์ ๋ก์ง์คํฑ ํ๊ท(Bayesian logistic regression) ๋จ์ ๋ก์ง์คํฑ ํ๊ท(Simple logistic regression) ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ๋ค. โท ๊ฐ๋ฅ๋๋ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ก ์ ํ๊ณ , ๊ฐ๋ฅ๋ ๋ชจ์์ ๋ก์ง(Logit)์ ๋ ๋ฆฝ๋ณ์์ ์ ํ๊ฒฐํฉ์ผ๋ก ์ ์ํ๋ค. ์ด๋, ์์ ์์์๋ ํ๋์ ๋ ๋ฆฝ๋ณ์์ ๋ํ ์ ํ๊ฒฐํฉ์ผ๋ก ํํํ์์ง๋ง, ๋ ๋ฆฝ๋ณ์๊ฐ ์ฌ๋ฌ๊ฐ์ด๋ฉด ์ด ๋ ๋ฆฝ๋ณ์๋ค์ ์ ํ๊ฒฐํฉ์ ํตํด ๋ก์ง์ ์ ์ํ๋ค. โท ๋ก์ง์คํฑ ํ๊ท์ ์์ธก์ ๊ฐ๋ณ ๋ฐ์ดํฐ์ ๊ฐ๋ฅ๋์ ํ๊ท , ์ฆ ๊ฐ๋ฅ๋์ ๋ชจ์๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค. โถ ๋ฒ ์ด์ง์ ๋ก์ง์คํฑ ํ๊ท(Bayesian logistic regression)๋ ๋ก์ง์ ๋ํ๋ด๋ ๋ ๋ฆฝ๋ณ์์ ์ ํ๊ฒฐํฉ๋ ๋ชจ์์ ์ฌ์ ๋ถํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ๋ก์ง์คํฑ ํ๊ท์ ์ฐจ์ด๊ฐ ์๋ค. R์ boot ํจํค์ง์ urine ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๋ฒ ์ด์ง์ ๋ก์ง์คํฑ ํ๊ท ๋ถ์์ ์ํํ ๊ฒ.. DIC(Deviance Information Criterion) ๋ฒ ์ด์ง์ ๋ชจ๋ธ์์๋ ๋ชจ๋ธ ์ ํ์ ์ํ ์ ๋ณด์ ๊ธฐ์ค์ผ๋ก์จ DIC(Deviance Information Criterion)์ ์ ์ํ๊ณ ์๋ค. DIC์ ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค. โท theta hat์ ๊ฐ ๋ชจ์์ ์ฌํํ๊ท ์ด๊ณ , ์ฌํ๋ถํฌ๋ก๋ถํฐ ์ป์ theta hat์ ๋ก๊ทธ ๊ฐ๋ฅ๋์ ์ค์ง์ ์ธ ๋ชจ์์ ๊ฐฏ์(Effective number of parameters)๋ฅผ ๊ณ ๋ คํ์ฌ DIC๋ฅผ ๊ตฌํ ์ ์๋ค. โถ ์ค์ง์ ์ธ ๋ชจ์์ ๊ฐฏ์๋ ๋ชจ๋ธ์ ์ถ์ ์น ์ฌ์ด์ ์๊ด(Correlation)์ ๊ณ ๋ คํ๊ธฐ ์ํ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์ ์ถ์ ์น ์ฌ์ด์ 0.99์ ์๊ด์ด ์กด์ฌํ๋ค๋ฉด ์ด๋ฅผ ๋ ๋ฆฝ์ ์ธ ๋ชจ์๋ก ๊ฐ์ฃผํ๋ค๋ฉด ํฉ๋ฆฌ์ ์ด์ง ์์ ๊ฒ์ด๋ค. R์ car ํจํค์ง์ Leihardt ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ๋ ๋ชจ๋ธ์ DIC๋ฅผ ํตํด ๋น๊ตํ์ฌ๋ณด์. In: lib.. ์ด์ 1 2 3 ๋ค์