Statistics/Bayesian Statistics (23) ์ธ๋ค์ผํ ๋ฆฌ์คํธํ ๋ชฌํ ์นด๋ฅผ๋ก ์ถ์ (Monte-carlo estimation) ๋ฌธ์ ์ ์์๋ฅผ ํตํด ๋ชฌํ ์นด๋ฅผ๋ก ์ถ์ (Monte-carlo estimation)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ฌธ์ ) ๊ฐ๋ง๋ถํฌ(alpha = 2, beta = 1/3)์ ํ๊ท ์ ์์์ ์ธ ๊ณ์ฐ๊ณผ ๋ชฌํ ์นด๋ฅผ๋ก ์ถ์ ์ ํตํด ๊ตฌํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ์ฌ๋ผ. ํ์ด) In: alpha = 2 beta = 1/3 m = 10^8 theta_star ๊ทธ๋ํ ํํ(Graphical representation) ์์๋ฅผ ํตํด ๋ฒ ์ด์ง์ ๋ชจ๋ธ์ ๋ํ๋ด๊ธฐ ์ํ ๊ทธ๋ํ ํํ(Graphical representation) ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ์์ 1) ๊ฐ๋ฅ๋ ํจ์๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ , ์ ๊ท๋ถํฌ์ ๋ ๋ชจ์๊ฐ ์์ ๊ฐ์ด ์ฌ์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅผ ๋, ์ด๋ฅผ ๊ทธ๋ํ๋ก ํํํด๋ณด์. โท ๋๊ทธ๋ผ๋ฏธ๋ ๋ ธ๋(Node)๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ ธ๋๋ ํ๋ฅ ๋ณ์(Random variable)๋ฅผ ์๋ฏธํ๋ค. ์ฌ์ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์๋ mu์ sigma^2๋ฅผ ๋ ธ๋๋ก ์ ํ์๋ค. โท ์์ ๊ทธ๋ฆผ์์ mu์ sigma^2 ๋ฐ์ y1, y2, ... , yn๋ ํ๋ฅ ๋ณ์์ด์ง๋ง, ๊ด์ธกํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด์ค ๋๊ทธ๋ผ๋ฏธ๋ก ๋ํ๋ด์๋ค. โท ๊ฐ ๋ ธ๋๋ณ ์ข ์(Dependence) ๊ด๊ณ๋ฅผ ๋ํ๋ด๊ธฐ ํ์ดํ(Arrow)๋ฅผ ์ด์ฉํ์๋ค. ํ์ด์ด ๊ฐ๋ฆฌํค๋ ๋ ธ๋๋ ํ์ด์ด ๋์ค๋ ๋ ธ๋๋ก๋ถํฐ ์ข ์๋.. ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ(Jeffrey's prior) ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ(Jeffrey's prior)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ๋ค. 1. ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ์ ์ ์ 2. ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ์ ์์ 1. ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ์ ์ ์ ๋จ๋ณ์ theta์ ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ(Jeffrey's prior)๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค. ์ฌ๊ธฐ์ I(theta)๋ ๊ธฐ๋ ํผ์ ์ ๋ณด๊ฐ(Expected Fisher information)์ ๋ํ๋ด๋ฉฐ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค. โท ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ์ ๊ฐ์ฅ ํฐ ํน์ง์ ๋ถ๋ณ์ฑ(Invariance)์ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ด๋ค. ์ฆ, ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ, ๋ชจ์์ ์ฌํ๋ถํฌ์ ๋ชจ์์ ํจ์์ ๋ํ ์ฌํ๋ถํฌ๊ฐ ์์ ๋, ๋ณ์๋ณํ์ ํตํด ๊ฐ์์ ๋ณด์ผ ์ ์๋ค. 2. ์ ํ๋ฆฌ ์ฌ์ ๋ถํฌ์ ์์ ๋ฌธ์ ) ๊ฐ๋ฅ๋ ํจ์๊ฐ ์ง์๋ถํฌ์ผ ๋, ์ ํ๋ฆฌ ์ฌ์ ๋ถ.. ๋ฌด์ ๋ณด ์ฌ์ ๋ถํฌ(Non-informative prior distribution) ๋ฌด์ ๋ณด ์ฌ์ ๋ถํฌ(Non-informative prior distribution)์ ์์๋ณผ ๊ฒ์ด๋ค. ๊ด์ฌ์๋ ๋ชจ์์ ๋ํ ์ ๋ณด๋ฅผ ์ฃผ๊ณ ์ถ์ง ์๋ค๋ฉด, ๋ชจ์์ ๋ชจ๋ ๊ฐ๋ฅํ ๊ฐ๋ค์ ๋์ผํ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ผ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ์ฌ์ ๋ถํฌ๋ก ๊ท ๋ฑ๋ถํฌ๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ ์ฉํ์ฌ ๋ค์์ ์ํฉ์ ๋ํด ์๊ฐํด๋ณด์. โท ๊ท ๋ฑ๋ถํฌ๋ ๋ฒ ํ๋ถํฌ์ ํน์ดํ ๊ฒฝ์ฐ์ด๋ค. ์ด๋ฅผ ์ด์ฉํ์ฌ, ESS(Effective Sample Size)๋ฅผ ๊ตฌํ ์ ์๋ค. ์ฆ, 2๊ฐ์ ์ํ๋งํผ ์ฌํ๋ถํฌ์ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก ์์ ํ ๋ฌด์ ๋ณด ์ฌ์ ๋ถํฌ๋ผ๊ณ ํ ์ ์๋ค. ๋ฐ์ดํฐ์๋ง ์ข ์์ ์ธ(Dependent) ์ฌํ๋ถํฌ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ESS๋ฅผ ์ค์ฌ๋ณด์. โท ์ฌ์ ๋ถํฌ์ ๋ ๋ชจ์๋ฅผ 0์ผ๋ก ์ ํ์ฌ ESS๋ฅผ 0์ผ๋ก ๋ง๋ค์๋ค. ESS๊ฐ 0์ธ ๋ฌด์ ๋ณด ์ฌ์ ๋ถํฌ๋ฅผ ์ฌ.. ๋ค์ํ ์ผค๋ ์ฌ์ ๋ถํฌ(Conjugate prior distribution) ๋ฌธ์ ๋ฅผ ํตํด ๋ค์ํ ์ผค๋ ์ฌ์ ๋ถํฌ(Conjugate prior distribution)์ ๋ํด ์์๋ณด์. ๋ฌธ์ 1) 10๋ถ๋์ ์ ๋ฅ์ฅ์ ๋์ฐฉํ๋ ๋ฒ์ค ์์ ๋ถํฌ๊ฐ ์ง์๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ , ์ง์๋ถํฌ์ ๋ชจ์๊ฐ ๊ฐ๋ง๋ถํฌ(alpha = 100, beta = 1000)๋ฅผ ๋ฐ๋ฅธ๋ค. 10๋ถ๋์ 12๋์ ๋ฒ์ค๊ฐ ๋์ฐฉํ์๋ค. ์ด๋, ์ฌํ๋ถํฌ์ ์ฌํํ๊ท ์ ๊ตฌํ์ฌ๋ผ. ํ์ด) โท ์ฌํ๋ถํฌ๋ alpha๊ฐ 101, beta๊ฐ 1012์ธ ๊ฐ๋ง๋ถํฌ์ด๋ค. ์ฌ์ ๋ถํฌ์ ์ฌํ๋ถํฌ๊ฐ ๊ฐ๋ง ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฏ๋ก ์ผค๋ ์ฌ์ ๋ถํฌ๋ผ๊ณ ํ ์ ์๋ค. โท ์ฌ์ ๋ถํฌ์ ESS(Effective Sample Size)๋ alpha์ beta์ ํฉ์ด๋ฏ๋ก, 1100์ด๋ค. โท ์ฌํํ๊ท ์ 0.0998๋ก ๊ฑฐ์ ๋ณํ๊ฐ ์๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ์ด๋ ESS๊ฐ ๋ฐ์ดํฐ์ ๊ฐ์์ ๋นํด ์๋.. ์ฌํํ๊ท (Posterior mean)๊ณผ ESS(Effective Sample Size) ๋ฌธ์ ๋ฅผ ํตํด ์ฌํํ๊ท (Posterior mean)๊ณผ ESS(Effective Sample Size)์ ๋ํด ์์๋ณด์. ๋ฌธ์ 1) ์ฌ์ ๋ถํฌ๊ฐ ๋ฒ ํ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ ๊ฐ๋ฅ๋ ํจ์๊ฐ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ๋ฐ๋ฅผ ๋, ์ฌํ๋ถํฌ์ ํ๊ท ๊ณผ ESS๋ฅผ ๊ตฌํ์ฌ๋ผ. ํ์ด) โท ์ฌํํ๊ท ์ ์ฌ์ ๋ถํฌ์ ํ๊ท ๊ณผ ๋ฐ์ดํฐ ํ๊ท ์ ๊ฐ์คํ๊ท (Weighted average)์ผ๋ก ๋ํ๋ผ ์ ์๋ค. ๋ฐ์ดํฐ ๊ฐ์ค์น์ ๋ถ์๋ ํ๋ณธํฌ๊ธฐ, ์ฌ์ ๋ถํฌ ๊ฐ์ค์น์ ๋ถ์๋ alpha์ beta์ ํฉ์ด๋ค. ์ด๋, ESS๋ ์ฌ์ ํ๊ท ๊ฐ์ค์น์ ๋ถ์์ธ alpha์ beta์ ํฉ์ด๋ค. ์ฆ, ESS๋ ์ฌ์ ํ๊ท ์ด ์ฌํํ๊ท ์ ๋ฐ์๋๋ ๋น์ค์ ์ํ ๊ฐ์๋ก ๋ํ๋ธ ๊ฒ์ด๋ค. โถ ESS๊ฐ ์ปค์ง๋ฉด ์ฌํํ๊ท ์์ ์ฌ์ ํ๊ท ์ ๋น์ค์ด ์ปค์ง๊ณ ๋ฐ์ดํฐ ํ๊ท ์ ๋น์ค์ด ์ค์ด๋ ๋ค. ์ฆ, ์ฌ์ ์ ๋ณด๊ฐ ์ฌํ๋ถํฌ์.. ์ผค๋ ์ฌ์ ๋ถํฌ(Conjugate prior distribution) ์ผค๋ ์ฌ์ ๋ถํฌ(Conjugate prior distribution)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ์ผค๋ ์ฌ์ ๋ถํฌ์ ์ ์ 2. ์ผค๋ ์ฌ์ ๋ถํฌ์ ์์ 1. ์ผค๋ ์ฌ์ ๋ถํฌ์ ์ ์ ์ผค๋ ์ฌ์ ๋ถํฌ์ ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค. โท ์ฆ, ์ฌ์ ๋ถํฌ(Prior distribution)์ ์ฌํ๋ถํฌ(Posterior distribution)๊ฐ ๋์ผํ ๋ถํฌ์กฑ์ ์ํ๋ฉด ์ฌ์ ๋ถํฌ๋ฅผ ์ผค๋ ์ฌ์ ๋ถํฌ๋ผ๊ณ ํ๋ค. โท ์ผค๋ ์ฌ์ ๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ ์ฌํ๋ถํฌ์ ๊ณ์ฐ์ด ํธ๋ฆฌํด์ง๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ์ ์ผค๋ ์ฌ์ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ๋ค. 2. ์ผค๋ ์ฌ์ ๋ถํฌ์ ์์ ๋ฌธ์ ) ์ฌ์ ๋ถํฌ๊ฐ ๋ฒ ํ๋ถํฌ์ ๋ฐ๋ฅด๊ณ ๊ฐ๋ฅ๋ ํจ์๊ฐ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ๋ฐ๋ฅผ ๋, ์ด ์ฌ์ ๋ถํฌ๊ฐ ์ผค๋ ์ฌ์ ๋ถํฌ์์ ๋ณด์ฌ๋ผ. ํ์ด) โท ์์ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ฌ์ ๋ถํฌ์ ์ฌํ๋ถํฌ๊ฐ ๋ฒ ํ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ .. ์ฌ์ ์์ธก๋ถํฌ์ ์ฌํ์์ธก๋ถํฌ(Prior and posterior predictive distribution) ์ฌ์ ์์ธก๋ถํฌ(Prior predictive distribution)์ ์ฌํ์์ธก๋ถํฌ(Posterior predictive distribution)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ์ฌ์ ์์ธก๋ถํฌ์ ์ฌํ์์ธก๋ถํฌ์ ์ ์ 2. ์ฌ์ ์์ธก๋ถํฌ์ ์ฌํ์์ธก๋ถํฌ์ ์์ 1. ์ฌ์ ์์ธก๋ถํฌ์ ์ฌํ์์ธก๋ถํฌ์ ์ ์ โท ์ฌ์ ์์ธก๋ถํฌ๋ ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌํ๋ฉด, ์ฌ์ ๋ถํฌ์ ๊ฐ๋ฅ๋ ํจ์์ ๊ณฑ์ ์ ๋ถํ ํํ๋ก ์ ์๋๋ค. ์ฆ, theta์ ๋ํ ๊ฐ๋ฅ๋ ํจ์์ ํ๊ท ์ด๋ผ ํ ์ ์๋ค. โท ์ฌํ์์ธก๋ถํฌ๋ ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌํ ์ ์๋ค. ์ด๋, ์ผ๋ฐ์ ์ผ๋ก ๊ด์ธก ๊ฒฐ๊ณผ์ธ x์ ํ๋ฅ ๋ณ์ x tilde์ ๊ด๊ณ๋ ๋ ๋ฆฝ์ด๋ผ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์, theta์ ์ฌํ๋ถํฌ์ ๊ฐ๋ฅ๋ ํจ์์ ๊ณฑ์ ์ ๋ถํ ํํ๋ก ์ ์๋๋ค. theta์.. ์ ์ฉ๊ตฌ๊ฐ(Credible interval) ์ ์ฉ๊ตฌ๊ฐ(Credible interval)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ์ ์ฉ๊ตฌ๊ฐ์ ์ ์ 2. ์ ์ฉ๊ตฌ๊ฐ์ ์์ 1. ์ ์ฉ๊ตฌ๊ฐ์ ์ ์ ์ ์ฉ๊ตฌ๊ฐ์ ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค. โท ๋น๋์ฃผ์(Frequentist) ๊ด์ ์์๋ ๋ชจ์๊ฐ ๊ณ ์ ๋์ด ์๊ธฐ ๋๋ฌธ์ ์ ๋ขฐ๊ตฌ๊ฐ(Confidence interval)์ ๋ํ ํด์์ด ์ฐ๋ฆฌ์ ์ง๊ด๊ณผ ๋ง์ง ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ์ ์ฉ๊ตฌ๊ฐ์ ๋ชจ์์ ๋ํ ์ฌํ๋ถํฌ๋ฅผ ๊ฐ์ ํ๊ณ ์๊ธฐ ๋๋ฌธ์ ์ ์ฉ๊ตฌ๊ฐ์ ํด์์ด ์ฐ๋ฆฌ์ ์ง๊ด๊ณผ ์ผ์นํ๋ค. ์ฆ, ๋ชจ์๊ฐ ํด๋น ์ ์ฉ๊ตฌ๊ฐ์ ๋ํด ์กด์ฌํ ํ๋ฅ ์ ๋ํ ํด์์ด ๊ฐ๋ฅํ๋ค. 2. ์ ์ฉ๊ตฌ๊ฐ์ ์์ ๋ฌธ์ ) ๋์ ์ ์๋ฉด์ด ๋์ฌ ํ๋ฅ ์ด ๊ท ์ผ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ , ๊ฐ๋ฅ๋ ํจ์๋ ๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ๋ฐ๋ฅธ๋ค. ์ด ๋, ๋์ ์ ๋์ก๋๋ ์๋ฉด์ด ๋์๋ค. ์ด ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ์ฌ.. ๋น๋์ฃผ์ ์ถ๋ก (Frequentist inference) ๋น๋์ฃผ์(Frequentist) ๊ด์ ์ ์ถ๋ก (Inference)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ๊ฐ๋ฅ๋(Likelihood)์ MLE(Maximum Likelihood Estimation) 2. ์ ๋ขฐ๊ตฌ๊ฐ(Confidence interval) 1. ๊ฐ๋ฅ๋์ MLE ๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ๊ฐ๋ฅ๋ ํจ์๋ฅผ ๊ตฌํด๋ณด์. โท P(X tilde)์ ๊ฐ๋ฅ๋ ํจ์์ธ L(theta | X tilde)์ ๊ฒฐ๊ณผ๋ ๊ฐ์ง๋ง, ๊ฐ๋ฅ๋ ํจ์๋ y์ ๋ํ ํจ์๊ฐ ์๋ theta์ ๋ํ ํจ์๋ผ๋ ์ ์์ ๋ค๋ฅด๋ค. ์ฆ, ๊ฐ๋ฅ๋๋ ๋ชจ์์ ๋ํ ํจ์๋ก์จ ๋ชจ์๊ฐ ์ฃผ์ด์ก์ ๋, ๊ด์ธก๊ฐ์ ๋ํด ๋ถ์ฌํ๋ ํ๋ฅ ์ ์๋ฏธํ๋ค. ๋น๋์ฃผ์ ๊ด์ ์์ ๋ชจ์๋ฅผ ์ถ์ ํ๊ธฐ ์ํ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก๋ MLE๊ฐ ์๋ค. MLE๋ฅผ ํตํด ๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ๋ชจ์๋ฅผ ์ถ.. ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes' theorem) ๋ฒ ์ด์ง์ ํต๊ณ์ ๊ฐ์ฅ ํต์ฌ์ธ ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes' theorem)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค๋ฃฐ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ์๋ฏธ 2. ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ์์ 1. ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ์๋ฏธ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค. โท ๋ฒ ์ด์ฆ ์ ๋ฆฌ์์ P(H)๋ ์ฌ์ ํ๋ฅ (Prior probability)์ด๋ผ๊ณ ํ๋ค. ์ฌ์ ํ๋ฅ ์ด๋ ์ฌ๊ฑด E๊ฐ ๋ฐ์ํ๊ธฐ ์ ์ฌ๊ฑด H์ ๋ํ ํ๋ฅ ์ ์๋ฏธํ๋ค. โท ์ฌ๊ฑด E๊ฐ ๋ฐ์ํ๊ฒ ๋์ด ์ด ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ฉด ์ฌ๊ฑด H์ ํ๋ฅ ์ P(H|E)๋ก ๋ฐ๋๊ฒ ๋๋ฉฐ, ์ด๋ฅผ ์ฌํ ํ๋ฅ (Posterior probability)์ด๋ผ ํ๋ค. โท P(E|H) ๋ ๊ฐ๋ฅ๋(Likelihood)๋ผ ํ๊ณ , ์ฌ๊ฑด H๊ฐ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง ์ํ์์ ์ผ๋ง๋ ์ฌ๊ฑด E๊ฐ ๊ฐ๋ฅํ ์ง์ ๋ํ ํ๋ฅ ์ ์๋ฏธํ๋ค. โท P(E) .. ์ด์ 1 2 ๋ค์