๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ

(86)
๋ฒ ์ด์ง€์•ˆ ํฌ์•„์†ก ํšŒ๊ท€(Bayesian poisson regression) ๋‹จ์ˆœ ํฌ์•„์†ก ํšŒ๊ท€(Simple poisson regression) ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. โ–ท ๊ฐ€๋Šฅ๋„๋Š” ํฌ์•„์†ก ๋ถ„ํฌ๋กœ ์ •ํ•˜๊ณ , ๊ฐ€๋Šฅ๋„ ๋ชจ์ˆ˜์˜ ๋กœ๊ทธ๋ฅผ ์ทจํ•œ ๊ฒƒ์— ๋Œ€ํ•˜์—ฌ ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ์„ ํ˜•๊ฒฐํ•ฉ์œผ๋กœ ์ •์˜ํ•œ๋‹ค. ์ด๋•Œ, ์œ„์˜ ์‹์—์„œ๋Š” ํ•˜๋‚˜์˜ ๋…๋ฆฝ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์„ ํ˜•๊ฒฐํ•ฉ์œผ๋กœ ํ‘œํ˜„ํ•˜์˜€์ง€๋งŒ, ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ์ด๋ฉด ์ด ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค์˜ ์„ ํ˜•๊ฒฐํ•ฉ์„ ํ†ตํ•ด ๊ฐ€๋Šฅ๋„ ๋ชจ์ˆ˜์˜ ๋กœ๊ทธ๋ฅผ ์ทจํ•œ ๊ฐ’์— ๋Œ€ํ•˜์—ฌ ์ •์˜ํ•œ๋‹ค. โ–ท ํฌ์•„์†ก ํšŒ๊ท€ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์€ ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€๋Šฅ๋„์˜ ํ‰๊ท , ์ฆ‰, ๊ฐ€๋Šฅ๋„์˜ ๋ชจ์ˆ˜๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค. โ–ท ๋ฒ ์ด์ง€์•ˆ ํฌ์•„์†ก ํšŒ๊ท€(Bayesian poisson regression)๋Š” ๋…๋ฆฝ๋ณ€์ˆ˜์™€ ์„ ํ˜•๊ฒฐํ•ฉ๋œ ๋ชจ์ˆ˜ beta์˜ ์‚ฌ์ „๋ถ„ํฌ๋ฅผ ์ •์˜ํ•œ๋‹ค๋Š” ์ ์—์„œ ํฌ์•„์†ก ํšŒ๊ท€์™€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. R์˜ COUNT ํŒจํ‚ค์ง€์˜ badhealth ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฒ ์ด์ง€..
Part 4 - 06. ๊ฐ€์„ค / 07. ํ†ต๊ณ„๋ถ„์„ ๊ธฐ๋ฒ• โ–ก ๊ฐ€์„ค๊ฒ€์ฆ์˜ ์ ˆ์ฐจ ๊ท€๋ฌด๊ฐ€์„ค๊ณผ ๋Œ€๋ฆฝ๊ฐ€์„ค ์„ค์ • → ์œ ์˜์ˆ˜์ค€ ์„ค์ • → ๊ฒ€์ •๋ฐฉ๋ฒ• ์„ ํƒ → ๊ฒ€์ • ํ†ต๊ณ„๋Ÿ‰ ๊ณ„์‚ฐ → ํ†ต๊ณ„์ ์ธ ์˜์‚ฌ๊ฒฐ์ • โ–ก ๊ฐ€์„ค๊ฒ€์ฆ ์˜ค๋ฅ˜ - 1์ข… ์˜ค๋ฅ˜: ๊ท€๋ฌด๊ฐ€์„ค์ด ์ง„์‹ค์ธ๋ฐ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜๋Š” ์˜ค๋ฅ˜ - 2์ข… ์˜ค๋ฅ˜: ๊ท€๋ฌด๊ฐ€์„ค์ด ๊ฑฐ์ง“์ธ๋ฐ ๊ท€๋ฌด๊ฐ€์„ค์„ ์ฑ„ํƒํ•  ์ˆ˜ ์žˆ๋Š” ์˜ค๋ฅ˜ โ–ก ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰ - ๊ท€๋ฌด๊ฐ€์„ค์ด ์ฐธ์ด๋ผ๋Š” ๊ฐ€์ •์—์„œ ์–ป์€ ํ†ต๊ณ„๋Ÿ‰ โ–ก ์‹ ๋ขฐ๊ตฌ๊ฐ„ - ํ‘œ๋ณธ ํ†ต๊ณ„๋Ÿ‰์—์„œ ํŒŒ์ƒ๋˜์–ด ์•Œ ์ˆ˜ ์—†๋Š” ๋ชจ์ง‘๋‹จ ๋ชจ์ˆ˜๊ฐ’์ด ํฌํ•จ๋  ๊ฐ’์˜ ๋ฒ”์œ„ โ–ก ๊ฒ€์ •๋ ฅ - ๋Œ€๋ฆฝ๊ฐ€์„ค์ด ์ฐธ์ผ ๋•Œ, ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜๋Š” ํ™•๋ฅ  โ–ก ํ†ต๊ณ„๋ถ„์„ - ์ฐจ์ด๊ฒ€์ •๊ณผ ๊ด€๊ณ„๊ฒ€์ •์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Œ - ๊ด€๊ณ„๊ฒ€์ •์€ ๊ต์ฐจ๋ถ„์„, ์ƒ๊ด€๋ถ„์„, ํšŒ๊ท€๋ถ„์„์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Œ โ–ก ๊ด€๊ณ„๊ฒ€์ • ๊ธฐ๋ฒ• - ์ƒ๊ด€๋ถ„์„: ์—ฐ์†๋ณ€์ˆ˜์™€ ์—ฐ์†๋ณ€์ˆ˜๋ฅผ ๋ถ„์„ / ๊ท ๋“ฑ๋ณ€์ˆ˜ ๊ฐ„์˜ ๋ถ„์„ / ๋ถ„์‚ฐ์„ ๋ถ„์„ / ๋ฐ์ดํ„ฐ์˜ ๋ฐ€์ง‘์— ..
Part 4 - 01. ์ž๋ฃŒ์กฐ์‚ฌ / 02. ํ‘œ๋ณธ์กฐ์‚ฌ / 03. ๊ธฐ์ˆ ํ†ต๊ณ„ / 04. ์ถ”๋ฆฌํ†ต๊ณ„ / 05. ํ†ต๊ณ„์  ์ถ”๋ก  โ–ก ๋ณ€์ˆ˜ - ๋…๋ฆฝ๋ณ€์ˆ˜์™€ ์ข…์†๋ณ€์ˆ˜ - ์งˆ์ ๋ณ€์ˆ˜์™€ ์–‘์ ๋ณ€์ˆ˜ - ์ด์‚ฐ๋ณ€์ˆ˜์™€ ์—ฐ์†๋ณ€์ˆ˜ - ๋ช…๋ชฉ๋ณ€์ˆ˜์™€ ์„œ์—ด๋ณ€์ˆ˜ - ๋“ฑ๊ฐ„๋ณ€์ˆ˜์™€ ๋น„๋ณ€์ˆ˜(๋น„์œจ๋ณ€์ˆ˜) โ–ก ํ‘œ๋ณธ์กฐ์‚ฌ - ํ™•๋ฅ ํ‘œ์ง‘: - ๋‹จ์ˆœ ๋ฌด์ž‘์œ„ ํ‘œ์ง‘: ๋‚œ์ˆ˜ํ‘œ ๋ฐ ์ฒด๊ณ„์  ํ‘œ์ง‘๋ฒ• ์‚ฌ์šฉ - ์ธตํ™”ํ‘œ์ง‘๋ฒ•: ์†Œ์ง‘๋‹จ ๋ถ„๋ฅ˜ ํ›„, ๋ฌด์ž‘์œ„๋กœ ์ถ”์ถœ / ๋ชจ์ง‘๋‹จ ํŠน์„ฑ ์ดํ•ด ๋ฐ ์†Œ์ง‘๋‹จ ๊ตฌ๋ถ„์— ๋น„์šฉ๊ณผ ๋…ธ๋ ฅ ๋ฐœ์ƒ - ๊ตฐ์ง‘ํ‘œ์ง‘๋ฒ•: ๊ตฐ์ง‘ ๋ถ„๋ฅ˜ ํ›„, ํŠน์ • ๊ตฐ์ง‘์˜ ๋ชจ๋“  ๊ตฌ์„ฑ์› ์ „์ˆ˜์กฐ์‚ฌ / ์‹œ๊ฐ„ ๋ฐ ๋น„์šฉ ๊ฐ์†Œ - ๋น„ํ™•๋ฅ ํ‘œ์ง‘ - ํŽธ์˜ํ‘œ๋ณธ์ถ”์ถœ๋ฒ•: ๋ชจ๋“  ๊ฒƒ์„ ์ž„์˜๋กœ ์ง€์ • ํ›„, ํ‘œ๋ณธ ์„ ํƒ - ํŒ๋‹จํ‘œ๋ณธ์ถ”์ถœ๋ฒ•: ๋ชจ์ง‘๋‹จ ์˜๊ฒฌ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํŒ๋‹จ๋  ๋•Œ ์‚ฌ์šฉ - ํ• ๋‹นํ‘œ๋ณธ์ถ”์ถœ๋ฒ•: ์‚ฌ์ „์— ์ •ํ•ด๋†“์€ ๋ถ„๋ฅ˜๊ธฐ์ค€์— ๋”ฐ๋ผ ์†Œ์ง‘๋‹จ์œผ๋กœ ๋ถ„๋ฅ˜ ํ›„, ์ง‘๋‹จ๋ณ„ ๋Œ€์ƒ ์„ ์ • / ํŠน์„ฑ๋ณ„๋กœ ๋น„๋ก€ํ•˜์—ฌ ํ‘œ๋ณธ ์ถ”์ถœ โ–ก ์งˆ์ ์ž๋ฃŒ ๊ธฐ์ˆ ํ†ต๊ณ„ ์š”์•ฝ - ๋„์ˆ˜๋ถ„ํ‘œํ‘œ..
๋ฒ ์ด์ง€์•ˆ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(Bayesian logistic regression) ๋‹จ์ˆœ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(Simple logistic regression) ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. โ–ท ๊ฐ€๋Šฅ๋„๋Š” ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋กœ ์ •ํ•˜๊ณ , ๊ฐ€๋Šฅ๋„ ๋ชจ์ˆ˜์˜ ๋กœ์ง“(Logit)์„ ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ์„ ํ˜•๊ฒฐํ•ฉ์œผ๋กœ ์ •์˜ํ•œ๋‹ค. ์ด๋•Œ, ์œ„์˜ ์‹์—์„œ๋Š” ํ•˜๋‚˜์˜ ๋…๋ฆฝ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์„ ํ˜•๊ฒฐํ•ฉ์œผ๋กœ ํ‘œํ˜„ํ•˜์˜€์ง€๋งŒ, ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ์ด๋ฉด ์ด ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค์˜ ์„ ํ˜•๊ฒฐํ•ฉ์„ ํ†ตํ•ด ๋กœ์ง“์„ ์ •์˜ํ•œ๋‹ค. โ–ท ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์˜ ์˜ˆ์ธก์€ ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€๋Šฅ๋„์˜ ํ‰๊ท , ์ฆ‰ ๊ฐ€๋Šฅ๋„์˜ ๋ชจ์ˆ˜๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค. โ–ถ ๋ฒ ์ด์ง€์•ˆ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(Bayesian logistic regression)๋Š” ๋กœ์ง“์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ์„ ํ˜•๊ฒฐํ•ฉ๋œ ๋ชจ์ˆ˜์˜ ์‚ฌ์ „๋ถ„ํฌ๋ฅผ ์ •์˜ํ•œ๋‹ค๋Š” ์ ์—์„œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์™€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. R์˜ boot ํŒจํ‚ค์ง€์˜ urine ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฒ ์ด์ง€์•ˆ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ๊ฒƒ..
DIC(Deviance Information Criterion) ๋ฒ ์ด์ง€์•ˆ ๋ชจ๋ธ์—์„œ๋Š” ๋ชจ๋ธ ์„ ํƒ์„ ์œ„ํ•œ ์ •๋ณด์˜ ๊ธฐ์ค€์œผ๋กœ์จ DIC(Deviance Information Criterion)์„ ์ œ์‹œํ•˜๊ณ  ์žˆ๋‹ค. DIC์˜ ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. โ–ท theta hat์€ ๊ฐ ๋ชจ์ˆ˜์˜ ์‚ฌํ›„ํ‰๊ท ์ด๊ณ , ์‚ฌํ›„๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ์–ป์€ theta hat์˜ ๋กœ๊ทธ ๊ฐ€๋Šฅ๋„์™€ ์‹ค์งˆ์ ์ธ ๋ชจ์ˆ˜์˜ ๊ฐฏ์ˆ˜(Effective number of parameters)๋ฅผ ๊ณ ๋ คํ•˜์—ฌ DIC๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. โ–ถ ์‹ค์งˆ์ ์ธ ๋ชจ์ˆ˜์˜ ๊ฐฏ์ˆ˜๋Š” ๋ชจ๋ธ์˜ ์ถ”์ •์น˜ ์‚ฌ์ด์— ์ƒ๊ด€(Correlation)์„ ๊ณ ๋ คํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชจ๋ธ์˜ ์ถ”์ •์น˜ ์‚ฌ์ด์— 0.99์˜ ์ƒ๊ด€์ด ์กด์žฌํ•œ๋‹ค๋ฉด ์ด๋ฅผ ๋…๋ฆฝ์ ์ธ ๋ชจ์ˆ˜๋กœ ๊ฐ„์ฃผํ•œ๋‹ค๋ฉด ํ•ฉ๋ฆฌ์ ์ด์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค. R์˜ car ํŒจํ‚ค์ง€์˜ Leihardt ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ๋‘ ๋ชจ๋ธ์„ DIC๋ฅผ ํ†ตํ•ด ๋น„๊ตํ•˜์—ฌ๋ณด์ž. In: lib..
Part 2 - 02. ๋ถ„์„ ๋งˆ์Šคํ„ฐ ํ”Œ๋žœ โ–ก ๋งˆ์Šคํ„ฐ ํ”Œ๋žœ - ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ๊ณผ์ œ ์ค‘์—์„œ ๋น„์ฆˆ๋‹ˆ์Šค ์ „๋žต์  ์ค‘์š”์„ฑ๊ณผ ์„ฑ๊ณผ๋ฅผ ๋ถ„์„ํ•ด์„œ ๊ณผ์ œ์˜ ์ ์šฉ ์šฐ์„ ์ˆœ์œ„๋ฅผ ๊ฒฐ์ • โ–ก ๊ณผ์ œ ์šฐ์„ ์ˆœ์œ„ ๊ฒฐ์ • ์‹œ์— ๊ณ ๋ ค์‚ฌํ•ญ - ์ „๋žต์  ์ค‘์š”์„ฑ - ๋น„์ฆˆ๋‹ˆ์Šค ์„ฑ๊ณผ ๋ฐ ROI - ์‹คํ–‰ ์šฉ์ด์„ฑ โ–ก ์šฐ์„ ์ˆœ์œ„ ํ‰๊ฐ€ ๋ฐฉ๋ฒ• 1. ๋ถ„์„๊ณผ์ œ ๋„์ถœ 2. ์šฐ์„ ์ˆœ์œ„ ํ‰๊ฐ€ 3. ์šฐ์„ ์ˆœ์œ„ ์ •๋ จ โ–ก ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ์ œ ํ‰๊ฐ€ ์‹œ์— ๊ณ ๋ ค์‚ฌํ•ญ - ์‹œ๊ธ‰์„ฑ: ์ „๋žต์  ์ค‘์š”๋„ / ๋ชฉํ‘œ๊ฐ€์น˜ → ๋น„์ฆˆ๋‹ˆ์Šค ํšจ๊ณผ - ๋‚œ์ด๋„: ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ์ €์žฅ, ๊ฐ€๊ณต ๋น„์šฉ / ๋ถ„์„ ์ ์šฉ ๋น„์šฉ / ๋ถ„์„ ์ˆ˜์ค€ → ํˆฌ์ž๋น„์šฉ โ–ก ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ฑฐ๋ฒ„๋„Œ์Šค - ๋ถ„์„์กฐ์ง, ๋ถ„์„์ˆ˜์ค€ ์ง„๋‹จ, ๋ถ„์„๊ต์œก, ๋ถ„์„๊ฐœ๋ฐœ ๋ฐ ํ™•์‚ฐ, ํ‰๊ฐ€ ํ”„๋กœ์„ธ์Šค, ๋ถ„์„์ „๋ฌธ ์ธ๋ ฅ์œผ๋กœ ๊ตฌ์„ฑ โ–ก ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ์„ฑ์ˆ™๋„ ๋„์ž… → ํ™œ์šฉ → ํ™•์‚ฐ(์ „์‚ฌ์ฐจ์›์—์„œ ๋ถ„์„ ๊ด€๋ฆฌ ๋ฐ ๊ณต์œ ) → ์ตœ์ ํ™”(๋ถ„์„์„ ..
Part 2 - 01. ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ์ดํ•ด โ–ก ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ธฐ๋ณธ๊ตฌ์กฐ ์•”๋ฌต์ง€ → ํ˜•์‹์ง€ → ๋ฐฉ๋ฒ•๋ก  - ์•”๋ฌต์ง€: ์‚ฌ๋žŒ์˜ ํ•™์Šต๊ณผ ๊ฒฝํ—˜์„ ์˜๋ฏธ - ํ˜•์‹์ง€: ์‚ฌ๋žŒ์˜ ํ•™์Šต๊ณผ ๊ฒฝํ—˜์„ ๋ฌธ์„œํ™” - ๋ฐฉ๋ฒ•๋ก : ํ˜•์‹์ง€๋ฅผ ๊ตฌ์ฒดํ™”ํ•˜์—ฌ ์ ˆ์ฐจ, ํ™œ๋™, ์ž‘์—… ๋“ฑ์„ ์ •์˜ํ•˜์—ฌ ๋ฌธ์„œํ™” โ–ก ํญํฌ์ˆ˜ ๋ชจ๋ธ - ์ˆœ์ฐจ์ ์ธ ๋‹จ๊ณ„ / ํ•˜ํ–ฅ์‹ ์ ‘๊ทผ - ์ด์ „ ๋‹จ๊ณ„๋กœ ๋˜๋Œ์•„๊ฐˆ ์ˆ˜ ์—†์Œ - ๊ฒฝํ—˜์ด ๋งŽ๊ณ  ์œ„ํ—˜์ด ๋‚ฎ์€ ์—…๋ฌด์— ์ ์šฉ - ๋ถˆํ•„์š”ํ•œ ๋ฌธ์„œ์ž‘์—… - ์š”๊ตฌ์‚ฌํ•ญ์— ๋Œ€ํ•œ ๋ฐ˜์˜๊ณผ ํ™•์ธ์ด ์–ด๋ ค์›€ โ–ก ํ”„๋กœํ† ํƒ€์ดํ•‘ ๋ชจ๋ธ - ํ”„๋กœํ† ํƒ€์ž…์„ ๋จผ์ € ๋งŒ๋“ค๊ณ  ๊ณ ๊ฐ์—๊ฒŒ ํ™•์ธ ํ›„์— ๊ฐœ๋ฐœ - ์‚ฌ์šฉ์ž ์š”๊ตฌ์‚ฌํ•ญ ๋„์ถœ์ด ์šฉ์ด - ํ”„๋กœํ† ํƒ€์ž…์„ ์™„์ œํ’ˆ์œผ๋กœ ์˜ค์ธ - ๊ธฐ๋Œ€์‹ฌ๋ฆฌ ์œ ๋ฐœ์— ๋”ฐ๋ฅธ ๊ณผ๋‹คํ•œ ์š”๊ตฌ์‚ฌํ•ญ ํ˜น์€ ๋ณ€๊ฒฝ ๋ฐœ์ƒ - ๋ฌธ์„œํ™”๊ฐ€ ์–ด๋ ค์›€ โ–ก ๋ฐ˜๋ณต ์ ์ฆํ˜• ๋ชจ๋ธ - ํฐ ๋น…๋ฐ์ดํ„ฐ ์‚ฌ์—…์— ์ ์šฉํ•˜๋Š” ๋ชจ๋ธ - ์š”๊ตฌ์‚ฌํ•ญ, ๋ถ„์„, ์„ค๊ณ„, ๊ตฌ..
๋ฒ ์ด์ง€์•ˆ ์„ ํ˜• ํšŒ๊ท€(Bayesian linear regression) R์˜ car ํŒจํ‚ค์ง€์˜ Leihardt ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฒ ์ด์ง€์•ˆ ์„ ํ˜• ํšŒ๊ท€(Bayesian linear regression) ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ๊ฒƒ์ด๋‹ค. ์ˆ˜ํ–‰ ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 1. ๋ฐ์ดํ„ฐ ํ™•์ธ 2. ๋ชจ๋ธ๋ง 3. ๋ชจ๋ธ ํ™•์ธ 4. ์ž”์ฐจ ๋ถ„์„ 1. ๋ฐ์ดํ„ฐ ํ™•์ธ In: library(car) data('Leinhardt') pairs(Leinhardt) Out: โ–ท Leihardt ๋ฐ์ดํ„ฐ๋Š” ์—ฐ์†ํ˜• ๋ณ€์ˆ˜์ธ income, infant, region๊ณผ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์ธ oil๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. โ–ท income๊ณผ infant๊ฐ€ ๋น„์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ์„ ํ˜•๋ชจ๋ธ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ณ€์ˆ˜๊ฐ„ ์„ ํ˜•๊ด€๊ณ„๋ฅผ ๊ฐ€์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‘ ๋ณ€์ˆ˜์— ๋กœ๊ทธ๋ฅผ ์ทจํ•˜์—ฌ ๋ณ€ํ˜•ํ•  ๊ฒƒ์ด๋‹ค. In: Leinhardt$log_income ..
Part 1 - 03. ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์™€ ์ „๋žต ์ธ์‚ฌ์ดํŠธ โ–ก ๋ถ„์„๊ธฐํš 3๊ฐ€์ง€ ์—ญ๋Ÿ‰ - ์ˆ˜ํ•™๊ณผ ํ†ต๊ณ„ - ์ •๋ณด๊ธฐ์ˆ  - ๋„๋ฉ”์ธ ์ง€์‹ โ–ก ํ•˜๋“œ ์Šคํ‚ฌ๊ณผ ์†Œํ”„ํŠธ ์Šคํ‚ฌ - ํ•˜๋“œ ์Šคํ‚ฌ: ์ด๋ก ์  ์ง€์‹ ๋ฐ ๊ธฐ์ˆ ์  ์ˆ™๋ จ / ๋จธ์‹ ๋Ÿฌ๋‹, ํ†ต๊ณ„, ๋ถ„์‚ฐ ์ปดํ“จํŒ… ๋“ฑ์˜ ๋Šฅ๋ ฅ - ์†Œํ”„ํŠธ ์Šคํ‚ฌ: ๋ฐ์ดํ„ฐ ๊ฐ€์น˜ ๋ฐœ๊ฒฌํ•˜๊ณ  ๊ธฐํšŒ๋ฅผ ๋งŒ๋“œ๋Š” ๋Šฅ๋ ฅ / ์ฐฝ์˜์  ์‚ฌ๊ณ , ํ˜ธ๊ธฐ์‹ฌ, ์Šคํ† ๋ฆฌํ…”๋ง, ์‹œ๊ฐํ™”, ์˜์‚ฌ์†Œํ†ต ๋“ฑ์˜ ๋Šฅ๋ ฅ โ–ก ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ๊ธฐ๋ณธ ์›์น™ - ์งˆ๋ฌธ์—์„œ ์‹œ์ž‘ - ๊ธฐ์กด ๋ฐ์ดํ„ฐ์™€ ์—ฐ๊ฒฐ๊ณ ๋ฆฌ - ์–ด๋ ค์šด ๋ฐฉ์‹์˜ ํ”„๋กœ๊ทธ๋ž˜๋ฐ๊ณผ ํˆด์€ ์ง€์–‘ - ํ”ผ๋“œ๋ฐฑ ๋ฐ˜์˜ โ–ก ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ์ฃผ์ œ ์œ ํ˜• ๋ถ„์„ ๋Œ€์ƒ Known Unknown ๋ถ„์„ ๋ฐฉ๋ฒ• Known ์ตœ์ ํ™” ํ†ต์ฐฐ Unknown ์†”๋ฃจ์…˜ ๋ฐœ๊ฒฌ โ–ก ๋ชฉํ‘œ ์‹œ์ ๋ณ„ ๋ถ„์„๊ธฐํš - ๊ณผ์ œ์ค‘์‹ฌ ์ ‘๊ทผ๋ฐฉ๋ฒ•: ๊ณผ์ œ๋ฅผ ๋น ๋ฅด๊ณ  ๋‹จ๊ธฐ์ ์œผ๋กœ ํ•ด๊ฒฐ - ๋งˆ์Šคํ„ฐ ํ”Œ๋žœ ์ ‘๊ทผ๋ฐฉ๋ฒ•: ์žฅ๊ธฐ์ ์œผ๋กœ ๋ถ„์„๊ณผ์ • ์ •์˜ํ•˜๊ณ  ์ง€์†์ ..
Part 1 - 02. ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜์™€ ๋ฏธ๋ž˜ โ–ก ๋น…๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ - ๊ทœ๋ชจ(Volume): Tera์—์„œ Petta, Zetta ๋ฐ”์ดํŠธ ์‹œ๋Œ€๋กœ ์ง„์ž… - ๋‹ค์–‘์„ฑ(Variety): ํ…์ŠคํŠธ ์ด์™ธ์˜ ๋‹ค์–‘ํ•œ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์˜ ์ฆ๊ฐ€ - ์†๋„(Velocity): ์ ์‹œ ํ™œ์šฉ์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„์†๋„๊ฐ€ ์ค‘์š” - ์ •ํ™•์„ฑ(Veracity): ์งˆ ๋†’์€ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์˜ ์ค‘์š”์„ฑ - ๊ฐ€์น˜(Value): ๊ฐ€์น˜์žˆ๋Š” ์ •๋ณด ์ฐฝ์ถœ โ–ก ๊ฐ€์น˜ ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ๋ณ€ํ™” 1. ๋””์ง€ํ„ธํ™”: ์•„๋‚ ๋กœ๊ทธ ์‹œ๋Œ€์—์„œ ๋””์ง€ํ„ธ ์‹œ๋Œ€๋กœ ๋ณ€ํ™” 2. ์—ฐ๊ฒฐ: ๋””์ง€ํ„ธ ์ œํ’ˆ์˜ Ad-hoc ๋ฐฉ์‹์œผ๋กœ ์—ฐ๊ฒฐ ํ›„, IP ๋„คํŠธ์›Œํฌ์— ์œตํ™” 3. ์—์ด์ „์‹œ: ๊ทธ๋ฌผ๋ง์œผ๋กœ ์—ฐ๊ฒฐ๋œ ๊ฒƒ์„ ๊ด€๋ฆฌ โ–ก ์ „ํ†ต์  ๋ฐ์ดํ„ฐ์™€ ๋น…๋ฐ์ดํ„ฐ์˜ ์ฐจ์ด์  ๊ตฌ๋ถ„ ์ „ํ†ต์  ๋ฐ์ดํ„ฐ ๋น…๋ฐ์ดํ„ฐ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๊ธฐ๊ฐ€ ๋ฐ”์ดํŠธ ํ…Œ๋ผ, ํŽ˜ํƒ€, ์ œํƒ€ ๋ฐ”์ดํŠธ ๋ฐ์ดํ„ฐ ์†๋„ ์‹œ๊ฐ„, ์ผ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ ์‹ค์‹œ๊ฐ„ ๋ฐ..
Part 1 - 01. ๋ฐ์ดํ„ฐ์˜ ์ดํ•ด โ–ก ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ - ๊ฐ๊ด€์ ์ธ ์‚ฌ์‹ค → ์กด์žฌ์  ํŠน์„ฑ - ์ถ”๋ก , ์˜ˆ์ธก, ์ „๋ง, ์ถ”์ •์„ ์œ„ํ•œ ๊ทผ๊ฑฐ → ๋‹น์œ„์  ํŠน์„ฑ โ–ก ๋ฐ์ดํ„ฐ์˜ ์œ ํ˜• - ์ •์„ฑ์  ๋ฐ์ดํ„ฐ → ์–ธ์–ด, ๋ฌธ์ž ๋“ฑ์˜ ํ˜•ํƒœ / ์ €์žฅ๊ณผ ๋ถ„์„์— ๋งŽ์€ ์‹œ๊ฐ„ ์†Œ๋ชจ - ์ •๋Ÿ‰์  ๋ฐ์ดํ„ฐ → ์ˆ˜์น˜, ๋„ํ˜•, ๊ธฐํ˜ธ ๋“ฑ์˜ ํ˜•ํƒœ / ์ €์žฅ๊ณผ ๋ถ„์„์— ์ ์€ ๋น„์šฉ ์†Œ๋ชจ โ–ก ์•”๋ฌต์ง€์™€ ํ˜•์‹์ง€ - ์•”๋ฌต์ง€: ๊ณต์‹ํ™”๋ฅผ ํ†ตํ•ด ์ „๋‹ฌํ•˜๊ธฐ ํž˜๋“  ์ง€์‹ - ํ˜•์‹์ง€: ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌ๋œ ์ง€์‹ โ–ก ์ง€์‹์ฐฝ์กฐ ๋ฉ”์ปค๋‹ˆ์ฆ˜ 1. ๊ณต๋™ํ™”: ์กฐ์ง์›๊ฐ„ ๊ฒฝํ—˜๊ณผ ์ธ์‹ ๊ณต์œ  / ์•”๋ฌต์ง€ → ๊ณ ์ฐจ์› ์•”๋ฌต์ง€ 2. ํ‘œ์ถœํ™”: ์•”๋ฌต์ง€ → ํ˜•์‹์ง€ 3. ์—ฐ๊ฒฐํ™”: ํ˜•์‹์ง€์˜ ๋‹จํŽธ ์ˆ˜์ง‘, ๋ถ„๋ฅ˜, ํ†ตํ•ฉ / ์ƒˆ๋กœ์šด ํ˜•์‹์ง€ ์ฐฝ์กฐ 4. ๋‚ด๋ฉดํ™”: ํ˜•์‹์ง€ → ์•”๋ฌต์ง€ โ–ก ์ง€์‹ ํ”ผ๋ผ๋ฏธ๋“œ 1. ๋ฐ์ดํ„ฐ: ๊ฐ€๊ณต ์ „์˜ ์ˆœ์ˆ˜ํ•œ ์ˆ˜์น˜๋‚˜ ๊ธฐํ˜ธ / "A๊ธฐ์—…์˜ ์ฑ… ๊ฐ’์€ 10..
MCMC(Markov Chain Monte-Carlo)์˜ ์ˆ˜๋ ด(Convergence) MCMC(Markov Chain Monte-Carlo)๋ฅผ ํ†ตํ•ด ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ(Markov Chain)์ด ์ •์ƒ์ƒํƒœ(Stationary)์— ์ˆ˜๋ ด(Convergence)ํ•ด์•ผ ํ•œ๋‹ค. ์ด๋ฅผ ํ™•์ธํ•˜๊ณ  ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค. 1. Trace plot 2. ์ž๊ธฐ์ƒ๊ด€์„ฑ(Autocorrelation) 3. ์ดˆ๊ธฐ ๋‹จ๊ณ„(Burn-in period) 1. Trace plot MCMC์˜ ์ˆ˜๋ ด์„ ํ™•์ธํ•˜๋Š” ๊ฐ€์žฅ ์ง๊ด€์ ์ธ ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ์˜ ์ƒ์„ฑ ๊ณผ์ •์„ ์ง์ ‘ ๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์ด๋‹ค. ์‹œํ–‰ํšŸ์ˆ˜์— ๋”ฐ๋ฅธ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ์ด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. In: log_g