๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Statistics/Bayesian Statistics

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes' theorem)

๋ฒ ์ด์ง€์•ˆ ํ†ต๊ณ„์˜ ๊ฐ€์žฅ ํ•ต์‹ฌ์ธ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes' theorem)์— ๋Œ€ํ•ด ์•Œ์•„๋ณผ ๊ฒƒ์ด๋‹ค. ๋‹ค๋ฃฐ ๋‚ด์šฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

1. ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ์˜๋ฏธ

2. ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ์˜ˆ์ œ

 

1. ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ์˜๋ฏธ

 

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

 

โ–ท ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์—์„œ P(H)๋Š” ์‚ฌ์ „ ํ™•๋ฅ (Prior probability)์ด๋ผ๊ณ  ํ•œ๋‹ค. ์‚ฌ์ „ ํ™•๋ฅ ์ด๋ž€ ์‚ฌ๊ฑด E๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ์ „ ์‚ฌ๊ฑด H์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

 

โ–ท ์‚ฌ๊ฑด E๊ฐ€ ๋ฐœ์ƒํ•˜๊ฒŒ ๋˜์–ด ์ด ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•˜๋ฉด ์‚ฌ๊ฑด H์˜ ํ™•๋ฅ ์€ P(H|E)๋กœ ๋ฐ”๋€Œ๊ฒŒ ๋˜๋ฉฐ, ์ด๋ฅผ ์‚ฌํ›„ ํ™•๋ฅ (Posterior probability)์ด๋ผ ํ•œ๋‹ค.

 

โ–ท P(E|H) ๋Š” ๊ฐ€๋Šฅ๋„(Likelihood)๋ผ ํ•˜๊ณ , ์‚ฌ๊ฑด H๊ฐ€ ์กฐ๊ฑด์œผ๋กœ ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ์–ผ๋งˆ๋‚˜ ์‚ฌ๊ฑด E๊ฐ€ ๊ฐ€๋Šฅํ•œ ์ง€์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

 

โ–ท P(E) ๋Š” ์ฆ๊ฑฐ(Evidence) ๋˜๋Š” ์ •๊ทœํ™” ์ƒ์ˆ˜(Normalizing constant)๋ผ ํ•˜๊ณ , ์‚ฌ๊ฑด E์˜ ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค. ์ •๊ทœํ™” ์ƒ์ˆ˜์ธ ์ด์œ ๋Š” ์‚ฌํ›„ ํ™•๋ฅ ์„ ๊ตฌํ•  ๋•Œ, ๊ฐ€๋Šฅ๋„์™€ ์‚ฌ์ „ ํ™•๋ฅ ์˜ ๊ณฑ์˜ ๊ฒฐ๊ณผ๋ฅผ 1๋กœ ๋งŒ๋“ค์–ด ์ฃผ๋ฉฐ, H์— ์ข…์†์ ์ด์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

 

โ–ถ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋Š” ์ƒˆ๋กœ์šด ์‚ฌ๊ฑด E๊ฐ€ ๋ฐœ์ƒํ•จ์œผ๋กœ์จ ๊ธฐ์กด ์‚ฌ๊ฑด H์˜ ํ™•๋ฅ ์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์ƒˆ๋กœ์šด ์ •๋ณด๊ฐ€ ์ถ”๋ก ์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ด๋Š” ์ •๋ฆฌ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

2. ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ์˜ˆ์ œ

 

๋ฌธ์ œ)

 

A ๊ตญ๊ฐ€์˜ ์—์ด์ฆˆ ๊ฐ์—ผ๋ฅ ์ด 0.26%์ด๋‹ค. ์—์ด์ฆˆ ๊ฐ์—ผ์ž๊ฐ€ ๊ฒ€์‚ฌ์—์„œ ์–‘์„ฑ ํŒ์ •์„ ๋ฐ›์„ ํ™•๋ฅ ์ด 97.7%, ๋น„๊ฐ์—ผ์ž๊ฐ€ ์Œ์„ฑ ํŒ์ •์„ ํ™•๋ฅ ์ด 92.6%์ธ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ๊ฒ€์‚ฌ์—์„œ ์–‘์„ฑ ํŒ์ •์„ ๋ฐ›์•˜์„ ๋•Œ, ๊ฒ€์‚ฌ์ž๊ฐ€ ์—์ด์ฆˆ์— ๊ฐ์—ผ๋˜์—ˆ์„ ํ™•๋ฅ ์€ ์–ผ๋งˆ์ธ๊ฐ€?

 

ํ’€์ด)

 

 

โ–ท ๊ฒ€์‚ฌ์—์„œ ์–‘์„ฑ ํŒ์ •์„ ๋ฐ›์•˜์„ ๋•Œ, ๊ฒ€์‚ฌ์ž๊ฐ€ ์—์ด์ฆˆ์— ๊ฐ์—ผ๋˜์—ˆ์„ ํ™•๋ฅ ์€ 3.3%์ธ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ์ด๋Š” ์‚ฌ์ „ ํ™•๋ฅ ์ธ A ๊ตญ๊ฐ€์˜ ์—์ด์ฆˆ ๊ฐ์—ผ๋ฅ ์ด ์–‘์„ฑ ํŒ์ • ๊ฒฐ๊ณผ๋ผ๋Š” ์ •๋ณด๊ฐ€ ์ถ”๊ฐ€๋จ์— ๋”ฐ๋ผ 0.26%์—์„œ 3.3%๋กœ ์ฆ๊ฐ€ํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

โ–ท ์šฐ๋ฆฌ์˜ ์ง๊ด€๊ณผ ๋‹ค๋ฅด๊ฒŒ ์–‘์„ฑ ๋ฐ˜์‘์ด ๋‚˜์™€๋„ ์—์ด์ฆˆ์— ๊ฐ์—ผ๋˜์—ˆ์„ ํ™•๋ฅ ์€ 5%๋„ ๋˜์ง€ ์•Š๋Š”๋‹ค. ์ด๋Š” A๊ตญ๊ฐ€์˜ ์—์ด์ฆˆ ๊ฐ์—ผ๋ฅ ์ด ๊ทนํžˆ ๋‚ฎ๊ธฐ ๋•Œ๋ฌธ์— ๋‚˜ํƒ€๋‚œ ๊ฒฐ๊ณผ์ด๋‹ค.

 

โ–ถ ์œ„์˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, A ๊ตญ๊ฐ€์˜ ๊ตญ๋ฏผ์€ ๊ฒ€์‚ฌ์—์„œ ์–‘์„ฑ ๋ฐ˜์‘์ด ๋‚˜์™€๋„ ๋„ˆ๋ฌด ์ขŒ์ ˆํ•  ํ•„์š”๋Š” ์—†๋‹ค. ์—์ด์ฆˆ์— ๊ฐ์—ผ๋˜์ง€ ์•Š์•˜์„ ํ™•๋ฅ ์ด 96.7%์ด๋‹ˆ ๋ง์ด๋‹ค! :)

 


Reference:

“6.6 ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ,” ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์Šค์ฟจ, https://datascienceschool.net/view-notebook/f68d16df9ea448689ae66dc2140fe673/.