๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Statistics/Statistical Model

ํ†ต๊ณ„ ๋ชจ๋ธ๋ง ๊ณผ์ •(Statistical modeling process)

๋ฐ์ดํ„ฐ ๋ถ„์„ ๋˜๋Š” ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ํ†ต๊ณ„ ๋ชจ๋ธ๋ง ๊ณผ์ •(Statistical modeling process)์— ๋Œ€ํ•ด ์•Œ์•„๋ณผ ๊ฒƒ์ด๋‹ค. ๋‹จ๊ณ„๋Š” 8๊ฐœ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๊ณ , ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

 

1. Understand the problem

2. Plan and collect data

3. Explore data

4. Postulate model

5. Fit model

6. Check model

7. Iterate

8. Use model

 

๊ฐ ๋‹จ๊ณ„์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์•Œ์•„๋ณด์ž.

 

1. Understand the problem

 

๊ฐ€์žฅ ๋จผ์ € ํ•ด์•ผํ•˜๋Š” ๊ฒƒ์€ ๋ฌธ์ œ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋‹น์—ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ„๊ณผํ•˜๊ธฐ ์‰ฌ์šด๋ฐ, ์ด๋Š” ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ”„๋žœ์ฐจ์ด์ฆˆ์˜ ์ˆ˜์ต ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ ์ง€์—ญ์—์„œ ์–ป์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž. ์ˆ˜์ต์˜ ํ‰๊ท ์„ ํ†ตํ•ด ํ”„๋žœ์ฐจ์ด์ฆˆ ์‚ฌ์—…์ด ์–ด๋–ป๊ฒŒ ์ง„ํ–‰๋˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ์€ ํ•ฉ๋ฆฌ์ ์ด๋‹ค. ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋‚˜๋ผ๋“ค์˜ ์ˆ˜์ต ๋ฐ์ดํ„ฐ์— ์ด๋ฅผ ์ ์šฉํ•  ๊ฒฝ์šฐ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์„œ๋กœ ๋‹ค๋ฅธ ํ†ตํ™” ๋‹จ์œ„๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์ด ๊ฒฝ์šฐ, ๊ฐ™์€ ๋‹จ์œ„๋กœ ๋งž์ถ”์–ด ์ฃผ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

 

2. Plan and collect data

 

๋ฌธ์ œํ•ด๊ฒฐ์— ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์žฅ ์œ ์šฉํ•  ์ง€์— ๋Œ€ํ•ด ๊ณ ๋ฏผํ•˜์—ฌ๋ผ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•, ํฌ๊ธฐ, ์งˆ์— ๋”ฐ๋ผ ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ์˜ ๊ฐ€์น˜๊ฐ€ ๊ฒฐ์ •๋˜๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋‹จ๊ณ„ ์—ญ์‹œ ์ƒ๋‹นํžˆ ์ค‘์š”ํ•˜๋‹ค. ํšŒ์‚ฌ ์ง์›์—๊ฒŒ ์„ค๋ฌธ์กฐ์‚ฌ๋ฅผ ํ•˜๋Š” ๊ฒฝ์šฐ์— ๋Œ€ํ•ด ์ƒ๊ฐํ•ด๋ณด์ž. ์ฃผ์œ„์— ์žˆ๋Š” ๋™๋ฃŒ๋“ค์˜ ์„ค๋ฌธ์กฐ์‚ฌ๋ฅผ ์ด์šฉํ•  ๊ฒฝ์šฐ, ์ด ๊ฒฐ๊ณผ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ „์ฒด ์ง์›์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๋ฅผ ํ•˜๋Š” ๊ฒƒ์€ ํ•ฉ๋ฆฌ์ ์ด์ง€ ์•Š๋‹ค. ๋”ฐ๋ผ์„œ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๊ณ ๋ฏผํ•ด์•ผํ•  ๊ฒƒ์ด๋‹ค.

 

3. Explore data

 

์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด ๋ณ€์ˆ˜์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜์—ฌ๋ผ. ์ด๋Ÿฌํ•œ ๋…ธ๋ ฅ์€ ๋ชจ๋ธ์„ ๊ฒฐ์ •ํ•˜๋Š”๋ฐ ๋„์›€์„ ์ค„ ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ณ€์ˆ˜ ๊ฐ„์˜ ์„ ํ˜• ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋ฉด ์„ ํ˜•ํšŒ๊ท€ ๋ชจ๋ธ์— ๋Œ€ํ•ด ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

 

4. Postulate model

 

๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ ํ•ฉํ•œ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๋ผ.  ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์‹ค์ œ ๋ฌธ์ œ์— ํ•ด์„์ด ๋  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋žŒ์งํ•˜๋‹ค. ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๋•Œ, ๋ชจ๋ธ์˜ ๋ณต์žก๋„(Complexity)์™€ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ๋„(Generalizability)์— ๊ด€ํ•œ ์ด์Šˆ๊ฐ€ ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ํŽธํ–ฅ-๋ถ„์‚ฐ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„(Bias-variance tradeoff)๋ผ๊ณ  ํ•œ๋‹ค. ์ด์™ธ์—๋„ ๋ชจ๋ธ์˜ ๊ฐ€์ •, ํŠน์„ฑ ๋“ฑ์˜ ์š”์†Œ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์ ์ ˆํ•œ ๋ชจ๋ธ์„ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค.

 

5. Fit model

 

๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•˜์ž.

 

6. Check model

 

๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ๋ชจ๋ฐฉ(Imitate)ํ•˜๋Š”๊ฐ€ ์ฒดํฌ๋ฅผ ํ•ด์•ผ ํ•œ๋‹ค. "๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ์ ์ ˆํžˆ ํ•˜๋Š”๊ฐ€?", "๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ํ˜„์‹ค์ ์ธ๊ฐ€?", "๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์— ์ž‘ ์ ํ•ฉ(Fit)ํ•˜๋Š”๊ฐ€?"๋ผ๋Š” ์งˆ๋ฌธ์„ ํ•ด๋ณด์•„์•ผ ํ•œ๋‹ค. ์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ์ž”์ฐจ ๋ถ„์„ ๋˜๋Š” ์˜ˆ์ธก ๊ฒฐ๊ณผ ํ™•์ธ ๋“ฑ์ด ์žˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ ๊ฐ„ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๊ธฐ์ค€์„ ์„ธ์šธ ์ˆ˜ ์žˆ๋‹ค.

 

7. Iterate

 

๋ชจ๋ธ์„ ์ ํ•ฉํ•˜๊ณ  ๊ฒ€์ฆํ•˜๋Š” ๋‹จ๊ณ„์—์„œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๊ฑฐ๋‚˜, ๊ธฐ์กด์˜ ๋ชจ๋ธ๋ณด๋‹ค ๊ฐœ์„ ๋œ ๋ชจ๋ธ์„ ์ฐพ๊ณ  ์‹ถ๋‹ค๋ฉด, 4 ~ 6๋‹จ๊ณ„๋ฅผ ๋ฐ˜๋ณตํ•˜์—ฌ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š” ๋ชจ๋ธ์„ ์ฐพ์ž.

 

8. Use model

 

์ ์ ˆํ•œ ๋ชจ๋ธ์„ ์„ ์ •ํ•˜์˜€๋‹ค๋ฉด, ์ด ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฌ์ž๋ชจ๋ธ์˜ ํƒ€๋‹น์„ฑ์€ 1 ~ 3๋‹จ๊ณ„์—๋„ ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ„๊ณผํ•˜์ง€ ์•Š๋„๋ก ํ•˜์ž.

 


Reference:

"Bayesian Statistics: From Concept to Data AnalysisTechniques and Models," Coursera, https://www.coursera.org/learn/bayesian-statistics/.

'Statistics > Statistical Model' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

๋งค๊ฐœํšจ๊ณผ(Mediating effect)  (0) 2020.10.08
ํ†ต๊ณ„ ๋ชจ๋ธ(Statistical model)  (0) 2020.08.07