๋ฐ์ดํฐ ๋ถ์ ๋๋ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ํต๊ณ ๋ชจ๋ธ๋ง ๊ณผ์ (Statistical modeling process)์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋จ๊ณ๋ 8๊ฐ๋ก ๋๋ ์ ์๊ณ , ์๋์ ๊ฐ๋ค.
1. Understand the problem
2. Plan and collect data
3. Explore data
4. Postulate model
5. Fit model
6. Check model
7. Iterate
8. Use model
๊ฐ ๋จ๊ณ์ ๋ํด ์์ธํ ์์๋ณด์.
1. Understand the problem
๊ฐ์ฅ ๋จผ์ ํด์ผํ๋ ๊ฒ์ ๋ฌธ์ ๋ฅผ ์ดํดํ๋ ๊ฒ์ด๋ค. ๋น์ฐํ๊ธฐ ๋๋ฌธ์ ๊ฐ๊ณผํ๊ธฐ ์ฌ์ด๋ฐ, ์ด๋ ๋งค์ฐ ์ค์ํ๋ค. ์๋ฅผ ๋ค์ด, ํ๋์ฐจ์ด์ฆ์ ์์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ ์ง์ญ์์ ์ป์๋ค๊ณ ๊ฐ์ ํ์. ์์ต์ ํ๊ท ์ ํตํด ํ๋์ฐจ์ด์ฆ ์ฌ์ ์ด ์ด๋ป๊ฒ ์งํ๋๊ณ ์๋์ง ํ์ธํ๋ ๊ฒ์ ํฉ๋ฆฌ์ ์ด๋ค. ํ์ง๋ง ๋ค๋ฅธ ๋๋ผ๋ค์ ์์ต ๋ฐ์ดํฐ์ ์ด๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ์๋ํ๋ฉด ์๋ก ๋ค๋ฅธ ํตํ ๋จ์๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ด ๊ฒฝ์ฐ, ๊ฐ์ ๋จ์๋ก ๋ง์ถ์ด ์ฃผ๋ ๊ฒ์ด ์ค์ํ๋ค.
2. Plan and collect data
๋ฌธ์ ํด๊ฒฐ์ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฅ ์ ์ฉํ ์ง์ ๋ํด ๊ณ ๋ฏผํ์ฌ๋ผ. ๋ฐ์ดํฐ์ ์์ง ๋ฐฉ๋ฒ, ํฌ๊ธฐ, ์ง์ ๋ฐ๋ผ ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ์ ๊ฐ์น๊ฐ ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ ์ด ๋จ๊ณ ์ญ์ ์๋นํ ์ค์ํ๋ค. ํ์ฌ ์ง์์๊ฒ ์ค๋ฌธ์กฐ์ฌ๋ฅผ ํ๋ ๊ฒฝ์ฐ์ ๋ํด ์๊ฐํด๋ณด์. ์ฃผ์์ ์๋ ๋๋ฃ๋ค์ ์ค๋ฌธ์กฐ์ฌ๋ฅผ ์ด์ฉํ ๊ฒฝ์ฐ, ์ด ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ์ฌ ์ ์ฒด ์ง์์ ๋ํ ์ผ๋ฐํ๋ฅผ ํ๋ ๊ฒ์ ํฉ๋ฆฌ์ ์ด์ง ์๋ค. ๋ฐ๋ผ์ ์ผ๋ฐํํ ์ ์๋ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ ๋ํด ๊ณ ๋ฏผํด์ผํ ๊ฒ์ด๋ค.
3. Explore data
์๊ฐํ๋ฅผ ํตํด ๋ณ์์ ๊ด๊ณ๋ฅผ ํ์ ํ์ฌ๋ผ. ์ด๋ฌํ ๋ ธ๋ ฅ์ ๋ชจ๋ธ์ ๊ฒฐ์ ํ๋๋ฐ ๋์์ ์ค ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ณ์ ๊ฐ์ ์ ํ ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด ์ ํํ๊ท ๋ชจ๋ธ์ ๋ํด ๊ณ ๋ คํ ์ ์์ ๊ฒ์ด๋ค.
4. Postulate model
๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ ์ ํฉํ ๋ชจ๋ธ์ ์ ํํ๋ผ. ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๊ฐ ์ค์ ๋ฌธ์ ์ ํด์์ด ๋ ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค. ๋ชจ๋ธ์ ์ฌ์ฉํ ๋, ๋ชจ๋ธ์ ๋ณต์ก๋(Complexity)์ ์ผ๋ฐํ ๊ฐ๋ฅ๋(Generalizability)์ ๊ดํ ์ด์๊ฐ ์๋๋ฐ, ์ด๋ฅผ ํธํฅ-๋ถ์ฐ ํธ๋ ์ด๋์คํ(Bias-variance tradeoff)๋ผ๊ณ ํ๋ค. ์ด์ธ์๋ ๋ชจ๋ธ์ ๊ฐ์ , ํน์ฑ ๋ฑ์ ์์๋ฅผ ๊ณ ๋ คํ์ฌ ์ ์ ํ ๋ชจ๋ธ์ ์ ํํด์ผ ํ๋ค.
5. Fit model
๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํ์.
6. Check model
๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ์ ๋ชจ๋ฐฉ(Imitate)ํ๋๊ฐ ์ฒดํฌ๋ฅผ ํด์ผ ํ๋ค. "๋ฐ์ดํฐ ์์ฑ์ ์ ์ ํ ํ๋๊ฐ?", "๋ชจ๋ธ์ ์์ธก์ด ํ์ค์ ์ธ๊ฐ?", "๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ์ ์ ํฉ(Fit)ํ๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ํด๋ณด์์ผ ํ๋ค. ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก๋ ์์ฐจ ๋ถ์ ๋๋ ์์ธก ๊ฒฐ๊ณผ ํ์ธ ๋ฑ์ด ์๋ค. ์ด ๋จ๊ณ์์ ๋ชจ๋ธ ๊ฐ ๋น๊ต ๊ฐ๋ฅํ ๊ธฐ์ค์ ์ธ์ธ ์ ์๋ค.
7. Iterate
๋ชจ๋ธ์ ์ ํฉํ๊ณ ๊ฒ์ฆํ๋ ๋จ๊ณ์์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฑฐ๋, ๊ธฐ์กด์ ๋ชจ๋ธ๋ณด๋ค ๊ฐ์ ๋ ๋ชจ๋ธ์ ์ฐพ๊ณ ์ถ๋ค๋ฉด, 4 ~ 6๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ์ฌ ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๋ชจ๋ธ์ ์ฐพ์.
8. Use model
์ ์ ํ ๋ชจ๋ธ์ ์ ์ ํ์๋ค๋ฉด, ์ด ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ์ฌ ๋ฌธ์ ์ ๋ํ ๊ฒฐ๋ก ์ ๋ด๋ฆฌ์. ๋ชจ๋ธ์ ํ๋น์ฑ์ 1 ~ 3๋จ๊ณ์๋ ์์กดํ๊ธฐ ๋๋ฌธ์ ๊ฐ๊ณผํ์ง ์๋๋ก ํ์.
Reference:
"Bayesian Statistics: From Concept to Data AnalysisTechniques and Models," Coursera, https://www.coursera.org/learn/bayesian-statistics/.
'Statistics > Statistical Model' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋งค๊ฐํจ๊ณผ(Mediating effect) (0) | 2020.10.08 |
---|---|
ํต๊ณ ๋ชจ๋ธ(Statistical model) (0) | 2020.08.07 |