λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

Certificate/ADsP

Part 1 - 02. λ°μ΄ν„°μ˜ κ°€μΉ˜μ™€ 미래

β–‘ λΉ…λ°μ΄ν„°μ˜ νŠΉμ„±

- 규λͺ¨(Volume): Teraμ—μ„œ Petta, Zetta λ°”μ΄νŠΈ μ‹œλŒ€λ‘œ μ§„μž…

- λ‹€μ–‘μ„±(Variety): ν…μŠ€νŠΈ μ΄μ™Έμ˜ λ‹€μ–‘ν•œ λΉ„μ •ν˜• λ°μ΄ν„°μ˜ 증가

- 속도(Velocity): μ μ‹œ ν™œμš©μ„ μœ„ν•œ 데이터 뢄석속도가 μ€‘μš”

- μ •ν™•μ„±(Veracity): 질 높은 데이터 ν™œμš©μ˜ μ€‘μš”μ„±

- κ°€μΉ˜(Value): κ°€μΉ˜μžˆλŠ” 정보 창좜

 

β–‘ κ°€μΉ˜ νŒ¨λŸ¬λ‹€μž„μ˜ λ³€ν™”

1. 디지털화: μ•„λ‚ λ‘œκ·Έ μ‹œλŒ€μ—μ„œ 디지털 μ‹œλŒ€λ‘œ λ³€ν™”

2. μ—°κ²°: 디지털 μ œν’ˆμ˜ Ad-hoc λ°©μ‹μœΌλ‘œ μ—°κ²° ν›„, IP λ„€νŠΈμ›Œν¬μ— μœ΅ν™”

3. μ—μ΄μ „μ‹œ: 그물망으둜 μ—°κ²°λœ 것을 관리

 

β–‘ 전톡적 데이터와 λΉ…λ°μ΄ν„°μ˜ 차이점

ꡬ뢄

전톡적 데이터

빅데이터

데이터 크기

κΈ°κ°€ λ°”μ΄νŠΈ

ν…ŒλΌ, νŽ˜νƒ€, μ œνƒ€ λ°”μ΄νŠΈ

데이터 속도

μ‹œκ°„, 일 λ‹¨μœ„ 데이터

μ‹€μ‹œκ°„ 데이터

데이터 ꡬ쑰

μ •ν˜•ν™”λœ ꡬ쑰 데이터

반ꡬ쑰 및 λΉ„μ •ν˜• 데이터

데이터 μ›μ²œ

μ€‘μ•™μ§‘μ€‘ν˜• λ°μ΄ν„°λ² μ΄μŠ€

λΆ„μ‚° λ°μ΄ν„°λ² μ΄μŠ€

데이터 톡합

쉬움

어렀움

데이터 μ €μž₯

RDB

HDFS, NoSQL

 

β–‘ 빅데이터 ꡬ좕 및 μš΄μ˜μ„ μœ„ν•œ 7가지 κΈ°λ³Έ ν…Œν¬λ‹‰

- μ—°κ΄€κ·œμΉ™ ν•™μŠ΅: λ³€μˆ˜λ“€κ°„μ˜ κ΄€λ ¨μ„± 뢄석

- μœ ν˜•λΆ„μ„: λ¬Έμ„œμ˜ λΆ„λ₯˜ 및 쑰직 κ·Έλ£Ήν™”

- κΈ°κ³„ν•™μŠ΅: 데이터 ν•™μŠ΅ 및 예츑

- μœ μ „ μ•Œκ³ λ¦¬μ¦˜: μœ μ „μž 데이터 뢄석

- νšŒκ·€λΆ„μ„: λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜ κ°„μ˜ 관계 뢄석

- 감성뢄석: 글을 μ“΄ μ‚¬λžŒμ˜ 감정 뢄석

- μ†Œμ…œ λ„€νŠΈμ›Œν¬ 뢄석: νŠΉμ •μΈκ³Ό λ‹€λ₯Έ μ‚¬λžŒκ³Όμ˜ 관계 νŒŒμ•… 및 영ν–₯λ ₯ μžˆλŠ” μ‚¬λžŒ 뢄석

 

β–‘ 빅데이터 ν™œμš©μ„ μœ„ν•œ 3λŒ€ μš”μ†Œ

- μžμ›: 빅데이터 / μ •ν˜• 및 λΉ„μ •ν˜• 데이터λ₯Ό ν¬ν•¨ν•˜κ³  μ‹€μ‹œκ°„μœΌλ‘œ 데이터 μˆ˜μ§‘

- 기술: 빅데이터 ν”Œλž«νΌ / λŒ€μš©λŸ‰ 데이터λ₯Ό μ²˜λ¦¬ν•˜κΈ° μœ„ν•΄ λΆ„μ‚° 파일 μ‹œμŠ€ν…œ μ‚¬μš©

- 인λ ₯: 데이터 μ‚¬μ΄μ–Έν‹°μŠ€νŠΈ / μˆ˜ν•™, 곡학, κ²½μ œν•™ λ“±μ˜ 학문을 ν•™μŠ΅ν•˜κ³  μ‹€λ¬΄μ—μ„œ μ‚¬μš©ν•  수 μžˆλŠ” μ „λ¬Έκ°€

 

β–‘ 빅데이터 처리 ν”„λ‘œμ„ΈμŠ€

데이터 μ†ŒμŠ€ → 데이터 μˆ˜μ§‘ → 데이터 μ €μž₯ → 데이터 처리 → 데이터 뢄석 → 데이터 ν‘œν˜„

 

β–‘ 데이터 레이크

- μ›μ‹œ 데이터λ₯Ό λ³Έμ—°μ˜ ν˜•μ‹ κ·ΈλŒ€λ‘œ μ €μž₯ν•˜λŠ” 것

 

β–‘ 빅데이터 μ €μž₯방식

- RDB: κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€ μ‚¬μš© / SQL을 ν†΅ν•œ 관리

- NoSQL: 컬럼기반, λ¬Έμ„œλ‹¨μœ„ λ°μ΄ν„°λ‘œ μ €μž₯

- λΆ„μ‚° 파일 μ‹œμŠ€ν…œ: μ—¬λŸ¬ μ„œλ²„μ— λΆ„μ‚°ν•˜μ—¬ μ €μž₯ / λŒ€κ·œλͺ¨ μ €μž₯μ†Œ 제곡 및 μ„±λŠ₯ ν–₯상

 

β–‘ 빅데이터 μœ„κΈ°μš”μΈ 및 ν†΅μ œλ°©μ•ˆ

- μ‚¬μƒν™œ μΉ¨μž…: 데이터가 본래 λͺ©μ  μ™Έλ‘œ κ°€κ³΅ν•˜μ—¬ 2μ°¨, 3μ°¨ λͺ©μ μœΌλ‘œ 였용 κ°€λŠ₯성이 증가 / λΆ„μ„κ°€μ˜ μ±…μž„ 

- μ±…μž„μ›μΉ™ 훼손: λΆ„μ„λŒ€μƒμ€ 예츑 μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ 희생양이 될 κ°€λŠ₯μ„± 증가 / μ±…μž„μ›μΉ™ κ°•ν™”

- 데이터 였용: 잘λͺ»λœ μΈμ‚¬μ΄νŠΈμ— λ”°λ₯Έ λΉ„μ¦ˆλ‹ˆμŠ€ 손싀 / μ ‘κ·ΌκΆŒν•œ ν—ˆμš© 및 객관적인 인증 λ°©μ•ˆ

 

β–‘ 비식별화와 읡λͺ… 데이터

- 비식별화: 개인 식별 κ°€λŠ₯ν•œ μš”μ†Œλ“€μ˜ μ „λΆ€ ν˜Ήμ€ 일뢀 μ‚­μ œ

- 읡λͺ… 데이터: μˆ˜μ§‘λ‹¨κ³„μ—μ„œ κ·Όμ›μ μœΌλ‘œ κ°œμΈμ„ 식별할 수 μ—†λŠ” ν˜•νƒœλ‘œ λ³€κ²½

 

β–‘ 비식별화 쑰치

- κ°€λͺ…μ²˜λ¦¬: μ£Όμš” μ‹λ³„μš”μ†Œλ₯Ό λ‹€λ₯Έ κ°’μœΌλ‘œ λŒ€μ²΄

- μ΄κ³„μ²˜λ¦¬ λ˜λŠ” 평균값 λŒ€μ²΄: λ°μ΄ν„°μ˜ 총합 값을 λ³΄μž„

- 데이터 κ°’(κ°€μΉ˜) μ‚­μ œ: 데이터 ꡬ성 κ°’ 쀑 일뢀 μ‚­μ œ

- λ²”μ£Όν™”: λ²”μ£Όμ˜ κ°’μœΌλ‘œ λ³€ν™˜

- 데이터 λ§ˆμŠ€ν‚Ή: 개인 μ‹λ³„μžκ°€ 보이지 μ•Šλ„λ‘ 처리

 


Reference:

μž„ν˜Έμ§„ μ™Έ 2λͺ…, γ€ŒADsP 데이터뢄석 쀀전문가」, μ˜μ§„λ‹·μ»΄(2020)