본문 바로가기

분류 전체보기

(80)

Part 2 - 01. 데이터 분석의 이해 □ 빅데이터 분석 방법론의 기본구조 암묵지 → 형식지 → 방법론 - 암묵지: 사람의 학습과 경험을 의미 - 형식지: 사람의 학습과 경험을 문서화 - 방법론: 형식지를 구체화하여 절차, 활동, 작업 등을 정의하여 문서화 □ 폭포수 모델 - 순차적인 단계 / 하향식 접근 - 이전 단계로 되돌아갈 수 없음 - 경험이 많고 위험이 낮은 업무에 적용 - 불필요한 문서작업 - 요구사항에 대한 반영과 확인이 어려움 □ 프로토타이핑 모델 - 프로토타입을 먼저 만들고 고객에게 확인 후에 개발 - 사용자 요구사항 도출이 용이 - 프로토타입을 완제품으로 오인 - 기대심리 유발에 따른 과다한 요구사항 혹은 변경 발생 - 문서화가 어려움 □ 반복 점증형 모델 - 큰 빅데이터 사업에 적용하는 모델 - 요구사항, 분석, 설계, 구..

베이지안 선형 회귀(Bayesian linear regression) R의 car 패키지의 Leihardt 데이터를 이용하여 베이지안 선형 회귀(Bayesian linear regression) 분석을 수행할 것이다. 수행 과정은 다음과 같다. 1. 데이터 확인 2. 모델링 3. 모델 확인 4. 잔차 분석 1. 데이터 확인 In: library(car) data('Leinhardt') pairs(Leinhardt) Out: ▷ Leihardt 데이터는 연속형 변수인 income, infant, region과 범주형 변수인 oil로 구성되어 있다. ▷ income과 infant가 비선형적인 관계를 나타내고 있는 것을 확인할 수 있다. 선형모델은 기본적으로 변수간 선형관계를 가정하기 때문에 두 변수에 로그를 취하여 변형할 것이다. In: Leinhardt$log_income ..

Part 1 - 03. 데이터 사이언스와 전략 인사이트 □ 분석기획 3가지 역량 - 수학과 통계 - 정보기술 - 도메인 지식 □ 하드 스킬과 소프트 스킬 - 하드 스킬: 이론적 지식 및 기술적 숙련 / 머신러닝, 통계, 분산 컴퓨팅 등의 능력 - 소프트 스킬: 데이터 가치 발견하고 기회를 만드는 능력 / 창의적 사고, 호기심, 스토리텔링, 시각화, 의사소통 등의 능력 □ 빅데이터 분석의 기본 원칙 - 질문에서 시작 - 기존 데이터와 연결고리 - 어려운 방식의 프로그래밍과 툴은 지양 - 피드백 반영 □ 빅데이터 분석 주제 유형 분석 대상 Known Unknown 분석 방법 Known 최적화 통찰 Unknown 솔루션 발견 □ 목표 시점별 분석기획 - 과제중심 접근방법: 과제를 빠르고 단기적으로 해결 - 마스터 플랜 접근방법: 장기적으로 분석과정 정의하고 지속적..

Part 1 - 02. 데이터의 가치와 미래 □ 빅데이터의 특성 - 규모(Volume): Tera에서 Petta, Zetta 바이트 시대로 진입 - 다양성(Variety): 텍스트 이외의 다양한 비정형 데이터의 증가 - 속도(Velocity): 적시 활용을 위한 데이터 분석속도가 중요 - 정확성(Veracity): 질 높은 데이터 활용의 중요성 - 가치(Value): 가치있는 정보 창출 □ 가치 패러다임의 변화 1. 디지털화: 아날로그 시대에서 디지털 시대로 변화 2. 연결: 디지털 제품의 Ad-hoc 방식으로 연결 후, IP 네트워크에 융화 3. 에이전시: 그물망으로 연결된 것을 관리 □ 전통적 데이터와 빅데이터의 차이점 구분 전통적 데이터 빅데이터 데이터 크기 기가 바이트 테라, 페타, 제타 바이트 데이터 속도 시간, 일 단위 데이터 실시간 데..

Part 1 - 01. 데이터의 이해 □ 데이터의 특성 - 객관적인 사실 → 존재적 특성 - 추론, 예측, 전망, 추정을 위한 근거 → 당위적 특성 □ 데이터의 유형 - 정성적 데이터 → 언어, 문자 등의 형태 / 저장과 분석에 많은 시간 소모 - 정량적 데이터 → 수치, 도형, 기호 등의 형태 / 저장과 분석에 적은 비용 소모 □ 암묵지와 형식지 - 암묵지: 공식화를 통해 전달하기 힘든 지식 - 형식지: 체계적으로 정리된 지식 □ 지식창조 메커니즘 1. 공동화: 조직원간 경험과 인식 공유 / 암묵지 → 고차원 암묵지 2. 표출화: 암묵지 → 형식지 3. 연결화: 형식지의 단편 수집, 분류, 통합 / 새로운 형식지 창조 4. 내면화: 형식지 → 암묵지 □ 지식 피라미드 1. 데이터: 가공 전의 순수한 수치나 기호 / "A기업의 책 값은 10..

MCMC(Markov Chain Monte-Carlo)의 수렴(Convergence) MCMC(Markov Chain Monte-Carlo)를 통해 생성한 데이터를 활용하기 위해서는 마르코프 체인(Markov Chain)이 정상상태(Stationary)에 수렴(Convergence)해야 한다. 이를 확인하고 다루는 방법에 대해 다룰 것이다. 1. Trace plot 2. 자기상관성(Autocorrelation) 3. 초기 단계(Burn-in period) 1. Trace plot MCMC의 수렴을 확인하는 가장 직관적인 방법은 데이터의 생성 과정을 직접 그림으로 나타내는 것이다. 시행횟수에 따른 생성된 데이터의 분포를 통해 이를 확인할 수 있다. In: log_g

멀티태스킹(Multi-tasking), 멀티프로세싱(Multi-processing), 멀티스레딩(Multi-threading) □ 프로그램(Program): 저장소에 존재하는 코드의 뭉치로 실행상태가 아닌, 실행하기 전에 저장소에 저장된 코드이다. □ 프로세스(Process): 저장소에 존재하는 프로그램이 실행되어 CPU가 처리할 수 있게 메인 메모리에 올라온 상태이다. □ 스레드(Thread): 프로세스 안에 있는 작은 실행단위를 의미이다. 워드를 사용하는 경우로 예를 들어보자. 워드에서 글자를 입력하는 동안 자동으로 맞춤법 검사를 수행 및 파일을 주기적으로 저장한다. 이 작업들은 각각의 스레드에 의해서 이루어진다. 즉, 워드라는 큰 프로세스 하나에 여러 개의 스레드가 모여있는 것이다. 멀티태스킹(Multi-tasking) ▷ 태스크(Task)란 운영체제에서 처리하는 작업 단위를 의미하는데, 그 여러 작업 단위가 빠르게 처리되..

깁스 샘플링(Gibbs sampling) 깁스 샘플링(Gibbs sampling)에 대해 알아볼 것이다. 다룰 내용은 다음과 같다. 1. 깁스 샘플링 2. 깁스 샘플링의 예제 1. 깁스 샘플링 깁스 샘플링은 Metropolis Hastings(이하 MH) 알고리즘의 특별한 형태로, 제안 분포(Proposal distribution)를 자신의 Full conditional distribution로 두어 샘플링하는 방법이다. 이렇게 함으로써, 각 시행에서 발생하는 데이터에 대해 Acceptance probability는 1이 되는 성질을 가지게 된다. 다음의 증명을 통하여 이를 확인해보자. ▷ 제안 분포를 Full conditional posterior로 둠으로써 미세 균형 조건(Detailed balance condition)이 성립하게 된다. ..

JAGS(Just Another Gibbs Sampler) 사용법 R의 JAGS(Just Another Gibbs Sampler)의 사용법에 대해 알아볼 것이다. JAGS를 통한 데이터 생성 과정은 4단계로 나눌 수 있다. 1. Specify the model 2. Set up the model 3. Run the MCMC(Markov Chain Monte Carlo) sampler 4. Post processing 다음의 모델에 이를 단계별로 적용하여 사후분포로부터 데이터를 생성하여 보자. 1. Specify the model In: library(rjags) mod_string = " model { for (i in 1:n) { y[i] ~ dnorm(mu, 1.0/sig2) } mu ~ dt(0.0, 1.0/1.0, 1) sig2 = 1.0 } " ▷ 위의 코드와..

메트로폴리스 헤이스팅스 알고리즘(Metropolis-Hastings algorithm) Metropolis-Hastings(이하 MH) 알고리즘에 대해 알아볼 것이다. MH 알고리즘은 MCMC(Markov Chain Monte-Carlo)의 일반적인 형태로써 특정 분포로부터 정상분포로 갖는 체인을 발생시킬 수 있다. 이를 이용하여 특정 분포로부터 데이터를 생성할 수 있다. 다룰 내용으로는 다음과 같다. 1. MH 알고리즘 2. Random walk MH 알고리즘 구현 1. MH 알고리즘 MH 알고리즘은 다음과 같다. ▷ q는 제안 분포(Proposal distribution)를 의미하고, g는 우리의 목적 분포(Target distribution)에서 정규화 상수(Normalizing constant)를 제외한 부분이다. 즉, 목적 분포와 g(theta)는 비례 관계가 성립한다. ▷ 초기값..

몬테카를로 추정(Monte-carlo estimation) 문제와 예시를 통해 몬테카를로 추정(Monte-carlo estimation)에 대해 알아볼 것이다. 문제) 감마분포(alpha = 2, beta = 1/3)의 평균을 수식적인 계산과 몬테카를로 추정을 통해 구하고 결과를 비교하여라. 풀이) In: alpha = 2 beta = 1/3 m = 10^8 theta_star

그래프 표현(Graphical representation) 예시를 통해 베이지안 모델을 나타내기 위한 그래프 표현(Graphical representation) 방법에 대해 알아볼 것이다. 예시 1) 가능도 함수가 정규분포를 따르고, 정규분포의 두 모수가 위와 같이 사전분포를 따를 때, 이를 그래프로 표현해보자. ▷ 동그라미는 노드(Node)라고 부른다. 노드는 확률변수(Random variable)를 의미한다. 사전분포를 가지고 있는 mu와 sigma^2를 노드로 정하였다. ▷ 위의 그림에서 mu와 sigma^2 밑에 y1, y2, ... , yn도 확률변수이지만, 관측할 수 있기 때문에 이중 동그라미로 나타내었다. ▷ 각 노드별 종속(Dependence) 관계를 나타내기 화살표(Arrow)를 이용하였다. 화살이 가리키는 노드는 화살이 나오는 노드로부터 종속되..

이전 1 2 3 4 5 6 7 다음

티스토리툴바