3. 전통적인 분석 방법론 두 가지

 

🔷KDD 분석 방법론

  • KDD(Knowledge Discovery in Database)는 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스
  • 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에 응용 가능
  • 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시
[1단계]
데이터셋 선택
• 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
• 분석에 필요한 데이터를 선택 → 타깃 데이터(target data) 생성
[2단계]
데이터 전처리
• 잡읍, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공
• 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행
[3단계]
데이터 변환
• 변수를 생성/선택하고 데이터의 차원을 축소
• 학습용 데이터(traning data set)와 검증용 데이터(test data set)를 분리
[4단계]
데이터 마이닝
• 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용
• 필요에 따라 전처리와 변환 프로세스도 추가
[5단계]
해석과 평가
• 분석 목적과의 일치성을 확인하고 평가
• 발견한 지식을 업무에 활용하기 위한 방안 마련

 

 

 

 

🔷CRISP-DM 분석 방법

  • CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로서 4계층으로 구성된 데이터마이닝 프로세스
  • 데이터 탐색과 이해 및 데이터를 통한 문제인식과 해결이 가능
  • 비즈니스 요구사항에 맞게 데이터 마이닝을 반복적으로 수행할 수 있음
  • 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행의 4개의 레벨과 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 구성되어 있다.
[1단계]
업무 이해
업무 목적 파악, 상황 파악, 데이터마이닝 목표설정, 프로젝트 계획 수립
[2단계]
데이터 이해
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
[3단계]
데이터 준비
분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅
[4단계]
모델링
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
[5단계]
평가
분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
[6단계]
전개
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

 

KDD와 CRISP-DM 비교

KDD 분석 방법론 CRISP-DM 분석 방법론
업무 이해 (Business Understanding)  
데이터 이해 (Data Understanding) 데이터셋 선택 (Selection)
데이터 전처리 (Preprocessing)
데이터 준비 (Data Preparation) 데이터 변환 (Transformation)
모델링 (Modeling) 데이터 마이닝 (Data Mining)
평가 (Evaluation) 데이터 마이닝 결과 평가 (Interprtation/ Evalution)
전개 (Deployment)  

 

 

🔷SEMMA 분석 방법론

  • SEMMA (Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스
추출
(Sample)
• 분석할 데이터 추출
• 모델을 평가하기 위한 데이터 준비
탐색
(Explore)
• 분석용 데이터 탐색
• 데이터 오류 확인
• 비즈니스 이해
• 이상 현상 및 변화 탐색
수정
(Modify)
• 분석용 데이터 변화
• 데이터 표현 극대화(시각화)
• 파생 변수 생성, 선택, 변형
모델링
(Model)
• 분석 모델 구축
• 패턴 발견
• 모델링과 알고리즘의 적용
평가
(Assess)
• 모델 평가 및 검증
• 서로 다른 모델 동시 비교
• Next step 결정

 

 

4. 빅데이터 분석 방법론

 

🔷빅데이터 분석 방법론 개요

 

분석 기획
(Planning)
• 비즈니스 이해 및 범위 설정
• 프로젝트 정의 및 계획 수립
• 프로젝트 위험 계획 수립
데이터 준비
(Preparing)
• 필요 데이터 정의
• 데이터 스토어 설계
• 데이터 수집 및 정합성 검정
데이터 분석
(Analyzing)
• 분석용 데이터 준비
• 텍스트 분석
• 탐색적 분석
• 모델링
• 모델 평가 및 검증
• 모델 적용 및 운영 방안 수립
시스템 구현
(Developing)
• 설계 및 구현
• 시스템 테스트 및 운영
평가및 전개
(Deploying)
• 모델 발전계획 수립
• 프로젝트 평가 및 보고

 

 

 

(●'◡'●)

위험 대응 계획 수립

'회피, 전이, 완화, 수용'

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서