3. 전통적인 분석 방법론 두 가지
🔷KDD 분석 방법론
- KDD(Knowledge Discovery in Database)는 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스
- 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에 응용 가능
- 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시
[1단계] 데이터셋 선택 |
• 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수 • 분석에 필요한 데이터를 선택 → 타깃 데이터(target data) 생성 |
[2단계] 데이터 전처리 |
• 잡읍, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공 • 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행 |
[3단계] 데이터 변환 |
• 변수를 생성/선택하고 데이터의 차원을 축소 • 학습용 데이터(traning data set)와 검증용 데이터(test data set)를 분리 |
[4단계] 데이터 마이닝 |
• 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용 • 필요에 따라 전처리와 변환 프로세스도 추가 |
[5단계] 해석과 평가 |
• 분석 목적과의 일치성을 확인하고 평가 • 발견한 지식을 업무에 활용하기 위한 방안 마련 |
🔷CRISP-DM 분석 방법
- CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로서 4계층으로 구성된 데이터마이닝 프로세스
- 데이터 탐색과 이해 및 데이터를 통한 문제인식과 해결이 가능
- 비즈니스 요구사항에 맞게 데이터 마이닝을 반복적으로 수행할 수 있음
- 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행의 4개의 레벨과 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 구성되어 있다.
[1단계] 업무 이해 |
업무 목적 파악, 상황 파악, 데이터마이닝 목표설정, 프로젝트 계획 수립 |
[2단계] 데이터 이해 |
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
[3단계] 데이터 준비 |
분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅 |
[4단계] 모델링 |
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 |
[5단계] 평가 |
분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
[6단계] 전개 |
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
KDD와 CRISP-DM 비교
KDD 분석 방법론 | CRISP-DM 분석 방법론 |
업무 이해 (Business Understanding) | |
데이터 이해 (Data Understanding) | 데이터셋 선택 (Selection) |
데이터 전처리 (Preprocessing) | |
데이터 준비 (Data Preparation) | 데이터 변환 (Transformation) |
모델링 (Modeling) | 데이터 마이닝 (Data Mining) |
평가 (Evaluation) | 데이터 마이닝 결과 평가 (Interprtation/ Evalution) |
전개 (Deployment) |
🔷SEMMA 분석 방법론
- SEMMA (Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스
추출 (Sample) |
• 분석할 데이터 추출 • 모델을 평가하기 위한 데이터 준비 |
탐색 (Explore) |
• 분석용 데이터 탐색 • 데이터 오류 확인 • 비즈니스 이해 • 이상 현상 및 변화 탐색 |
수정 (Modify) |
• 분석용 데이터 변화 • 데이터 표현 극대화(시각화) • 파생 변수 생성, 선택, 변형 |
모델링 (Model) |
• 분석 모델 구축 • 패턴 발견 • 모델링과 알고리즘의 적용 |
평가 (Assess) |
• 모델 평가 및 검증 • 서로 다른 모델 동시 비교 • Next step 결정 |
4. 빅데이터 분석 방법론
🔷빅데이터 분석 방법론 개요
분석 기획 (Planning) |
• 비즈니스 이해 및 범위 설정 • 프로젝트 정의 및 계획 수립 • 프로젝트 위험 계획 수립 |
데이터 준비 (Preparing) |
• 필요 데이터 정의 • 데이터 스토어 설계 • 데이터 수집 및 정합성 검정 |
데이터 분석 (Analyzing) |
• 분석용 데이터 준비 • 텍스트 분석 • 탐색적 분석 • 모델링 • 모델 평가 및 검증 • 모델 적용 및 운영 방안 수립 |
시스템 구현 (Developing) |
• 설계 및 구현 • 시스템 테스트 및 운영 |
평가및 전개 (Deploying) |
• 모델 발전계획 수립 • 프로젝트 평가 및 보고 |
(●'◡'●)
위험 대응 계획 수립
'회피, 전이, 완화, 수용'
[참고 도서]
출처 :
이지패스 2024 ADsP 데이터분석 준전문가
2024 이기적 빅데이터분석기사 필기 기본서
'🍅ADsP > 2과목' 카테고리의 다른 글
[2과목] 02장 분석 마스터플랜 - (2) 분석 거버넌스 체계 수립 (0) | 2024.06.20 |
---|---|
[2과목] 02장 분석 마스터플랜 - (1) 마스터플랜 수립 (0) | 2024.06.20 |
[2과목] 01장 데이터 분석 기획의 이해 - (3) 분석 프로젝트 관리 방안 (0) | 2024.06.19 |
[2과목] 01장 데이터 분석 기획의 이해 - (2) 분석 과제 발굴 (0) | 2024.06.19 |
[2과목] 01장 데이터 분석 기획의 이해 - (1) 분석 기획과 방법론-1 (0) | 2024.06.18 |