1. 빅데이터 분석과 전략 인사이트

 

🔷빅데이터 열풍과 회의론

 

⚫ 빅데이터 열풍과 회의론

 

① 부정적 학습효과 :

과거의 IT솔루션 영역에서는 공포 마케팅이 잘 통해서 CRM같은 솔루션은 반드시 도입되어야 하는 것으로 강조

▶ 시스템을 구축하였으나 가치창출 할 줄 모름

 

 

② 과대포장 (Hype)

과대포장(하이프)은 빅데이터 기술과 솔루션에 대한 기대가 과장되어 실제 성과와의 괴리를 초래하는 현상

기존의 분석 성공사례를 빅데이터 분성 성공사례로 포장

 

 

 

⚫빅데이터 분석의 핵심은 'Big'이 아닌 '인사이트'

 

① '크기'가 아니라 '인사이트'

: 데이터로부터 어떤 시각과 인사이트(Insight : 통찰)를 얻을 수 있냐는 문제

데이터의 양 < 데이터의 가치

 

② 전략적 인사이트의 중요성

 

 

⚫ 일차원적 분석 vs. 전략 도출을 위한 가치 분석

산업 일차원적 분석 애플리케이선
금융 서비스 신용점수, 산정, 사기 탐지, 가격 책정, 프로그램 테리이딩, 클레임 분석, 고객 수익성 분석
에너지 트레이딩, 공급/수요 예측
병원 가격 책정, 고객 로열티, 수익 관리
정부 사기탐지, 사례관리, 범죄방지, 수익 최적화
소매업 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화
제조업 공급사실 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
운송업 일정 관리, 노선 배정, 수익 관리
헬스케어 약품 거래, 예비 진단, 질병 관리
커뮤니케이션 가격 계획 최적화, 고객 보유, 수요 예측, 생산 능력 계획, 네트워크 최적화, 고객 수익성 관리
서비스 콜센터 직원 관리, 서비스-수익 사슬 관리
온라인 웹 매트릭스, 사이트 설계, 고객 추천
모든 사업 성과 관리

 

 

전략 도출을 위한 가치 분석

♦️ 일차원적인 분석은 대부분 업계 내부의 문제에만 포커스, 주로 부서 단위로 관리 되기 때문에 비즈니스 성공에 핵심적인 역할은 기대하기 어려움

♦️ 일차원적 분석을 통해 점점 분석 경험을 늘려가고 작은 성공을 거두면 분석 활용 범위를 더 넓고 전력적으로 변화 시킴으로써 전략적 인사이트를 주는 가치 기반 분석 단계로 나아가야 함

♦️ 전략적 수준에서의 분석은 사업 성과를 견인하는 요소들과 차별화를 이룰 수 있는 기회에 대해 중요한 인사이트

→  이러한 전략적 인사이트 초점 → 해당 사업에 중요한 기회를 발굴, 주요 경영진 지원을 얻어냄 → 강력한 모멘텀을 만들어 냄

 

2. 전략 인사이트 도출을 위해 필요한 역량

 

🔷데이터 사이언스에 대한 이해와 역할

⚫ 데이터 사이언스에 대해 이해

  •  데이터로 부터 의미있는 정보를 추출해내는 학문
  •  통계학이 정형화된 실험데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형또는 비정형을 막론하고 다양한 유형에 데이터를 대상으로 함
  • 위키피디아에서는 데이터 사이언스를 '데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문'으로 정의
  • 과학과 인문학의 교차로

 

 

⚫ 데이터 사이언스에 대해 역할

  • 데이터 사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정 (데이터마이닝과 유사하지만 다름)
  • 총체적 접근법 사용. 전략적 통찰을 추구하고 비즈니스 핵심 이슈에 답하고, 사업 성과 견인 '소통'이 중요한 핵심 역량

 

 

 

🔷'데이터 사이언스' 와  '데이터 사이언티스트'

 

✔️데이터 사이언스 구성요소

  • Analytics : 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
  • IT(Data Managerment) : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨터
  • 비즈니스 분석 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등

✔️ 데이터 사이언스에게 요구되는 역량

♦️ 하드 스킬(Hard skill)

  • 빅데이터 이론 지식 (수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
  • 분석 기술 숙련

 

♦️ 소프트 스킬(Soft skill)

  • 통찰력 있는 분석 : 창의력 사고, 호기심, 논리적 비판
  • 설득력 있는 전달 : 스토리텔링, 시각화
  • 다분야 간 협력 : 커뮤니케이션

(●'◡'●)

가트너가 제시한 데이터 사이언티스트 요구 역량

데이터 관리 : 
분석 모델링 : 
비즈니스 분석 : 
소프트 스킬 : 
데이터에 대한 이해
분석론에 대한 지식
비즈니스 요소에 초점
커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정

 

 

 

 

 

 

3. 빅데이터 그리고 데이터 사이언스의 미래

🔷가치 패러다임의 변화

디지털화
(Digitalization)
➡️ 연결
(Connection)
➡️ 에이전시
(Agency)

 

 

♦️ 데이터화(datafication)의 대표적인 예) 사물인터넷

 

 

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서

2024 최단기 빅데이터 분석기사 필기: 이론편

 

 

1. 빅데이터의 가치와 영향

 

🔷빅데이터의 가치

 

⚫빅데이터 가치 산정이 어려운 이유

① 데이터 활용 방식 : 빅데이터의 재사용이나 재조합, 다목적용 데이터 등 어떻게 활용하는지 알 수 없게 되었기 때문에

② 가치 창출 방식 : 기존에 없던 새로운 가치를 창출함에 따라 그 가치를 산정하기 어려움

③ 분석 기술의 발전 : 기술 발전으로 가치있는 데이터와 없는데이터 경계 나누기 어려워짐

④ 데이터 수집 원가 : 데이터는 달성하려는 목적에 따라 수집하거나 가공하는 비용에 상황에 따라 달라질 수 있어 가치 측정 어려움

 

 

⚫빅데이터의 영향

기업 -  소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴

정부 -  사회 변화를 추정하여 관련 정보 추출

개인 -  빅데이터를 서비스 하는 기업이 많아지고 데이터 분석 비용은 지속적으로 하락하여 활용 용이

 

빅데이터 가치가 만들어내는 5가지 방식 (맥킨지 빅데이터 보고서)

  • 운영 효율성 향상
  • 신제품 개발 및 혁신
  • 고객 경험 향상
  • 예측 및 위험 관리
  • 마케팅 및 판매 전략 최적화

 

(●'◡'●)

빅데이터 경영혁신의 4단계

 

생산성 향상 → 발견에 의한 문제해결 → 의사결졍 향상 → 새로운 고객가치와 비즈니스 창출

 

 

🔷 빅데이터와 비즈니스 모델

 

❤️빅데이터 활용에 필요한 3요소❤️

- 데이터(자원)

- 기술

- 인력

 

 

자원 예) 빅데이터

기술 예) 빅데이터플랫폼, AI

인력 예) 알고리즈미스트, 데이터사이언티스트

 

❤️빅데이터 7가지 활용 기본 테크닉 ❤️

연관규칙학습 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법 ♦️ A를 구매한 사람이 B를 더 많이 사는가?
♦️  장바구나 분석
♦️ 상품추천
유형분석 문서를 분류하거나 조직을 그룹화할 때 사용 ♦️ 이것은 어떤 특성을 가진 집단에 속하는가?
유전 알고리즘 최적화가 필요한 문제를 생물진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법 ♦️ 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?
♦️ 응급실에서 의사를 어떻게 배치하는 것이 효율적인가?
기계학습
(머신러닝)
데이터로부터 학습한 알려진 특성을 활용하여 예측 ♦️ 시청기록을 바탕으로 어떤 영화를 가장 보고 싶어하는가?
회귀분석 독립변수가 종속변수에 미치는 영향을 분석할 때 사용 ♦️ 경력과 학력이 연봉에 미치는 영향은?
감정분석 특정 주제에 말을 하거나 글을 쓴 사람의 감정을 분석 ♦️ 새로운 할인 정책에 대한 고객의 평은 어떤가?
소셜네트위크 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용 ♦️ 이 사람은 어느 정도 영향력 있는 인플루언서인가?

 

 

 

(●'◡'●)

텍스트 마이닝 용어

스태밍(stamming)  : 단어의 어원 찾는 작업
코퍼스(Corpus) :  말뭉치, 단어 혹은 문장을 보유한 저장소
토큰화(Tokenization) :  단어들을 나누는 작업
임베딩(Embedding) : 토큰화가 수행된 다어 집합에 대해서 벡터로 변환 작업

 

 

소셜 네트워크 분석 요소

연결중심성
정점 중심성(Degree Centrality)
연결된 노드들의 수의 합
근접 중심성 노드 사이의 거리를 기반으로 측정한 척도
매개 중심성 노드가 다른 노드 간의 경로에 위치하는 빈도
아이겐벡터 중심성
고유벡터 중심성(Eigenvector Centrality)
네트워크 내의 노드와 다른 벡터의 중심성과 가중치를 활용하여 계산하는 방식으로, 연결된 노드들이 네트워크 내에서 얼마나 중요한지 파악하는 지표

 

 

🔷 빅데이터의 위기 요인과 통제 방안

위기요인 통제방안
① 사생활 침해 '동의'에서 '책임'으로
② 책임 원칙 훼손 결과 기반 책임 원칙 고수
③ 데이터 오용 알고리즘 접근 허용

,

 

 

(●'◡'●)

개인정보 비식별 기술

 

데이터 마스킹

가명처리

총계처리

데이터 삭제

데이터 범주화

 

 

미연방거래위원회(FTC)의 소비자 프라이버시 보호 3대 권고 사항

1. 기업은 상품 개발 단계에서 부터 프라이버시 보호 방안을 적용

2. 기업은 소비자에게 공유정보 선택 옵션을 제공

3. 소비자에게 수집된 정보 내용 공개 및 접근권 부여

 

 

 

 

 

 

 

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서

2024 최단기 빅데이터 분석기사 필기: 이론편

1. 빅데이터의 이해

 

🔷빅데이터의 정의

일반적 정의 큰 용량과 복잡성으로 기존 방법이나 도구로 수집, 저장, 분석 등이 어려운 정형 및 비정형 데이터
가트너(Gartner) 항샹된 시사점과 더 나은 의사결정을 위해 사용되는 비용 효율이 높고 혁신적이며 대용량,
고속 및 다양성의 특성을 가진 정보 자산을 말한다.
매킨지(McKinsey) 일반적으로 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
IDC 다양한 종류의 대규모 데이터에서 낮은 비용으로 가치를 추출하고, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍처
일본 노무라연구소 데이터와 데이터 처리, 저장 및 분석기술에 의미있는 정보 도출은 물론이고, 그에 필요한 인재나 조직까지도 넓은 의미의 빅데이터에 포함시킬 것을 제안
더그 래니(Doug Laney) 3V 데이터의 양(Volume), 데이터의 유형과 소스의 다양성(Variety), 속도(Velocity)가 급격히 증가하면서 나타나는 현상
마이어쇤베르크와 쿠키어 대용량 데이터를 활용해 작은 용량으로는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일
한국데이터산업진흥원 데이터에 대한 기존의 접근 방식으로는 얻을 수 없었던 통찰과 창출하는 모든 것

 

 

🔷빅데이터의 특징

 

더그래니의 3V

- Volume (양) : 데이터 양의 증가

- Variety (유형) : 데이터의 유형 증가

- Velocity (속도) : 데이터의 수집과 속도 증가

 

+ 2V

Value (가치) : 다른 데이터와 연계 시 가치가 배로 증대, 데이터 안에 숨겨진 가치 발굴이 중요

Veracity(정확성) : 빅데이터 기반의 예측 분석 결과에 대한 신뢰성이 중요

 

 

2. 빅데이터의 출현 배경

🔷빅데이터의 출현 배경

 

① 데이터의 양적 증가

② 산업계의 변화

③ 학계의 변화

④ 관련 기술의 발전

(●'◡'●)

클라우드 컴퓨팅

1. 많은 정보가 클라우드에 수집

2. 빅데이터 처리 비용 획기적으로 낮춤

빅데이터 분석에 경제성을 제공해준 대표적인 기술

 

 

🔷빅데이터의 기능과 변화

 

⚫ 빅데이터의 기대

" 산업혁명의 석탄 • 철 " 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 사회, 경제, 문화, 생활 전반에 혁명적인 결과를 가져올 것으로 기대
" 21세기 원유 " 원유처럼 각종 경제성장에 필요한 정보를 제공하여 산업 전반의 생산성 향상 및 새로운 범주의 산업을 만들어 낼 것으로 기대
" 렌즈 " 렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼 산업 발전에 큰 영향을 줄 것으로 기대
예) 구글 Ngram Viewer
" 플랫폼 " 플랫폼은 공동 활동의 목적으로 구축된 유무형의 구조물을 말한다.
플랫폼으로서 다양한 서드파티 비즈니스에 활용 될 것으로 기대
예) 페이스북, 카카오톡 등

 

 

⚫빅데이터가 만들어내는 변화

 

사전처리 사후처리
표본조사 전수조사
인과관계 상관관계

 

 

 

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서

2024 최단기 빅데이터 분석기사 필기: 이론편

1. 데이터베이스 개요

 

🔷데이터베이스 정의

– 다수의 컨텐츠를 정보 처리 및 체계적으로 수집 • 축적하여 활용할 수 있도록 정리한 정보 집합체

– 일정 구조에 맞게 조직화된 데이터의 집합

 

 

🔷데이터베이스 특징

 

⚫일반적인 특징

 

① 공용 데이터 (Integrated data) : 여러 사용자가 다른 목적으로 데이터 공동 이용

② 통합된 데이터 (Stored data) : 동일한 데이터 중복되어 있지 않음

③ 저장된 데이터 (Shared data) : 저장매체에 저장

④ 변화되는 데이터 (Operational data): 데이터는 현 시점 상태를 나타내며 지속적으로 갱신 (현재의 정확한 데이터 유지)

 

⚫다양한 측면 특성

데이터 베이스의 다양한 측면에서의 특성

정보의 축적 및 전달 측면 
( 유연성, 접근성, 관리 효율성)
기계 가독성 (Machine Readability) :
컴퓨터 시스템이 데이터를 이해하고 처리할 수 있도록 데이터가 형식화되고 구조화된 정도를 의미
검색 가능성 (Searchability) :
데이터베이스 내의 데이터를 효율적으로 검색하고 조회할 수 있는 능력을 의미
원격 조작성 (Remote Manageability) :
데이터베이스 시스템을 물리적으로 떨어진 위치에서 접근하고 관리할 수 있는 능력을 의미
정보이용 측면 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
정보관리 측면 일정한 구조에 따라 정리, 저장, 검색, 관리하여 방대한 정보 체계적으로 축적 및 갱신 용이
정보기술발전 측면 기술 발전 견인 가능
경제 산업적 측면 정보를 신속하게 제공 및 이용 가능하여 경제,산업,사회 활동의 효율성, 편의성

 

 

⚫ 데이터베이스 트랜잭션 특성

1. 원자성 (Atomicity) : 트랜잭션이 모두 적용되거나 모두 적용되지 않아야 함

2. 일관성 (Consistency) : 트랜잭션 골과는 항상 일관성을 보여야 함

3. 고립성 (Isolation) : 하나의 트랜잭션이 다른 트랜잭션에 영향을 주면 안됨.

4. 지속성 (Durability) : 트랜잭션이 성공적으로 수행 된 경우 그 결과는 영구적이어야 함

 

2. 데이터베이스 활용

🔷 데이터베이스 활용

 

OLTP (OnLine Transaction Processing) 

: 데이터를 수시로 갱신 ( 데이터 처리가 주 목적 )  

OLAP (OnLine Analytical Processing) 

: 정보 위주의 분석 처리, 의사결정 활용할 수 있는 가치 창출 개념 BI와 같이 고차원 분석(대화식 분석)

CRM (Customer Relationship Management)

: 고객과 관련된 자료 분석

SCM (Supply Chain Management)

: 공급망 연결 최적화

ERP (Enterprise Resource Planning)

: 기업 경영자원 효율화

BI (Business Intelligence)

: 기업 보유데이터 정리 (데이터를 분석해 기업의 의사결정에 활용하는 일련의 프로세스)

BA (Business Analytics)

: 통계 기반 비즈니스 통찰력

KMS (Knowledge Management System)(유통분야) :  지식관리 시스템

: 기업의 모든 지식을 포함

CALS(Commerce At Light Speed)(물류분야) : 통합 물류 생산 시스템

GIS (Geographic Information System)(지리분야) : 지리 정보 시스템

LBS (Location Based Service)(지리분야) : 위치정보 시스템

ITS (Intelligent Transportation System)(지리분야) : 지능형 교통시스템

NEIS (National Education Information System) (교육분야) : 교육행정정보시스템

 

구분 OLTP OLAP
데이터구조 복잡 단순
데이터 갱신 순간적 주기적
응답 시간 수 초 이내 수 초에서 몇 분 사이
데이터 범위 수 십일 전후 오랜 기간 저장
데이터 성격 정규적인 핵심 데이터 비정규적 읽기 전용 데이터
데이터 크기 수 기가바이트 수 테라바이트
데이터 내용 현재 데이터 요약된 데이터
데이터 특성 현재 데이터 요약데이터
데이터 액세스 빈도 높음 보통
질의 결과 예측 주기적이며 예측 가능 예측하기 어려움
사용빈도 높음 보통
업무 형태 정적 동적
사용자 단순 사용자 전문가

 

⚫ 부문별 사회 기반 구조 데이터베이스

물류 부문 - 실시간 차량 추적
- CVO서비스, EDI 서비스, 물류정보 DB서비스, 부가서비스로 구성
- CALS(Commerce At Light Speed) : 제품의 설계 • 개발 • 생산에서 유통 • 폐기에 이르기까지 제품의 라이프사이클에 전반에 관련된 데이터를 통합하고 공유 • 교환할 수 있게 한 경영통합정보시스템
- PORT-MIS : 항만 운영정보시스템

- KROIS : 철도운영정보시스템
지리 부문 GIS (Geographic Information System) : 지리정보시스템
LBS (Location-Based Service) : 위치정보서비스
SIM(Spatial Information Management) : 공간정보시스템
교통 부문 ITS : 지능형교통정보시스템
의료 부문 PACS(Picture Archiving and Communications System)
U-Health(Ubiquitous-Health)
교육 부문 NEIS : 교육행정정보시스템

 

 

🔷데이터베이스 종류

RDB (Relation Database ): 데이터를 테이블의 구조화된 형식으로 저장하고 관리하는 데이터베이스 모델입니다. 각 테이블은 행과 열로 구성되며, 각 열은 데이터 필드, 행은 하나의 데이터 레코드를 나타냅니다.

 

예: MySQL, PostgreSQL, Oracle, SQL Server, MariaDB, Derby, SQLite(오픈소스)

 

 

NoSQL : NoSQL 데이터베이스는 스키마가 없는 비구조화된 데이터나 다양한 데이터 모델을 지원하는 데이터베이스로, 다양한 형태의 데이터를 효율적으로 저장하고 처리할 수 있습니다.

키-값 저장구조 DynamoDB(아마존)
Redis
열 기반 저장구조 Bigtable(구글)
Cassandra(아파치)
Hbase (아파치)
HyperTable
문서 저장 구조 SimpleDB(아마존)
CouchDB(아파치)
MongoDB

 

(●'◡'●)

Hbase : 하둡 파일 시스템위에 설치되며, 읽기와 수정은 즉시 실행된다. 맵 리듀스 연산은 일괄 처리하는 방식을 지원

맵 리듀스 연산 과정

Input - Splitting - Mapping - Shuffling - Reducing - Final Result

입력-나누기-빈도계산-모으기-합치기-확률계산

종류 설명
관계형 DBMS 테이블, 레코드 및 필드로 구성(표로 구성)
ex) Oracle, MySQL, MARIA DB
객체지향 DBMS 정보를 객체형태로 정리
네트워크 DBMS 계층형 트리가 확장되어 망 형태로 구성된 그물 관계DBMS (그래프 구조)
계층형 DBMS 트리 구조를 기반으로 하는 모델. 부모/자식 노드를 가짐
분산형 DBMS 반산된 여러개의 데이터베이스를 하나의 데이터베이스로 인식하고 사용할 수 있음
NoSQL DBMS 비정형 데이터를 저장하고 처리
ex) Hbase, Mongo DB, Dynamo DB, Cassandra

 

⚫SQL의 이해

 

데이터 정의어 (DDL) : CREATE, ALTER, DROP, TRUNCATE, RENAME

데이터 조작어 (DML) : SELECT, INSERT, DELETE, UPDATE

데이터 제어어 (DCL) : GRANT, REVOKE

트랜잭션 제어어(TCL) : COMMIT, ROLLBACK, SAVEPOINT

 

 

⚫ 데이터마트(DM) 와 데이터웨어하우스(DW)

데이터마트와 데이터웨어하우스는 모두 데이터 관리와 분석을 위한 인프라로 사용되며, 데이터의 수집, 저장, 분석을 지원하는 역할을 합니다. 그러나 두 시스템의 목적, 용도, 규모 등 여러 가지 측면에서 차이가 있습니다.

 

데이터웨어하우스 (Data Warehouse)

  • 특징: 데이터웨어하우스는 기업 전체의 다양한 원본 시스템 및 데이터를 통합하여 저장하는 대규모 데이터 저장소입니다. 기업 전반의 데이터를 통합하여 분석 및 의사결정을 지원하는 것이 주된 목적입니다.
  • 용도: 데이터 분석, 비즈니스 인텔리전스, 보고서 작성 등의 용도로 사용됩니다.
  • 규모: 규모가 매우 크며, 방대한 양의 데이터를 통합하고 처리할 수 있는 시스템입니다.
  • 특징: 통합된 정보의 저장, 역사 데이터의 유지, 장기적인 데이터 분석 지원을 위한 설계가 이루어집니다.

데이터마트 (Data Mart)

  • 특징: 데이터마트는 데이터웨어하우스에서 추출된 특정 분야나 부서에 필요한 데이터를 집중적으로 저장하는 데이터 저장소입니다. 일반적으로 특정 비즈니스 영역이나 기능을 지원하기 위해 설계됩니다.
  • 용도: 특정 부서나 비즈니스 영역에서 필요한 데이터 분석 및 보고에 집중하며, 종종 데이터웨어하우스에서 파생된 부분집합을 사용합니다.
  • 규모: 데이터웨어하우스보다는 규모가 작으며, 특정 부서나 비즈니스 영역을 위한 데이터 저장소로 구성됩니다.
  • 특징: 특정 비즈니스 영역의 데이터에 특화된 분석 및 보고를 지원하며, 빠른 의사결정을 지원합니다.

 

차이점

  • 규모:
    • 데이터웨어하우스는 기업 전체의 데이터를 통합하고 관리하는 대규모 시스템이며,
    • 데이터마트는 특정 부서나 비즈니스 영역에 초점을 둔 작은 규모의 데이터 저장소입니다.
  • 목적:
    • 1. 데이터웨어하우스는 전체 기업의 장기적인 데이터 분석 및 의사결정을 지원하는 역할을 하며,
    • 2. 데이터마트는 특정 부서나 비즈니스 영역의 단기적인 의사결정과 분석에 중점을 둡니다.
  • 데이터 추출: 데이터웨어하우스에서 데이터마트는 데이터웨어하우스에서 추출된 데이터를 활용하여 데이터를 최종적으로 정제하고 구조화합니다.

 

 

 

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서

2024 최단기 빅데이터 분석기사 필기: 이론편

1. 데이터의 정의

 

🔷 데이터의 정의

데이터(Data) : 가공되지 않은 객관적 사실

 

🔷데이터의 특성

존재적 특성 있는 그대로의 객관적 사실
당위적 특성 추론 • 예측 • 전망 • 추정을 위한 근거

 

🔷데이터의 유형

 

①정성적 데이터 : 수치가 아닌, 텍스트나 추상적 묘사로 이루어진 데이터

ex) 비정형 데이터, 텍스트 파일, 문장, 서술형

②정량적 데이터 : 수치로 이루어진 데이터. (계량적 데이터)

ex) 정형 데이터, 반정형 데이터, 엑셀 시트, 데이터베이스, 통계치

 

① 정형 데이터 
(Structured) 
정해진 구조로 고정된 필드에 저장된 데이터. 연산 활용도가 높다.  관계형DB, 엑셀, 스프레드시트, CSV, RDB
② 비정형 데이터 
(Unstructured)
형식이 정해지지 않은 대부분의 데이터. 연산이 어렵다. SNS, 음원, 문서
③ 반정형 데이터 
(Semi - structured)
데이터의 형식과 구조가 유연하고, 연산이 불가능한 파일 형식의 데이터, 데이터를 설명하는 스키마 정보 (메타데이터)를 함께 포함  로그, HTML, XML, JSON, RDF

 

 

⚫암묵지와 형식지

① 암묵지 : 개인에게 습득된 ‘무형의 지식’ 전달 공유 어려움

② 형식지 : 문서, 매뉴얼 등의 형상화된 지식

 

⚫지식 창조 매커니즘

① 공동화 (Socialization) : 암묵지 지식을 다른 사람에게 알려줌 (서로 지식 공유하며 암묵지 발전)

② 표출화 (Externalization) : 암묵지가 문서등 구체화되어 외부(형식지)로 표출화(실체화) 된다.

③ 연결화 (Combination) : 형식지들 간에 구조가 연결, 체계화 정리 (매뉴얼에 새로운 지식 추가)

④ 내면화 (Internalization) : 체계화된 형식지를 학습하여 다시 암묵지로 습득

2. 데이터와 정보

 

🔷DIKW피라미드

지혜
Wisdom
창의적인 산물
ex) A마트는 다른 상품도 B마트보다 저렴할 것이다.





지식
Knowledge
패턴을 통해 예측
ex) 생선을 사려면 A마트에서 사는것이 더 좋다.
정보
Information
Data를 통해 패턴 인식
ex) A마트 생선이 더 저렴하다.
데이터
Data
있는 그대로의 사실
ex) A마트 생선이 6000원, B마트 생선이 10000원

 

 

🔷데이터 상식

비트(bit) : "binary digit"의 약자로, 0 또는 1 두 가지 상태 중 하나를 표현할 수 있는 가장 작은 단위의 데이터

바이트(byte) : 바이트는 8비트로 구성된 데이터 단위입니다. 하나의 바이트는 256가지(2^8)의 서로 다른 값을 표현,

숫자 및 영어의 한 글자 : 1바이트 / 한글의 한 글자 : 2바이트

 

 

⚫데이터의 크기

데이터 크기를 표현할 때, SI 접두어전통적 용법, 이진 접두어를 사용하여 표현할 수 있습니다.

SI 접두어는 10의 거듭제곱을 기준으로 하고,

전통적 용법과 이진 접두어는 2의 거듭제곱을 기준으로 합니다.

 

SI 접두어

  • 1 키로바이트 (kB) = 10^3 바이트 = 1,000 바이트
  • 1 메가바이트 (MB) = 10^6 바이트 = 1,000,000 바이트
  • 1 기가바이트 (GB) = 10^9 바이트 = 1,000,000,000 바이트
  • 1 테라바이트 (TB) = 10^12 바이트 = 1,000,000,000,000 바이트
  • 1 페타바이트 (PB) = 10^15 바이트 = 1,000,000,000,000,000 바이트
  • 1 엑사바이트 (EB) = 10^18 바이트 = 1,000,000,000,000,000,000 바이트
  • 1 제타바이트 (ZB) = 10^21 바이트 = 1,000,000,000,000,000,000,000 바이트
  • 1 요타바이트 (YB) = 10^24 바이트 = 1,000,000,000,000,000,000,000,000 바이트
  • SI 접두어는 10의 거듭제곱을 기준으로 한 단위입니다. 주로 전기통신 및 네트워크 속도와 같은 분야에서 사용됩니다.

전통적 용법

전통적 용법은 2의 거듭제곱을 기준으로 한 단위입니다. 컴퓨터 메모리와 저장 장치 용량을 표현할 때 흔히 사용됩니다.

  • 1 킬로바이트 (KB) = 2^10 바이트 = 1,024 바이트
  • 1 메가바이트 (MB) = 2^20 바이트 = 1,048,576 바이트
  • 1 기가바이트 (GB) = 2^30 바이트 = 1,073,741,824 바이트
  • 1 테라바이트 (TB) = 2^40 바이트 = 1,099,511,627,776 바이트
  • 1 페타바이트 (PB) = 2^50 바이트 = 1,125,899,906,842,624 바이트
  • 1 엑사바이트 (EB) = 2^60 바이트 = 1,152,921,504,606,846,976 바이트
  • 1 제타바이트 (ZB) = 2^70 바이트 = 1,180,591,620,717,411,303,424 바이트
  • 1 요타바이트 (YB) = 2^80 바이트 = 1,208,925,819,614,629,174,706,176 바이트

이진 접두어

이진 접두어는 전통적 용법의 혼란을 줄이기 위해 국제 전기기술위원회(IEC)에서 정의한 단위로, 정확히 2의 거듭제곱을 기준으로 합니다.

  • 1 키비바이트 (KiB) = 2^10 바이트 = 1,024 바이트
  • 1 메비바이트 (MiB) = 2^20 바이트 = 1,048,576 바이트
  • 1 기비바이트 (GiB) = 2^30 바이트 = 1,073,741,824 바이트
  • 1 테비바이트 (TiB) = 2^40 바이트 = 1,099,511,627,776 바이트
  • 1 페비바이트 (PiB) = 2^50 바이트 = 1,125,899,906,842,624 바이트
  • 1 엑스비바이트 (EiB) = 2^60 바이트 = 1,152,921,504,606,846,976 바이트
  • 1 제비바이트 (ZiB) = 2^70 바이트 = 1,180,591,620,717,411,303,424 바이트
  • 1 요비바이트 (YiB) = 2^80 바이트 = 1,208,925,819,614,629,174,706,176 바이트

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서

2024 최단기 빅데이터 분석기사 필기: 이론편