1. 데이터베이스 개요

 

🔷데이터베이스 정의

– 다수의 컨텐츠를 정보 처리 및 체계적으로 수집 • 축적하여 활용할 수 있도록 정리한 정보 집합체

– 일정 구조에 맞게 조직화된 데이터의 집합

 

 

🔷데이터베이스 특징

 

⚫일반적인 특징

 

① 공용 데이터 (Integrated data) : 여러 사용자가 다른 목적으로 데이터 공동 이용

② 통합된 데이터 (Stored data) : 동일한 데이터 중복되어 있지 않음

③ 저장된 데이터 (Shared data) : 저장매체에 저장

④ 변화되는 데이터 (Operational data): 데이터는 현 시점 상태를 나타내며 지속적으로 갱신 (현재의 정확한 데이터 유지)

 

⚫다양한 측면 특성

데이터 베이스의 다양한 측면에서의 특성

정보의 축적 및 전달 측면 
( 유연성, 접근성, 관리 효율성)
기계 가독성 (Machine Readability) :
컴퓨터 시스템이 데이터를 이해하고 처리할 수 있도록 데이터가 형식화되고 구조화된 정도를 의미
검색 가능성 (Searchability) :
데이터베이스 내의 데이터를 효율적으로 검색하고 조회할 수 있는 능력을 의미
원격 조작성 (Remote Manageability) :
데이터베이스 시스템을 물리적으로 떨어진 위치에서 접근하고 관리할 수 있는 능력을 의미
정보이용 측면 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
정보관리 측면 일정한 구조에 따라 정리, 저장, 검색, 관리하여 방대한 정보 체계적으로 축적 및 갱신 용이
정보기술발전 측면 기술 발전 견인 가능
경제 산업적 측면 정보를 신속하게 제공 및 이용 가능하여 경제,산업,사회 활동의 효율성, 편의성

 

 

⚫ 데이터베이스 트랜잭션 특성

1. 원자성 (Atomicity) : 트랜잭션이 모두 적용되거나 모두 적용되지 않아야 함

2. 일관성 (Consistency) : 트랜잭션 골과는 항상 일관성을 보여야 함

3. 고립성 (Isolation) : 하나의 트랜잭션이 다른 트랜잭션에 영향을 주면 안됨.

4. 지속성 (Durability) : 트랜잭션이 성공적으로 수행 된 경우 그 결과는 영구적이어야 함

 

2. 데이터베이스 활용

🔷 데이터베이스 활용

 

OLTP (OnLine Transaction Processing) 

: 데이터를 수시로 갱신 ( 데이터 처리가 주 목적 )  

OLAP (OnLine Analytical Processing) 

: 정보 위주의 분석 처리, 의사결정 활용할 수 있는 가치 창출 개념 BI와 같이 고차원 분석(대화식 분석)

CRM (Customer Relationship Management)

: 고객과 관련된 자료 분석

SCM (Supply Chain Management)

: 공급망 연결 최적화

ERP (Enterprise Resource Planning)

: 기업 경영자원 효율화

BI (Business Intelligence)

: 기업 보유데이터 정리 (데이터를 분석해 기업의 의사결정에 활용하는 일련의 프로세스)

BA (Business Analytics)

: 통계 기반 비즈니스 통찰력

KMS (Knowledge Management System)(유통분야) :  지식관리 시스템

: 기업의 모든 지식을 포함

CALS(Commerce At Light Speed)(물류분야) : 통합 물류 생산 시스템

GIS (Geographic Information System)(지리분야) : 지리 정보 시스템

LBS (Location Based Service)(지리분야) : 위치정보 시스템

ITS (Intelligent Transportation System)(지리분야) : 지능형 교통시스템

NEIS (National Education Information System) (교육분야) : 교육행정정보시스템

 

구분 OLTP OLAP
데이터구조 복잡 단순
데이터 갱신 순간적 주기적
응답 시간 수 초 이내 수 초에서 몇 분 사이
데이터 범위 수 십일 전후 오랜 기간 저장
데이터 성격 정규적인 핵심 데이터 비정규적 읽기 전용 데이터
데이터 크기 수 기가바이트 수 테라바이트
데이터 내용 현재 데이터 요약된 데이터
데이터 특성 현재 데이터 요약데이터
데이터 액세스 빈도 높음 보통
질의 결과 예측 주기적이며 예측 가능 예측하기 어려움
사용빈도 높음 보통
업무 형태 정적 동적
사용자 단순 사용자 전문가

 

⚫ 부문별 사회 기반 구조 데이터베이스

물류 부문 - 실시간 차량 추적
- CVO서비스, EDI 서비스, 물류정보 DB서비스, 부가서비스로 구성
- CALS(Commerce At Light Speed) : 제품의 설계 • 개발 • 생산에서 유통 • 폐기에 이르기까지 제품의 라이프사이클에 전반에 관련된 데이터를 통합하고 공유 • 교환할 수 있게 한 경영통합정보시스템
- PORT-MIS : 항만 운영정보시스템

- KROIS : 철도운영정보시스템
지리 부문 GIS (Geographic Information System) : 지리정보시스템
LBS (Location-Based Service) : 위치정보서비스
SIM(Spatial Information Management) : 공간정보시스템
교통 부문 ITS : 지능형교통정보시스템
의료 부문 PACS(Picture Archiving and Communications System)
U-Health(Ubiquitous-Health)
교육 부문 NEIS : 교육행정정보시스템

 

 

🔷데이터베이스 종류

RDB (Relation Database ): 데이터를 테이블의 구조화된 형식으로 저장하고 관리하는 데이터베이스 모델입니다. 각 테이블은 행과 열로 구성되며, 각 열은 데이터 필드, 행은 하나의 데이터 레코드를 나타냅니다.

 

예: MySQL, PostgreSQL, Oracle, SQL Server, MariaDB, Derby, SQLite(오픈소스)

 

 

NoSQL : NoSQL 데이터베이스는 스키마가 없는 비구조화된 데이터나 다양한 데이터 모델을 지원하는 데이터베이스로, 다양한 형태의 데이터를 효율적으로 저장하고 처리할 수 있습니다.

키-값 저장구조 DynamoDB(아마존)
Redis
열 기반 저장구조 Bigtable(구글)
Cassandra(아파치)
Hbase (아파치)
HyperTable
문서 저장 구조 SimpleDB(아마존)
CouchDB(아파치)
MongoDB

 

(●'◡'●)

Hbase : 하둡 파일 시스템위에 설치되며, 읽기와 수정은 즉시 실행된다. 맵 리듀스 연산은 일괄 처리하는 방식을 지원

맵 리듀스 연산 과정

Input - Splitting - Mapping - Shuffling - Reducing - Final Result

입력-나누기-빈도계산-모으기-합치기-확률계산

종류 설명
관계형 DBMS 테이블, 레코드 및 필드로 구성(표로 구성)
ex) Oracle, MySQL, MARIA DB
객체지향 DBMS 정보를 객체형태로 정리
네트워크 DBMS 계층형 트리가 확장되어 망 형태로 구성된 그물 관계DBMS (그래프 구조)
계층형 DBMS 트리 구조를 기반으로 하는 모델. 부모/자식 노드를 가짐
분산형 DBMS 반산된 여러개의 데이터베이스를 하나의 데이터베이스로 인식하고 사용할 수 있음
NoSQL DBMS 비정형 데이터를 저장하고 처리
ex) Hbase, Mongo DB, Dynamo DB, Cassandra

 

⚫SQL의 이해

 

데이터 정의어 (DDL) : CREATE, ALTER, DROP, TRUNCATE, RENAME

데이터 조작어 (DML) : SELECT, INSERT, DELETE, UPDATE

데이터 제어어 (DCL) : GRANT, REVOKE

트랜잭션 제어어(TCL) : COMMIT, ROLLBACK, SAVEPOINT

 

 

⚫ 데이터마트(DM) 와 데이터웨어하우스(DW)

데이터마트와 데이터웨어하우스는 모두 데이터 관리와 분석을 위한 인프라로 사용되며, 데이터의 수집, 저장, 분석을 지원하는 역할을 합니다. 그러나 두 시스템의 목적, 용도, 규모 등 여러 가지 측면에서 차이가 있습니다.

 

데이터웨어하우스 (Data Warehouse)

  • 특징: 데이터웨어하우스는 기업 전체의 다양한 원본 시스템 및 데이터를 통합하여 저장하는 대규모 데이터 저장소입니다. 기업 전반의 데이터를 통합하여 분석 및 의사결정을 지원하는 것이 주된 목적입니다.
  • 용도: 데이터 분석, 비즈니스 인텔리전스, 보고서 작성 등의 용도로 사용됩니다.
  • 규모: 규모가 매우 크며, 방대한 양의 데이터를 통합하고 처리할 수 있는 시스템입니다.
  • 특징: 통합된 정보의 저장, 역사 데이터의 유지, 장기적인 데이터 분석 지원을 위한 설계가 이루어집니다.

데이터마트 (Data Mart)

  • 특징: 데이터마트는 데이터웨어하우스에서 추출된 특정 분야나 부서에 필요한 데이터를 집중적으로 저장하는 데이터 저장소입니다. 일반적으로 특정 비즈니스 영역이나 기능을 지원하기 위해 설계됩니다.
  • 용도: 특정 부서나 비즈니스 영역에서 필요한 데이터 분석 및 보고에 집중하며, 종종 데이터웨어하우스에서 파생된 부분집합을 사용합니다.
  • 규모: 데이터웨어하우스보다는 규모가 작으며, 특정 부서나 비즈니스 영역을 위한 데이터 저장소로 구성됩니다.
  • 특징: 특정 비즈니스 영역의 데이터에 특화된 분석 및 보고를 지원하며, 빠른 의사결정을 지원합니다.

 

차이점

  • 규모:
    • 데이터웨어하우스는 기업 전체의 데이터를 통합하고 관리하는 대규모 시스템이며,
    • 데이터마트는 특정 부서나 비즈니스 영역에 초점을 둔 작은 규모의 데이터 저장소입니다.
  • 목적:
    • 1. 데이터웨어하우스는 전체 기업의 장기적인 데이터 분석 및 의사결정을 지원하는 역할을 하며,
    • 2. 데이터마트는 특정 부서나 비즈니스 영역의 단기적인 의사결정과 분석에 중점을 둡니다.
  • 데이터 추출: 데이터웨어하우스에서 데이터마트는 데이터웨어하우스에서 추출된 데이터를 활용하여 데이터를 최종적으로 정제하고 구조화합니다.

 

 

 

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서

2024 최단기 빅데이터 분석기사 필기: 이론편