1. 데이터베이스 개요
🔷데이터베이스 정의
– 다수의 컨텐츠를 정보 처리 및 체계적으로 수집 • 축적하여 활용할 수 있도록 정리한 정보 집합체
– 일정 구조에 맞게 조직화된 데이터의 집합
🔷데이터베이스 특징
⚫일반적인 특징
① 공용 데이터 (Integrated data) : 여러 사용자가 다른 목적으로 데이터 공동 이용
② 통합된 데이터 (Stored data) : 동일한 데이터 중복되어 있지 않음
③ 저장된 데이터 (Shared data) : 저장매체에 저장
④ 변화되는 데이터 (Operational data): 데이터는 현 시점 상태를 나타내며 지속적으로 갱신 (현재의 정확한 데이터 유지)
⚫다양한 측면 특성
데이터 베이스의 다양한 측면에서의 특성
정보의 축적 및 전달 측면 ( 유연성, 접근성, 관리 효율성) |
기계 가독성 (Machine Readability) : 컴퓨터 시스템이 데이터를 이해하고 처리할 수 있도록 데이터가 형식화되고 구조화된 정도를 의미 |
검색 가능성 (Searchability) : 데이터베이스 내의 데이터를 효율적으로 검색하고 조회할 수 있는 능력을 의미 |
|
원격 조작성 (Remote Manageability) : 데이터베이스 시스템을 물리적으로 떨어진 위치에서 접근하고 관리할 수 있는 능력을 의미 |
|
정보이용 측면 | 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다. |
정보관리 측면 | 일정한 구조에 따라 정리, 저장, 검색, 관리하여 방대한 정보 체계적으로 축적 및 갱신 용이 |
정보기술발전 측면 | 기술 발전 견인 가능 |
경제 산업적 측면 | 정보를 신속하게 제공 및 이용 가능하여 경제,산업,사회 활동의 효율성, 편의성 |
⚫ 데이터베이스 트랜잭션 특성
1. 원자성 (Atomicity) : 트랜잭션이 모두 적용되거나 모두 적용되지 않아야 함
2. 일관성 (Consistency) : 트랜잭션 골과는 항상 일관성을 보여야 함
3. 고립성 (Isolation) : 하나의 트랜잭션이 다른 트랜잭션에 영향을 주면 안됨.
4. 지속성 (Durability) : 트랜잭션이 성공적으로 수행 된 경우 그 결과는 영구적이어야 함
2. 데이터베이스 활용
🔷 데이터베이스 활용
① OLTP (OnLine Transaction Processing)
: 데이터를 수시로 갱신 ( 데이터 처리가 주 목적 )
② OLAP (OnLine Analytical Processing)
: 정보 위주의 분석 처리, 의사결정 활용할 수 있는 가치 창출 개념 BI와 같이 고차원 분석(대화식 분석)
③ CRM (Customer Relationship Management)
: 고객과 관련된 자료 분석
④ SCM (Supply Chain Management)
: 공급망 연결 최적화
⑤ ERP (Enterprise Resource Planning)
: 기업 경영자원 효율화
⑥ BI (Business Intelligence)
: 기업 보유데이터 정리 (데이터를 분석해 기업의 의사결정에 활용하는 일련의 프로세스)
⑦ BA (Business Analytics)
: 통계 기반 비즈니스 통찰력
⑧ KMS (Knowledge Management System) – (유통분야) : 지식관리 시스템
: 기업의 모든 지식을 포함
⑨ CALS(Commerce At Light Speed) – (물류분야) : 통합 물류 생산 시스템
⑩ GIS (Geographic Information System) –(지리분야) : 지리 정보 시스템
⑪ LBS (Location Based Service) – (지리분야) : 위치정보 시스템
⑫ ITS (Intelligent Transportation System) – (지리분야) : 지능형 교통시스템
⑬ NEIS (National Education Information System) – (교육분야) : 교육행정정보시스템
구분 | OLTP | OLAP |
데이터구조 | 복잡 | 단순 |
데이터 갱신 | 순간적 | 주기적 |
응답 시간 | 수 초 이내 | 수 초에서 몇 분 사이 |
데이터 범위 | 수 십일 전후 | 오랜 기간 저장 |
데이터 성격 | 정규적인 핵심 데이터 | 비정규적 읽기 전용 데이터 |
데이터 크기 | 수 기가바이트 | 수 테라바이트 |
데이터 내용 | 현재 데이터 | 요약된 데이터 |
데이터 특성 | 현재 데이터 | 요약데이터 |
데이터 액세스 빈도 | 높음 | 보통 |
질의 결과 예측 | 주기적이며 예측 가능 | 예측하기 어려움 |
사용빈도 | 높음 | 보통 |
업무 형태 | 정적 | 동적 |
사용자 | 단순 사용자 | 전문가 |
⚫ 부문별 사회 기반 구조 데이터베이스
물류 부문 | - 실시간 차량 추적 - CVO서비스, EDI 서비스, 물류정보 DB서비스, 부가서비스로 구성 - CALS(Commerce At Light Speed) : 제품의 설계 • 개발 • 생산에서 유통 • 폐기에 이르기까지 제품의 라이프사이클에 전반에 관련된 데이터를 통합하고 공유 • 교환할 수 있게 한 경영통합정보시스템 - PORT-MIS : 항만 운영정보시스템 - KROIS : 철도운영정보시스템 |
지리 부문 | GIS (Geographic Information System) : 지리정보시스템 LBS (Location-Based Service) : 위치정보서비스 SIM(Spatial Information Management) : 공간정보시스템 |
교통 부문 | ITS : 지능형교통정보시스템 |
의료 부문 | PACS(Picture Archiving and Communications System) U-Health(Ubiquitous-Health) |
교육 부문 | NEIS : 교육행정정보시스템 |
🔷데이터베이스 종류
RDB (Relation Database ): 데이터를 테이블의 구조화된 형식으로 저장하고 관리하는 데이터베이스 모델입니다. 각 테이블은 행과 열로 구성되며, 각 열은 데이터 필드, 행은 하나의 데이터 레코드를 나타냅니다.
예: MySQL, PostgreSQL, Oracle, SQL Server, MariaDB, Derby, SQLite(오픈소스)
NoSQL : NoSQL 데이터베이스는 스키마가 없는 비구조화된 데이터나 다양한 데이터 모델을 지원하는 데이터베이스로, 다양한 형태의 데이터를 효율적으로 저장하고 처리할 수 있습니다.
키-값 저장구조 | DynamoDB(아마존) Redis |
열 기반 저장구조 | Bigtable(구글) Cassandra(아파치) Hbase (아파치) HyperTable |
문서 저장 구조 | SimpleDB(아마존) CouchDB(아파치) MongoDB |
(●'◡'●)
Hbase : 하둡 파일 시스템위에 설치되며, 읽기와 수정은 즉시 실행된다. 맵 리듀스 연산은 일괄 처리하는 방식을 지원
맵 리듀스 연산 과정
Input - Splitting - Mapping - Shuffling - Reducing - Final Result
입력-나누기-빈도계산-모으기-합치기-확률계산
종류 | 설명 |
관계형 DBMS | 테이블, 레코드 및 필드로 구성(표로 구성) ex) Oracle, MySQL, MARIA DB |
객체지향 DBMS | 정보를 객체형태로 정리 |
네트워크 DBMS | 계층형 트리가 확장되어 망 형태로 구성된 그물 관계DBMS (그래프 구조) |
계층형 DBMS | 트리 구조를 기반으로 하는 모델. 부모/자식 노드를 가짐 |
분산형 DBMS | 반산된 여러개의 데이터베이스를 하나의 데이터베이스로 인식하고 사용할 수 있음 |
NoSQL DBMS | 비정형 데이터를 저장하고 처리 ex) Hbase, Mongo DB, Dynamo DB, Cassandra |
⚫SQL의 이해
데이터 정의어 (DDL) : CREATE, ALTER, DROP, TRUNCATE, RENAME
데이터 조작어 (DML) : SELECT, INSERT, DELETE, UPDATE
데이터 제어어 (DCL) : GRANT, REVOKE
트랜잭션 제어어(TCL) : COMMIT, ROLLBACK, SAVEPOINT
⚫ 데이터마트(DM) 와 데이터웨어하우스(DW)
데이터마트와 데이터웨어하우스는 모두 데이터 관리와 분석을 위한 인프라로 사용되며, 데이터의 수집, 저장, 분석을 지원하는 역할을 합니다. 그러나 두 시스템의 목적, 용도, 규모 등 여러 가지 측면에서 차이가 있습니다.
데이터웨어하우스 (Data Warehouse)
- 특징: 데이터웨어하우스는 기업 전체의 다양한 원본 시스템 및 데이터를 통합하여 저장하는 대규모 데이터 저장소입니다. 기업 전반의 데이터를 통합하여 분석 및 의사결정을 지원하는 것이 주된 목적입니다.
- 용도: 데이터 분석, 비즈니스 인텔리전스, 보고서 작성 등의 용도로 사용됩니다.
- 규모: 규모가 매우 크며, 방대한 양의 데이터를 통합하고 처리할 수 있는 시스템입니다.
- 특징: 통합된 정보의 저장, 역사 데이터의 유지, 장기적인 데이터 분석 지원을 위한 설계가 이루어집니다.
데이터마트 (Data Mart)
- 특징: 데이터마트는 데이터웨어하우스에서 추출된 특정 분야나 부서에 필요한 데이터를 집중적으로 저장하는 데이터 저장소입니다. 일반적으로 특정 비즈니스 영역이나 기능을 지원하기 위해 설계됩니다.
- 용도: 특정 부서나 비즈니스 영역에서 필요한 데이터 분석 및 보고에 집중하며, 종종 데이터웨어하우스에서 파생된 부분집합을 사용합니다.
- 규모: 데이터웨어하우스보다는 규모가 작으며, 특정 부서나 비즈니스 영역을 위한 데이터 저장소로 구성됩니다.
- 특징: 특정 비즈니스 영역의 데이터에 특화된 분석 및 보고를 지원하며, 빠른 의사결정을 지원합니다.
차이점
- 규모:
- 데이터웨어하우스는 기업 전체의 데이터를 통합하고 관리하는 대규모 시스템이며,
- 데이터마트는 특정 부서나 비즈니스 영역에 초점을 둔 작은 규모의 데이터 저장소입니다.
- 목적:
- 1. 데이터웨어하우스는 전체 기업의 장기적인 데이터 분석 및 의사결정을 지원하는 역할을 하며,
- 2. 데이터마트는 특정 부서나 비즈니스 영역의 단기적인 의사결정과 분석에 중점을 둡니다.
- 데이터 추출: 데이터웨어하우스에서 데이터마트는 데이터웨어하우스에서 추출된 데이터를 활용하여 데이터를 최종적으로 정제하고 구조화합니다.
[참고 도서]
출처 :
이지패스 2024 ADsP 데이터분석 준전문가
2024 이기적 빅데이터분석기사 필기 기본서
2024 최단기 빅데이터 분석기사 필기: 이론편
'🍅ADsP > 1과목' 카테고리의 다른 글
[1과목] 02장 데이터의 가치와 미래 - (3)가치창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2024.06.18 |
---|---|
[1과목] 02장 데이터의 가치와 미래 - (2)데이터의 가치와 미래 (0) | 2024.06.17 |
[1과목] 02장 데이터의 가치와 미래 - (1)빅데이터의 이해 (0) | 2024.06.17 |
[1과목] 01장 데이터의 이해 - (1) 데이터와 정보 (0) | 2024.06.17 |