1. 데이터의 정의
🔷 데이터의 정의
데이터(Data) : 가공되지 않은 객관적 사실
🔷데이터의 특성
존재적 특성 | 있는 그대로의 객관적 사실 |
당위적 특성 | 추론 • 예측 • 전망 • 추정을 위한 근거 |
🔷데이터의 유형
①정성적 데이터 : 수치가 아닌, 텍스트나 추상적 묘사로 이루어진 데이터
ex) 비정형 데이터, 텍스트 파일, 문장, 서술형
②정량적 데이터 : 수치로 이루어진 데이터. (계량적 데이터)
ex) 정형 데이터, 반정형 데이터, 엑셀 시트, 데이터베이스, 통계치
① 정형 데이터 (Structured) |
정해진 구조로 고정된 필드에 저장된 데이터. 연산 활용도가 높다. | 관계형DB, 엑셀, 스프레드시트, CSV, RDB |
② 비정형 데이터 (Unstructured) |
형식이 정해지지 않은 대부분의 데이터. 연산이 어렵다. | SNS, 음원, 문서 |
③ 반정형 데이터 (Semi - structured) |
데이터의 형식과 구조가 유연하고, 연산이 불가능한 파일 형식의 데이터, 데이터를 설명하는 스키마 정보 (메타데이터)를 함께 포함 | 로그, HTML, XML, JSON, RDF |
⚫암묵지와 형식지
① 암묵지 : 개인에게 습득된 ‘무형의 지식’ 전달 공유 어려움
② 형식지 : 문서, 매뉴얼 등의 형상화된 지식
⚫지식 창조 매커니즘
① 공동화 (Socialization) : 암묵지 지식을 다른 사람에게 알려줌 (서로 지식 공유하며 암묵지 발전)
② 표출화 (Externalization) : 암묵지가 문서등 구체화되어 외부(형식지)로 표출화(실체화) 된다.
③ 연결화 (Combination) : 형식지들 간에 구조가 연결, 체계화 정리 (매뉴얼에 새로운 지식 추가)
④ 내면화 (Internalization) : 체계화된 형식지를 학습하여 다시 암묵지로 습득
2. 데이터와 정보
🔷DIKW피라미드
지혜 Wisdom |
창의적인 산물 ex) A마트는 다른 상품도 B마트보다 저렴할 것이다. |
![]() |
지식 Knowledge |
패턴을 통해 예측 ex) 생선을 사려면 A마트에서 사는것이 더 좋다. |
|
정보 Information |
Data를 통해 패턴 인식 ex) A마트 생선이 더 저렴하다. |
|
데이터 Data |
있는 그대로의 사실 ex) A마트 생선이 6000원, B마트 생선이 10000원 |
🔷데이터 상식
비트(bit) : "binary digit"의 약자로, 0 또는 1 두 가지 상태 중 하나를 표현할 수 있는 가장 작은 단위의 데이터
바이트(byte) : 바이트는 8비트로 구성된 데이터 단위입니다. 하나의 바이트는 256가지(2^8)의 서로 다른 값을 표현,
숫자 및 영어의 한 글자 : 1바이트 / 한글의 한 글자 : 2바이트
⚫데이터의 크기
데이터 크기를 표현할 때, SI 접두어와 전통적 용법, 이진 접두어를 사용하여 표현할 수 있습니다.
SI 접두어는 10의 거듭제곱을 기준으로 하고,
전통적 용법과 이진 접두어는 2의 거듭제곱을 기준으로 합니다.
SI 접두어
- 1 키로바이트 (kB) = 10^3 바이트 = 1,000 바이트
- 1 메가바이트 (MB) = 10^6 바이트 = 1,000,000 바이트
- 1 기가바이트 (GB) = 10^9 바이트 = 1,000,000,000 바이트
- 1 테라바이트 (TB) = 10^12 바이트 = 1,000,000,000,000 바이트
- 1 페타바이트 (PB) = 10^15 바이트 = 1,000,000,000,000,000 바이트
- 1 엑사바이트 (EB) = 10^18 바이트 = 1,000,000,000,000,000,000 바이트
- 1 제타바이트 (ZB) = 10^21 바이트 = 1,000,000,000,000,000,000,000 바이트
- 1 요타바이트 (YB) = 10^24 바이트 = 1,000,000,000,000,000,000,000,000 바이트
- SI 접두어는 10의 거듭제곱을 기준으로 한 단위입니다. 주로 전기통신 및 네트워크 속도와 같은 분야에서 사용됩니다.
전통적 용법
전통적 용법은 2의 거듭제곱을 기준으로 한 단위입니다. 컴퓨터 메모리와 저장 장치 용량을 표현할 때 흔히 사용됩니다.
- 1 킬로바이트 (KB) = 2^10 바이트 = 1,024 바이트
- 1 메가바이트 (MB) = 2^20 바이트 = 1,048,576 바이트
- 1 기가바이트 (GB) = 2^30 바이트 = 1,073,741,824 바이트
- 1 테라바이트 (TB) = 2^40 바이트 = 1,099,511,627,776 바이트
- 1 페타바이트 (PB) = 2^50 바이트 = 1,125,899,906,842,624 바이트
- 1 엑사바이트 (EB) = 2^60 바이트 = 1,152,921,504,606,846,976 바이트
- 1 제타바이트 (ZB) = 2^70 바이트 = 1,180,591,620,717,411,303,424 바이트
- 1 요타바이트 (YB) = 2^80 바이트 = 1,208,925,819,614,629,174,706,176 바이트
이진 접두어
이진 접두어는 전통적 용법의 혼란을 줄이기 위해 국제 전기기술위원회(IEC)에서 정의한 단위로, 정확히 2의 거듭제곱을 기준으로 합니다.
- 1 키비바이트 (KiB) = 2^10 바이트 = 1,024 바이트
- 1 메비바이트 (MiB) = 2^20 바이트 = 1,048,576 바이트
- 1 기비바이트 (GiB) = 2^30 바이트 = 1,073,741,824 바이트
- 1 테비바이트 (TiB) = 2^40 바이트 = 1,099,511,627,776 바이트
- 1 페비바이트 (PiB) = 2^50 바이트 = 1,125,899,906,842,624 바이트
- 1 엑스비바이트 (EiB) = 2^60 바이트 = 1,152,921,504,606,846,976 바이트
- 1 제비바이트 (ZiB) = 2^70 바이트 = 1,180,591,620,717,411,303,424 바이트
- 1 요비바이트 (YiB) = 2^80 바이트 = 1,208,925,819,614,629,174,706,176 바이트
[참고 도서]
출처 :
이지패스 2024 ADsP 데이터분석 준전문가
2024 이기적 빅데이터분석기사 필기 기본서
2024 최단기 빅데이터 분석기사 필기: 이론편
'🍅ADsP > 1과목' 카테고리의 다른 글
[1과목] 02장 데이터의 가치와 미래 - (3)가치창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2024.06.18 |
---|---|
[1과목] 02장 데이터의 가치와 미래 - (2)데이터의 가치와 미래 (0) | 2024.06.17 |
[1과목] 02장 데이터의 가치와 미래 - (1)빅데이터의 이해 (0) | 2024.06.17 |
[1과목] 01장 데이터와 정보 - (2) 데이터베이스 (0) | 2024.06.17 |