1. 데이터의 정의

 

🔷 데이터의 정의

데이터(Data) : 가공되지 않은 객관적 사실

 

🔷데이터의 특성

존재적 특성 있는 그대로의 객관적 사실
당위적 특성 추론 • 예측 • 전망 • 추정을 위한 근거

 

🔷데이터의 유형

 

①정성적 데이터 : 수치가 아닌, 텍스트나 추상적 묘사로 이루어진 데이터

ex) 비정형 데이터, 텍스트 파일, 문장, 서술형

②정량적 데이터 : 수치로 이루어진 데이터. (계량적 데이터)

ex) 정형 데이터, 반정형 데이터, 엑셀 시트, 데이터베이스, 통계치

 

① 정형 데이터 
(Structured) 
정해진 구조로 고정된 필드에 저장된 데이터. 연산 활용도가 높다.  관계형DB, 엑셀, 스프레드시트, CSV, RDB
② 비정형 데이터 
(Unstructured)
형식이 정해지지 않은 대부분의 데이터. 연산이 어렵다. SNS, 음원, 문서
③ 반정형 데이터 
(Semi - structured)
데이터의 형식과 구조가 유연하고, 연산이 불가능한 파일 형식의 데이터, 데이터를 설명하는 스키마 정보 (메타데이터)를 함께 포함  로그, HTML, XML, JSON, RDF

 

 

⚫암묵지와 형식지

① 암묵지 : 개인에게 습득된 ‘무형의 지식’ 전달 공유 어려움

② 형식지 : 문서, 매뉴얼 등의 형상화된 지식

 

⚫지식 창조 매커니즘

① 공동화 (Socialization) : 암묵지 지식을 다른 사람에게 알려줌 (서로 지식 공유하며 암묵지 발전)

② 표출화 (Externalization) : 암묵지가 문서등 구체화되어 외부(형식지)로 표출화(실체화) 된다.

③ 연결화 (Combination) : 형식지들 간에 구조가 연결, 체계화 정리 (매뉴얼에 새로운 지식 추가)

④ 내면화 (Internalization) : 체계화된 형식지를 학습하여 다시 암묵지로 습득

2. 데이터와 정보

 

🔷DIKW피라미드

지혜
Wisdom
창의적인 산물
ex) A마트는 다른 상품도 B마트보다 저렴할 것이다.





지식
Knowledge
패턴을 통해 예측
ex) 생선을 사려면 A마트에서 사는것이 더 좋다.
정보
Information
Data를 통해 패턴 인식
ex) A마트 생선이 더 저렴하다.
데이터
Data
있는 그대로의 사실
ex) A마트 생선이 6000원, B마트 생선이 10000원

 

 

🔷데이터 상식

비트(bit) : "binary digit"의 약자로, 0 또는 1 두 가지 상태 중 하나를 표현할 수 있는 가장 작은 단위의 데이터

바이트(byte) : 바이트는 8비트로 구성된 데이터 단위입니다. 하나의 바이트는 256가지(2^8)의 서로 다른 값을 표현,

숫자 및 영어의 한 글자 : 1바이트 / 한글의 한 글자 : 2바이트

 

 

⚫데이터의 크기

데이터 크기를 표현할 때, SI 접두어전통적 용법, 이진 접두어를 사용하여 표현할 수 있습니다.

SI 접두어는 10의 거듭제곱을 기준으로 하고,

전통적 용법과 이진 접두어는 2의 거듭제곱을 기준으로 합니다.

 

SI 접두어

  • 1 키로바이트 (kB) = 10^3 바이트 = 1,000 바이트
  • 1 메가바이트 (MB) = 10^6 바이트 = 1,000,000 바이트
  • 1 기가바이트 (GB) = 10^9 바이트 = 1,000,000,000 바이트
  • 1 테라바이트 (TB) = 10^12 바이트 = 1,000,000,000,000 바이트
  • 1 페타바이트 (PB) = 10^15 바이트 = 1,000,000,000,000,000 바이트
  • 1 엑사바이트 (EB) = 10^18 바이트 = 1,000,000,000,000,000,000 바이트
  • 1 제타바이트 (ZB) = 10^21 바이트 = 1,000,000,000,000,000,000,000 바이트
  • 1 요타바이트 (YB) = 10^24 바이트 = 1,000,000,000,000,000,000,000,000 바이트
  • SI 접두어는 10의 거듭제곱을 기준으로 한 단위입니다. 주로 전기통신 및 네트워크 속도와 같은 분야에서 사용됩니다.

전통적 용법

전통적 용법은 2의 거듭제곱을 기준으로 한 단위입니다. 컴퓨터 메모리와 저장 장치 용량을 표현할 때 흔히 사용됩니다.

  • 1 킬로바이트 (KB) = 2^10 바이트 = 1,024 바이트
  • 1 메가바이트 (MB) = 2^20 바이트 = 1,048,576 바이트
  • 1 기가바이트 (GB) = 2^30 바이트 = 1,073,741,824 바이트
  • 1 테라바이트 (TB) = 2^40 바이트 = 1,099,511,627,776 바이트
  • 1 페타바이트 (PB) = 2^50 바이트 = 1,125,899,906,842,624 바이트
  • 1 엑사바이트 (EB) = 2^60 바이트 = 1,152,921,504,606,846,976 바이트
  • 1 제타바이트 (ZB) = 2^70 바이트 = 1,180,591,620,717,411,303,424 바이트
  • 1 요타바이트 (YB) = 2^80 바이트 = 1,208,925,819,614,629,174,706,176 바이트

이진 접두어

이진 접두어는 전통적 용법의 혼란을 줄이기 위해 국제 전기기술위원회(IEC)에서 정의한 단위로, 정확히 2의 거듭제곱을 기준으로 합니다.

  • 1 키비바이트 (KiB) = 2^10 바이트 = 1,024 바이트
  • 1 메비바이트 (MiB) = 2^20 바이트 = 1,048,576 바이트
  • 1 기비바이트 (GiB) = 2^30 바이트 = 1,073,741,824 바이트
  • 1 테비바이트 (TiB) = 2^40 바이트 = 1,099,511,627,776 바이트
  • 1 페비바이트 (PiB) = 2^50 바이트 = 1,125,899,906,842,624 바이트
  • 1 엑스비바이트 (EiB) = 2^60 바이트 = 1,152,921,504,606,846,976 바이트
  • 1 제비바이트 (ZiB) = 2^70 바이트 = 1,180,591,620,717,411,303,424 바이트
  • 1 요비바이트 (YiB) = 2^80 바이트 = 1,208,925,819,614,629,174,706,176 바이트

 

 

 

[참고 도서]

출처 :

이지패스 2024 ADsP 데이터분석 준전문가

2024 이기적 빅데이터분석기사 필기 기본서

2024 최단기 빅데이터 분석기사 필기: 이론편