빅데이터 관련 개념 정리

데이터의 개념과 종류

은행털이 2024. 4. 17. 23:59

데이터란?

-> 라틴어 단어 Datum의 복수형인 Data에서 유래했으며, Datum은 '주다(to give)' 라는 뜻의 단어 dare의 과거 분사형.

고로 '주어진 것' 이라는 뜻이 되며, 이로 인해 따로 복수형 취급하지는 않지만, 고유명사화되어 단수로 취급하는 경우도 존재함

 

 

1. 빅데이터에서 데이터의 정의

  • 이론을 세우는 데 기초가 되는 사실이나 바탕이 되는 자료
  • 관찰, 실험, 조사로 얻은 사실이나 자료
  • 사람, 기계가 처리할 수 있는 문자, 숫자, 소리, 그림 등의 형태로 된 자료

-> 데이터는 그 자체로 정보가 아니며, 데이터를 가공해서 얻는 것이 정보

 

1-1. 데이터의 특성으로 보는 정의

  • 존재적 특성으로서의 데이터 : 데이터는 객관적 사실 그 자체이다
    -> 데이터는 객관적 사실 자체. 개별의 데이터 자체로는 의미가 중요하지 않음
  • 당위적 특성으로서의 데이터 : 데이터는 추론, 예측, 전망, 추정의 근거(Basis)로서 기능한다
    -> 데이터는 다른 데이터와의 상호관계 속에서 가치, 의미를 가짐

 

 

2. DIKW 피라미드

출처 :https://en.wikipedia.org/wiki/DIKW_pyramid

  1. Data (데이터) : 가공하기 전의 순수한 수치 등 개별 데이터 자체로는 별 의미가 없는, 객관적인 사실, 원본 그 자체
  2. Information (정보) : 데이터의 가공, 처리로 데이터 간의 연관관계 속에서 의미를 도출하는 것
  3.  Knowledge (지식) : 다양한 정보의 구조화로 상호 연결된 정보 패턴을 이해하여, 이를 토대로 예측한 결과물. 개인의 경험을 결합시켜 고유하게 내재화 된 것
  4. Wisdom (지혜) : 지식의 축적 + 아이디어로 생성된 창의적 산물. 깊은 이해를 바탕으로 도출된 창의적인 산물

예시

데이터 -> A가게와 B가게의 노트 가격은 각각 1000원, 500원이다. 

정보 -> B가게가 A가게보다 노트가 저렴하다.

지식 -> B가게에 가게에 가는것이 A마트에 가서 노트를 구매하는 것 보다 절약 가능하다.

지혜 -> 이를 토대로 B마트의 물품들이 A마트보다 평균적으로 저렴하여 절약 가능할 것이라고 예측한다.

 

 

3. 데이터 셋 (Data set)

  • 데이터 개체의 모음, 집합을 의미
  • 컬럼(column, 열)은 특정한 변수를 대표하는 속성(attribute)으로 기술
  • 로우(row, 행)은 여러 속성들에 데이터가 기재되어 생긴 데이터 개체

->데이터 개체는 레코드, 벡터, 패턴, 사례, 사건, 샘플, 개체 등으로 불림

-> 속성은 변수, 특성, 필드, 차원 등으로 불림

  속성(attribute)
이름 성별 나이 학교 지역
데이터 개체
(Data object)
홍길동 29 OO서당 하슬라
민수 20 XX서당 한양

 

 

4. 데이터의 형태

  • 질적 자료(Qualitative Data, Categorical Data)
    - 범주형, 명목형(Nominal) 자료 : 성별과 같이 순서의 형태는 띄지 않지만, 무언가를 구분하기 위한 범주의 속성을 가지는 형태의 자료
    - 순서형, 서수형(Ordinal) 자료 : 등급, 순위 등과 같이 높낮이, 크기 등을 비교 가능한 형태의 자료
  • 양적 자료(Quantitative Data, Numeric Data)
    - 연속형(Continuous) 자료 : 몸무게, 키와같이 관측값을 정확하게 셀 수 없고 연속적 값을 갖는 형태의 자료
    - 이산형(Discrete) 자료 : 나이, 물건의 개수와 같이 관측값을 정확하게 셀 수 있는 형태의 자료

 

5. 정형 데이터의 종류

  • 레코드 데이터
    데이터 마이닝에서 가장 많이 사용되는 형태이며, flat 파일 형태(표의 형태)로 저장된 데이터 셋으로, 레코드의 모음으로 구성되며 각 레코드는 고정된 수의 속성으로 기술됨. 레코드 데이터는 형태는 같지만 어떤 목적에 따라 서로 다른 다음과 같은 데이터 셋들이 존재함

    - 트랜잭션 데이터 : 장바구니 데이터라고도 불리며 구매자와 구매물품의 형태로 이루어진 데이터 셋
Buyer Items
1 Bread, Coke, Milk
2 Bread, Milk
3 Bread, Milk, Beer

-> 트랜잭션 데이터 예시
    이와 같은 형태의 트랜잭션 데이터로는 어떤 데이터가 빈번하게 나타나는지, 어떤 데이터들이 서로 자주 엮이는지를 유추할 수 있다.

       

       - 데이터 행렬 : 트랜잭션 데이터와 같이 레코드 데이터의 형태이지만 모든 속성이 수치 형태의 값을 가진 데이터 셋

A B C D
1.41 5.12 6.22 3.14
4.234 21.4 234.3 21.3
344.4 234.1 644.2 12.63

-> 데이터 행렬 예시

       

       - 희박한 데이터 행렬 : 데이터 행렬의 특별한 경우이며, 각 문서에 출현한 단어의 빈도 수(0~n개)를 나타낸 데이터 셋과 같이 0이 많이 표현되는 경우, sparse하다고 표현함

희박한 행렬

 

 

 

  • 그래프 데이터
    데이터 개체 간의 관계나 데이터 자체를 노드와 엣지의 연결, 즉 그래프로 표현하는 경우에 사용하는 데이터 셋
    (SNS유저들 간의 관계 연결, 화학 분자식 등)

 

  • 순서 데이터
    데이터 개체의 속성이 시간, 공간적인 순서와 연관되어 있는 데이터 셋

    - 연속 데이터(Sequential Data) : 트랜잭션 데이터에 시간 성분을 추가 고려한 것. 시간까지 고려하여 더 세분화된 경향 예측에 사용될 수 있음

    - 서열 데이터(Sequence Data) : DNA의 염기 서열과 같이 데이터 개체들 간에 순서가 존재하는 데이터.

    - 시계열 데이터(Time Series Data) : 연속 데이터의 특수한 경우이며 단순히 시간 성분을 추가한 것이 아닌 시간에 순서에 따른 속성의 변화를 관찰한 데이터의 집합 (주식 주가 그래프, 시간별 기온 변화 데이터 등)

    - 공간 데이터(Spatial Data) : 위성 사진 분석 데이터와 같이 각 데이터 개체가 공간 상(위치 정보 등) 연관이 되어있는 데이터의 집합

 

 

6. 비정형 데이터

  • 텍스트 데이터 : 책, 이메일, 게시판, 소셜 미디어, 리뷰, 뉴스 등
  • 로그 데이터 : 웹 서버 로그, 네트워크 로그, 보안 로그
  • 센서 데이터 : 실시간으로 센서들이 내놓는 데이터
  • 오디오 데이터 : wav, mp3 파일 등
  • 이미지 데이터 : jpg, gif, png 파일 등
  • 비디오 데이터 : avi, mp4, mov 파일 등

그 외 pdf, psd, ai와 같이 정형 데이터가 될 수 없고, 특정 응용프로그램에 맞춰진 파일, 데이터도 비정형 데이터에 해당됨

'빅데이터 관련 개념 정리' 카테고리의 다른 글

데이터 변환 기술  (1) 2024.04.19
수집 데이터 유형 및 기술  (1) 2024.04.19
데이터 수집 프로세스  (1) 2024.04.19
데이터 분석 기획  (0) 2024.04.19
빅데이터의 개념  (0) 2024.04.18