빅데이터 관련 개념 정리

데이터 전처리

은행털이 2024. 4. 20. 18:52

데이터 전처리

데이터를 분석 및 처리에 적합하게 만드는 과정을 총칭하는 개념이며 아무리 좋은 도구나 분석 기법이 있어도 품질이 낮은 데이터로는 절대 좋은 결과를 얻을 수 없으므로(GIGO) 데이터 전처리는 가장 중요한 과정

 

 

GIGO (Garbage In Garbage Out)  : 모델이 아무리 좋아도 데이터가 쓰레기이면 결과도 쓰레기값이 나온다는 것을 말함

 

 

데이터 난제

  • 너무 많은 데이터
    - 데이터의 손상 및 잡음
    - 관련성 부족 데이터
    - 과한 대용량 데이터
    - 속성의 수가 너무 많은 데이터
    - 숫자와 문자가 혼합된 데이터
  • 너무 적은 데이터
    - 결여된 속성
    - 결측치 존재
    - 데이터의 총량이 부족함
  • 파손된 데이터
    - 양립할 수 없는 데이터
    - 자료원에 따른 값 차이
    - 집계 수준이 다른 데이터

 

 

1. 데이터의 오류

  • 잡음
    - 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것
    -
    실제 데이터는 매끈한 곡선 형태의 시계열 값이었지만 측정과정에서 잡음이 포함되면 실제값과 다른 형태를 가지게 될 수 있음

  • 아티팩트
    - 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러
    - 렌즈에 얼룩이 있으면 사진을 몇 번을 찍어도 반복적으로 얼룩이 생기는 원리와 같음

 

 

2. 정밀도

동일한 대상을 반복적으로 측정하였을 때 각 결과의 친밀성을 나타낸 것이며 측정 결과들의 표준편차로 나타냄

 

- 1g 측정 시 [1.015, 0.990, 1.013, 1.001, 0.986]이 측정되었을 때 평균 1.001, 표준편차 0.013으로 정밀도는 0.013

 

 

3. 바이어스

특정 장비에 포함된 시스템적인 변동

 

- 영점 조절이 되지 않은 체중계에 1kg이 찍혀있다면, 1kg의 바이어스가 포함된 체중계

- 1g에 대한 측정 평균이 1.001이면 측정 장비에는 0.001만큼의 바이어스가 포함

 

 

4. 정확도

정확도는 정밀도와 바이어스에 기인하지만 명시적으로 나타낼 수 있는 수식은 없으며 유효 숫자(수의 정확도에 영향을 주는 숫자)의 사용에 있어 중요한 측면을 가짐

 

- 측정에 있어 측정 장비의 한계로 정확하지 않은 자리의 수를 측정함에 따라 발생할 수 있는 문제
- 자의 최소 표현 눈금이 1mm라면 1mm단위로 측정하므로 소숫점 첫째 자리를 기준으로 올리거나 내릴 것이고, 항상 +-0.5mm의 오차를 가지게 되며 이 자를 이용해 측정한 길이가 10.3mm였다면 0.3mm는 유효숫자를 벗어난 의미가 없는 값이 됨

 

 

5. 이상값

대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 객체들과 달리 유별난 값을 가지는 데이터를 의미

 

- 잡음은 임의로 발생하는 예측하기 어려운 요인이지만 이상값은 값이 유별날 뿐(너무크거나 작거나) 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수도 있음

- 대다수의 정상 접속 중 예외적으로 발생하는 불법접속 시도와 같은 이상값을 찾는 것과 같음

 

 

이상값

 

 

6. 결측값

데이터의 결측은 일반적인 경우는 아니며 드물게 발생하고 여러 변수에서 결측값이 존재하면 실제 분석에 활용 가능한 요소도 줄어든다는 것을 의미함

 

- 설문조사에서 필요한 변수가 사적인 정보라 공개를 꺼려하여 측정이 안된다면, 그 값은 조사에 있어 결측값이 됨

 

 

7. 모순, 불일치

동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우를 모순, 불일치 값이라 표현

 

- 고객의 주소, 우편번호를 저장해놓은 데이터에서 주소가 동일함에도 불구하고 우편번호가 상이한 경우 이는 모순값

 

8. 중복

데이터 중복은 언제든 발생 가능하며, 문제는 중복 데이터 사이에 속성의 차이나 값의 모순이 발생할 수 있다는 것

- 기본적으로 모든 속성이 일치하는 중복 데이터일 경우 하나만 남기고 삭제할 수 있지만, 그렇지 않은 경우에는 두 개체를 합치거나 응용에 적합한 데이터를 선택하는 등, 어떻게든 간에 추가적인 작업을 필요로 함

 

 

9. 데이터 전처리 단계

 

 

9-1. 데이터 정제

  • 데이터를 활용할 수 있도록 만드는 기본적 과정
  • 데이터의 누락값, 불일치, 오류 수정
  • 컴퓨터가 읽지 못하는 요소를 제거
  • 숫자나 날짜 등 형식에 대해 일관성을 유지하고 적합한 파일 포맷으로 변환

 

9-2. 데이터 통합

  • 서로 다른 출처의 여러 데이터를 결합
  • 서로 다른 데이터셋이 호환 가능하도록 통합하는 것
  • 같은 객체, 같은 단위나 좌표로 변환 통합

 

9-3. 데이터 축소

  • 일반적으로 데이터가 매우 크기때문에 이에 대한 복잡한 데이터 분석은 실행하기 매우 어렵거나 불가능함
  • 데이터를 축소하여 원래의 용량보다 적은 양이 되더라도 원래 데이터와 거의 동일한 분석결과를 얻어내야 한다는 관점에서 실행되어야 함

 

9-4. 데이터 변환

  • 데이터를 한 형식이나 구조에서 다른 형식이나 구조로 변환
  • 데이터 변환은 일반적으로 자동과 수동단계가 혼합되어 수행되며 이에 사용되는 도구 및 기술은 데이터의 형식, 구조, 복잡성에 따라 달라질 수 있음

 

 

10. 데이터 전처리 기법

  • 집계(Aggregation)
  • 샘플링(Sampling)
  • 차원 축소(Dimensionality Reduction)
  • 특징 선택(Feature subset selection)
  • 특징 생성(Feature creation)
  • 이산화와 이진화(Discretization and Binarization)
  • 속성 변환(Attribute Transformation)

 

'빅데이터 관련 개념 정리' 카테고리의 다른 글

데이터 통합  (1) 2024.04.21
데이터 정제  (0) 2024.04.20
탐색적 데이터 분석  (1) 2024.04.20
데이터 저장 기술  (1) 2024.04.19
데이터 적재 기술  (0) 2024.04.19