데이터 전처리
데이터를 분석 및 처리에 적합하게 만드는 과정을 총칭하는 개념이며 아무리 좋은 도구나 분석 기법이 있어도 품질이 낮은 데이터로는 절대 좋은 결과를 얻을 수 없으므로(GIGO) 데이터 전처리는 가장 중요한 과정
GIGO (Garbage In Garbage Out) : 모델이 아무리 좋아도 데이터가 쓰레기이면 결과도 쓰레기값이 나온다는 것을 말함
데이터 난제
- 너무 많은 데이터
- 데이터의 손상 및 잡음
- 관련성 부족 데이터
- 과한 대용량 데이터
- 속성의 수가 너무 많은 데이터
- 숫자와 문자가 혼합된 데이터 - 너무 적은 데이터
- 결여된 속성
- 결측치 존재
- 데이터의 총량이 부족함 - 파손된 데이터
- 양립할 수 없는 데이터
- 자료원에 따른 값 차이
- 집계 수준이 다른 데이터
1. 데이터의 오류
- 잡음
- 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것
- 실제 데이터는 매끈한 곡선 형태의 시계열 값이었지만 측정과정에서 잡음이 포함되면 실제값과 다른 형태를 가지게 될 수 있음 - 아티팩트
- 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러
- 렌즈에 얼룩이 있으면 사진을 몇 번을 찍어도 반복적으로 얼룩이 생기는 원리와 같음
2. 정밀도
동일한 대상을 반복적으로 측정하였을 때 각 결과의 친밀성을 나타낸 것이며 측정 결과들의 표준편차로 나타냄
- 1g 측정 시 [1.015, 0.990, 1.013, 1.001, 0.986]이 측정되었을 때 평균 1.001, 표준편차 0.013으로 정밀도는 0.013
3. 바이어스
특정 장비에 포함된 시스템적인 변동
- 영점 조절이 되지 않은 체중계에 1kg이 찍혀있다면, 1kg의 바이어스가 포함된 체중계
- 1g에 대한 측정 평균이 1.001이면 측정 장비에는 0.001만큼의 바이어스가 포함
4. 정확도
정확도는 정밀도와 바이어스에 기인하지만 명시적으로 나타낼 수 있는 수식은 없으며 유효 숫자(수의 정확도에 영향을 주는 숫자)의 사용에 있어 중요한 측면을 가짐
- 측정에 있어 측정 장비의 한계로 정확하지 않은 자리의 수를 측정함에 따라 발생할 수 있는 문제
- 자의 최소 표현 눈금이 1mm라면 1mm단위로 측정하므로 소숫점 첫째 자리를 기준으로 올리거나 내릴 것이고, 항상 +-0.5mm의 오차를 가지게 되며 이 자를 이용해 측정한 길이가 10.3mm였다면 0.3mm는 유효숫자를 벗어난 의미가 없는 값이 됨
5. 이상값
대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 객체들과 달리 유별난 값을 가지는 데이터를 의미
- 잡음은 임의로 발생하는 예측하기 어려운 요인이지만 이상값은 값이 유별날 뿐(너무크거나 작거나) 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수도 있음
- 대다수의 정상 접속 중 예외적으로 발생하는 불법접속 시도와 같은 이상값을 찾는 것과 같음
6. 결측값
데이터의 결측은 일반적인 경우는 아니며 드물게 발생하고 여러 변수에서 결측값이 존재하면 실제 분석에 활용 가능한 요소도 줄어든다는 것을 의미함
- 설문조사에서 필요한 변수가 사적인 정보라 공개를 꺼려하여 측정이 안된다면, 그 값은 조사에 있어 결측값이 됨
7. 모순, 불일치
동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우를 모순, 불일치 값이라 표현
- 고객의 주소, 우편번호를 저장해놓은 데이터에서 주소가 동일함에도 불구하고 우편번호가 상이한 경우 이는 모순값
8. 중복
데이터 중복은 언제든 발생 가능하며, 문제는 중복 데이터 사이에 속성의 차이나 값의 모순이 발생할 수 있다는 것
- 기본적으로 모든 속성이 일치하는 중복 데이터일 경우 하나만 남기고 삭제할 수 있지만, 그렇지 않은 경우에는 두 개체를 합치거나 응용에 적합한 데이터를 선택하는 등, 어떻게든 간에 추가적인 작업을 필요로 함
9. 데이터 전처리 단계
9-1. 데이터 정제
- 데이터를 활용할 수 있도록 만드는 기본적 과정
- 데이터의 누락값, 불일치, 오류 수정
- 컴퓨터가 읽지 못하는 요소를 제거
- 숫자나 날짜 등 형식에 대해 일관성을 유지하고 적합한 파일 포맷으로 변환
9-2. 데이터 통합
- 서로 다른 출처의 여러 데이터를 결합
- 서로 다른 데이터셋이 호환 가능하도록 통합하는 것
- 같은 객체, 같은 단위나 좌표로 변환 통합
9-3. 데이터 축소
- 일반적으로 데이터가 매우 크기때문에 이에 대한 복잡한 데이터 분석은 실행하기 매우 어렵거나 불가능함
- 데이터를 축소하여 원래의 용량보다 적은 양이 되더라도 원래 데이터와 거의 동일한 분석결과를 얻어내야 한다는 관점에서 실행되어야 함
9-4. 데이터 변환
- 데이터를 한 형식이나 구조에서 다른 형식이나 구조로 변환
- 데이터 변환은 일반적으로 자동과 수동단계가 혼합되어 수행되며 이에 사용되는 도구 및 기술은 데이터의 형식, 구조, 복잡성에 따라 달라질 수 있음
10. 데이터 전처리 기법
- 집계(Aggregation)
- 샘플링(Sampling)
- 차원 축소(Dimensionality Reduction)
- 특징 선택(Feature subset selection)
- 특징 생성(Feature creation)
- 이산화와 이진화(Discretization and Binarization)
- 속성 변환(Attribute Transformation)
'빅데이터 관련 개념 정리' 카테고리의 다른 글
데이터 통합 (1) | 2024.04.21 |
---|---|
데이터 정제 (0) | 2024.04.20 |
탐색적 데이터 분석 (1) | 2024.04.20 |
데이터 저장 기술 (1) | 2024.04.19 |
데이터 적재 기술 (0) | 2024.04.19 |