빅데이터 관련 개념 정리

데이터 정제

은행털이 2024. 4. 20. 21:46

데이터 정제 절차

  1. 데이터 특성 파악
  2. 데이터 모순점 발견
  3. 데이터 수정 변환

 

1. 데이터 특성 파악

  • 속성의 데이터 타입과 도메인(속성 값의 범위)
  • 속성 값의 분포 특성(대칭, 비대칭 등)
    - 대칭/비대칭 분포
    - 실제 값의 주요 분포 범위
    - 값의 표준편차
  • 속성 간의 의존성
    - 속성 A의 값이 다른 데이터의 속성 B값과 반드시 같다면
    속성 A와 속성 B간의 함수적 종속성 존재 (A -> B)

-> 해당 중요 대표 값들은 메타데이터에 포함됨

 

 

1-1. 메타데이터

통칭 '데이터에 대한 데이터'라고 하며 데이터에 관한 구조화된 데이터, 즉 다른 데이터를 설명해주는 데이터를 의미

  • 기술용(설명) 메타데이터
    - 정보의 검색을 목적으로 한 메타데이터 (이름, 생성자, 날짜, 형식 등)
    - 도서관 항목을 찾는 것과 같음
  • 관리용 메타데이터
    - 자원 관리를 용이하게 하기 위한 메타데이터(작성자, 관리자, 권한 등)
    - 보존용 메타데이터의 요소
  • 구조용 메타데이터
    - 복합적인 디지털 개체들을 묶어주기 위한 메타데이터(구조, 관계, 특성, 매핑 등)
    - 오디오와 텍스트의 결합과 같이 구조적으로 결합이 불가하지만 메타데이터의 정보를 토대로 결합 가능
  • 보존 메타데이터
    - 데이터를 보관하는데 필요한 정보 제공(저장소, 버전, 개발환경, 서비스 버전 등)
  • 사용 메타데이터
    - 데이터가 어떻게 사용되었는지에 대한 정보 제공(사용이력, 활용내용, 접근항목 등)
  • 거래 메타데이터
    - 데이터가 어떻게 거래되었는지에 대한 정보 제공(거래자, 구매년월, 수량, 금액 등)
  • + 메타 메타데이터
    - 메타데이터들을 관리하는 메타데이터

 

 

2. 데이터 모순점 발견

  • 잘못 설계된 입력 폼 : 사용자 인터페이스가 직관적이지 않거나 하는 이유로 사용자가 잘못된 데이터 입력
  • 데이터 입력에서의 사람의 실수 : 사용자가 실수로 잘못된 정보를 입력하거나 누락함
  • 의도적인 오류 : 민감정보로 인해 의도적으로 사용자가 잘못된 정보를 제공하는 경우
  • 만료된 데이터 : 시간이 지나면서 변화된 정보가 업데이트 되지 않아 발생하는 오류
  • 데이터 표현의 모순 : 같은 정보를 다르게 표현하는 방식(날짜 형식 등)으로 인해 발생하는 모순
  • 일치하지 않는 코드 사용 : 데이터 입력 시 사용된 코드나 분류 체계가 표준화 되지 않거나 일관성이 없어 생기는 모순
  • 계측장치의 오류나 시스템 오류 : 데이터를 기록하는 장비, 시스템의 고장이나 오류로 인해 잘못된 데이터 입력
  • 원래의 의도와 다른 목적으로 사용된 데이터 : 수집된 목적과 다르게 이용되어 적합성이나 정확성에 문제 발생
  • 데이터 통합 과정의 모순 : 서로 다른 DBMS에서 동일한 속성이 다른 이름으로 사용되어 통합 시 모순이 발생

 

2-1. 필드 오버로딩

주어진 데이터 구조 내에서 하나의 필드나 속성이 여러 목적으로 사용되는 경우. 즉 기존의 정의된 속성에서 사용하지 않은 일부를 새로운 용도로 재정의하여 사용하는 것이며 유연성을 얻을 수 있지만 코드의 가독성을 저하시키고 데이터의 일관성을 해칠 수있는 잘못된 케이스

 

데이터는 다음과같은 규칙들은 만족할수록 품질이 높음

  • 유일 규칙 (Unique Rule)
    - 속성의 값은 고유해야 하며 중복될 수 없음
    - 데이터의 정확성과 신뢰성을 보장함
  • 일관 규칙(Consecutive Rule)
    - 최소값과 최대값 사이에 결측치가 없어야 함
    - 데이터는 연속적이어야 하며, 범위 내(도메인)에서 누락된 값이 없어야 함
    - 데이터의 완전성을 보장하며 분석시 오류를 줄일 수 있음

  • Null 규칙 (Null Rule)
    - 데이터가 없음을 나타내는 다양한 문자의 사용을 허용(공백, 물음표, 특수문자 등)
    - 데이터 없거나 알려지지 않은 경우를 처리하는 표준적 방법을 제공
    - 표현의 일관성 유지가 중요하며 분석 과정에서 이런 값들을 처리

 

 

3. 결측값

결측값은 값이 비었거나 측정되지 않았거나 알 수 없는 상태를 의미

  • 데이터 셋에서의 표시
    - 빈칸, "NA", "Null" 등으로 표현
    - 해당 데이터 포인트에 특정 정보가 존재하지 않음을 나타냄

  • 분석에 미치는 영향
    - 분석 대상의 속성 값 중 상당 부분이 결측값이면 데이터 불충분으로 제대로 된 분석이 어려움

  • 결측값의 처리 방법
    - 가장 간단한 방법은 결측값을 가진 데이터를 삭제하는 것이지만, 이로 인해 중요한 다른 정보를 잃을 수 있음
    - 다른 접근 방법으로는 결측값을 특정 값으로 대체(평균, 중앙값)하거나 모델을 사용하여 결측값을 예측할 수 있음

  • 결측값의 영향
    - 결측값이 극소수일 경우에는 분석 결과에 큰 영향을 미치지 않을 수 있음
    - 결측값이 많거나 특정 범주 안에 결측값이 집중적으로 존재할 경우 분석 및 추정 결과가 크게 달라질 수 있음
    - 결측값은 데이터의 대표성을 저하시키고 모델의 정확도, 신뢰성에 부정적인 영향을 미침

 

3-1. 결측값 구분

  • 완전 무작위 결측 (MCAR: Missing Completely At Random)
    - 결측값이 관측 데이터와 관측되지 않은 데이터와 독립적이며 완전 무작위로 발생
    - 데이터 분석 시 편향되지 않아서 결측값이 문제가 되지 않는 경우이며 이런 경우는 거의 없음

  • 무작위 결측 (MAR: Missing At Random)
    - 결측값이 조건이 다른 변수에 따라 조건부 무작위로 발생되는 경우
    - 변수의 조건에 따른 결측값이 설명 가능한 경우
    - 데이터 분석 시 편향이 발생할 수 있음

  • 비무작위 결측 (MNAR: Missing Not At Random)
    - 결측값이 다른 변수와 연관이 있는 경우
    - 무시할 수 없는 무응답 데이터(누락된 이유가 분명히 존재)
    - 결측값이 무작위가 아니라서 주도면밀한 추가 조사가 필요 

 

 

3-2. 결측값 처리 방법

  • 결측값 데이터 개체 또는 속성의 제거
    - 결측값이 발생한 데이터 개체를 분석과정에서 제거하거나 속성을 제거
    - 데이터가 충분히 많다면 고려할 수 있는 방법
    - 그러나 결측치를 가진 데이터나 속성이 많은경우 대부분의 정보가 제거되어 실제로는 잘 사용하지 않음

  • 수동으로 결측값 입력
    - 결측값이 발생한 데이터를 다시 조사 후 수집하여 입력
    - 매우 고비용적인 방법
    - 결측값이 많은 경우에는 사용이 불가능

  • 전역상수를 사용한 결측값 입력
    - 단순하고 명확한 방법
    - 예시) 결측값을 0으로 입력
    - 전역상수의 값이 분석 결과를 왜곡할 수 있음

  • 결측값의 무시
    - 알고리즘이나 응용에 따라서는 결측치를 무시하고 분석을 수행할 수도 있음
    - 하나의 속성 값이 없더라도 유사성을 계산하는데 미치는 영향이 크지 않은 경우에 적용 가능
    - 반대로 속성이 많지 않아 하나의 속성이라도 무시하기 힘든 경우에는 적용 불가

  • 결측값의 추정
    - 일반적으로 많이 사용되는 방법
    - 결측값이 발생한 데이터와 유사한 데이터를 사용하여 결측값을 추정하는 방법
    - 결측값을 추정하는 방법에 따라 다양한 형태가 존재

 

3-3. 결측값 추정 방법

  • 속성의 평균값을 사용하여 결측값 추정 (평균대체)
    - 속성의 평균값을 결측값에 채워넣는 방법
    - 당연히 분석 결과를 왜곡시킬 위험도 존재

  • 같은 클래스에 속하는 속성의 평균값 사용 (확률대체)
    - 결측된 데이터와 같은 클래스(분류)에 속하는 데이터들의 해당 속성 평균값 사용
    - 동일 유형의 평균값을 사용하므로 왜곡 가능성을 줄임

  • 가장 가능성이 높은 값으로 결측값 추정
    - 회귀분석, 베이지안, 의사결정트리 등의 통계, 마이닝 기법을 활용하여 결측값 예측
    - 분석에 의해 가능성이 높은 값을 찾는 방법이며 가장 효과적이고 높은 정확도로 결측값 예측이 가능
    - 하지만 결측값을 채우기 위한 분석 가설이 추가되므로 복잡성이 존재함

 

4. 이상값

일반적인 범위나 패턴에서 벗어난, 매우 높거나 낮은 값을 가진 데이터를 의미. 분석 결과에 상당한 영향을 미칠 수 있으며 데이터 분석의 정확도가 저하될 수 있음

 

- 입력 오류, 측정이나 실험 과정에서의 오류, 표본추출 오류, 고의적 데이터 조작 등이 원인
- 특정 이상값은 실제로 발생 가능한 극단값일 수 있으므로, 처리하기 전에 그 원인과 성격을 파악해야 함

 

이상값의 식별 방법

  • 기술통계 분석 : 평균, 분산, 최대값, 최소값, 사분위수 등의 기술통계를 활용해 변수별 이상값 식별
  • 시각화 : 박스플롯, 히스토그램, 산점도 등의 시각화 도구를 사용하여 분포를 살펴보고 이상값을 직관적으로 식별

이상값의 처리 방법

  • 제거 : 데이터 수집, 입력 시 발생한 오류라고 판단될 경우, 해당 이상값을 제거
  • 수정 : 오류로 인한 이상값을 정확한 값으로 수정(가능한 경우)
  • 변환 : 로그 변환 같은 데이터 변환을 통해 이상값의 영향을 줄임
  • 분리 : 이상값을 포함하는 데이터를 별도로 분리하여 분석

 

5. 잡음

변수(속성)의 값에 포함된 오류나 오차를 의미

 

- 데이터의 실제 패턴이나 경향성을 왜곡시킬 수 있으며, 분석 결과가 실제와 다르게 나타날 수 있음

  • 측정 오류 : 측정 과정에서 발생하는 기기의 정밀도 부족, 관측자의 실수로 발생
  • 오차 값 : 데이터 전송 중 손실이나 왜곡 등 입력 과정에서 발생하는 실수로 발생

 

- 잡음을 줄이고 데이터의 질을 향상시키기 위해 여러 데이터 평활화 기법을 사용

  • 구간화 : 데이터를 구간별로 나누고 구간 내의 데이터 값을 그 구간의 대표값(평균, 중앙값)으로 대체
    - 데이터 내의 작은 변동이나 잡음을 줄이는 데 도움
  • 회귀 : 데이터 사이의 관계를 모델링하여 잡음이 포함된 데이터를 부드러운 경향선으로 대체
    - 변수 간의 관계를 분석하고 예측하는 데 유용
  • 군집화 : 유사한 특성을가진 데이터 포인트들을 그룹으로 묶는 방법
    - 잡음이나 이상값으로부터 데이터의 주요패턴을 분리하고, 데이터 내의 자연스런 구조 파악 가능

 

5-1. 구간화

정렬된 데이터를 몇 개의 구간으로 분할하고 각 구간 내의 데이터 값을 그 구간의 특정 요약 통계량으로 대체함으로써 데이터를 매끄럽게 하는 것

  • 평균값 평활화 : 각 구간의 값들을 그 구간의 평균값으로 대체
  • 중앙값 평활화 : 각 구간의 값들을 그 구간의 중앙값으로 대체
  • 경계값 평활화 : 각 구간의 최소값과 최대값이 그 구간의 경계값이 되며, 두 경계값중 가까운 값으로 대체

 

5-2. 회귀

회귀 함수를 이용한 데이터 평활화 기법

  • 선형 회귀 분석 : 하나의 속성이 다른 하나의 속성을 예측하는 데 이용할 수 있도록 선형 관계를 찾음
  • 다중 회귀 분석 : 두 개 이상의 속성을 가지고 다른 속성을 예측하는 데 이용할 수 있도록 선형 관계를 찾음 (선형 회귀 분석의 확장)

 

5-3. 군집화

유사한 값들끼리 그룹화 하는 과정

 

- 군집화에서의 이상값은 어떤 군집에도 속하지 않거나, 군집의 중심에서 멀리 떨어진 데이터를 의미

- 군집화를 이용한 평활화 : 각 군집 내의 평균값, 중앙값 또는 군집의 중심으로 이상값을 대체하여 평활화

'빅데이터 관련 개념 정리' 카테고리의 다른 글

데이터 축소  (0) 2024.04.21
데이터 통합  (1) 2024.04.21
데이터 전처리  (0) 2024.04.20
탐색적 데이터 분석  (1) 2024.04.20
데이터 저장 기술  (1) 2024.04.19