2024/04/20 3

데이터 정제

데이터 정제 절차 데이터 특성 파악 데이터 모순점 발견 데이터 수정 변환 1. 데이터 특성 파악 속성의 데이터 타입과 도메인(속성 값의 범위) 속성 값의 분포 특성(대칭, 비대칭 등) - 대칭/비대칭 분포 - 실제 값의 주요 분포 범위 - 값의 표준편차 속성 간의 의존성 - 속성 A의 값이 다른 데이터의 속성 B값과 반드시 같다면 속성 A와 속성 B간의 함수적 종속성 존재 (A -> B) -> 해당 중요 대표 값들은 메타데이터에 포함됨 1-1. 메타데이터 통칭 '데이터에 대한 데이터'라고 하며 데이터에 관한 구조화된 데이터, 즉 다른 데이터를 설명해주는 데이터를 의미 기술용(설명) 메타데이터 - 정보의 검색을 목적으로 한 메타데이터 (이름, 생성자, 날짜, 형식 등) - 도서관 항목을 찾는 것과 같음 관..

데이터 전처리

데이터 전처리 데이터를 분석 및 처리에 적합하게 만드는 과정을 총칭하는 개념이며 아무리 좋은 도구나 분석 기법이 있어도 품질이 낮은 데이터로는 절대 좋은 결과를 얻을 수 없으므로(GIGO) 데이터 전처리는 가장 중요한 과정 GIGO (Garbage In Garbage Out) : 모델이 아무리 좋아도 데이터가 쓰레기이면 결과도 쓰레기값이 나온다는 것을 말함 데이터 난제 너무 많은 데이터 - 데이터의 손상 및 잡음 - 관련성 부족 데이터 - 과한 대용량 데이터 - 속성의 수가 너무 많은 데이터 - 숫자와 문자가 혼합된 데이터 너무 적은 데이터 - 결여된 속성 - 결측치 존재 - 데이터의 총량이 부족함 파손된 데이터 - 양립할 수 없는 데이터 - 자료원에 따른 값 차이 - 집계 수준이 다른 데이터 1. 데이..

탐색적 데이터 분석

탐색적 데이터 분석 (EDA, Exploratory Data Analysis) 기존의 통계학이 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있었음 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발 분석의 목적을 달성하기 위해 전반적인 자료의 응답 및 분포 경향, 데이터의 구조적 관계를 알아보는 기법 탐색적 데이터 분석의 필요성 데이터 이해 증진 : 데이터의 분포, 경향, 변동성 등을 검토함으로써 데이터가 표현하는 현상과 특성을 더 깊이 이해 데이터 품질 문제 식별 : 데이터 검토를 통해 누락값, 이상치, 중복 데이터 등 잠재적인 데이터 품질 문제를 발견 추가 데이터 수집 결정 : 데이터가 불충분하거나 특정 변수가 누락..