빅데이터 관련 개념 정리

탐색적 데이터 분석

은행털이 2024. 4. 20. 02:57

탐색적 데이터 분석 (EDA, Exploratory Data Analysis)

  • 기존의 통계학이 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있었음
  • 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발
  • 분석의 목적을 달성하기 위해 전반적인 자료의 응답 및 분포 경향, 데이터의 구조적 관계를 알아보는 기법

 

Image by author, inspired by  Farcaster at English Wikipedia

 

 

탐색적 데이터 분석의 필요성

  • 데이터 이해 증진 : 데이터의 분포, 경향, 변동성 등을 검토함으로써 데이터가 표현하는 현상과 특성을 더 깊이 이해
  • 데이터 품질 문제 식별 : 데이터 검토를 통해 누락값, 이상치, 중복 데이터 등 잠재적인 데이터 품질 문제를 발견
  • 추가 데이터 수집 결정 : 데이터가 불충분하거나 특정 변수가 누락되었음을 발견하면 데이터 재수집 필요성 결정에 도움을 얻을 수 있음
  • 새로운 패턴 및 가설 발견 : 새로운 패턴이나 관계 발견 -> 기존의 가설을 수정하거나 새로운 가설을 설정할 수 있음
  • 통계적 추론 및 모델링의 기반 마련 : 데이터의 특성과 구조를 이해하는 것은 모델의 성능을 최적화하고 더 정확한 예측을 가능하게 함

 

1. 데이터 탐색

  • 단일 변수별 데이터 탐색
    - 자료입력의 실수나 이상치 탐지 (이상치 제거)
    - 분석의 가정이 충족되는지 파악 (정규성)
    - 자료 단위 변환이 필요한지 검토(자료변환 적용 여부)

  • 두 변수 간의 데이터 탐색
    - 적절한 모델 선택을 위한 초기 진단
    - 변수간의 관계가 존재하는지 파악
    - 독립변수와 종속변수간에 정(+)의 관계인지 부(-)의 관계인지 파악
    - 관련성이 얼마나 큰지 파악

 

1-1. 데이터 탐색의 주요 주제

  • 저항성 강조
    - 데이터의 이상치, 입력오류 등에 영향을 받지 않아야 한다는 것을 강조
    - 데이터 탐색을 통해 이런 데이터가 존재하는지를 탐색하고 제거, 변환의 조치를 취함
  • 잔차 해석
    - 잔차란 모델의 예측값과 실제값 간의 차이를 의미함(오차)
    - 이러한 데이터는 모델 예측력과 정확도에 영향이 크므로 탐색, 조치 과정이 필수

  • 데이터의 재표현
    - 데이터를 해석에 편리하도록 척도를 변환하는 것
    - 주로 로그 변환, 제곱근 변환 등을 사용

  • 데이터 현시성
    - 데이터 구조를 파악할 수 있도록 시각화 하는 것
    - 히스토그램, 상자도표, 산점도 등 다양한 그래프 활용

 

 

2. 연구 질문

올바른 질문을 하지 않는다면 정답을 얻을 수 없으며 목적이 본질적으로 질적인지 양적인지에 따라 어떤 유형의 연구 문제를 활용해야 하는지가 결정됨

 

  • 정량적 질문 유형
    정량적 연구는 일반적으로 어떻게, 무엇을, 언제, 어디서를 결정하는 데 사용

    - 서술형 질문 : 문제의 개념 또는 주제를 설명(빈도, 하로중 시간, 사용 목적과 같은 것)
    - 비교 질문 : 두 그룹, 개념 또는 기타 변수 간의 차이 분석에 사용(두 제품 간의 사용 빈도 비교, 남녀간의 브랜드 선호도 등)
    - 관계 기반 질문 : 인과관계에 기반한 질문으로 한 변수가 다른 변수에 어떤 영향을 미치는지를 이해 (색상이 특정 제품을 구매하려는 욕구에 어떻게 영향을 미치는지)

  • 질적 질문 유형
    질적 연구는 본질적으로 덜 정량화되고 목표에 관한 의미를 발견하고 이해하려는 데 더 초점을 맞추며 직접적이지 못하고 본질적으로 정량적 질문보다 훨씬 모호함

    - 탐색적 질문 : 선입견으로 결과에 영향을 주지 않고, 무언가를 이해하려고 하는 것(제품이 어떻게 사용되는지 물음)
    - 예측 질문 : 주제나 행동을 둘러싼 의도미래의 결과를 이해하려고 하는 것(소비자가 어떤 상황에서 어떻게 행동하는지 어떤 상황이 발생하면 어떻게 느끼는지 물음)
    - 해석적 질문 : 결과에 영향을 주지 않고 특정 주제에 대한 피드백을 수집(새로운 제품을 테스트하고 어떻게 해석되는지 이해하는 것)

 

 

3. 탐색적 데이터 분석 과정

  • 연구 질문과 가설 설정 : 문제 정의 단계에서 세운 연구 질문, 가설을 바탕으로 분석 계획 수립
  • 분석 계획 수립 : 분석할 속성(변수)과 관계 결정, 탐색하기 위한 최적의 방법론 선정
  • 변수 확인 및 이해 : 분석의 목적과 포함된 변수를 확인하고 각 변수의 이름과 설명 검토
  • 전체 데이터 탐색 : 데이터 셋을 head부분과 tail부분을 전체적으로 살펴보면서 데이터의 구조 이해 및 데이터의 일관성을 검토
  • 데이터 품질 검증 : 데이터에 결측치, 이상치나 다른 문제가 없는지 검토 -> 데이터 전처리의 필요성 평가
  • 속성값 관찰 : 속성(변수)의 값과 분포를 관찰하여 예상 범위에 들어가는지 확인
  • 속성 간 관계 탐색 : 변수 간의 상관관계, 패턴, 시각화를 통해 개별 속성에서 관찰하지 못한 패턴 발견

 

4. 이상값 발견 기법

  • 개별 데이터 관찰
    - 데이터의 개별 값을 직접 관찰하여 추세에 벗어난 특이사항을 발견

  • 시각화 활용
    - 확률 밀도 함수, 히스토그램을 통해 데이터 분포를 시각화하고 이상값을 탐지
    - 점 플롯, 박스 플롯 등을 사용하여 이상값을 시각적으로 식별
    - 워드 클라우드, 시계열 차트 등 다양한 시각화 방법을 통해 패턴을 파악하고 이상값을 탐지

  • 머신러닝 기법 활용
    - 클러스터링과 같은 비지도 학습 방법을 사용하여 자연스럽게 그룹화되지 않는 데이터 포인트를 이상치로 간주

  • 편차 기반 방법
    - Sequential Exception : 시계열 데이터에서 연속적인 예외를 찾아내는 방법
    - OLAP data cube : 데이터 큐브를 사용하여 다차원 데이터내의 이상값을 탐지

  • 통계 기반 탐지
    - 요약 통계 지표를 사용하여 평균, 중앙값, 표준편차 등을 계산하고 Z-score, IQR 등을 활용하여 통계적으로 이상값을 추정
    - Distributed-based : 데이터가 어떤 확률 분포를 따른다고 가정하고, 그 분포에서 벗어난 값을 이상값으로 간주
    - Depth-based : 데이터의 중심으로부터의 깊이(중앙값에 가까운 정도)를 기준으로 이상값 결정

  • 거리 기반 탐지
    - Index-based : 특정 지표를 바탕으로 데이터포인트 간의 거리를 측정하고 일정 거리를 벗어나면 이상값으로 간주
    - Nested-loop : 모든 데이터포인트 간의 거리를 계산하여 이상값 탐지
    - Cell-based : 데이터 공간을 셀로 나누어 각 셀 내의 데이터 밀도를 비교함으로써 이상값 탐지
    - Local-outliers : 지역적으로 이상한 데이터 포인트를 찾아내는 방법
    - Partition-based : 데이터를 파티션으로 나누고 각 파티션 내에서 이상값 탐지

 

 

5. Five-number Summary (다섯 수치 요약)

데이터 집합에 대한 정보 제공 통계량을 나타내는 가장 중요한 표본 백분위수 5가지로 구성된 수

  • 최대값 (Maximum)
  • 상위 사분위수 (Upper quartile) or 제 3사분위수(Q3) : 중앙값 기준으로 상위 50%에서의 중앙값, 전체 데이터 중 상위 25%에 해당하는 값
  • 중앙값 (median) or 제 2분위수(Q2) : 데이터의 가운데 순위에 해당하는 값
  • 하위 사분위수 (Lower quartile) or 제 1사분위수(Q1) : 중앙값 기준으로 하위 50%에서의 중앙값, 전체 데이터 중 하위 25%에 해당하는 값
  • 최소값 (Minimum)

 

 

6. 기초 통계량

기초 통계량은 각 변수의 특성치를 파악하는 목적으로 활용

  • 범주형 변수 (Categorical)
    - 자료의 응답 및 구성 표본 수비율을 파악
    - 모든 변수에 대해서 잘못 입력한 값, 범위 밖의 이상치가 있는지 파악

  • 수치형 변수 (Numeric)
    - 자료의 중심이 어디인지, 얼마나 산포됐는지, 정규분포를 기준으로 얼마나 치우쳐져 있는지 다양한 통계확인 가능
    • 중심화 경향 : 자료(응답값)들의 중심은 어디인가? (평균, 중위수, 최빈값)
    • 산포도 : 자료(응답값)들은 중심을 기준으로 어떻게 흩어져 있는가? (분산, 표준편차, 범위, 사분위범위)
    • 분포도 : 자료(응답값)들의 좌우 대칭 정도와 뾰족함 정도는 어떠한가? (왜도, 첨도)

 

6-1. 중심화 경향

  • 평균 : 양적 자료의 중심 정도를 파악하는 가장 대표적인 값
    • 산술 평균 : 자료의 모든 수치를 더하고 자료의 총 개수 n으로 나눈 값
    • 기하 평균 : 변화율이나 비율의 변화같은 시계열 자료의 평균을 구할 때 이용하는 대표값
    • 조화 평균 : 시간에 따라 변하는 변량,속도,상품의 시세 등의 단위당 평균을 산출하는데 이용되는 값

  • 중위수, 중앙값 : n개의 관측치를 정렬했을 때 위치가 정중앙에 위치한 값
    - n이 홀수이면 중앙값이 딱 떨어지지만, n이 짝수이면 중앙값을 선택해야 함

  • 최빈값 : 주어진 자료에서 가장 자주 나타내고 있는 관측치

평균, 중위수, 최빈값의 관계

크거나 작은 이상치들이 존재하지 않고 자료가 중심에 올라 있을 경우에 평균, 중위수, 최빈값은 일치하는 경향을 보임

(a) 아주 작은 이상치가 존재하면 평균이 작아지고 중위수는 크게 변하지 않아 평균 < 중위수가 되어 왼쪽 꼬리분포에 해당

(b) 이상치가 존재하지 않으면 평균, 중위수, 최빈값이 일치하여 좌우 대칭 분포

(c) 아주 큰 이상치가 존재하면 평균은 커지고 중위수는 크게 변하지 않아 평균 > 중위수가 되어 오른쪽 꼬리분포에 해당

 

 

 

6-2. 산포도

  • 범위 : 자료 중 가장 큰 값과 가장 작은 값 간의 차이. 극단치가 있으면 너무 커져 활용도가 없음

  • 사분범위 : 위 사분위수(Q3)와 아래 사분위수(Q1)의 차이. 자료의 산포를 측정하는 통계량으로 사용

  • 사분위편차 : IQR / 2로 계산되며 극단치에 영향을 덜 받으나 역시 활용도는 낮음

  • 평균편차 : 각 자료 값에 평균값을 뺀 차이값에 절대값을 취하여 모두 더한 뒤 자료의 개수 n으로 나눈 값
    과거에는 종종 사용되었으나 자료의 단위를 반영하지 못하는 단점으로 활용도가 낮아짐

  • 분산 : 각 자료 값에 평균값을 뺀 차이값을 제곱하여 모두 더한 뒤 자료의 개수 n - 1로 나눈 값
    자료의 퍼짐 정도(분산도)를 나타내는 대표적인 값이나, 제곱하여 너무 커진다는 단점이 있음

  • 표준편차 : 분산에 루트를 씌워 원래의 단위로 변환한
    - 가장 대표적인 분산도를 나타내는 값
    - 자료의 단위도 반영하여 활용도가 매우 높음

  • 변동계수 : 변수 x의 표준편차를 산술평균으로 다시 나눈 값
    - 측정 단위가 서로 다른 자료를 비교하고자 할 때 사용
    - 변동계수의 값이 클수록 자료 간 상대적인 차이가 크다는 의미

 

 

6-3. 분산도

  • 왜도 : 각 자료의 값에 평균값을 뺀 차이값을 세제곱하여 모두 더한 뒤 자료의 개수 n으로 나눈 값
    - 분포가 기울어진 방향과 정도를 나타내는 양
    - 좌우가 대칭이면 0, 분포가 왼쪽으로 기울어지면 양수, 오른쪽으로 기울어지면 음수

  • 첨도 : 분포가 얼마나 중심에 집중되어 있는가를 측정한 값.
    - 너무 중앙에 집중되어 있으면 첨도가 0보다 큰 값을 가지며 뾰족해짐
    - 너무 중앙 외부에 집중되어 있으면 첨도가 0보다 작은 값을 가지며 넙적해짐
    - 첨도가 0이거나 가까울수록 고르게 분포되어 있음을 의미

 

 

7. 상관관계 분석

두 연속형 변수간의 선형적 상관관계를 분석하는 기법.
0 ~ +-1의 상관계수로 나타나며 +-1에 가까울수록 상관관계가 높은 것

 

 

7-1. 상관 계수의 종류 1

  • 단순 상관계수 : 두 변수간의 상관관계 (1 : 1)
  • 다중 상관계수 : 하나의 변수와 두 개 이상의 변수간의 상관관계(1 : N)
  • 편 상관계수 : 다른 변수들의 상관관계를 통제한, 순수한 두 변수간의 상관관계

 

7-2. 상관 계수의 종류 2

  • Pearson : 대표적 상관관계 분석이며 두 변수가 연속형(수치자료)일 경우에만 사용 가능
    - 연속형이 아닌, 상/중/하와 같은 서열척도 자료의 경우 분산이 적어 해당 상관계수가 적절하지 않음

  • Spearman : 서열척도 자료인 두 변수의 상관관계를 계산하기 위해 제안된 방법
    - 서열척도인 순서형 변수 혹은 표본수가 적은 경우에 적용되는 비모수적 방법
    - 순위를 기준으로 상관관계 측정
    - 데이터 내 편차와 에러에 민감하고 켄달의 상관계수보다 일반적으로 결과가 높게 나타남

  • Kendal : Spearman과 동일하게 서열척도 자료인 두 변수 사이의 상관관계를 계산하는 방법
    - Spearman과 동일한 순서형 변수 혹은 표본수가 적은 경우에 적용되는 비모수적 방법
    - 순위를 기준으로 상관관계 측정
    - 표본수가 적거나 데이터에 동률이 많은 경우 Spearman보다 더 적합함

 

 

8. 상관계수 구하기

공분산은 변수의 단위에 따라 크게 변할 수 있어서 판단 기준이 애매한데, 이 공분산 값을 0과 1 사이의 값으로 표준화 한 것이 상관계수. 즉 상관계수를 구하기 위해서는 공분산을 표준화하여 구하면 되므로 계산 방법은 다음과 같음

 

 

9. 속성 간의 관계 분석

데이터 조합 요약 통계 시각화
Categorical - Categorical 교차 테이블 모자이크 플롯
Numeric - Categorical 카테고리별 통계 값 박스 플롯
Numeric - Numeric 상관계수 산점도

 

 

 

10. 시공간 데이터 탐색

- 시공간데이터란 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
- 데이터를 시간의 흐름, 공간의 변화에 위치시킬 수 있는 시간과 공간의 속성이 필요함
- 시공간 데이터는 이산적 변화와 연속적 변화로 구분됨

  • 이산적 변화 : 데이터의 수집주기가 일정하지 않은 데이터를 이용하여 표현, 시간의 변화에 따라 데이터가 추가
  • 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현, 시간의 변화에 따라 일어나는 연속적 변화를 일정 함수를 이용하여 표현

 

 

11. 다변량 데이터 탐색

변수의 수에 따라 일변량 이변량 다변량으로 구분

유형 설명
일변량 데이터 - 단위에 대해 하나의 속성만 측정하여 얻게되는 변수에 대한 자료
- 기본 통계 분석으로 탐색 및 분석
이변량 데이터 - 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료
- 상관관계, t/f 검정, 교차분석 등을 적용
다변량 데이터 - 여러 변수가 동시에 고려된 다차원 공간에서 변수간의 상관, 예측, 분류를 목적으로 한 자료
- 비지도적 방법인 주성분, 요인 분석과 다차원 척도법 등 여러 변수간 유사성을 기준으로 차원 축소 및 시각화 가능

 

 

 

12. 비정형 데이터 탐색

텍스트 마이닝 - 텍스트 데이터를 자연어처리법으로 기초적인 정보 추출, 키워드 분석 및 문서간의 연관 관계 분석, 유사 내용 간의 군집화 기법을 적용하여 숨겨진 의미를 발견하는 분석
- 텍스트 데이터를 곧바로 분석할 수 없으며 텍스트를 정형화 데이터로 변환(텍스트 임베딩)하여 패턴을 발견
웹 마이닝 - 웹 상에서 패턴을 발견하기 위한 방법으로 주로 연결(Link) 구조를 가진 데이터에 대한 탐색과 분석을 목적으로 함
- 웹 컨텐츠 마이닝은 웹 내에서 유용한 데이터나 정보, 지식을 추출하여 통합
- 웹 사용 마이닝은 웹 사이의 연결, 웹 사이트 노드와 연결 구조를 분석하기 위해 그래프이론 적용
오피니언 마이닝 - 이슈, 인물, 사건에 대해 남겨진 의견, 평가, 태도, 감정과 같은 주관적인 정보를 식별하고 추출
- 문서, 문장 등이 긍정, 부정, 중립인지 분류 혹은 평점을 부여하는 정량화 과정이 요구됨
소셜 데이터 마이닝 - 사용자의 관심사, 정보, 로그 등을 분석하여 트렌드를 모니터링 하는 방법

 

'빅데이터 관련 개념 정리' 카테고리의 다른 글

데이터 정제  (0) 2024.04.20
데이터 전처리  (0) 2024.04.20
데이터 저장 기술  (1) 2024.04.19
데이터 적재 기술  (0) 2024.04.19
데이터 품질 관리  (0) 2024.04.19