빅데이터 관련 개념 정리 18

머신러닝

머신러닝이란- 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야(Arthur Samuel, 1959)- 어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정 헀을 때, 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것(Tom mitchell, 1997)  알고리즘과 머신러닝알고리즘(Algorithms)머신러닝(Machine Learning)- 어떠한 문제를 해결하기 위한 일련의 절차나 방법- 기계가 패턴을 학습하여 자동화하는 알고리즘  머신러닝 학습의 종류지도 학습비지도학습준지도학습강화학습- 입력과 결과가 레이블로 표시- 입력과 출력에 매핑되는 일반적인 규칙을 학습- 원하는 출력 없이 입력 데이터 사용- 입력 데이터의..

인공지능 개념

인공지능(artificial intelligence)의 유래- 다트머스 회의(1956)에서 존 매카시(John MacCarthy)가 제안한 용어  인공지능의 정의인간적 사고- 컴퓨터가 생각하게 하는 흥미로운 시도, 문자 그대로 완전한 의미에서 마음을 가진 기계(Haugeland, 1985)- 인간의 사고, 의사결정, 문제 풀기, 학습 등 활동에 연관시킬 수 있는 활동들의 자동화(Bellman, 1978)합리적 사고- 계산 모형을 이용한 정신 능력 연구(Charniak 및 McDermott, 1985)- 인지와 추론, 행위를 가능하게 하는 계산의 연구(Winston, 1992)인간적 행위- 사람이 지능적으로 수행해야 하는 기능을 수행하는 기계의 제작을 위한 기술(Kurzweil, 1990)- 현재로서는 사..

분석 모형 설계

모형 구축의 기법통계분석 : 정보 추출, 데이터 관계 이해, 예측모델 생성으로 진행되는 전통적 방법으로 데이터의 패턴 식별, 가설 검증에 주로 사용데이터 마이닝 : 큰 데이터 세트에서 유용한 패턴, 상관관계, 트렌드 등을 찾는 과정으로 기존 DB관리 도구의 용량을 넘어서는 큰 데이터 집합과 복잡한 구조에서 정보를 발견하기 위해 사용머신러닝 : 데이터로부터 학습하고 예측을 수행하는 알고리즘과 모델을 개발하는 과정으로 다음과 같이 구분- 지도학습- 비지도학습- 강화학습비정형 데이터 분석 : 텍스트, 이미지, 오디오 등 비정형 데이터를 분석하는 기법    통계분석선형 회귀 모델- 하나 이상의 독립변수와 연속적인 종속 변수 간의 선형 관계를 모델링 - 가장 간단하면서도 널리 사용되는 예측 기법- 경제학, 생물학..

추정과 검정

추정 통계학의 목적은 일부 표본을 조사, 분석하여 전체 모집단을 추정하는 것 - 즉 추정이란 모집단의 특성, 즉 모수(Parameter)가 무잇인지 추측하는 것 점 추정(Point Estimation) : 표본을 기반으로 모수를 특정한 수치로 추정하는 방법, 표본 통계량 이용 구간 추정(Interval Estimation) : 표본을 기반으로 모수를 특정한 구간(신뢰 구간)으로 추정하는 방법 - 신뢰 구간 : 주어진 신뢰 수준 하에 모수가 포함될 것으로 기대되는 수치 범위 가설 검정(Hypothesis Test) : 모수에 대한 가설을 설정한 후에 그 가설이 옳은지 판단하여 채택 여부를 결정 1. 점 추정 모수를 단일 값으로 추정하는 통계정 방법 추정치가 유용하고 신뢰할 수 있는 정보를 제공하도록 보장하..

데이터 축소

변수 선택 - 데이터의 종속변수에 가장 영향이 있을 만한 독립변수를 선정하는 방법 - 독립변수가 많은 모델일수록 종속변수를 잘 예측할 가능성이 높지만, 불필요한 변수는 오히려 모델을 악화시킴 - 데이터 정제 후 분석과정에서 좋은 모델을 구성하기 위해서는 변수 선택의 과정이 필수 필터 방법 : 독립변수 하나와 종속변수 하나씩 적합한 통계적 기법을 이용하여 상관이 있는 변수를 찾아내는 방법 래퍼 방법 : 독립변수들을 미리 정해놓고 예측분석 과정에서 예측과 분류에 기여하는 영향 변수만을 선정하는 방법 임베디드 방법 : 모델링 기법 자체에 변수선택 방법이 포함된 임베디드 방법 데이터 축소 방대한 양의 데이터를 대상으로 데이터를 분석하고 마이닝 기법을 적용한다면, 분석에 매우 많은 시간이 소요되어 비현실적이므로 ..

데이터 통합

데이터 통합 여러 데이터 저장소로부터 온 데이터를 합치는 과정으로 향상된 데이터 품질, 효율성, 통찰력, 더 나은 의사 결정 및 경쟁 우위를 제공하는 분석에 중요함 데이터 원천, 데이터 소스 : 데이터베이스, 데이터 큐브, 플랫파일 등 다양한 형태로 존재 데이터 웨어하우스 : 다수의 원천 데이터부터 하나의 통일된 데이터 저장소로 결합시키는 통합 작업이 필요한 데이터 분석 작업 데이터 마이닝 : 대용량의 데이터 집단에서 특정 정보를 추출하기 위한 처리 과정 데이터 통합과정에서 동일한 의미의 개체들이 서로 다르게 표현되어 있을 경우 이를 일치시켜야 하는데 이 문제를 개체식별문제 라고 하며 이를 해결하기 위해 다양한 기술과 방법이 사용됨 개체식별문제 - 메타데이터 활용 메타데이터 : 각 속성의 이름과 의미, ..

데이터 정제

데이터 정제 절차 데이터 특성 파악 데이터 모순점 발견 데이터 수정 변환 1. 데이터 특성 파악 속성의 데이터 타입과 도메인(속성 값의 범위) 속성 값의 분포 특성(대칭, 비대칭 등) - 대칭/비대칭 분포 - 실제 값의 주요 분포 범위 - 값의 표준편차 속성 간의 의존성 - 속성 A의 값이 다른 데이터의 속성 B값과 반드시 같다면 속성 A와 속성 B간의 함수적 종속성 존재 (A -> B) -> 해당 중요 대표 값들은 메타데이터에 포함됨 1-1. 메타데이터 통칭 '데이터에 대한 데이터'라고 하며 데이터에 관한 구조화된 데이터, 즉 다른 데이터를 설명해주는 데이터를 의미 기술용(설명) 메타데이터 - 정보의 검색을 목적으로 한 메타데이터 (이름, 생성자, 날짜, 형식 등) - 도서관 항목을 찾는 것과 같음 관..

데이터 전처리

데이터 전처리 데이터를 분석 및 처리에 적합하게 만드는 과정을 총칭하는 개념이며 아무리 좋은 도구나 분석 기법이 있어도 품질이 낮은 데이터로는 절대 좋은 결과를 얻을 수 없으므로(GIGO) 데이터 전처리는 가장 중요한 과정 GIGO (Garbage In Garbage Out) : 모델이 아무리 좋아도 데이터가 쓰레기이면 결과도 쓰레기값이 나온다는 것을 말함 데이터 난제 너무 많은 데이터 - 데이터의 손상 및 잡음 - 관련성 부족 데이터 - 과한 대용량 데이터 - 속성의 수가 너무 많은 데이터 - 숫자와 문자가 혼합된 데이터 너무 적은 데이터 - 결여된 속성 - 결측치 존재 - 데이터의 총량이 부족함 파손된 데이터 - 양립할 수 없는 데이터 - 자료원에 따른 값 차이 - 집계 수준이 다른 데이터 1. 데이..

탐색적 데이터 분석

탐색적 데이터 분석 (EDA, Exploratory Data Analysis) 기존의 통계학이 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있었음 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발 분석의 목적을 달성하기 위해 전반적인 자료의 응답 및 분포 경향, 데이터의 구조적 관계를 알아보는 기법 탐색적 데이터 분석의 필요성 데이터 이해 증진 : 데이터의 분포, 경향, 변동성 등을 검토함으로써 데이터가 표현하는 현상과 특성을 더 깊이 이해 데이터 품질 문제 식별 : 데이터 검토를 통해 누락값, 이상치, 중복 데이터 등 잠재적인 데이터 품질 문제를 발견 추가 데이터 수집 결정 : 데이터가 불충분하거나 특정 변수가 누락..

데이터 저장 기술

빅데이터 저장 시스템 대용량의 데이터 집합을 저장하고 관리하는 시스템 대용량의 공간, 빠른 처리 성능, 확장성, 신뢰성, 가용성 등을 보장해야 함 메타데이터를 별도의 전용 서버로 관리하는 비대칭형 클러스터 파일 시스템이 개발되고 있으며, 이 시스템은 메타데이터에 접근하는 경로와 데이터에 접근하는 경로가 분리된 구조를 가짐 1. 빅데이터 저장 제품 검토 빅데이터 저장을 위한 제품을 선택, 검토하기 위해 사용자 요구사항을 분석 단계 설명 예시 1. 요구사항 수집 - 문서나 인터뷰를 통해 수집하거나 기존 시스템 분석을 통해 요구사항을 수집 포커스 그룹 인터뷰 설문, 워크숍 2. 요구사항 분석 - 기능, 비기능 데이터 및 기타 요구사항 분석 데이터 유형이나 업데이트 주기 3. 요구사항 명세 - 요구사항을 문서화..