빅데이터 관련 개념 정리 18

데이터 적재 기술

데이터 적재(Load) - 변환된 데이터를 최종 목적지(데이터 웨어하우스, 데이터 레이크, 데이터 베이스)에 저장하는 과정 - ETL의 마지막 부분으로 데이터가 분석, 보고, 비즈니스 활동에 사용될 준비를 마치는 중요한 과정 1. 적재 단계의 주요 특징과 고려사항 주요 특징 내용 적재 방식 - 전체 적재 : 타깃 시스템에 이미 존재하는 모든 데이터를 삭제하고 새로운 데이터로 전체를 대체하는 방식으로 초기 설정이나 주요 업데이트에 사용 - 증분 적재 : 마지막 적재 이후 변경된 데이터만을 대상 시스템에 추가하거나 업데이트 하는 방식으로 효율성과 성능 최적화를 위해 사용 성능 최적화 적재 과정에서 DB의 성능을 저하시키지 않도록 효율적인 적재 전략을 수립 배치사이즈 조절, 병렬처리, 인덱스 관리 등을 통해 ..

데이터 품질 관리

데이터의 품질 조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준을 의미 데이터 품질 관리 협의적 개념 광의적 개념 조직에서 보유한 데이터를 수집, 처리, 분석하는 동안 무결성을 보장하는 프로세스 데이터 관리, 비전, 목표, 전략, 데이터 관리 원칙과 기준 등을 모두 포괄하는 데이터 관리 체계 1. 정형 데이터의 품질 기준 품질 기준 설명 완전성 필수 항목에 누락이 없어야함 유일성 데이터 항목은 유일해야하며 중복되어서는 안됨 유효성 데이터 항목은 정해진 데이터 유효 범위, 도메인을 충족해야 함 일관성 데이터의 구조, 값, 형태가 일관되게 정의되고 일치해야 함 정확성 실제 존재하는 객체의 표현 값이 정확하게 반영되어야 함 2. 비정형 데이터의 품..

데이터 변환 기술

데이터 변환 데이터 변환은 우리가 데이터 분석을 하는 목적에 알맞게 변환시키는 것을 의미하며 이는 정해진 규칙에 따라 데이터를 바꾸는 것을 말함 과거의 데이터 변환은 DMBS에서 질의문을 이용하거나 별도의 소프트웨어를 개발하여 변환했지만, 현재는 데이터 양의 폭발적인 증가와 전환 효율성을 고려해야하기 때문에 데이터 전환 도구(ETL)을 이용하며 특히 컴퓨터가 바로 처리할 수 없는 비정형 데이터나 반정형 데이터를 정형의 구조적인, 정해진 규칙에 따라 변환하여 저장하는 것을 의미함 1. ETL의 개념과 역할 및 기능 ETL이란 - 데이터를 소스가되는 시스템에서 추출하고 필요한 형태로 변환한 뒤 마지막으로 대상 데이터베이스에 로드하는 과정 ETL의 역할 데이터 통합 : 서로 다른 소스에서 데이터를 수집하여 통..

수집 데이터 유형 및 기술

일반적인 데이터의 특징 구분 정량적 데이터 정성적 데이터 형태 정형, 반정형 비정형 특징 속성(attribute)가 모여 객체를 구성 객체 하나에 함의 된 정보가 포함됨 데이터 세트가 아닌, 하나의 데이터가 수집 데이터로 객체화 구성 수치, 도형, 기호 등 언어, 문자 등 저장 형태 데이터베이스, 스프레드시트 파일, 웹 소스 위치 내부 시스템 외부 시스템 1. 정량적 데이터 수집 방법 수집 방법 특징 면접 조사 연구자가 대상자와 직접적 상호작용을 통해 필요한 자료를 수집, 기록 전화 / 우편 / FAX / E-Mail 조사 질문지를 대상자들에게 전화 / 우편 / FAX / E-mail로 보내어 수집 온라인 조사 네트워크, 인터넷 등 컴퓨터가 연결된 상태에서 이루어지는 조사 CTL(Central Locat..

데이터 수집 프로세스

데이터 수집 프로젝트의 특성 일반 업무 프로젝트는 데이터의 확보에서 프로젝트의 품질, 성패를 좌우하지 않음 하지만 데이터를 수집하는 절차가 포함된 프로젝트의 경우 데이터의 확보가 프로젝트의 품질과 성패를 결정짓는 최중요 요소가 됨 고로 데이터의 수집을 위한 절차를 설계하고, 충분한 테스트를 걸쳐 진행해야 함 일반 프로젝트 데이터 수집 프로젝트 데이터 입력 측면 사용자가 데이터 발생의 주체 수집 프로세스로 확보한 데이터를 이용하므로 수집 프로세스 자체가 데이터 발생의 주체 데이터 입력자가 데이터에 대한 오너십을 가짐 수집 정책에 관련된 기술에 대해 데이터 오너십이 존재 데이터는 트랜잭션 하나에 한 건씩 발생 데이터가 프로세스 하나에서 여러건 발생 가능 데이터 처리 측면 입력된 데이터의 사전, 사후 처리 과..

데이터 분석 기획

데이터 분석 기획이란 데이터를 활용하여 비즈니스 문제를 해결, 인사이트를 도출하는 전략적 계획 수립 명확한 문제 정의, 데이터 수집 및 정제와 분석 방법론의 선택, 결과 해석 등의 단계로 구성 이 기획의 목적은 데이터 기반의 의사결정을 가능하게 하여, 조직의 효율과 비즈니스 가치를 극대화 함에 있음 1. 분석 마스터 플랜 수립 프레임워크 비전과 목표 설정 - 분석 비전 : 조직의 비즈니스 전략과 어떻게 연결되는지에 대한 명확한 분석 비전 설정 - 구체적 목표 : 달성하고자 하는 구체적 분석 목표를 정의 데이터 관리 전략 - 데이터 수집 : 필요한 데이터의 종류, 데이터 수집 방법을 명시 - 데이터 저장 및 관리 : 수집한 데이터를 저장, 관리할 인프라와 정책을 구축 - 데이터 품질 관리 : 데이터의 정확..

빅데이터의 개념

빅데이터란? 다양한 원천으로부터 다양한 형태의 데이터를 수집, 처리, 저장하고 목적에 맞게 분석해여 필요 지식을 추출하며 전략적 의사결정, 문제 해결, 비즈니스 모델의 개발 및 개선 등에 이용하는 제반 행위. 과거에는 통상적으로 수용 가능한 한계를 넘어서는 크기의 데이터, 즉 크기(Volume)의 시각으로서만 정의했지만 현재는 더욱 광범위한 개념으로 변하게 됨 1. 빅데이터의 등장 배경 정보 통신 기술의 발전 인터넷, 스마트폰, 사물인터넷 확산에 따른 데이터의 폭증 축적된 데이터를 활용한 분석의 수요 증가 데이터가 자원이 되는 4차 산업혁명으로의 패러다임 전환 비대해진 데이터의 양으로 재기된 기존 데이터 저장, 관리, 분석 기법의 한계 하드웨어 기술 발전에 따른 데이터 저장, 처리 비용의 하락 1-1. ..

데이터의 개념과 종류

데이터란? -> 라틴어 단어 Datum의 복수형인 Data에서 유래했으며, Datum은 '주다(to give)' 라는 뜻의 단어 dare의 과거 분사형. 고로 '주어진 것' 이라는 뜻이 되며, 이로 인해 따로 복수형 취급하지는 않지만, 고유명사화되어 단수로 취급하는 경우도 존재함 1. 빅데이터에서 데이터의 정의 이론을 세우는 데 기초가 되는 사실이나 바탕이 되는 자료 관찰, 실험, 조사로 얻은 사실이나 자료 사람, 기계가 처리할 수 있는 문자, 숫자, 소리, 그림 등의 형태로 된 자료 -> 데이터는 그 자체로 정보가 아니며, 데이터를 가공해서 얻는 것이 정보 1-1. 데이터의 특성으로 보는 정의 존재적 특성으로서의 데이터 : 데이터는 객관적 사실 그 자체이다 -> 데이터는 객관적 사실 자체. 개별의 데이..