전체 글 62

CPU 스케줄링

CPU 스케줄링이 필요한 이유CPU, 디스크, 프린터, 파일, 데이터베이스 등과 같은 자원(Resource)에 대한 스레드들의 경쟁속에서 스레드 하나를 선택해야 함.  컴퓨터 시스템 내의 다양한 스케줄링작업(job) 스케줄링- batch 시스템에서 대기중인 작업(job) 중 메모리에 적재할 작업을 선택하는 스케줄링CPU 스케줄링- 프로세스/스레드 중 하나를 선택하여 CPU를 할당하는 스케줄링이며 오늘날 운영체제의 스케줄 단위는 스레드디스크 스케줄링- 디스크 장치 내에서 입출력 요청 중 하나를 선택하는 스케줄링프린터 스케줄링- 프린팅 작업 중 하나를 선택하여 프린터에 할당하는 스케줄링  다중프로그래밍의 도입 목적과 다중프로그래밍과 함께 도입된 스케줄링 다중프로그래밍 도입 목적 -> CPU 유휴시간을 줄여 ..

운영체제 2024.06.02

이진트리

트리란? 트리는 한 개 이상의 노드(node)로 이루어진 유한 집합으로서 노드 중에는 루트(root)노드가 한 개 있고 나머지 노드들은 n >= 0개의 분리 집합 T1, ...... Tn으로 분할될 수 있다. 여기서 T1, ...... Tn은 각각 하나의 트리이며 루트의 서브트리(subtree)라고 한다 차수(degree) : 한 노드가 가지고 있는 서브트리의 수, 차수가 0인 노드는 리프노드(leaf node) 트리의 차수(degree of tree) : 트리의 최대 차수, 트리의 차수가 n이면 해당 트리의 구조를 'n진 트리' 라고 함 간선(edge) : 노드와 노드의 연결선. 노드가 n개이면 엣지는 n - 1개 루트 노드(root node) : 레벨이 1인 노드 리프 노드(leaf node) : 차..

추정과 검정

추정 통계학의 목적은 일부 표본을 조사, 분석하여 전체 모집단을 추정하는 것 - 즉 추정이란 모집단의 특성, 즉 모수(Parameter)가 무잇인지 추측하는 것 점 추정(Point Estimation) : 표본을 기반으로 모수를 특정한 수치로 추정하는 방법, 표본 통계량 이용 구간 추정(Interval Estimation) : 표본을 기반으로 모수를 특정한 구간(신뢰 구간)으로 추정하는 방법 - 신뢰 구간 : 주어진 신뢰 수준 하에 모수가 포함될 것으로 기대되는 수치 범위 가설 검정(Hypothesis Test) : 모수에 대한 가설을 설정한 후에 그 가설이 옳은지 판단하여 채택 여부를 결정 1. 점 추정 모수를 단일 값으로 추정하는 통계정 방법 추정치가 유용하고 신뢰할 수 있는 정보를 제공하도록 보장하..

표본 추출

모집단, 표본, 표본추출의 주요 용어 전수조사 - 연구의 관심이 되는 전체 집단(모집단)을 전부 조사하는 방법 - 비용과 시간적 이유로 사용하기 힘들고, 국가 통계조사에서 일부 사용함 표본조사 - 모집단 내에서 일부만 조사하여 전체 모집단을 추정하는 조사 - 대부분의 조사에서 사용 모집단 - 조사의 관심이 되는 전체 집단 - 모집단의 정의는 명확하고 구체적이어야 함 (OO시 OO동의 20대 남성과 같이) 표본 - 모집단에서 일부만 샘플링하여 실제 조사한 대상 모수 - 모집단으로부터 계산된 모든 값 - 전수조사를 하지 않는 이상 알 수 없는 미지수 - 자료수, 모평균, 모표준편차, 모분산 통계량 - 샘플링한 표본으로부터 계산된 모든 값 - 일반적으로 통계랑을 가지고 모수를 추정함 - 자료수, 표본평균, 표..

카테고리 없음 2024.04.21

데이터 축소

변수 선택 - 데이터의 종속변수에 가장 영향이 있을 만한 독립변수를 선정하는 방법 - 독립변수가 많은 모델일수록 종속변수를 잘 예측할 가능성이 높지만, 불필요한 변수는 오히려 모델을 악화시킴 - 데이터 정제 후 분석과정에서 좋은 모델을 구성하기 위해서는 변수 선택의 과정이 필수 필터 방법 : 독립변수 하나와 종속변수 하나씩 적합한 통계적 기법을 이용하여 상관이 있는 변수를 찾아내는 방법 래퍼 방법 : 독립변수들을 미리 정해놓고 예측분석 과정에서 예측과 분류에 기여하는 영향 변수만을 선정하는 방법 임베디드 방법 : 모델링 기법 자체에 변수선택 방법이 포함된 임베디드 방법 데이터 축소 방대한 양의 데이터를 대상으로 데이터를 분석하고 마이닝 기법을 적용한다면, 분석에 매우 많은 시간이 소요되어 비현실적이므로 ..

데이터 통합

데이터 통합 여러 데이터 저장소로부터 온 데이터를 합치는 과정으로 향상된 데이터 품질, 효율성, 통찰력, 더 나은 의사 결정 및 경쟁 우위를 제공하는 분석에 중요함 데이터 원천, 데이터 소스 : 데이터베이스, 데이터 큐브, 플랫파일 등 다양한 형태로 존재 데이터 웨어하우스 : 다수의 원천 데이터부터 하나의 통일된 데이터 저장소로 결합시키는 통합 작업이 필요한 데이터 분석 작업 데이터 마이닝 : 대용량의 데이터 집단에서 특정 정보를 추출하기 위한 처리 과정 데이터 통합과정에서 동일한 의미의 개체들이 서로 다르게 표현되어 있을 경우 이를 일치시켜야 하는데 이 문제를 개체식별문제 라고 하며 이를 해결하기 위해 다양한 기술과 방법이 사용됨 개체식별문제 - 메타데이터 활용 메타데이터 : 각 속성의 이름과 의미, ..

데이터 정제

데이터 정제 절차 데이터 특성 파악 데이터 모순점 발견 데이터 수정 변환 1. 데이터 특성 파악 속성의 데이터 타입과 도메인(속성 값의 범위) 속성 값의 분포 특성(대칭, 비대칭 등) - 대칭/비대칭 분포 - 실제 값의 주요 분포 범위 - 값의 표준편차 속성 간의 의존성 - 속성 A의 값이 다른 데이터의 속성 B값과 반드시 같다면 속성 A와 속성 B간의 함수적 종속성 존재 (A -> B) -> 해당 중요 대표 값들은 메타데이터에 포함됨 1-1. 메타데이터 통칭 '데이터에 대한 데이터'라고 하며 데이터에 관한 구조화된 데이터, 즉 다른 데이터를 설명해주는 데이터를 의미 기술용(설명) 메타데이터 - 정보의 검색을 목적으로 한 메타데이터 (이름, 생성자, 날짜, 형식 등) - 도서관 항목을 찾는 것과 같음 관..

데이터 전처리

데이터 전처리 데이터를 분석 및 처리에 적합하게 만드는 과정을 총칭하는 개념이며 아무리 좋은 도구나 분석 기법이 있어도 품질이 낮은 데이터로는 절대 좋은 결과를 얻을 수 없으므로(GIGO) 데이터 전처리는 가장 중요한 과정 GIGO (Garbage In Garbage Out) : 모델이 아무리 좋아도 데이터가 쓰레기이면 결과도 쓰레기값이 나온다는 것을 말함 데이터 난제 너무 많은 데이터 - 데이터의 손상 및 잡음 - 관련성 부족 데이터 - 과한 대용량 데이터 - 속성의 수가 너무 많은 데이터 - 숫자와 문자가 혼합된 데이터 너무 적은 데이터 - 결여된 속성 - 결측치 존재 - 데이터의 총량이 부족함 파손된 데이터 - 양립할 수 없는 데이터 - 자료원에 따른 값 차이 - 집계 수준이 다른 데이터 1. 데이..

탐색적 데이터 분석

탐색적 데이터 분석 (EDA, Exploratory Data Analysis) 기존의 통계학이 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있었음 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발 분석의 목적을 달성하기 위해 전반적인 자료의 응답 및 분포 경향, 데이터의 구조적 관계를 알아보는 기법 탐색적 데이터 분석의 필요성 데이터 이해 증진 : 데이터의 분포, 경향, 변동성 등을 검토함으로써 데이터가 표현하는 현상과 특성을 더 깊이 이해 데이터 품질 문제 식별 : 데이터 검토를 통해 누락값, 이상치, 중복 데이터 등 잠재적인 데이터 품질 문제를 발견 추가 데이터 수집 결정 : 데이터가 불충분하거나 특정 변수가 누락..