본문 바로가기

통계 톺아보기/01. 분류모델

(6)
02_01_01. 의사결정나무 Decision Tree 작년에 다시 더듬어 공부하면서 정리한 내용을 포스팅해보려고 한다~ :) 변수의 규칙 또는 조건문을 토대로 나무 구조로 도표화하여 분류와 예측을 수행하는 방법 : 대상이 되는 집단을 몇 개의 소집단으로 구분하는 Segmentation 모델링 기법 (그룹의 특성을 발견하고자 하는 경우) : Feature Selection에 사용되기도 함 (변수선택) 1) 장점 - 이해와 해석이 쉬움 - 비모수적 모형, 결측값을 효과적으로 다룰 수 있음 - 계산이 빠름 - 교호작용을 고려할 수 있음 - Transformation해도 변화가 없음 - 분포에 대한 가정이 필요 없음 - 비선형적 2) 단점 - 교호작용 지나치게 강조 - 예측 표면이 부드럽지 않음 - 같은 데이터로 다른 Tree들을 만들 수 있음 - 불안정함 (분산..
[02_02_03] Bagging Bagging이란 Ensemble의 한 종류로 Booststrap aggregating의 약자이다. 배깅은 분산을 줄이는 알고리즘이며, 의사결정나무는 다른 모형에 비해 상대적으로 분산이 높기 때문에 종종 활용된다. 1. Bagging의 특징 - 단일 모델에 비해 설명하기 쉽다는 구조가 깨짐 - 배깅은 편향이 작고 분산이 높은 모델에 사용하면 효과적 (→ High variance면, 데이터셋에 따라 모델이 심하게 변동한다는 것을 의미) - Bagging은 variance를 줄여줌, not bias → n이 늘어났다고 기대값이 바뀌지 않음. 단, variance는 감소 - 대표적인 Bagging의 알고리즘으로는 Random Forest가 있다. 2. Bagging의 Concept 각 관측값 집합이 가진 분산..
[02_02_02] Bootstrap Bootstrap Aggregating 의 약자인 Bagging을 시작하기에 앞서, 간단하게 Booststrap을 살펴보고자 한다. Booststrap 정의 - Random Sampling with replacement 의미함 - N개의 초기 데이터 셋에서 n개 크기의 샘플을 중복허용하여 샘플링하는 것 Bootstrap을 사용하는 경우 를 살표보자. 1) Raw data의 분포, 데이터를 수집했던 확률변수의 정확한 분포를 모를 때 추정할 때, 사용할 수 있음 이런 경우, 측정된 통계치의 신뢰도를 가늠할 수 없기 때문에, Bootstrapping 을 이용하게 된다. ⇒ 중복을 허용한 복원 추출로 각각 n개를 뽑고, 뽑은 n개의 평균을 구하는 것을 m번 반복하면, 평균에 대한 분포를 구할 수 있고, 이로부터..
[02_02_05] Boosting (AdaBoost) Boosting 모델 중에서 가장 기초 모델인 Adaboost 모델 먼저 살펴보려고 한다. Adaboost의 개념, 장/단점 그리고 알고리즘에 대해서 자세히 알아가보겠습니다~ 1. AdaBoost 란? AdaBoost 는 Adaptive Boosting 약자 Ensenble-based classifier 일종 이진 분류 문제에서 의사결정나무(Decision Tree)의 성능을 향상시키는데 가장 많이 사용됨 2. AdaBoost 개요 - 하나의 node에 두개의 leaf를 지닌 트리를 그루터기(stump) 라고 함 - AdaBoost는 아래 그림과 같이 여러 개의 stump로 구성되어 있고, Forest of stumps라 함 - Tree와 비슷하지만 Leaf만 가지는 트리를 여러개 만든다. - Stump..
[02_02_04] Boosting 앞서 정리했던 Bagging에 이어서 Boosting에 대해서 정리해보았다. Bagging과 다른 Boosting의 개념, 장점, 단점 그리고 특징들을 살펴보도록 하겠다. [02_02_03] Bagging Bagging이란 Ensemble의 한 종류로 Booststrap aggregating의 약자이다. 배깅은 분산을 줄이는 알고리즘이며, 의사결정나무는 다른 모형에 비해 상대적으로 분산이 높기 때문에 종종 활용된다. 1. Bagging의 based-infos.tistory.com 1. Boosting 개념 Bagging은 각각의 샘플에 적용된 모델들이 서로 독립적인 결과를 예측함 (병렬적으로 학습하기 때문) Sequential한 weak learner들을 여러개 결합하여 예측 혹은 분류 성능을 높이는 알..
[02_02_01] Ensenble (앙상블) 이란? 1 . Ensenble 개념 weak learner 들을 잘 조합해서 strong learner로 만드는 것 성능이 그리 좋지 않은 모델들을 모아서 성능이 좋은 모델 하나를 만드는 것 여러 분류 모델이 만든 결과를 집계하여 예측 혹은 분류하는 방법 2. General Idea Step1: Training Data를 Multiple Data Set으로 분류 Step2: 각각의 Multiple Data Set에서 분류모델 생성 Step3: 각각 생성된 분류모델을 결합 3. Ensenble 모델 1) Voting - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 투표를 통해 결과 도출 - 서로 다른 알고리즘을 여러개 결합하여 사용 - 하드 보팅(Hard Voting) , 소프트 보팅(Soft Voting)..