본문 바로가기

통계 톺아보기

(8)
05_01. 군집분석 S.O.M (self-organizing map) 비지도 학습 중에 비슷한 데이터들을 묶어서 특징을 파악하기 위해 군집분석을 사용하게 되는데요. 그 중에서 S.O.M.의 특징, 장 / 단점 등을 파악해보고자 합니다. 1. S.O.M (self-organizing map) 이란? S.O.M은 다양한 변수를 활용하기 때문에 이에 대해 고차원 벡터 공간을 2차원으로 시각화를 하기 위해 제안된 뉴럴 네트워크 기반의 군집분석 모델입니다. 여기서 차원축소와 군집분석이 이용됩니다. Self-organizing map 을 우리 말로 자기 조직화 지도 라고 부르는데요. 그 말은 주어진 입력 패턴에 대하여 정확한 해답을 주지 않고 자기 스스로 학습한다는 것을 의미한답니다. 예시를 살펴보겠습니다. 아래 그림은 (5,5) 크기 격자이며, 파란색은 고차원 데이터 공간에서의 밀..
02_01_01. 의사결정나무 Decision Tree 작년에 다시 더듬어 공부하면서 정리한 내용을 포스팅해보려고 한다~ :) 변수의 규칙 또는 조건문을 토대로 나무 구조로 도표화하여 분류와 예측을 수행하는 방법 : 대상이 되는 집단을 몇 개의 소집단으로 구분하는 Segmentation 모델링 기법 (그룹의 특성을 발견하고자 하는 경우) : Feature Selection에 사용되기도 함 (변수선택) 1) 장점 - 이해와 해석이 쉬움 - 비모수적 모형, 결측값을 효과적으로 다룰 수 있음 - 계산이 빠름 - 교호작용을 고려할 수 있음 - Transformation해도 변화가 없음 - 분포에 대한 가정이 필요 없음 - 비선형적 2) 단점 - 교호작용 지나치게 강조 - 예측 표면이 부드럽지 않음 - 같은 데이터로 다른 Tree들을 만들 수 있음 - 불안정함 (분산..
[03_01_01] L1, L2 norm, Regularization 일반적으로 Over-fitting 문제를 해결하기 위한 방법으로 3가지 방법을 사용합니다. 1. 기존보다 더 많은 데이터를 이용하기 2. Feature 개수를 줄이기 3. Cross-Validation 4. Regularization(정규화) 언급한 4가지 중에서 Regularization 을 이해하기 위해, Norm을 먼저 이해하고자 합니다. Norm Norm은 벡터의 길이 혹은 크기를 측정하는 방법(함수) 이다. 두 벡터 사이의 거리를 측정하는 방법이기도 하다. 수식에서 p는 Norm의 차수를 의미한다. p=1 이면, L1 Norm 이고, p=2 이면, L2 Norm을 의미한다. n은 벡터의 원소 수이다. 1. L1 Norm p=1 인 Norm이며, L1 Norm을 Taxicab Norm 혹은 맨허튼..
[02_02_03] Bagging Bagging이란 Ensemble의 한 종류로 Booststrap aggregating의 약자이다. 배깅은 분산을 줄이는 알고리즘이며, 의사결정나무는 다른 모형에 비해 상대적으로 분산이 높기 때문에 종종 활용된다. 1. Bagging의 특징 - 단일 모델에 비해 설명하기 쉽다는 구조가 깨짐 - 배깅은 편향이 작고 분산이 높은 모델에 사용하면 효과적 (→ High variance면, 데이터셋에 따라 모델이 심하게 변동한다는 것을 의미) - Bagging은 variance를 줄여줌, not bias → n이 늘어났다고 기대값이 바뀌지 않음. 단, variance는 감소 - 대표적인 Bagging의 알고리즘으로는 Random Forest가 있다. 2. Bagging의 Concept 각 관측값 집합이 가진 분산..
[02_02_02] Bootstrap Bootstrap Aggregating 의 약자인 Bagging을 시작하기에 앞서, 간단하게 Booststrap을 살펴보고자 한다. Booststrap 정의 - Random Sampling with replacement 의미함 - N개의 초기 데이터 셋에서 n개 크기의 샘플을 중복허용하여 샘플링하는 것 Bootstrap을 사용하는 경우 를 살표보자. 1) Raw data의 분포, 데이터를 수집했던 확률변수의 정확한 분포를 모를 때 추정할 때, 사용할 수 있음 이런 경우, 측정된 통계치의 신뢰도를 가늠할 수 없기 때문에, Bootstrapping 을 이용하게 된다. ⇒ 중복을 허용한 복원 추출로 각각 n개를 뽑고, 뽑은 n개의 평균을 구하는 것을 m번 반복하면, 평균에 대한 분포를 구할 수 있고, 이로부터..
[02_02_05] Boosting (AdaBoost) Boosting 모델 중에서 가장 기초 모델인 Adaboost 모델 먼저 살펴보려고 한다. Adaboost의 개념, 장/단점 그리고 알고리즘에 대해서 자세히 알아가보겠습니다~ 1. AdaBoost 란? AdaBoost 는 Adaptive Boosting 약자 Ensenble-based classifier 일종 이진 분류 문제에서 의사결정나무(Decision Tree)의 성능을 향상시키는데 가장 많이 사용됨 2. AdaBoost 개요 - 하나의 node에 두개의 leaf를 지닌 트리를 그루터기(stump) 라고 함 - AdaBoost는 아래 그림과 같이 여러 개의 stump로 구성되어 있고, Forest of stumps라 함 - Tree와 비슷하지만 Leaf만 가지는 트리를 여러개 만든다. - Stump..
[02_02_04] Boosting 앞서 정리했던 Bagging에 이어서 Boosting에 대해서 정리해보았다. Bagging과 다른 Boosting의 개념, 장점, 단점 그리고 특징들을 살펴보도록 하겠다. [02_02_03] Bagging Bagging이란 Ensemble의 한 종류로 Booststrap aggregating의 약자이다. 배깅은 분산을 줄이는 알고리즘이며, 의사결정나무는 다른 모형에 비해 상대적으로 분산이 높기 때문에 종종 활용된다. 1. Bagging의 based-infos.tistory.com 1. Boosting 개념 Bagging은 각각의 샘플에 적용된 모델들이 서로 독립적인 결과를 예측함 (병렬적으로 학습하기 때문) Sequential한 weak learner들을 여러개 결합하여 예측 혹은 분류 성능을 높이는 알..
[02_02_01] Ensenble (앙상블) 이란? 1 . Ensenble 개념 weak learner 들을 잘 조합해서 strong learner로 만드는 것 성능이 그리 좋지 않은 모델들을 모아서 성능이 좋은 모델 하나를 만드는 것 여러 분류 모델이 만든 결과를 집계하여 예측 혹은 분류하는 방법 2. General Idea Step1: Training Data를 Multiple Data Set으로 분류 Step2: 각각의 Multiple Data Set에서 분류모델 생성 Step3: 각각 생성된 분류모델을 결합 3. Ensenble 모델 1) Voting - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 투표를 통해 결과 도출 - 서로 다른 알고리즘을 여러개 결합하여 사용 - 하드 보팅(Hard Voting) , 소프트 보팅(Soft Voting)..