본문 바로가기

전체 글

(102)
07_01_01. pandas groupby ### data aggretation dat_class2 = dat.groupby(["origin_bizpl_cd", "oper_dt", "line_class_cd", "line_class_nm"], as_index=False)["p_buy_sale_qty","p_buyget_sale_qty"].agg(["sum", "mean"]) dat_class2 = dat.groupby(['yyyymm', 'origin_bizpl_cd']).agg( {"buyget_sale_qty": 'sum', 'buy_sale_qty': ['sum', 'mean']} ) dat_class2.reset_index(drop=False) # 데이터 프레임 index 앞에 숫자 제외하는 것! dat_class2.reset_index(..
[03_01_01] L1, L2 norm, Regularization 일반적으로 Over-fitting 문제를 해결하기 위한 방법으로 3가지 방법을 사용합니다. 1. 기존보다 더 많은 데이터를 이용하기 2. Feature 개수를 줄이기 3. Cross-Validation 4. Regularization(정규화) 언급한 4가지 중에서 Regularization 을 이해하기 위해, Norm을 먼저 이해하고자 합니다. Norm Norm은 벡터의 길이 혹은 크기를 측정하는 방법(함수) 이다. 두 벡터 사이의 거리를 측정하는 방법이기도 하다. 수식에서 p는 Norm의 차수를 의미한다. p=1 이면, L1 Norm 이고, p=2 이면, L2 Norm을 의미한다. n은 벡터의 원소 수이다. 1. L1 Norm p=1 인 Norm이며, L1 Norm을 Taxicab Norm 혹은 맨허튼..
[02_02_03] Bagging Bagging이란 Ensemble의 한 종류로 Booststrap aggregating의 약자이다. 배깅은 분산을 줄이는 알고리즘이며, 의사결정나무는 다른 모형에 비해 상대적으로 분산이 높기 때문에 종종 활용된다. 1. Bagging의 특징 - 단일 모델에 비해 설명하기 쉽다는 구조가 깨짐 - 배깅은 편향이 작고 분산이 높은 모델에 사용하면 효과적 (→ High variance면, 데이터셋에 따라 모델이 심하게 변동한다는 것을 의미) - Bagging은 variance를 줄여줌, not bias → n이 늘어났다고 기대값이 바뀌지 않음. 단, variance는 감소 - 대표적인 Bagging의 알고리즘으로는 Random Forest가 있다. 2. Bagging의 Concept 각 관측값 집합이 가진 분산..