본문 바로가기

전체 글

(102)
07_01_38. pivot_table index를 column으로 (index to column) df_ff_01 = pd.pivot_table( df_ff , index =['part_datecd'] , columns='good_cls1cd', values=['ntsal_amt','sal_qty']) df_ff_01.columns = list(map('_'.join, df_ff_01.columns)) # index에 지정된 column이 index화 되기 때문에 그걸 다시 column으로 변경시킴 df_ff_01.reset_index(level=0, inplace=True)
02_01_01. 의사결정나무 Decision Tree 작년에 다시 더듬어 공부하면서 정리한 내용을 포스팅해보려고 한다~ :) 변수의 규칙 또는 조건문을 토대로 나무 구조로 도표화하여 분류와 예측을 수행하는 방법 : 대상이 되는 집단을 몇 개의 소집단으로 구분하는 Segmentation 모델링 기법 (그룹의 특성을 발견하고자 하는 경우) : Feature Selection에 사용되기도 함 (변수선택) 1) 장점 - 이해와 해석이 쉬움 - 비모수적 모형, 결측값을 효과적으로 다룰 수 있음 - 계산이 빠름 - 교호작용을 고려할 수 있음 - Transformation해도 변화가 없음 - 분포에 대한 가정이 필요 없음 - 비선형적 2) 단점 - 교호작용 지나치게 강조 - 예측 표면이 부드럽지 않음 - 같은 데이터로 다른 Tree들을 만들 수 있음 - 불안정함 (분산..
[Impala] 03. 테이블 Create 생성 + partition 추가 create table Schema.tablename ( col1 string, col2 decimal(38,2) ) partitioned by (partition_col col_type) stored as parquet; insert into Schema.tablename partition(partition_col) select col1 ,col2 ,partition_col from table ;