본문 바로가기

전체 글

(102)
6.1 텍스트 마이닝 앞서 숫자로 만들어진 데이터를 이용한 분석 방법들을 살펴보았다. 텍스트로 이루어진 비정형 데이터들로부터 의미있는 정보를 도출하기 위한 분석 방법들에 대해서 알아보도록 하자. 1. 텍스트 마이닝이란? 텍스트들을 구조화하여 패턴을 도출한 후 결과를 평가 및 해석하는 일련의 과정을 텍스트 마이닝이라 한다. 즉, 앞서 학습한 정형 데이터 속에서 패턴을 찾는 데이터 마이닝과 달리 인터넷 데이터 혹은 소셜 미디어 데이터와 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관계를 발견하는 분석 기법으로 단어들 간에 감성분석, 워드 클라우드 분석을 수행할 수 있다. 문서 분류 문서 군집 정보 추출 문서의 내용에 따라 분류하는 것 사전에 분류 정보를 알고 있는 상태에서 분류하는 지도 학습 비슷한 문서끼리 군집으로..
5.6 연관분석 1. 연관분석이란? 특정사건이 발생하였을때 함께 빈번하게 발생하는 또 다른 사건의 규칙을 발견하는 분석으로 "x아이템을 구매하는 고객들은 y아이템 역시 구매할 가능성이 높다" 는 식의 결론을 내는 알고리즘이다. 연관성 분석은 장바구니 분석, 서열분석이라고도 불린다. 장바구니 분석 : 장바구니에 어떤 제품들이 같이 들어있는지 분석하여 실시간 상품 추천을 통한 교차 판매에 응용 서열 분석 : A를 산 다음에 B를 산다. 로 A를 구매했으나 B를 구매하지 않은 경우, B를 추천하는 교차판매 캠페인에 사용 2. 용어 조건절(Antecedent) : 만일 ~라면 결과절(Consequent) 아이템집합(Item Set) : 조건절 또는 결과절을 구성하는 아이템들의 집합 예시) "달걀을 구매하는 사람들은 라면도 함께..
5.5 군집분석 1. 군집분석이란? 대상들의 유사성을 측정하여 유사성이 높은 집단을 분류하고, 서로 다른 군집에 속한 객체의 상이성을 규명하는 분석 방법으로, 대상을 여러개의 배타적인 집단으로 나누는 것으로 군집분석 방법에 따라 차이가 날 수 있다. 대상들의 거리를 측정하여 군집을 나누게 된다. 우리가 공부하면서 군집분석과 요인분석, 판별분석과 헷갈릴 수 있다! 어떤 차이점이 있을까?요인분석은 유사한 변수들을 함께 묶어주는 것!판별분석은 집단이 나누어진 상태에서 새로운 데이터가 있을 때, 기존에 나누어진 집단 중에 할당하는 것이 목적이다! 2. 거리군집분석은 대상간에 거리를 측정하여 군집을 나눈다고 했는데, 거리를 측정하는 방법이 무엇이 있는지 살펴보자. 거리 측도는 데이터와 데이터간 유사성을 보는 군집분석 뿐만 아니라..