1. 연관분석이란?
특정사건이 발생하였을때 함께 빈번하게 발생하는 또 다른 사건의 규칙을 발견하는 분석으로 "x아이템을 구매하는 고객들은 y아이템 역시 구매할 가능성이 높다" 는 식의 결론을 내는 알고리즘이다.
연관성 분석은 장바구니 분석, 서열분석이라고도 불린다.
- 장바구니 분석 : 장바구니에 어떤 제품들이 같이 들어있는지 분석하여 실시간 상품 추천을 통한 교차 판매에 응용
- 서열 분석 : A를 산 다음에 B를 산다. 로 A를 구매했으나 B를 구매하지 않은 경우, B를 추천하는 교차판매 캠페인에 사용
2. 용어
- 조건절(Antecedent) : 만일 ~라면
- 결과절(Consequent)
- 아이템집합(Item Set) : 조건절 또는 결과절을 구성하는 아이템들의 집합
예시) "달걀을 구매하는 사람들은 라면도 함께 산다"
- 조건절 : 달걀 구매
- 결과절 : 라면 구매
- 아이템집합 : 라면, 달걀
3. 연관 규칙의 측도
산업 특성에 따라 지지도, 신뢰도, 향상도 값을 보고 규칙을 선택해야 한다.
- 지지도
- 전체 거래 항목 중 A와 B를 동시에 포함하는 거래 비율로 즉, A가 일어날 확률
- $지지도 = \frac{A\cap B}{전체}$
- 전체 거래 항목 중 A와 B를 동시에 포함하는 거래 비율로 즉, A가 일어날 확률
- 신뢰도
- 항목 A를 포함한 거래 중 A와 B가 동시에 포함될 확률로 연관성의 정도를 파악 가능
- confidence( X → Y ) $신뢰도 = \frac{P(A\cap B)}{P(A)} = \frac{A와 B가 동시에 포함된 거래수}{A를 포함하는 거래수} $
- 항목 A를 포함한 거래 중 A와 B가 동시에 포함될 확률로 연관성의 정도를 파악 가능
- 향상도
- A가 구매되지 않았을 때 B 구매확률에 비해 A가 구매 되었을 때 품목 B의 구매확률의 증가비
- lift(X→Y) $향상도 = \frac{P(B|A)}{P(A)} =\frac{신뢰도}{P(B)}$
- A가 구매되지 않았을 때 B 구매확률에 비해 A가 구매 되었을 때 품목 B의 구매확률의 증가비
4. 연관 규칙의 절차
- 최소 지지도 결정
- 품목 중 최소 지지도를 넘는 품목 분류
- 2가지 품목 집합 생성
- 반복적으로 수행해 빈발품목 집합 찾음
이 때, 너무 낮은 최소 지지도 선정하는 것은 많은 리소스가 소모되어 적합하지 않음에 주의하자!
5. 연관 규칙의 장단점
장점 | 단점(개선방향) |
*결과를 쉽게 이해할 수 있음 * 분석 방향이나 목적이 없는 경우 목적변수가 없으므로 유용하게 활용됨 * 거래 내용 데이터를 변환없이 그 자체로 이용할 수 있는 간단한 자료 구조를 가짐 * 계산이 간단 |
*품목수가 늘어나면 계산이 기하급수적으로 늘어남 → 이를 개선하기 위해 품목을 한 범주로 일반화 → 의미가 적은 연관 규칙은 제외하고 함 * 너무 세분화한 품목으로는 의미없는 분석이 될 수 있음 → 적절히 구분되는 큰 범주로 구분하여 그 결과 중 세부 연관 규칙을 찾는 작업을 수행할 수 있음 *거래량이 적은 품목은 거래수가 적어 규칙 발견시 제외하기 쉬움 →이 경우 중요 품목이라면 유사한 품목과 함께 범주로 구성하는 방법을 통해 포함시킬 수 있음 |
6. 최근 연관 분석 동향
대용량 데이터에 대한 연관 분석은 시간이 많이 걸리거나 기존 시스템에서 실행시 시스템 다운되는 현상으로 인해 불가능했었다.
1세대 알고리즘인 Aprioi, 2세대인 FP-Growth에서 발전하여 3세대 FPV를 이용해 메모리를 효율적으로 사용함으로써 SKU 레벨의 연관분석이 가능해졌다.
모든 가능한 품목 부분집합의 개수를 줄이는 방식이 Apriori이며, 거래 내역 안에 포함된 품목의 개수를 줄여 비교하는 횟수를 줄이는 방식으로 작동하는 것이 FP-Growth 알고리즘이다
- Apriori 알고리즘
- 최소 지지도 이상의 빈발항목집합을 찾은 후, 그것들에 대해서만 연관규칙 계산
- 구현과 이해가 쉬우나 지지도가 낮은 후보 집합 생성 시 아이템 수가 많아지면 계산 복잡도가 증가한다는 문제를 가짐
- FP-Growth 알고리즘
- 후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할 정복 방식을 통해 Apriori 알고리즘 보다 더 빠르게 빈발항목집합 추출할 수 있는 방법
- Apriori 알고리즘 약점 보완을 위해 고안된 것으로 데이터를 스캔하는 횟수가 적고, 빠른 속도로 분석이 가능
'ADP 톺아보기 > 4과목 데이터 분석' 카테고리의 다른 글
6.1 텍스트 마이닝 (2) | 2024.02.06 |
---|---|
5.5 군집분석 (0) | 2024.02.04 |