앞서 숫자로 만들어진 데이터를 이용한 분석 방법들을 살펴보았다. 텍스트로 이루어진 비정형 데이터들로부터 의미있는 정보를 도출하기 위한 분석 방법들에 대해서 알아보도록 하자.
1. 텍스트 마이닝이란?
텍스트들을 구조화하여 패턴을 도출한 후 결과를 평가 및 해석하는 일련의 과정을 텍스트 마이닝이라 한다.
즉, 앞서 학습한 정형 데이터 속에서 패턴을 찾는 데이터 마이닝과 달리 인터넷 데이터 혹은 소셜 미디어 데이터와 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관계를 발견하는 분석 기법으로 단어들 간에 감성분석, 워드 클라우드 분석을 수행할 수 있다.
문서 분류 | 문서 군집 | 정보 추출 |
문서의 내용에 따라 분류하는 것 사전에 분류 정보를 알고 있는 상태에서 분류하는 지도 학습 |
비슷한 문서끼리 군집으로 묶어주는 비지도 학습 | 문서에서 중요 정보를 추출 |
2. 텍스트 마이닝 과정
텍스트 마이닝 과정은 크게 아래와 같은 4단계로 살펴볼 수 있다. 한 단계씩 알아가보자.!
- 텍스트 수집 → 텍스트 전처리 → 텍스트 분석 → 텍스트 시각화
1. 텍스트 수집
텍스트 저장소에서 가져오거나 웹페이지 HTML 소스에서 필요한 텍스트 데이터를 크롤링을 통해 획득할 수 있다.
- 코퍼스 (Corpus)
- 데이터의 정제, 통합, 선택, 변환 과정을 거친 후 구조화된 텍스트 데이터로 데이터 마이닝에 바로 활용될 수 있는 상태를 의미함
2. 텍스트 전처리
전처리는 코퍼스로부터 복잡성을 줄이는 일이다.
분석 목적과 용도에 맞게 토큰화(tokenization), 정제(cleansing), 정규화(normalization) 하는 작업이다.
- 절차 : 토큰화 → 불용어 처리 → 대소문자 통일 → 어근 추출 → 텍스트 인코딩
- 토큰화
- 코퍼스에서 토큰 단위로 나누는 작업으로 의미있는 토큰을 정의함
- 단어 토큰화
- 온점(.), 콤마(,), 물음표, 세미콜론과 같은 구두점을 지우는 것
- 어절 토큰화
- 띄어쓰기 기준으로 나누는 것으로 영어에는 의미있으나 한글에는 지양함
- 형태소 토큰화
- 형태소란? 뜻을 가진 가장 작은 말의 단위로 한국어에서 영어와 유사한 형태의 단어 토큰화 결과를 얻기 위해서는 형태소 토큰화를 수행해야 함
- 단어 토큰화
- 코퍼스에서 토큰 단위로 나누는 작업으로 의미있는 토큰을 정의함
- 불용어 처리
- 유의미한 토큰을 선별하기 위해 의미없는 단어를 제거함. 즉, 분석에 도움이 되지 않는 조사, 접속사, 접미사와 같은 값들을 제거
- 정제(Cleansing) 및 정규화(Normalization)
- 토큰화 작업 전/후로 정제 및 정규화 작업을 항상 수행하여 노이즈 데이터를 제거하고, 단어들을 통합시켜 같은 단어로 만들어주는 작업을 함
- 규칙 위반하여 표기가 다른 단어 통합
- 대소분자 통일
- 불필요한 단어 제거 : 등장 빈도가 적거나 영어에선 길이가 짧은 단어 제외
- 정규 표현식
- 토큰화 작업 전/후로 정제 및 정규화 작업을 항상 수행하여 노이즈 데이터를 제거하고, 단어들을 통합시켜 같은 단어로 만들어주는 작업을 함
- 어근 추출
- 코퍼스에서 단어를 줄일 수 있는 기법으로 단어의 뿌리 어근을 찾아 단어의 개수를 줄일 수 있는지 판단
- 예) am, are, is의 어근은 be
- 코퍼스에서 단어를 줄일 수 있는 기법으로 단어의 뿌리 어근을 찾아 단어의 개수를 줄일 수 있는지 판단
- 텍스트 인코딩
- 텍스트를 유의미한 숫자 행렬로 바꾸는 것
- 원-핫 인코딩(One-Hot Encoding)
- N개의 단어를 N차원 벡터로 표현하는 방식으로 단어가 포함되면 1 아니면 0을 넣는 방식
- 단어 개수가 늘어나면 벡터 저장을 위한 공간이 늘어나 단어 유사도를 표현하지 못하는 단점 존재
- 말뭉치(Bow, Bag-of Word)
- 단어의 순서를 고려하지 않고 단어 토큰의 등장 횟수를 기록한 벡터 생성
- 등장 횟수를 수치화한 방법이기 때문에 추천에서 사용될 수 있음
- TF-IDF
- 각 단어의 중요도라는 개념을 가중치료 표현하는 방법으로 가중치는 TF*IDF(단어빈도 * 역문서빈도)로 계산
- TF(t, d)는 문서 d안에 있는 각 단어 t의 빈도, IDF(t,D)는 단어 t가 등장한 문서 D의 역수
- 문서 유사도, 검색 결과 중요도 결정에서 사용
- 워드 임베딩(Word Embedding)
- 의미를 최대한 담아 단어를 벡터로 바꿔주는 모델
- 원-핫 인코딩(One-Hot Encoding)
- 텍스트를 유의미한 숫자 행렬로 바꾸는 것
데이터에듀 ADP 데이터분석전문가 책 참고
'ADP 톺아보기 > 4과목 데이터 분석' 카테고리의 다른 글
5.6 연관분석 (0) | 2024.02.04 |
---|---|
5.5 군집분석 (0) | 2024.02.04 |