Document Classification - Basic
Posted by 제이드의 낙서장
Document Classification - Basic 1. tm package 2. 변환 3. 문서의 행렬 표현 4. 단어 빈도 5. 단어 간 상관관계 1. tm package 공부했다면 흔히 볼 수 있는 예시 이메일의 스팸메일 여부를 구분하는 것이 대표적인 문서 분류의 예시입니다. 또 다른 예시로는 제품 리뷰 글을 보고 해당 리뷰가 긍정인지 부정인지 구분하는 감성 분석(Sentiment Analysis)도 있습니다. tm 패키지는 텍스트마이닝 패키지 중 하나로 문서의 집합은 Corpus로, 각 문서는 TextDocument로 표현됩니다. 한글로 텍스트마이닝은 한글형태소가 잘되어 있는 패키지 KoNLP 등을 병행하여 같이 이용하시면 됩니다. 이번 예제에서는 기본이기때문에 내장되어진 영어로된 문서를 이..