Loading...

[R] 2. Sentiment analysis with tidy data

2. Sentiment analysis with tidy data 아래 그림은 텍스트 분석의 흐름도 입니다. 텍스트 감정을 분석하는 방법 중 하나는 텍스트 데이터가 여러 개별 단어의 조합으로 구성되어 있을 때, 전체 텍스트에서 감정 내용을 개별 단어의 감정 내용의 합으로 간주하는 것입니다. 2. 1. The sentiments dataset textdata 라이브러리에 내장되어 있는 사전 데이터(dictionary-based)를 활용해보겠습니다. afinn: 단어 별 부정과 긍정 사이에 -5에서 5점까지 스코어를 매긴 데이터 bing: 긍/부정을 binary로 나타낸 데이터 (positive, negative) nrc: positive, negative 외에 세 가지 이상의 감정을 분류한 데이터 아래 데..

[R] 1. Tidy text format

1. The tidy text format tidy text format을 행(row)당 하나의 토큰(token)이 있는 테이블로 정의합니다. 토큰은 분석에서 사용하고자 하는 “단어”와 같이 의미가 있는 텍스트 단위를 의미합니다. 물론 토큰은 단일 단어 뿐만 아니라 n-gram, 문장 또는 단락 등이 될 수도 있습니다. 행당 하나의 토큰 구조를 만들기 위해서는 토큰화(tokenization)를 거쳐야 합니다. 1. 1. Contrasting tidy text with other data structures 문자열(String): 문자열, 즉 문자 벡터 말뭉치(Corpus): 이러한 유형은 일반적으로 메타데이터 및 세부정보로 주석이 달린 원시 문자열 등이 포함 문서-단어 행렬(Document-term ma..