Loading...

[R] 5. Converting to and from non-tidy formats

5. Converting to and from non-tidy formats 이번 챕터에서는 텍스트 데이터를 tidy text format이 아닌 tm, quanteda 라이브러리에서 활용될 수 있는 코퍼스(corpus) 객체로 분석하는 방법에 대해서 설명합니다. 5. 1. Tidying a document-term matrix 문서 용어 행렬(DTM, Document-Term Matrix)은 텍스트 분석에서 일반적으로 쓰이는 구조 중 하나 입니다. 이는 아래와 같은 형태를 갖습니다. 각 행은 하나의 문서(ex. book, article, …)를 나타냅니다. 각 열은 하나의 단어를 나타냅니다. 일반적으로 각 행렬에 대한 값은 해당 문서에서 해당 단어의 출현 빈도가 됩니다. 여러 문서 안에서 문서-단어 쌍..

[R] 10. 피어슨 상관계수(Pearson's Corrleation)

예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % mutate( song_class_flag = case_when( song_id %in% c("d", "e", "f") ~ "인기곡", TRUE ~ "비인기곡" ) ) temp ## # A tibble: 150 x 7 ## user_id user_age user_gender song_id streaming_count download_count ## ## 1 10000 44 여성 e 20 6 ## 2 10001 47 남성 f 21 6 ## 3 10002 49 남성 k 14 3 ## 4 10003 44 남성 j 8 4 ## 5 10004 26 여성 f 20 5 ## ..