Loading...

[R] 7. 데이터 형태 변환

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % mutate( song_class_flag = case_when( song_id %in% c("d", "e", "f") ~ "인기곡", TRUE ~ "비인기곡" ) ) temp ## # A tibble: 100 x 6 ## user_id user_age user_gender song_id streaming_count song_class_flag ## ## 1 10000 49 여성 i 19 비인기곡 ## 2 10001 49 여성 m 28 비인기곡 ## 3 10002 26 여성 f 21 인기곡 ## 4 10003 48 남성 e 14 인기곡 ## 5 10004 4..

[R] 6. 날짜 및 시간 변수 (lubridate)

날짜 및 시간 변수 분석가들은 종종 시계열 데이터를 다룰때도 있습니다. 이번 포스팅에서는 날짜, 시간 변수를 다루는 방법에 대해서 살펴보겠습니다. 날짜 및 시간 변수는 표기하는 방법이 매우 다양하며 타임존(time-zone) 또한 늘 따라다니므로 항상 염두해두고 분석하셔야 합니다. 아래 가상으로 만든 데이터로 확인해보겠습니다. temp % mutate( ts_year = year(start_ts), ts_month = month(start_ts), ts_day = day(start_ts), ts_hour = hour(start_ts), ts_minute = minute(start_ts), ts_second = second(start_ts) ) ## # A tibble: 100 x 8 ## song_id ..

[R] 5. mutate()

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % mutate(user_age_na_yn = is.na(user_age)) %>% filter(is.na(user_age)) %>% head() ## # A tibble: 0 x 6 ## # … with 6 variables: user_id , user_age , user_gender , ## # song_id , streaming_count , user_age_na_yn temp %>% mutate(user_age_na_yn = is.na(user_age)) %>% filter(!is.na(user_age)) %>% head() ## # A tibble: 6..

[R] 4. select(), filter(), group_by(), summarise(), arrange(), rename()

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % select(-song_id, -streaming_count) ## # A tibble: 100 x 2 ## user_id user_age ## ## 1 10000 32 ## 2 10001 43 ## 3 10002 41 ## 4 10003 30 ## 5 10004 38 ## 6 10005 40 ## 7 10006 38 ## 8 10007 27 ## 9 10008 44 ## 10 10009 49 ## # … with 90 more rows 데이터 분석을 위해 전처리를 하는 작업을 거치다보면서 변수명에 _id 와 같이 특정 변수명 규칙을 발견할 수 있습니다. 이..