Loading...

[R] 4. select(), filter(), group_by(), summarise(), arrange(), rename()

0. 예시로 쓰일 데이터 예제 set.seed(2021) # 임의로 데이터를 생성한다. (100명의 유저가 특정 곡을 스트리밍한 이력) temp % select(-song_id, -streaming_count) ## # A tibble: 100 x 2 ## user_id user_age ## ## 1 10000 32 ## 2 10001 43 ## 3 10002 41 ## 4 10003 30 ## 5 10004 38 ## 6 10005 40 ## 7 10006 38 ## 8 10007 27 ## 9 10008 44 ## 10 10009 49 ## # … with 90 more rows 데이터 분석을 위해 전처리를 하는 작업을 거치다보면서 변수명에 _id 와 같이 특정 변수명 규칙을 발견할 수 있습니다. 이..

[R] 3. 파이프 오퍼레이터 (%>%)

파이프 오퍼레이터(Pipe Operator, %>%) 파이프 오퍼레이터 %>%는 tidyverse 라이브러리를 사용하여 작성된 R 코드를 조금 더 쉽고 단순화 및 가독성 있게 만들어주는데 도움을 줍니다. 일단 tidyverse 라이브러리를 많이 이용하게 될 것이라면 파이프 오퍼레이터에 익숙해질 필요가 있습니다. 아래 예시를 들어 설명하겠습니다. temp ## # A tibble: 5 x 2 ## name score ## ## 1 Ray 5 ## 2 Dylan 4 ## 3 Samuel 3 ## 4 Rin 2 ## 5 Jade 1 filter() 함수는 특정 조건을 만족하는 값을 출력(where in SQL)해주는 함수인데 이를 %>%와 곁들이면 아래와 같습니다. temp %>% filter(name == ..

[R] 2. tibble 데이터

티블(tibble) tidy data에서 사용하는 R 데이터 객체를 티블(tibble)이라고 부릅니다. tibble은 R 베이스 객체인 data.frame 객체 형태와 근본적으로 큰 차이가 없습니다. 하지만 tidyverse 라이브러리의 함수들을 사용하다보면 기존 data.frame 객체보다 tibble 객체가 더 효율적이라는 것을 느끼게 될 것 입니다. 앞으로 tidyverse에서 다루게될 데이터 객체는 tibble입니다. 길이가 같은 벡터형 객체를 tibble 데이터 객체로 만들 수 있습니다. name

[R] 1. tidyverse 라이브러리와 tidy data

1. tidy data란? Hadley Wickham(2016)에 따르면 tidy data는 아래 세 가지 규칙을 갖는다고 합니다. 하나의 변수는 하나의 세로줄을 형성한다. (Each variable forms a column: Variables in columns) 하나의 관측치는 하나의 가로줄을 형성한다. (Each observation forms a row: observations in rows) 하나의 변수의 종류별로 하나의 표를 형성한다. (Each type of observational unit forms a table: one type per dataset) 즉, 쉽게 이해하자면 tidy data는 우리가 흔히 스프레드시트에서 볼 수 있었던 데이터의 형태와 같습니다. 데이터 처리에 가장 많은..