1. select() 함수 사용하기
필요한 변수만을 추출하고 싶을 땐 select() 함수를 사용합니다.
쉼표를 넣어 변수명을 나열하면 여러 변수를 동시에 추출할 수도 있습니다.
만약 특정 변수만 제외하고 나머지 모든 변수를 추출하고 싶다면 제외할 변수명 앞에 빼기 기호 -를 입력하면 됩니다.
여러 변수를 제외하려면 쉼표를 이용해 제외할 변수를 나열하면 됩니다.
2. dplyr 함수 조합하기
dplyr 패키지의 함수들은 %>%를 이용해 조합할 수 있다는 장점이 있습니다.
함수를 조합하면 코드의 길이가 줄어 이해하기 쉬워집니다.
2-1. filter()와 select() 조합하기
- filter()와 select()를 조합해서 1반 학생의 영어 점수를 추출해 보겠습니다.
%>%로 코드가 연결되는 부분에서 줄을 바꾸면 함수별로 구분되기 때문에 가독성 있는 코드를 만들 수 있습니다.
%>% 뒤에서 Enter로 줄을 바꾸면 자동으로 일정 간격이 띄어져서 어디까지 dplyr 코드 단락인지 한 눈에 파악할 수 있습니다.
실행할 때는 dplyr 구문 전체를 함께 실행해야 합니다.
만약 데이터의 일부를 출력하고 싶다면 head() 혹은 tail() 등의 함수를 조합해 사용할 수 있습니다.
head만 적으면 6행까지 출력되지만, 괄호 안에 숫자를 입력하면 입력한 숫자만큼의 행이 출력됩니다.
## 연습문제
Q1. mpg 데이터는 11개 변수로 구성되어 있습니다. 이 중 일부만 추출해 분석에 활용하려고 합니다. mpg 데이터에서 class(자동차 종류), cty(도시 연비) 변수를 추출해 새로운 데이터를 만드세요. 새로 만든 데이터의 일부를 출력해 두 변수로만 구성되어 있는지 확인하세요.
Q2. 자동차 종류에 따라 도시 연비가 다른지 알아보려고 합니다. 앞에서 추출한 데이터를 이용해 class(자동차 종류) 가 "suv" 인 자동차와 "compact" 인 자동차 중 어떤 자동차의 cty(도시 연비) 평균이 더 높은지 알아보세요.
→ compact 자동차의 평균 연비가 더 높다.
[참고자료]
(Book) Do it! 쉽게 배우는 R 데이터 분석 - 이지스퍼블리싱
|
'AI Big Data > R' 카테고리의 다른 글
데이터 전처리 (0) | 2020.07.22 |
---|---|
파생변수 만들기 (0) | 2020.07.21 |
변수명 바꾸기 (0) | 2020.07.21 |
데이터 파악하기 (0) | 2020.07.20 |
데이터 프레임 이해하기 (0) | 2020.07.19 |