AI Big Data/R

필요한 변수만 추출하기

retro_blue 2020. 7. 24. 19:30
반응형

 

1. select() 함수 사용하기

 

필요한 변수만을 추출하고 싶을 땐 select() 함수를 사용합니다.

쉼표를 넣어 변수명을 나열하면 여러 변수를 동시에 추출할 수도 있습니다.

 

 

만약 특정 변수만 제외하고 나머지 모든 변수를 추출하고 싶다면 제외할 변수명 앞에 빼기 기호 -를 입력하면 됩니다.

여러 변수를 제외하려면 쉼표를 이용해 제외할 변수를 나열하면 됩니다.

 

 

 

2. dplyr 함수 조합하기

 

dplyr 패키지의 함수들은 %>%를 이용해 조합할 수 있다는 장점이 있습니다.

함수를 조합하면 코드의 길이가 줄어 이해하기 쉬워집니다.

 

 

2-1. filter()와 select() 조합하기

 

- filter()와 select()를 조합해서 1반 학생의 영어 점수를 추출해 보겠습니다.

 

%>%로 코드가 연결되는 부분에서 줄을 바꾸면 함수별로 구분되기 때문에 가독성 있는 코드를 만들 수 있습니다.

%>% 뒤에서 Enter로 줄을 바꾸면 자동으로 일정 간격이 띄어져서 어디까지 dplyr 코드 단락인지 한 눈에 파악할 수 있습니다.

 

실행할 때는 dplyr 구문 전체를 함께 실행해야 합니다.

 

만약 데이터의 일부를 출력하고 싶다면 head() 혹은 tail() 등의 함수를 조합해 사용할 수 있습니다.

 

head만 적으면 6행까지 출력되지만, 괄호 안에 숫자를 입력하면 입력한 숫자만큼의 행이 출력됩니다.

 

## 연습문제

 

 

Q1. mpg 데이터는 11개 변수로 구성되어 있습니다. 이 중 일부만 추출해 분석에 활용하려고 합니다. mpg 데이터에서 class(자동차 종류), cty(도시 연비) 변수를 추출해 새로운 데이터를 만드세요. 새로 만든 데이터의 일부를 출력해 두 변수로만 구성되어 있는지 확인하세요.

 

 

Q2. 자동차 종류에 따라 도시 연비가 다른지 알아보려고 합니다. 앞에서 추출한 데이터를 이용해 class(자동차 종류) 가 "suv" 인 자동차와 "compact" 인 자동차 중 어떤 자동차의 cty(도시 연비) 평균이 더 높은지 알아보세요.

 

→ compact 자동차의 평균 연비가 더 높다.

 

 


[참고자료]

(Book) Do it! 쉽게 배우는 R 데이터 분석 - 이지스퍼블리싱

Do it! 쉽게 배우는 R 데이터 분석
국내도서
저자 : 김영우
출판 : 이지스퍼블리싱 2017.07.20
상세보기
반응형

'AI Big Data > R' 카테고리의 다른 글

데이터 전처리  (0) 2020.07.22
파생변수 만들기  (0) 2020.07.21
변수명 바꾸기  (0) 2020.07.21
데이터 파악하기  (0) 2020.07.20
데이터 프레임 이해하기  (0) 2020.07.19