AI Big Data/R

함수와 패키지 이해하기

retro_blue 2020. 7. 19. 16:48
반응형

 

1. 함수 이용하기

 

데이터 분석은 '함수를 이용해서 변수를 조작하는 일' 이라고 할 수 있습니다.

 

1-1. 숫자를 다루는 함수 이용하기

- 함수는 '함수 이름'과 '괄호'로 구성됩니다.

- 함수 이름을 쓰고 그 뒤에 괄호를 입력한 후 함수의 기능을 적용할 값이나 변수를 입력하면 됩니다.

 

c() 함수를 이용해 여러 값으로 구성된 변수를 만들어 함수를 적용하였습니다.

 

 

1-2. 문자를 다루는 함수 이용하기

여러 문자를 합쳐 하나로 만드는 함수인 paste()를 사용해보았습니다.

collapse단어를 구분할 문자를 지정하는 기능을 합니다.

"," 는 단어들이 쉼표로 구분되도록 설정한 것이고, " "는 쉼표 대신 빈칸을 지정해 단어를 한 칸씩 띄워보았습니다.

 

collapse처럼 함수의 옵션을 설정하는 명령어를 '파라미터(parameter)' 또는 '매개변수'라고 합니다.

각각의 함수들은 저마다 다른 기능을 하는 파라미터를 가지고 있습니다.

따라서 어떤 파라미터를 보유하고 있는지 알고 있으면 함수를 자유자재로 활용할 수 있어 좋습니다.

 

 

 

1-3. 함수의 결과물로 새 변수 만들기

 

 

- 함수의 결과물을 새로운 변수명에 집어넣었습니다.

 

- 변수를 만들 때와 같은 방법을 이용하면 됩니다.

 

 

 

 

 

 

 

2. 패키지 이용하기

 

패키지(packages)여러 함수들이 들어있는 상자꾸러미라 생각하면 이해하기 쉽습니다.

 

R은 머신러닝 알고리즘 구현, 텍스트 데이터 분석, 그래프 구현 등 다양한 기능을 하는 함수들을 이용할 수 있습니다.

이러한 함수들을 쓰기 위해선 그 함수가 들어있는 패키지를 설치하는 것이 우선입니다.

 

그래프를 만들 때 많이들 사용하는 함수들에는 ggplot(), gplot(), geom_historam() 등 수십 가지 함수들이 있습니다.

이러한 함수들은 ggplot2 패키지에 들어있습니다.

따라서 ggplot2 패키지를 설치하면 이러한 함수들을 사용할 수 있습니다.

 

이러한 장점들이 R의 가장 큰 무기라고 할 수 있습니다. 지금 이 시간에도 전 세계의 R 사용자들은 다양한 패키지를 만들어 온라인에 무료로 공개하고 있습니다. 

 

패키지를 사용하려면 패키지를 설치한 후 로드(load)해야 합니다.

패키지는 한 번만 설치하면 되지만 패키지를 로드하는 작업은 R Studio를 새로 시작할 때마다 반복해야 합니다.

 

패키지를 로드하지 않은 상태에서 함수를 사용하면 오류가 발생합니다. (에러 메시지 출력)

물론 c(), paste(), mean() 같은 함수들은 R에 기본적으로 내장된 함수이기 때문에 별도의 설치가 필요 없습니다.

 

패키지 설치할 때는 install.packages()를 이용합니다.

괄호 안에는 패키지 이름이 들어갑니다. 이때, 패키지 이름의 앞뒤에 반드시 따옴표를 넣어야 합니다.

 

 

2-1. ggplot2 패키지 설치 및 사용하기

 

ggplot2 패키지는 데이터를 그래프로 표현하는 작업을 할 때 가장 많이 사용되는 패키지 입니다.

 

패키지는 R의 CRAN 서버를 통해 다운로드 됩니다.   따라서 인터넷에 접속되어 있어야 합니다.

패키지를 로드할 때는 library() 를 사용합니다. 패키치를 설치할 때와는 달리, 이 땐 따옴표를 사용하지 않아도 됩니다.

여러 개의 문자로 구성된 변수 x를 만들고 qplot() 함수를 이용하여 빈도(개수) 막대 그래프를 그려보았습니다.

 

 

2-2. ggplot2의 mpg 데이터로 그래프 만들기

 

패키지에는 함수의 기능을 테스트할 수 있는 예제 데이터가 들어 있습니다.

ggplot2 패키지에 들어 있는 mpg 데이터를 이용해서 그래프를 만들어 보겠습니다.

 

* mpg (Mile Per Gallon) 데이터는 미국 환경 보호국(US Environmental Protection Agency)에서 공개한 자료로써, 1999~2008년 사이 미국에서 출시된 자동차 234종의 연비 관련 정보를 담고 있는 자료입니다.

 

 

qplot()의 data 파라미터에 mpg 데이터를 지정하고, x축을 결정하는 x 파라미터, y축을 결정하는 y 파라미터에 다양한 값들을 넣어서 그래프를 만들어 보겠습니다.

 

x축 : hwy / hwy는 자동차가 고속도로에서 1갤런에 몇 마일을 가는지 나타낸 변수. 고속도로 연비별 빈도 막대 그래프
x축을 cty로 지정했습니다. / cty : 도시 연비
x축을 drv, y축을 hwy로 지정해서 그래프를 만들었습니다 / drv : 구동 방식
x축 : drv, y축 hwy, 선 그래프 형태
x축 drv, y축 hwy, 상자 그림 형태
x축 drv, y축 hwy, 상자 그림 형태, drv별 색 표현

 

 

 

# Help 함수를 활용하기

 

함수의 기능을 알고 싶을 때는 함수명 앞에 물음표를 넣어 Help 함수를 실행해보세요.

함수가 들어 있는 패키지를 로드한 상태에서만 매뉴얼을 출력하는 코드가 실행됩니다.

Help 창에 매뉴얼이 나타납니다.

 

 

 

## 연습문제

 

Q1. 시험 점수 변수 만들고 출력하기

- 다섯 명의 학생이 시험을 봤습니다. 학생들의 시험 점수를 담고 있는 변수를 만들어 출력하시오. 

- 각 학생의 점수는 80, 60, 70, 50, 90입니다.

 

Q2. 전체 평균 구하기

 

Q3. 전체 평균 변수 만들고 출력하기

 


[참고자료]

(Book) Do it! 쉽게 배우는 R 데이터 분석 - 이지스퍼블리싱

Do it! 쉽게 배우는 R 데이터 분석
국내도서
저자 : 김영우
출판 : 이지스퍼블리싱 2017.07.20
상세보기
반응형

'AI Big Data > R' 카테고리의 다른 글

데이터 파악하기  (0) 2020.07.20
데이터 프레임 이해하기  (0) 2020.07.19
변수란?  (0) 2020.07.18
R Studio 살펴보기  (0) 2020.07.16
R / R Studio 설치하기  (0) 2020.07.16