데이터 파악하기

AI Big Data/R

데이터 파악하기

retro_blue 2020. 7. 20. 11:49

데이터를 파악할 때는 기본적으로 아래의 여섯 가지 함수를 사용합니다.

head() : 데이터 앞부분 출력

tail() : 데이터 뒷부분 출력

View() : 뷰어 창에서 데이터 확인

dim() : 데이터 차원 출력

str() : 데이터 속성 출력

summary() : 요약 통계량 출력

1. Kaggle 데이터 사용하기

이번에는 kaggle에서 데이터를 하나 가져와서 함수의 기능을 알아보겠습니다.

'입사에 영향을 미치는 학업 및 고용성 요인' 에 대한 데이터 자료입니다.

프로젝트 폴더 안에 다운받아 놓은 Placement.csv 파일을 불러오도록 하겠습니다.

head() 함수를 통해 데이터의 앞부분을 확인합니다.

데이터 프레임 뒤에 쉼표를 쓰고 숫자를 입력하면 입력한 행까지의 데이터가 출력되는 것을 확인할 수 있습니다.

tail()도 head() 와 비슷합니다. 다만 tail은 뒷부분을 출력해줍니다.

이번엔 View() 함수를 사용해보겠습니다.

# 데이터 뷰어 창에서 데이터 원자료 확인
View(placement)

View() 함수를 사용하면, 엑셀과 유사하게 생긴 'Viewer 창'이 원자료를 직접 보여 주는 기능을 합니다.

placement 데이터 프레임의 자료를 가져온 것이기 때문에 Viewer 창 이름도 placement가 되었습니다.

View()에서 맨 앞의 V 자는 대문자로 입력해야합니다.

- dim은 '차원'을 의미하는 'Dimensions'의 앞 글자.

- 데이터가 몇 행, 몇 열로 구성되어 있는지 알아볼 때 사용합니다.

- placement 데이터 프레임은 215행 15열로 구성

- str()은 데이터에 들어 있는 변수들의 속성을 보여줍니다

- 모든 변수의 속성을 한눈에 파악하고 싶을 때 사용합니다

ㆍ215개의 관측치 (obs, Observation) =행(row)

ㆍ15개의 변수 (variables)

- '$sl_no' 를 보면 정수(int, Integer)로 된 변수임을 확인할 수 있습니다

summary()는 '평균'처럼, 변수의 값을 요약한 '요약 통계량'을 산출하는 함수입니다.

변수의 특성을 파악하는 데 도움이 됩니다.

Min : 최솟값(Minimum), 가장 작은 값

1st Qu : 1사분위수(1st Quantile), 하위 25%(4분의 1) 지점에 위치하는 값

Median : 중앙값(Median), 중앙에 위치하는 값

Mean : 평균(Mean), 모든 값을 더해 값의 개수로 나눈 값

3rd Qu : 3사분위수(3rd Quantile), 하위 75%(4분의 3) 지점에 위치하는 값

Max : 최댓값(Maximum), 가장 큰 값

출력 결과 중 salary를 살펴보겠습니다. salary는 연봉 데이터 입니다.

최고 연봉은 940000(Max), 최저는 200000(Min), 평균은 288655(Mean) 입니다.

연봉들이 265000(Median)을 중심으로 240000(1st Qu.)와 300000(3rd Qu) 사이에 몰려 있는 것을 알 수 있습니다.

2. mpg 데이터 사용하기

mpg 데이터는 ggplot2 패키지 안에 내장되어 있습니다.

따라서 mpg 데이터를 사용하려면 ggplot2 패키지를 먼저 설치해두어야 합니다.

as.data.frame()은 데이터 속성을 데이터 프레임 형태로 바꾸는 함수입니다

ggplot2 패키지 내의 mpg 데이터를 데이터 프레임 형태로 바꾸어 R Studio에 불러오도록 하겠습니다.

괄호 안의 ggplot2::mpg는 ggplot2에 들어 있는 mpg 데이터를 지칭하는 코드입니다.

더블 콜론(::)을 이용하면 특정 패키지에 들어 있는 함수나 데이터를 지정할 수 있습니다.

head(), tail()를 통해 데이터의 앞, 뒷 부분을 확인할 수 있습니다.

mpg 데이터가 자동차 234종에 대한 11개 변수로 구성되어 있다는 것을 알 수 있습니다.

이번엔 str()을 이용해 각 변수의 속성을 알아보고, summary()를 이용해 요약 통계량을 살펴보겠습니다.

숫자로 된 변수는 여섯 가지 요약 통계량을 보여 주고, 문자로 된 변수는 요약 통계량을 계산할 수 없으니 값의 개수(Length)와 변수의 속성(Class, Mode)을 보여줍니다.

str() 속성을 사용했을 때, chr은 문자(Character), num은 소수점이 있는 실수(Numeric), int는 소수점이 없는 정수(Integer)의 머리글자 입니다.

요약 통계량 출력 결과 중 cty의 요약 통계량을 살펴보겠습니다.

cty는 자동차가 도시에서 1갤런에 몇 마일을 주행하는지 나타냅니다.

- 자동차들이 도시에서 평균적으로 갤런당 16.86마일을 주행한다(Mean).

- 연비가 가장 낮은 모델은 갤런당 9마일(min), 가장 높은 모델은 35마일(Max)을 주행한다.

- 자동차들의 연비가 갤런당 17마일(Median)을 중심으로 14마일에서 19마일 사이(1st Quantile, 3rd Quantile)에 몰려있다.

패키지에 들어 있는 데이터는 help 함수를 이용해 설명 글을 볼 수 있습니다.

manufacturer : 제조 회사

displ : 배기량 (displacement)

cyl : 실린더 개수 (cylinders)

drv : 구동 방식 (drive wheel)

hwy : 고속도로 연비 (highway)

class : 자동차 종류

model : 자동차 모델명

year : 생산연도

trans : 변속기 종류 (transmission)

cty : 도시 연비 (city)

fl : 연료 종류 (fuel)

[참고자료]

(Data) Campus Recruitment (https://www.kaggle.com/benroshan/factors-affecting-campus-placement)

(Book) Do it! 쉽게 배우는 R 데이터 분석 - 이지스퍼블리싱

Do it! 쉽게 배우는 R 데이터 분석: 국내도서; 저자 : 김영우; 출판 : 이지스퍼블리싱 2017.07.20

상세보기

'AI Big Data > R' 카테고리의 다른 글

파생변수 만들기 (0)	2020.07.21
변수명 바꾸기 (0)	2020.07.21
데이터 프레임 이해하기 (0)	2020.07.19
함수와 패키지 이해하기 (0)	2020.07.19
변수란? (0)	2020.07.18

현재글데이터 파악하기

PANDAS, 위험관리, R, 정보보호 관련 법규, 네트워크보안, dataframe, RStudio, Kaggle, Python, 애플리케이션 보안, 정보보안 관리, seaborn, 접근통제, 정보보호론, data, 정보보안 관련 법규, 시스템 보안, matplotlib, Gapminder, 정보보안기사,

Today :
Yesterday :

project-bs