Kaggle 4

데이터 파악하기

데이터를 파악할 때는 기본적으로 아래의 여섯 가지 함수를 사용합니다. head() : 데이터 앞부분 출력 tail() : 데이터 뒷부분 출력 View() : 뷰어 창에서 데이터 확인 dim() : 데이터 차원 출력 str() : 데이터 속성 출력 summary() : 요약 통계량 출력 1. Kaggle 데이터 사용하기 이번에는 kaggle에서 데이터를 하나 가져와서 함수의 기능을 알아보겠습니다. '입사에 영향을 미치는 학업 및 고용성 요인' 에 대한 데이터 자료입니다. 프로젝트 폴더 안에 다운받아 놓은 Placement.csv 파일을 불러오도록 하겠습니다. head() 함수를 통해 데이터의 앞부분을 확인합니다. 데이터 프레임 뒤에 쉼표를 쓰고 숫자를 입력하면 입력한 행까지의 데이터가 출력되는 것을 확인할..

AI Big Data/R 2020.07.20

그래프 그리기

데이터의 시각화는 데이터 분석에 있어서 아주 중요한 요소입니다. 이번 포스트에서는 간단한 그래프 작성과 함께 데이터 시각화가 무엇인지 확인하겠습니다. %matplotlib inline은 Jupyter Notebook에서 그래프를 그리기 위해 사용하는 매직 함수입니다. Kaggle에서 1985-2016년도 까지 나라별 자살률에 대한 데이터를 가지고 실습해보겠습니다. 그룹화된 데이터에서 country가 'Republic of Korea' 인 데이터를 추출하여 그래프를 만들어보겠습니다. 다시 연도별로 묶어보겠습니다. 이제 구한 값을 plot 메서드를 사용하여 그래프로 만들어보겠습니다. 이 그래프를 통해 대한민국의 자살한 사람 수는 가파르게 상승하였으나, 10만명 당 자살한 사람의 수는 30년동안 큰 차이가 없..

AI Big Data/pandas 2020.07.09

시리즈와 데이터프레임의 데이터 처리하기

1. 열의 자료형을 바꾸기 kaggle에서 dataset을 하나 가지고 와서 작업해보겠습니다. '2000-2019년 연방 은행의 시간당 달러 환율' 에 대한 자료입니다. info 메서드를 통해 자세한 내용을 확인해보았습니다. 여기서 몇 개의 열만 추려서 작업을 해보겠습니다. 각 열들의 자료형은 문자열(object) 입니다. * python의 문자열은 pandas에서 object로 취급합니다! 첫 번째 열인 Time Serie 열은 날짜임에도 불구하고 문자열로 저장되어 있습니다. 시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꿔보겠습니다. 그리고 format 속성을 이용하여 '%Y-%m-%d' 로 지정하겠습니다. 2. 데이터 삭제하기 datetime 자료형을 가진 날짜 열을 추가했습니다. f..

AI Big Data/pandas 2020.07.08

기초적인 통계 계산하기

[데이터의 평균 구하기] 1-1. '나라별 15세 이상 고용률' 데이터프레임을 사용해서 연도별 고용률의 평균을 구해보기 데이터의 열에 이미 연도별로 나누어져 있기 때문에 groupby를 따로 사용하지 않고 mean 메서드를 이용하였습니다. # boolean index : array의 index가 True, False 값을 갖게 하여 True인 경우에 해당 array 값을 출력하게 한다. 1-2. Kaggle의 'January Flight Delay Prediction' 데이터프레임을 사용하여 항공고유ID 별 도착시간의 평균 구하기 데이터프레임의 groupby 메서드를 이용하여 항공고유ID(OP_CARRIER_AIRLINE_ID) 열을 전달하여 각 번호별로 그룹화 도착시간(ARR_TIME) 열을 지정하여 ..

AI Big Data/pandas 2020.07.06