AI Big Data/pandas

기초적인 통계 계산하기

retro_blue 2020. 7. 6. 23:39
반응형

[데이터의 평균 구하기]

 

1-1.  '나라별 15세 이상 고용률' 데이터프레임을 사용해서 연도별 고용률의 평균을 구해보기

 

179개의 나라와 33개의 연도 수로 구성되어 있습니다.

데이터의 열에 이미 연도별로 나누어져 있기 때문에 groupby를 따로 사용하지 않고 mean 메서드를 이용하였습니다.

연도별 고용률 평균치
boolean 배열을 활용하여 평균값이 가장 높은 행을 확인한다.
15세 이상 고용률이 가장 높았던 해는 2018년, 약 58.2% 라는 것을 알 수 있다.

# boolean index : array의 index가 True, False 값을 갖게 하여 True인 경우에 해당 array 값을 출력하게 한다.

 

 

1-2. Kaggle의 'January Flight Delay Prediction' 데이터프레임을 사용하여 항공고유ID 별 도착시간의 평균 구하기

 

'2019년 1월 비행 지연 예측' 데이터집합 살펴보기
항공고유번호 열을 그룹화하여 도착시간의 평균치 계산하기

데이터프레임의 groupby 메서드를 이용하여 항공고유ID(OP_CARRIER_AIRLINE_ID) 열을 전달하여 각 번호별로 그룹화

도착시간(ARR_TIME) 열을 지정하여 mean 메서드로 평균치를 구하였다.

 

 

좀 더 작은 단위로 나누어 살펴볼까요?

 

 

그룹화한 데이터의 자료형은 DataFrameGroupBy입니다.

 

메모리 주소는 실행 환경에 따라 다르게 출력된다

 

grouped_airline_id_df를 출력하면 데이터프레임이 저장된 메모리의 위치를 알 수 있습니다.

데이터프레임의 형태로 현재 메모리의 0x0000023C3CE00108이라는 위치에 저장되어 있음을 확인할 수 있습니다.

 

ARR_TIME 열을 추출한 결과, 그룹화한 시리즈를 얻을 수 있다.
mean 메서드를 사용한 결과, 각 id별 도착시간의 평균값을 얻을 수 있다.

 

1-3. 'January Flight Delay Prediction' 데이터프레임을 이용하여 ARR_TIME(도착시간), DISTANCE(거리) 열의 평균값을 OP_CARRIER_AIRLINE_ID(항공고유ID), DEST(목적지) 별로 그룹화하여 한 번에 계산해보자.

 

 

OP_CARRIER_AIRLINE_ID, DEST 열로 그룹화한 그룹 데이터프레임에서 ARR_TIME, DISTANCE 열만 추출하여 평균값을 구한 것

 

 

# 그룹화한 데이터 개수 세기

 

- 그룹화한 데이터의 개수가 몇 개인지 알아봅시다! (빈도수)

- 데이터의 빈도수는 nunique 메서드를 사용하면 쉽게 구할 수 있습니다.

 

OP_CARRIER_AIRLINE_ID를 기준으로 데이터프레임을 만들어 DEST 열만 추출하여 빈도 수를 계산해보겠습니다.

 

 

 

 

 


[참고자료]

(Data) Gapminder (https://www.gapminder.org/data/)

 

Data

Data The table below lists all indicators displayed in Gapminder World. Click the name of the indicator or the data provider to access information about the indicator and a link to the data provider. Indicators labeled “Various sources” are compiled b

www.gapminder.org

(Data) Kaggle (https://www.kaggle.com/divyansh22/flight-delay-prediction?select=Jan_2019_ontime.csv)

 

January Flight Delay Prediction

US Flight Data for the month of Jan 2019 and Jan 2020.

www.kaggle.com

(Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱

Do it! 데이터 분석을 위한 판다스 입문
국내도서
저자 : 다니엘 첸(Chen, Daniel Y.) / 김영하역
출판 : 이지스퍼블리싱 2018.10.11
상세보기

(Documents) pandas: powerful Python data analysis toolkit (https://pandas.pydata.org/docs/pandas.pdf)

반응형

'AI Big Data > pandas' 카테고리의 다른 글

시리즈 다루기  (0) 2020.07.08
나만의 데이터 만들기  (0) 2020.07.07
데이터 추출하기  (0) 2020.07.06
데이터 집합 불러오기  (0) 2020.07.06
pandas 설치하기  (0) 2020.07.06