[데이터의 평균 구하기]
1-1. '나라별 15세 이상 고용률' 데이터프레임을 사용해서 연도별 고용률의 평균을 구해보기
데이터의 열에 이미 연도별로 나누어져 있기 때문에 groupby를 따로 사용하지 않고 mean 메서드를 이용하였습니다.
# boolean index : array의 index가 True, False 값을 갖게 하여 True인 경우에 해당 array 값을 출력하게 한다.
1-2. Kaggle의 'January Flight Delay Prediction' 데이터프레임을 사용하여 항공고유ID 별 도착시간의 평균 구하기
데이터프레임의 groupby 메서드를 이용하여 항공고유ID(OP_CARRIER_AIRLINE_ID) 열을 전달하여 각 번호별로 그룹화
도착시간(ARR_TIME) 열을 지정하여 mean 메서드로 평균치를 구하였다.
좀 더 작은 단위로 나누어 살펴볼까요?
grouped_airline_id_df를 출력하면 데이터프레임이 저장된 메모리의 위치를 알 수 있습니다.
데이터프레임의 형태로 현재 메모리의 0x0000023C3CE00108이라는 위치에 저장되어 있음을 확인할 수 있습니다.
1-3. 'January Flight Delay Prediction' 데이터프레임을 이용하여 ARR_TIME(도착시간), DISTANCE(거리) 열의 평균값을 OP_CARRIER_AIRLINE_ID(항공고유ID), DEST(목적지) 별로 그룹화하여 한 번에 계산해보자.
OP_CARRIER_AIRLINE_ID, DEST 열로 그룹화한 그룹 데이터프레임에서 ARR_TIME, DISTANCE 열만 추출하여 평균값을 구한 것
# 그룹화한 데이터 개수 세기
- 그룹화한 데이터의 개수가 몇 개인지 알아봅시다! (빈도수)
- 데이터의 빈도수는 nunique 메서드를 사용하면 쉽게 구할 수 있습니다.
OP_CARRIER_AIRLINE_ID를 기준으로 데이터프레임을 만들어 DEST 열만 추출하여 빈도 수를 계산해보겠습니다.
[참고자료]
(Data) Gapminder (https://www.gapminder.org/data/)
Data
Data The table below lists all indicators displayed in Gapminder World. Click the name of the indicator or the data provider to access information about the indicator and a link to the data provider. Indicators labeled “Various sources” are compiled b
www.gapminder.org
(Data) Kaggle (https://www.kaggle.com/divyansh22/flight-delay-prediction?select=Jan_2019_ontime.csv)
January Flight Delay Prediction
US Flight Data for the month of Jan 2019 and Jan 2020.
www.kaggle.com
(Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱
![]() |
|
(Documents) pandas: powerful Python data analysis toolkit (https://pandas.pydata.org/docs/pandas.pdf)
'AI Big Data > pandas' 카테고리의 다른 글
시리즈 다루기 (0) | 2020.07.08 |
---|---|
나만의 데이터 만들기 (0) | 2020.07.07 |
데이터 추출하기 (0) | 2020.07.06 |
데이터 집합 불러오기 (0) | 2020.07.06 |
pandas 설치하기 (0) | 2020.07.06 |