Gapminder 3

기초적인 통계 계산하기

[데이터의 평균 구하기] 1-1. '나라별 15세 이상 고용률' 데이터프레임을 사용해서 연도별 고용률의 평균을 구해보기 데이터의 열에 이미 연도별로 나누어져 있기 때문에 groupby를 따로 사용하지 않고 mean 메서드를 이용하였습니다. # boolean index : array의 index가 True, False 값을 갖게 하여 True인 경우에 해당 array 값을 출력하게 한다. 1-2. Kaggle의 'January Flight Delay Prediction' 데이터프레임을 사용하여 항공고유ID 별 도착시간의 평균 구하기 데이터프레임의 groupby 메서드를 이용하여 항공고유ID(OP_CARRIER_AIRLINE_ID) 열을 전달하여 각 번호별로 그룹화 도착시간(ARR_TIME) 열을 지정하여 ..

AI Big Data/pandas 2020.07.06

데이터 추출하기

1. 행 단위 데이터 추출하기 데이터를 행 단위로 추출하려면 loc, iloc 속성을 사용해야 합니다. loc : 인덱스를 기준으로 행 데이터 추출 iloc : 행 번호를 기준으로 행 데이터 추출 빨간 사각형 안에 들어간 0~4까지의 숫자는 데이터프레임의 인덱스입니다. 인덱스는 보통 0부터 시작하지만, 행 데이터의 변동이 있을 경우 0이 아닌 숫자가 먼저 올 수 있습니다. 또한 숫자 뿐만 아니라 first, second, third와 같이 문자열로도 지정이 가능합니다. 반면, 행 번호는 데이터의 순서를 따라갑니다. 반드시 정수만으로 데이터를 조회/추출 할 수 있으며 실제 데이터프레임에서는 확인이 불가능합니다. 1-1. loc 속성 사용하여 데이터를 추출하기 다음은 인덱스가 0인 행 데이터를 추출하였습니다..

AI Big Data/pandas 2020.07.06

데이터 집합 불러오기

스웨덴의 비영리 통계분석 서비스. UN의 데이터를 바탕으로 한 인구 예측, 부의 이동 등에 관한 연구논문과 통계 정보 등을 공유 csv 파일은 몇 가지 필드를 쉼표(, )로 구분한 텍스트 데이터입니다. 각 나라별 15세 이상 고용률에 대한 자료를 사용하겠습니다. 1. 데이터 불러오기 # 만약 ', '가 아닌 탭(tab)으로 구분되어 있는 파일들(.tsv)을 호출할 때는 sep 속성값을 사용하여 \t를 지정합니다 ex) df = pandas.read_Csv('data/jupyter.tsv', sep='\t') 2. 데이터 집합 살펴보기 # info 메서드를 사용하면 자료형에 대해 좀 더 자세한 내용을 확인할 수 있습니다. # non-null 은 결측값 (NaN, nan, NAN) 이 없다는 뜻 # coun..

AI Big Data/pandas 2020.07.06