AI Big Data/pandas 15

나만의 데이터 만들기

이번에는 실습에 사용할 시리즈와 데이터프레임을 직접 만들어보도록 하겠습니다. 1-1. 시리즈 만들기 시리즈 생성시 문자열을 인덱스로 지정할 수도 있습니다. Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전달한다. 1-2. 데이터프레임 만들기 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 한다 데이터프레임도 인덱스를 따로 지정하지 않으면 인덱스를 0부터 자동으로 생성합니다. 따로 인덱스를 지정하고 싶으면 index 인자에 리스트를 전달하면 됩니다. columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있습니다. 딕셔너리는 키(Key)와 값(Value)으로 이루어진 한 쌍의 데이터들의 순서를 보장하지 않습니다. Q. 순..

AI Big Data/pandas 2020.07.07

기초적인 통계 계산하기

[데이터의 평균 구하기] 1-1. '나라별 15세 이상 고용률' 데이터프레임을 사용해서 연도별 고용률의 평균을 구해보기 데이터의 열에 이미 연도별로 나누어져 있기 때문에 groupby를 따로 사용하지 않고 mean 메서드를 이용하였습니다. # boolean index : array의 index가 True, False 값을 갖게 하여 True인 경우에 해당 array 값을 출력하게 한다. 1-2. Kaggle의 'January Flight Delay Prediction' 데이터프레임을 사용하여 항공고유ID 별 도착시간의 평균 구하기 데이터프레임의 groupby 메서드를 이용하여 항공고유ID(OP_CARRIER_AIRLINE_ID) 열을 전달하여 각 번호별로 그룹화 도착시간(ARR_TIME) 열을 지정하여 ..

AI Big Data/pandas 2020.07.06

데이터 추출하기

1. 행 단위 데이터 추출하기 데이터를 행 단위로 추출하려면 loc, iloc 속성을 사용해야 합니다. loc : 인덱스를 기준으로 행 데이터 추출 iloc : 행 번호를 기준으로 행 데이터 추출 빨간 사각형 안에 들어간 0~4까지의 숫자는 데이터프레임의 인덱스입니다. 인덱스는 보통 0부터 시작하지만, 행 데이터의 변동이 있을 경우 0이 아닌 숫자가 먼저 올 수 있습니다. 또한 숫자 뿐만 아니라 first, second, third와 같이 문자열로도 지정이 가능합니다. 반면, 행 번호는 데이터의 순서를 따라갑니다. 반드시 정수만으로 데이터를 조회/추출 할 수 있으며 실제 데이터프레임에서는 확인이 불가능합니다. 1-1. loc 속성 사용하여 데이터를 추출하기 다음은 인덱스가 0인 행 데이터를 추출하였습니다..

AI Big Data/pandas 2020.07.06

데이터 집합 불러오기

스웨덴의 비영리 통계분석 서비스. UN의 데이터를 바탕으로 한 인구 예측, 부의 이동 등에 관한 연구논문과 통계 정보 등을 공유 csv 파일은 몇 가지 필드를 쉼표(, )로 구분한 텍스트 데이터입니다. 각 나라별 15세 이상 고용률에 대한 자료를 사용하겠습니다. 1. 데이터 불러오기 # 만약 ', '가 아닌 탭(tab)으로 구분되어 있는 파일들(.tsv)을 호출할 때는 sep 속성값을 사용하여 \t를 지정합니다 ex) df = pandas.read_Csv('data/jupyter.tsv', sep='\t') 2. 데이터 집합 살펴보기 # info 메서드를 사용하면 자료형에 대해 좀 더 자세한 내용을 확인할 수 있습니다. # non-null 은 결측값 (NaN, nan, NAN) 이 없다는 뜻 # coun..

AI Big Data/pandas 2020.07.06

pandas 설치하기

1. pandas란? pandas Python 프로그래밍 언어로 구축된 오픈 소스 데이터 분석 조작 도구 구조화된 데이터나 표 형식의 데이터를 빠르고 쉽고 표현적으로 다루도록 설계된 고수준의 자료구조와 함수를 제공 NumPy의 고성능, 배열 연산 아이디어 + 스프레드시트/관계형 DB (SQL) 데이터 처리 기능을 결합 - 자료구조 : 표 형태의 로우와 컬럼 이름을 가지는 DataFrame(데이터프레임) 1차원 배열 객체인 Series(시리즈) 1-1. 아나콘다 설치 라는 파이썬과 데이터 분석 라이브러리를 한데 모아 놓은 패키지를 설치하여 실습합니다. https://www.anaconda.com/products/individual 에 접속하여 각 운영체제에 해당되는 파일을 다운 받습니다. 금전적 부담이 없..

AI Big Data/pandas 2020.07.06