AI Big Data 28

시리즈와 데이터프레임의 데이터 처리하기

1. 열의 자료형을 바꾸기 kaggle에서 dataset을 하나 가지고 와서 작업해보겠습니다. '2000-2019년 연방 은행의 시간당 달러 환율' 에 대한 자료입니다. info 메서드를 통해 자세한 내용을 확인해보았습니다. 여기서 몇 개의 열만 추려서 작업을 해보겠습니다. 각 열들의 자료형은 문자열(object) 입니다. * python의 문자열은 pandas에서 object로 취급합니다! 첫 번째 열인 Time Serie 열은 날짜임에도 불구하고 문자열로 저장되어 있습니다. 시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꿔보겠습니다. 그리고 format 속성을 이용하여 '%Y-%m-%d' 로 지정하겠습니다. 2. 데이터 삭제하기 datetime 자료형을 가진 날짜 열을 추가했습니다. f..

AI Big Data/pandas 2020.07.08

데이터프레임 다루기

데이터프레임 또한 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있습니다. 1. 불린 추출 KBO 팀들의 평균 승리 수를 계산해보니 26.8 이라는 결괏값이 나왔습니다. kborank의 W 열에서 W 열의 평균보다 높은 행을 출력해본 결과 6개의 팀이 평균치 이상의 승리를 달성했습니다. 이번엔 참, 거짓을 담은 bool 벡터를 데이터프레임에 적용시켜 보겠습니다. 인덱스가 1, 4, 5인 행 데이터는 bool 값이 False라 출력되지 않습니다. 2. 브로드캐스팅 시리즈에 스칼라 연산을 적용할 때는 모든 요소에 스칼라를 적용하여 연산했습니다. 데이터프레임도 마찬가지입니다. kborank 데이터프레임에 2를 곱하면 정수 데이터는 2를 곱한 숫자를, 문자열 데이터는 문자열이 2배로 늘어납니다. [참고자..

AI Big Data/pandas 2020.07.08

시리즈 다루기

pandas의 데이터를 구성하는 가장 기본 단위는 시리즈입니다. 데이터프레임에서 시리즈를 선택하려면 loc 속성에 인덱스(과일 이름)를 전달하면 됩니다. type으로 확인을 해줍니다. first_row를 출력해보겠습니다. 여기서 주목해야 할 점은 데이터프레임을 만들때 price, count 열에 정수형 리스트를 전달해도 시리즈(first_row)를 출력해보면 시리즈의 자로형을 오브젝트로 인식한다는 것입니다. 1. 시리즈 속성과 메서드 사용하기 1-1. index 속성 사용 - index 속성에는 시리즈의 인덱스가 들어 있습니다. 1-1. index 속성의 첫 번째 값 추출 1-2. values 속성 사용 - values 속성에는 시리즈의 데이터가 저장되어 있습니다. 1-3. keys 메서드 사용 - ke..

AI Big Data/pandas 2020.07.08

나만의 데이터 만들기

이번에는 실습에 사용할 시리즈와 데이터프레임을 직접 만들어보도록 하겠습니다. 1-1. 시리즈 만들기 시리즈 생성시 문자열을 인덱스로 지정할 수도 있습니다. Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전달한다. 1-2. 데이터프레임 만들기 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 한다 데이터프레임도 인덱스를 따로 지정하지 않으면 인덱스를 0부터 자동으로 생성합니다. 따로 인덱스를 지정하고 싶으면 index 인자에 리스트를 전달하면 됩니다. columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있습니다. 딕셔너리는 키(Key)와 값(Value)으로 이루어진 한 쌍의 데이터들의 순서를 보장하지 않습니다. Q. 순..

AI Big Data/pandas 2020.07.07

기초적인 통계 계산하기

[데이터의 평균 구하기] 1-1. '나라별 15세 이상 고용률' 데이터프레임을 사용해서 연도별 고용률의 평균을 구해보기 데이터의 열에 이미 연도별로 나누어져 있기 때문에 groupby를 따로 사용하지 않고 mean 메서드를 이용하였습니다. # boolean index : array의 index가 True, False 값을 갖게 하여 True인 경우에 해당 array 값을 출력하게 한다. 1-2. Kaggle의 'January Flight Delay Prediction' 데이터프레임을 사용하여 항공고유ID 별 도착시간의 평균 구하기 데이터프레임의 groupby 메서드를 이용하여 항공고유ID(OP_CARRIER_AIRLINE_ID) 열을 전달하여 각 번호별로 그룹화 도착시간(ARR_TIME) 열을 지정하여 ..

AI Big Data/pandas 2020.07.06

데이터 추출하기

1. 행 단위 데이터 추출하기 데이터를 행 단위로 추출하려면 loc, iloc 속성을 사용해야 합니다. loc : 인덱스를 기준으로 행 데이터 추출 iloc : 행 번호를 기준으로 행 데이터 추출 빨간 사각형 안에 들어간 0~4까지의 숫자는 데이터프레임의 인덱스입니다. 인덱스는 보통 0부터 시작하지만, 행 데이터의 변동이 있을 경우 0이 아닌 숫자가 먼저 올 수 있습니다. 또한 숫자 뿐만 아니라 first, second, third와 같이 문자열로도 지정이 가능합니다. 반면, 행 번호는 데이터의 순서를 따라갑니다. 반드시 정수만으로 데이터를 조회/추출 할 수 있으며 실제 데이터프레임에서는 확인이 불가능합니다. 1-1. loc 속성 사용하여 데이터를 추출하기 다음은 인덱스가 0인 행 데이터를 추출하였습니다..

AI Big Data/pandas 2020.07.06

데이터 집합 불러오기

스웨덴의 비영리 통계분석 서비스. UN의 데이터를 바탕으로 한 인구 예측, 부의 이동 등에 관한 연구논문과 통계 정보 등을 공유 csv 파일은 몇 가지 필드를 쉼표(, )로 구분한 텍스트 데이터입니다. 각 나라별 15세 이상 고용률에 대한 자료를 사용하겠습니다. 1. 데이터 불러오기 # 만약 ', '가 아닌 탭(tab)으로 구분되어 있는 파일들(.tsv)을 호출할 때는 sep 속성값을 사용하여 \t를 지정합니다 ex) df = pandas.read_Csv('data/jupyter.tsv', sep='\t') 2. 데이터 집합 살펴보기 # info 메서드를 사용하면 자료형에 대해 좀 더 자세한 내용을 확인할 수 있습니다. # non-null 은 결측값 (NaN, nan, NAN) 이 없다는 뜻 # coun..

AI Big Data/pandas 2020.07.06

pandas 설치하기

1. pandas란? pandas Python 프로그래밍 언어로 구축된 오픈 소스 데이터 분석 조작 도구 구조화된 데이터나 표 형식의 데이터를 빠르고 쉽고 표현적으로 다루도록 설계된 고수준의 자료구조와 함수를 제공 NumPy의 고성능, 배열 연산 아이디어 + 스프레드시트/관계형 DB (SQL) 데이터 처리 기능을 결합 - 자료구조 : 표 형태의 로우와 컬럼 이름을 가지는 DataFrame(데이터프레임) 1차원 배열 객체인 Series(시리즈) 1-1. 아나콘다 설치 라는 파이썬과 데이터 분석 라이브러리를 한데 모아 놓은 패키지를 설치하여 실습합니다. https://www.anaconda.com/products/individual 에 접속하여 각 운영체제에 해당되는 파일을 다운 받습니다. 금전적 부담이 없..

AI Big Data/pandas 2020.07.06