AI Big Data/pandas

시리즈와 데이터프레임의 데이터 처리하기

retro_blue 2020. 7. 8. 23:08
반응형

1. 열의 자료형을 바꾸기

 

kaggle에서 dataset을 하나 가지고 와서 작업해보겠습니다.

 

 

'2000-2019년 연방 은행의 시간당 달러 환율' 에 대한 자료입니다.

 

 

info 메서드를 통해 자세한 내용을 확인해보았습니다.

여기서 몇 개의 열만 추려서 작업을 해보겠습니다.

각 열들의 자료형은 문자열(object) 입니다.

* python의 문자열은 pandas에서 object로 취급합니다!

 

첫 번째 열인 Time Serie 열은 날짜임에도 불구하고 문자열로 저장되어 있습니다.

시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꿔보겠습니다.

그리고 format 속성을 이용하여 '%Y-%m-%d' 로 지정하겠습니다.

 

time 열이 추가되었고, 자료형은 datetime64 입니다.

 

2. 데이터 삭제하기

 

datetime 자료형을 가진 날짜 열을 추가했습니다.

fer_simple 데이터프레임에 날짜 관련 열이 2개가 있기 때문에 object 자료형을 가진 Time Serie 열을 제거해보도록 하겠습니다.

 

데이터프레임에서 열을 삭제하려면 drop 메서드를 사용해야 합니다.

drop 메서드의 첫 번째 인자에 열 이름을 리스트에 담아 전달하고, 두 번째 인자에는 axis=1을 전달하면 해당 열을 삭제할 수 있습니다. (axis=0 은 행일 때 사용합니다.)

drop 메서드를 사용하여 깔끔하게 제거하였습니다. / drop 메서드는 삭제한 열을 반환합니다.

 

 

3. 시리즈, 데이터프레임의 데이터를 섞기

 

상위 10개의 데이터만 따로 추출하려 fer_simple_df 데이터프레임을 만들었습니다.

 

이제 KOREA-WON/US$ 열의 데이터를 섞어보려고 합니다.

데이터를 섞으려면 random 라이브러리를 불러와야 합니다.

random 라이브러리에는 데이터를 섞어주는 shuffle 메서드가 있습니다.

 

 

seed 메서드는 컴퓨터가 생성하는 난수의 기준값을 정하기 위해 사용됩니다.

 


[참고자료]

(Data) Kaggle (https://www.kaggle.com/brunotly/foreign-exchange-rates-per-dollar-20002019)

 

Foreign Exchange Rates 2000-2019

Federal Reserve's time serie of foreign exchange rates per dollar.

www.kaggle.com

(Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱

Do it! 데이터 분석을 위한 판다스 입문
국내도서
저자 : 다니엘 첸(Chen, Daniel Y.) / 김영하역
출판 : 이지스퍼블리싱 2018.10.11
상세보기
반응형

'AI Big Data > pandas' 카테고리의 다른 글

그래프 그리기  (0) 2020.07.09
데이터 저장하고 불러오기  (0) 2020.07.09
데이터프레임 다루기  (0) 2020.07.08
시리즈 다루기  (0) 2020.07.08
나만의 데이터 만들기  (0) 2020.07.07