데이터를 추출하고 처리하면서 데이터를 가공하는 법을 배워보았습니다.
이번에는 가공한 데이터를 저장하고 불러오는 방법에 대해 살펴보겠습니다.
가공한 데이터를 피클, CSV, TSV 파일로 저장하고 다시 불러오는 걸 실습해보겠습니다.
1. 피클로 저장
피클(pickle)은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법
이름의 유래는 데이터를 오래 보관한다는 뜻으로 피클이라 지어졌습니다.
피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어서 매우 편리합니다.
to_pickle 메서드를 사용하며, 저장경로는 문자열로 전달해야하는 특징이 있습니다.
7월 8일 기준으로, KBO에서 가장 잘나가는 타자 3명의 이름, 홈런개수, 타율, OPS를 가지고 데이터프레임을 만들어보았습니다.
피클은 바이너리(binary) 형태의 오브젝트 입니다. 편집기와 같은 프로그램으로 실행시 이상한 문자가 나타납니다.
반드시 read_pickle 메서드를 통해 읽어야 합니다.
2. csv, tsv 파일로 저장하기
2-1. csv (Comma Seperated Values) 파일로 저장하기
- csv 파일은 쉼표로 구분된 값 파일입니다.
2-2. tsv 파일로 저장
- tsv 파일은 TAB으로 분리된 형식의 text 파일입니다.
해당 내용만을 다루기 위한 모듈은 python 에 준비되어 있진 않아서 csv 모듈을 이용합니다.
이때 sep 인자를 추가하여 '\t' 를 지정하고 파일의 확장자를 '.tsv' 로 지정하면 됩니다.
3. 시리즈와 데이터프레임을 엑셀 파일로 저장하기
- 시리즈는 엑셀 구조와 맞지 않기 때문에 엑셀 파일로 바로 저장할 수 없습니다.
엑셀 파일로 바로 저장할 수 있는 데이터프레임으로 변환해야 합니다.
to_frame이라는 메서드를 사용해서 변환합니다.
- xls 파일로 저장하려면 xlwt 라이브러리가 필요하며, xlsx 파일로 저장하려면 openpyxl 라이브러리가 필요합니다.
[참고자료]
(Data) KBO (https://www.koreabaseball.com/Record/Player/HitterBasic/Basic1.aspx?sort=HRA_RT)
(Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱
|
'AI Big Data > pandas' 카테고리의 다른 글
앤스콤 4분할 그래프 살펴보기 (0) | 2020.07.09 |
---|---|
그래프 그리기 (0) | 2020.07.09 |
시리즈와 데이터프레임의 데이터 처리하기 (0) | 2020.07.08 |
데이터프레임 다루기 (0) | 2020.07.08 |
시리즈 다루기 (0) | 2020.07.08 |