AI Big Data/pandas 15

seaborn 라이브러리를 이용하여 그래프 스타일 설정하기

seaborn 라이브러리로 만든 그래프의 스타일은 set_style 메서드를 사용하여 바꿀 수 있습니다. 스타일을 적용할 부분에서 한 번만 실행해주면 메서드를 실행한 이후의 그래프가 모두 지정한 스타일로 바뀝니다. seaborn 라이브러리 스타일은 darkgrid, whitegrid, dark, white, ticks 이렇게 5가지 입니다. tight_layout 메서드를 통해 그래프의 레이아웃을 조절하고, for 문을 활용하여 모든 스타일을 하나씩 적용해보았습니다. [참고자료] (Data) seaborn (https://seaborn.pydata.org/) seaborn: statistical data visualization — seaborn 0.10.1 documentation Seaborn is ..

AI Big Data/pandas 2020.07.10

데이터프레임과 시리즈를 이용해서 그래프 그리기

간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용해서 바로 그래프를 그릴 수 있습니다. plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. 밀집도 그래프는 kde를 사용하고, 산점도 그래프는 scatter, 육각형 그래프는 hexbin 메서드를 사용하여 그릴 수 있습니다. 육각형 크기가 굉장히 작아서 확인이 쉽지 않다고요? 그럼 gridsize 인자를 사용하여 변경할 수 있습니다. 이번에는 box 메서드를 사용하여 박스 그래프를 그려보겠습니다. [참고자료] (Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱 Do it! 데이터 분석을 위한 판다스 입문 국내도서 저자..

AI Big Data/pandas 2020.07.09

seaborn 라이브러리 사용하기

load_dataset 메서드를 사용하여 데이터 집합을 불러올 수 있습니다. - seaborn 라이브러리로 히스토그램을 그리려면 subplots, displot 메서드를 사용하면 됩니다 - subplots 메서드로 기본 틀을 만들어줍니다. - distplot 메서드에 total_bill 열 데이터를 전달하면 히스토그램을 그릴 수 있습니다. # 히스토그램 그리기 - distplot 메서드는 히스토그램과 밀집도 그래프를 같이 그려줍니다. - 혹시라도 밀집도 그래프를 제외해서 그리고 싶다면 kde 인잣값을 False로 설정하면 됩니다. * 밀집도 그래프는 주어진 데이터를 정규화시켜 넓이가 1이 되도록 그린 그래프입니다. # 밀집도 그래프 그리기 - 밀집도 그래프만 나타내고 싶은 경우에는 hist 인자를 Fal..

AI Big Data/pandas 2020.07.09

matplotlib 라이브러리 사용하기

# 기초 그래프 (히스토그램 / 산점도 / 박스 그래프 그리기) - seaborn 라이브러리의 tips 라는 데이터 집합을 사용해보도록 하겠습니다. - tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. - 데이터프레임의 total_bill, tips 등의 열을 변수라고 부릅니다. 1-1. 히스토그램 * 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용합니다. tips 데이터프레임의 히스토그램을 그려보도록 하겠습니다. total_bill 변수를 사용한 일변량 그래프를 만들어보겠습니다. 1-2. 산점도 그래프 - 산점도 그래프는 변수 2개를 사용해서 만드는 그래프이며, 변수 2개를 사용하기 때문에 통계 용어로 '이변량 그래프' 라고 부릅니다. - ..

AI Big Data/pandas 2020.07.09

앤스콤 4분할 그래프 살펴보기

# 앤스콤 4분할 그래프 (Anscombe's quartet) Frank Anscombe이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프 # 앤스콤이 지적한 함정 - 앤스콤 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다 - 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관과계, 회귀선이 모두 같다는 특징이 있다 - 이런 결과를 통해 '데이터 그룹 I, II, III, IV의 데이터는 모두 같을 것이다' 라고 착각할 수 있음 하지만 ! 각 데이터 그룹을 시각화하면 데이터 그룹들이 서로 다른 데이터 패턴을 가지고 있다는 점을 알 수 있다 이런 점에서 데이터 시각화는 데이터 분석 분야..

AI Big Data/pandas 2020.07.09

그래프 그리기

데이터의 시각화는 데이터 분석에 있어서 아주 중요한 요소입니다. 이번 포스트에서는 간단한 그래프 작성과 함께 데이터 시각화가 무엇인지 확인하겠습니다. %matplotlib inline은 Jupyter Notebook에서 그래프를 그리기 위해 사용하는 매직 함수입니다. Kaggle에서 1985-2016년도 까지 나라별 자살률에 대한 데이터를 가지고 실습해보겠습니다. 그룹화된 데이터에서 country가 'Republic of Korea' 인 데이터를 추출하여 그래프를 만들어보겠습니다. 다시 연도별로 묶어보겠습니다. 이제 구한 값을 plot 메서드를 사용하여 그래프로 만들어보겠습니다. 이 그래프를 통해 대한민국의 자살한 사람 수는 가파르게 상승하였으나, 10만명 당 자살한 사람의 수는 30년동안 큰 차이가 없..

AI Big Data/pandas 2020.07.09

데이터 저장하고 불러오기

데이터를 추출하고 처리하면서 데이터를 가공하는 법을 배워보았습니다. 이번에는 가공한 데이터를 저장하고 불러오는 방법에 대해 살펴보겠습니다. 가공한 데이터를 피클, CSV, TSV 파일로 저장하고 다시 불러오는 걸 실습해보겠습니다. 1. 피클로 저장 피클(pickle)은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법 이름의 유래는 데이터를 오래 보관한다는 뜻으로 피클이라 지어졌습니다. 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어서 매우 편리합니다. to_pickle 메서드를 사용하며, 저장경로는 문자열로 전달해야하는 특징이 있습니다. 7월 8일 기준으로, KBO에서 가장 잘나가는 타자 3명의 이름, 홈런개수, 타율, OPS를 가지고 데이터프레임을 만들어보았습니다...

AI Big Data/pandas 2020.07.09

시리즈와 데이터프레임의 데이터 처리하기

1. 열의 자료형을 바꾸기 kaggle에서 dataset을 하나 가지고 와서 작업해보겠습니다. '2000-2019년 연방 은행의 시간당 달러 환율' 에 대한 자료입니다. info 메서드를 통해 자세한 내용을 확인해보았습니다. 여기서 몇 개의 열만 추려서 작업을 해보겠습니다. 각 열들의 자료형은 문자열(object) 입니다. * python의 문자열은 pandas에서 object로 취급합니다! 첫 번째 열인 Time Serie 열은 날짜임에도 불구하고 문자열로 저장되어 있습니다. 시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꿔보겠습니다. 그리고 format 속성을 이용하여 '%Y-%m-%d' 로 지정하겠습니다. 2. 데이터 삭제하기 datetime 자료형을 가진 날짜 열을 추가했습니다. f..

AI Big Data/pandas 2020.07.08

데이터프레임 다루기

데이터프레임 또한 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있습니다. 1. 불린 추출 KBO 팀들의 평균 승리 수를 계산해보니 26.8 이라는 결괏값이 나왔습니다. kborank의 W 열에서 W 열의 평균보다 높은 행을 출력해본 결과 6개의 팀이 평균치 이상의 승리를 달성했습니다. 이번엔 참, 거짓을 담은 bool 벡터를 데이터프레임에 적용시켜 보겠습니다. 인덱스가 1, 4, 5인 행 데이터는 bool 값이 False라 출력되지 않습니다. 2. 브로드캐스팅 시리즈에 스칼라 연산을 적용할 때는 모든 요소에 스칼라를 적용하여 연산했습니다. 데이터프레임도 마찬가지입니다. kborank 데이터프레임에 2를 곱하면 정수 데이터는 2를 곱한 숫자를, 문자열 데이터는 문자열이 2배로 늘어납니다. [참고자..

AI Big Data/pandas 2020.07.08

시리즈 다루기

pandas의 데이터를 구성하는 가장 기본 단위는 시리즈입니다. 데이터프레임에서 시리즈를 선택하려면 loc 속성에 인덱스(과일 이름)를 전달하면 됩니다. type으로 확인을 해줍니다. first_row를 출력해보겠습니다. 여기서 주목해야 할 점은 데이터프레임을 만들때 price, count 열에 정수형 리스트를 전달해도 시리즈(first_row)를 출력해보면 시리즈의 자로형을 오브젝트로 인식한다는 것입니다. 1. 시리즈 속성과 메서드 사용하기 1-1. index 속성 사용 - index 속성에는 시리즈의 인덱스가 들어 있습니다. 1-1. index 속성의 첫 번째 값 추출 1-2. values 속성 사용 - values 속성에는 시리즈의 데이터가 저장되어 있습니다. 1-3. keys 메서드 사용 - ke..

AI Big Data/pandas 2020.07.08