PANDAS 13

seaborn 라이브러리를 이용하여 그래프 스타일 설정하기

seaborn 라이브러리로 만든 그래프의 스타일은 set_style 메서드를 사용하여 바꿀 수 있습니다. 스타일을 적용할 부분에서 한 번만 실행해주면 메서드를 실행한 이후의 그래프가 모두 지정한 스타일로 바뀝니다. seaborn 라이브러리 스타일은 darkgrid, whitegrid, dark, white, ticks 이렇게 5가지 입니다. tight_layout 메서드를 통해 그래프의 레이아웃을 조절하고, for 문을 활용하여 모든 스타일을 하나씩 적용해보았습니다. [참고자료] (Data) seaborn (https://seaborn.pydata.org/) seaborn: statistical data visualization — seaborn 0.10.1 documentation Seaborn is ..

AI Big Data/pandas 2020.07.10

데이터프레임과 시리즈를 이용해서 그래프 그리기

간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용해서 바로 그래프를 그릴 수 있습니다. plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. 밀집도 그래프는 kde를 사용하고, 산점도 그래프는 scatter, 육각형 그래프는 hexbin 메서드를 사용하여 그릴 수 있습니다. 육각형 크기가 굉장히 작아서 확인이 쉽지 않다고요? 그럼 gridsize 인자를 사용하여 변경할 수 있습니다. 이번에는 box 메서드를 사용하여 박스 그래프를 그려보겠습니다. [참고자료] (Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱 Do it! 데이터 분석을 위한 판다스 입문 국내도서 저자..

AI Big Data/pandas 2020.07.09

seaborn 라이브러리 사용하기

load_dataset 메서드를 사용하여 데이터 집합을 불러올 수 있습니다. - seaborn 라이브러리로 히스토그램을 그리려면 subplots, displot 메서드를 사용하면 됩니다 - subplots 메서드로 기본 틀을 만들어줍니다. - distplot 메서드에 total_bill 열 데이터를 전달하면 히스토그램을 그릴 수 있습니다. # 히스토그램 그리기 - distplot 메서드는 히스토그램과 밀집도 그래프를 같이 그려줍니다. - 혹시라도 밀집도 그래프를 제외해서 그리고 싶다면 kde 인잣값을 False로 설정하면 됩니다. * 밀집도 그래프는 주어진 데이터를 정규화시켜 넓이가 1이 되도록 그린 그래프입니다. # 밀집도 그래프 그리기 - 밀집도 그래프만 나타내고 싶은 경우에는 hist 인자를 Fal..

AI Big Data/pandas 2020.07.09

matplotlib 라이브러리 사용하기

# 기초 그래프 (히스토그램 / 산점도 / 박스 그래프 그리기) - seaborn 라이브러리의 tips 라는 데이터 집합을 사용해보도록 하겠습니다. - tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. - 데이터프레임의 total_bill, tips 등의 열을 변수라고 부릅니다. 1-1. 히스토그램 * 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용합니다. tips 데이터프레임의 히스토그램을 그려보도록 하겠습니다. total_bill 변수를 사용한 일변량 그래프를 만들어보겠습니다. 1-2. 산점도 그래프 - 산점도 그래프는 변수 2개를 사용해서 만드는 그래프이며, 변수 2개를 사용하기 때문에 통계 용어로 '이변량 그래프' 라고 부릅니다. - ..

AI Big Data/pandas 2020.07.09

앤스콤 4분할 그래프 살펴보기

# 앤스콤 4분할 그래프 (Anscombe's quartet) Frank Anscombe이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프 # 앤스콤이 지적한 함정 - 앤스콤 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다 - 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관과계, 회귀선이 모두 같다는 특징이 있다 - 이런 결과를 통해 '데이터 그룹 I, II, III, IV의 데이터는 모두 같을 것이다' 라고 착각할 수 있음 하지만 ! 각 데이터 그룹을 시각화하면 데이터 그룹들이 서로 다른 데이터 패턴을 가지고 있다는 점을 알 수 있다 이런 점에서 데이터 시각화는 데이터 분석 분야..

AI Big Data/pandas 2020.07.09

그래프 그리기

데이터의 시각화는 데이터 분석에 있어서 아주 중요한 요소입니다. 이번 포스트에서는 간단한 그래프 작성과 함께 데이터 시각화가 무엇인지 확인하겠습니다. %matplotlib inline은 Jupyter Notebook에서 그래프를 그리기 위해 사용하는 매직 함수입니다. Kaggle에서 1985-2016년도 까지 나라별 자살률에 대한 데이터를 가지고 실습해보겠습니다. 그룹화된 데이터에서 country가 'Republic of Korea' 인 데이터를 추출하여 그래프를 만들어보겠습니다. 다시 연도별로 묶어보겠습니다. 이제 구한 값을 plot 메서드를 사용하여 그래프로 만들어보겠습니다. 이 그래프를 통해 대한민국의 자살한 사람 수는 가파르게 상승하였으나, 10만명 당 자살한 사람의 수는 30년동안 큰 차이가 없..

AI Big Data/pandas 2020.07.09

시리즈와 데이터프레임의 데이터 처리하기

1. 열의 자료형을 바꾸기 kaggle에서 dataset을 하나 가지고 와서 작업해보겠습니다. '2000-2019년 연방 은행의 시간당 달러 환율' 에 대한 자료입니다. info 메서드를 통해 자세한 내용을 확인해보았습니다. 여기서 몇 개의 열만 추려서 작업을 해보겠습니다. 각 열들의 자료형은 문자열(object) 입니다. * python의 문자열은 pandas에서 object로 취급합니다! 첫 번째 열인 Time Serie 열은 날짜임에도 불구하고 문자열로 저장되어 있습니다. 시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꿔보겠습니다. 그리고 format 속성을 이용하여 '%Y-%m-%d' 로 지정하겠습니다. 2. 데이터 삭제하기 datetime 자료형을 가진 날짜 열을 추가했습니다. f..

AI Big Data/pandas 2020.07.08

데이터프레임 다루기

데이터프레임 또한 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있습니다. 1. 불린 추출 KBO 팀들의 평균 승리 수를 계산해보니 26.8 이라는 결괏값이 나왔습니다. kborank의 W 열에서 W 열의 평균보다 높은 행을 출력해본 결과 6개의 팀이 평균치 이상의 승리를 달성했습니다. 이번엔 참, 거짓을 담은 bool 벡터를 데이터프레임에 적용시켜 보겠습니다. 인덱스가 1, 4, 5인 행 데이터는 bool 값이 False라 출력되지 않습니다. 2. 브로드캐스팅 시리즈에 스칼라 연산을 적용할 때는 모든 요소에 스칼라를 적용하여 연산했습니다. 데이터프레임도 마찬가지입니다. kborank 데이터프레임에 2를 곱하면 정수 데이터는 2를 곱한 숫자를, 문자열 데이터는 문자열이 2배로 늘어납니다. [참고자..

AI Big Data/pandas 2020.07.08

나만의 데이터 만들기

이번에는 실습에 사용할 시리즈와 데이터프레임을 직접 만들어보도록 하겠습니다. 1-1. 시리즈 만들기 시리즈 생성시 문자열을 인덱스로 지정할 수도 있습니다. Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전달한다. 1-2. 데이터프레임 만들기 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 한다 데이터프레임도 인덱스를 따로 지정하지 않으면 인덱스를 0부터 자동으로 생성합니다. 따로 인덱스를 지정하고 싶으면 index 인자에 리스트를 전달하면 됩니다. columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있습니다. 딕셔너리는 키(Key)와 값(Value)으로 이루어진 한 쌍의 데이터들의 순서를 보장하지 않습니다. Q. 순..

AI Big Data/pandas 2020.07.07

기초적인 통계 계산하기

[데이터의 평균 구하기] 1-1. '나라별 15세 이상 고용률' 데이터프레임을 사용해서 연도별 고용률의 평균을 구해보기 데이터의 열에 이미 연도별로 나누어져 있기 때문에 groupby를 따로 사용하지 않고 mean 메서드를 이용하였습니다. # boolean index : array의 index가 True, False 값을 갖게 하여 True인 경우에 해당 array 값을 출력하게 한다. 1-2. Kaggle의 'January Flight Delay Prediction' 데이터프레임을 사용하여 항공고유ID 별 도착시간의 평균 구하기 데이터프레임의 groupby 메서드를 이용하여 항공고유ID(OP_CARRIER_AIRLINE_ID) 열을 전달하여 각 번호별로 그룹화 도착시간(ARR_TIME) 열을 지정하여 ..

AI Big Data/pandas 2020.07.06