matplotlib 2

matplotlib 라이브러리 사용하기

# 기초 그래프 (히스토그램 / 산점도 / 박스 그래프 그리기) - seaborn 라이브러리의 tips 라는 데이터 집합을 사용해보도록 하겠습니다. - tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. - 데이터프레임의 total_bill, tips 등의 열을 변수라고 부릅니다. 1-1. 히스토그램 * 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용합니다. tips 데이터프레임의 히스토그램을 그려보도록 하겠습니다. total_bill 변수를 사용한 일변량 그래프를 만들어보겠습니다. 1-2. 산점도 그래프 - 산점도 그래프는 변수 2개를 사용해서 만드는 그래프이며, 변수 2개를 사용하기 때문에 통계 용어로 '이변량 그래프' 라고 부릅니다. - ..

AI Big Data/pandas 2020.07.09

앤스콤 4분할 그래프 살펴보기

# 앤스콤 4분할 그래프 (Anscombe's quartet) Frank Anscombe이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프 # 앤스콤이 지적한 함정 - 앤스콤 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다 - 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관과계, 회귀선이 모두 같다는 특징이 있다 - 이런 결과를 통해 '데이터 그룹 I, II, III, IV의 데이터는 모두 같을 것이다' 라고 착각할 수 있음 하지만 ! 각 데이터 그룹을 시각화하면 데이터 그룹들이 서로 다른 데이터 패턴을 가지고 있다는 점을 알 수 있다 이런 점에서 데이터 시각화는 데이터 분석 분야..

AI Big Data/pandas 2020.07.09