data 6

[AI Big Data 활용 사례] ① 맞춤형 추천 서비스

# 맞춤형 추천 서비스 1. 아비바생명 (AVIVA, UK) - 운전자의 운전 패턴에 기반을 둔 맞춤형 보험 상품 - 차량 내 운행 기록 장치를 통해 실제 운전 행태를 수집 및 분석 - 주로 운전하는 시간과 지역 등을 감안해 보험료를 산정 - '운전한 만큼 지불하는 (Pay-as-you-drive)' 상품인 RateMyDrive 상품 출시하여 고객들의 좋은 반응 이끔 2. 사우스웨스트 항공 (SOUTHWEST AIRLINES, US) - 비행기 좌석 스크린에 승객별로 다른 광고 제공 - 엑시엄(Acxiom)의 DB에 저장되어 있는 항공기 탑승객의 쇼핑 습관과 구매 패턴 등을 분석 - 승객별 최적화된 광고 제공 3. 티몬 (TMON, KR) - 여행을 원하는 소비자들이 쉽고 간편하게 정보를 찾고 예약할 수..

AI Big Data 2020.07.13

데이터프레임과 시리즈를 이용해서 그래프 그리기

간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용해서 바로 그래프를 그릴 수 있습니다. plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. 밀집도 그래프는 kde를 사용하고, 산점도 그래프는 scatter, 육각형 그래프는 hexbin 메서드를 사용하여 그릴 수 있습니다. 육각형 크기가 굉장히 작아서 확인이 쉽지 않다고요? 그럼 gridsize 인자를 사용하여 변경할 수 있습니다. 이번에는 box 메서드를 사용하여 박스 그래프를 그려보겠습니다. [참고자료] (Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱 Do it! 데이터 분석을 위한 판다스 입문 국내도서 저자..

AI Big Data/pandas 2020.07.09

앤스콤 4분할 그래프 살펴보기

# 앤스콤 4분할 그래프 (Anscombe's quartet) Frank Anscombe이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프 # 앤스콤이 지적한 함정 - 앤스콤 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다 - 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관과계, 회귀선이 모두 같다는 특징이 있다 - 이런 결과를 통해 '데이터 그룹 I, II, III, IV의 데이터는 모두 같을 것이다' 라고 착각할 수 있음 하지만 ! 각 데이터 그룹을 시각화하면 데이터 그룹들이 서로 다른 데이터 패턴을 가지고 있다는 점을 알 수 있다 이런 점에서 데이터 시각화는 데이터 분석 분야..

AI Big Data/pandas 2020.07.09

데이터프레임 다루기

데이터프레임 또한 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있습니다. 1. 불린 추출 KBO 팀들의 평균 승리 수를 계산해보니 26.8 이라는 결괏값이 나왔습니다. kborank의 W 열에서 W 열의 평균보다 높은 행을 출력해본 결과 6개의 팀이 평균치 이상의 승리를 달성했습니다. 이번엔 참, 거짓을 담은 bool 벡터를 데이터프레임에 적용시켜 보겠습니다. 인덱스가 1, 4, 5인 행 데이터는 bool 값이 False라 출력되지 않습니다. 2. 브로드캐스팅 시리즈에 스칼라 연산을 적용할 때는 모든 요소에 스칼라를 적용하여 연산했습니다. 데이터프레임도 마찬가지입니다. kborank 데이터프레임에 2를 곱하면 정수 데이터는 2를 곱한 숫자를, 문자열 데이터는 문자열이 2배로 늘어납니다. [참고자..

AI Big Data/pandas 2020.07.08

나만의 데이터 만들기

이번에는 실습에 사용할 시리즈와 데이터프레임을 직접 만들어보도록 하겠습니다. 1-1. 시리즈 만들기 시리즈 생성시 문자열을 인덱스로 지정할 수도 있습니다. Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전달한다. 1-2. 데이터프레임 만들기 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 한다 데이터프레임도 인덱스를 따로 지정하지 않으면 인덱스를 0부터 자동으로 생성합니다. 따로 인덱스를 지정하고 싶으면 index 인자에 리스트를 전달하면 됩니다. columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있습니다. 딕셔너리는 키(Key)와 값(Value)으로 이루어진 한 쌍의 데이터들의 순서를 보장하지 않습니다. Q. 순..

AI Big Data/pandas 2020.07.07

데이터 집합 불러오기

스웨덴의 비영리 통계분석 서비스. UN의 데이터를 바탕으로 한 인구 예측, 부의 이동 등에 관한 연구논문과 통계 정보 등을 공유 csv 파일은 몇 가지 필드를 쉼표(, )로 구분한 텍스트 데이터입니다. 각 나라별 15세 이상 고용률에 대한 자료를 사용하겠습니다. 1. 데이터 불러오기 # 만약 ', '가 아닌 탭(tab)으로 구분되어 있는 파일들(.tsv)을 호출할 때는 sep 속성값을 사용하여 \t를 지정합니다 ex) df = pandas.read_Csv('data/jupyter.tsv', sep='\t') 2. 데이터 집합 살펴보기 # info 메서드를 사용하면 자료형에 대해 좀 더 자세한 내용을 확인할 수 있습니다. # non-null 은 결측값 (NaN, nan, NAN) 이 없다는 뜻 # coun..

AI Big Data/pandas 2020.07.06