AI Big Data 28

R / R Studio 설치하기

R과 R Studio를 설치할 때는 R → R Studio 순서로 설치하면 됩니다. R Studio는 R을 사용하기 편리하게 만들어주는 IDE Software 입니다. 다양한 부가 기능을 통해 데이터를 효율적으로 분석할 수 있습니다. * IDE(Integrated Development Environment, 통합 개발 환경) - 코딩, 파일 관리, 배포 등 프로그래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어 1. R 설치하기 https://cran.r-project.org/mirrors.html CRAN - Mirrors https://cran.asia/ Personnel Psychology Laboratory, Industrial Psychology Department, Kwangwoon Un..

AI Big Data/R 2020.07.16

R이란?

R은 데이터를 분석하는 데 사용되는 소프트웨어입니다. 수많은 데이터 분석 도구들 사이에서 굉장히 인기를 끌고 있는 소프트웨어이자 점유율 또한 계속 상승하고 있는 추세입니다. R은 범용 분석 툴이기 때문에 다양한 데이터 분석에 사용되곤 합니다. 통계 분석 -데이터의 특성을 살펴보는 기초 통계 분석부터 가설검정에 사용되는 고급 통계 분석 기법에 이르기까지 다양한 통계 분석 기법을 활용할 수 있습니다. 머신러닝 모델링 - 머신러닝(Machine Learning)은 다량의 데이터를 이용해 특정 변수를 예측할 수 있는 예측 모형을 만드는 기법이다 - R에서는 랜덤 포레스트, SVM, 딥러닝 등 최신 머신러닝 알고리즘을 쉽게 활용할 수 있다 텍스트마이닝 - 텍스트 마이닝 기술을 이용하면 문자로 이루어진 데이터를 분..

AI Big Data/R 2020.07.16

[AI Big Data 활용 사례] ① 맞춤형 추천 서비스

# 맞춤형 추천 서비스 1. 아비바생명 (AVIVA, UK) - 운전자의 운전 패턴에 기반을 둔 맞춤형 보험 상품 - 차량 내 운행 기록 장치를 통해 실제 운전 행태를 수집 및 분석 - 주로 운전하는 시간과 지역 등을 감안해 보험료를 산정 - '운전한 만큼 지불하는 (Pay-as-you-drive)' 상품인 RateMyDrive 상품 출시하여 고객들의 좋은 반응 이끔 2. 사우스웨스트 항공 (SOUTHWEST AIRLINES, US) - 비행기 좌석 스크린에 승객별로 다른 광고 제공 - 엑시엄(Acxiom)의 DB에 저장되어 있는 항공기 탑승객의 쇼핑 습관과 구매 패턴 등을 분석 - 승객별 최적화된 광고 제공 3. 티몬 (TMON, KR) - 여행을 원하는 소비자들이 쉽고 간편하게 정보를 찾고 예약할 수..

AI Big Data 2020.07.13

seaborn 라이브러리를 이용하여 그래프 스타일 설정하기

seaborn 라이브러리로 만든 그래프의 스타일은 set_style 메서드를 사용하여 바꿀 수 있습니다. 스타일을 적용할 부분에서 한 번만 실행해주면 메서드를 실행한 이후의 그래프가 모두 지정한 스타일로 바뀝니다. seaborn 라이브러리 스타일은 darkgrid, whitegrid, dark, white, ticks 이렇게 5가지 입니다. tight_layout 메서드를 통해 그래프의 레이아웃을 조절하고, for 문을 활용하여 모든 스타일을 하나씩 적용해보았습니다. [참고자료] (Data) seaborn (https://seaborn.pydata.org/) seaborn: statistical data visualization — seaborn 0.10.1 documentation Seaborn is ..

AI Big Data/pandas 2020.07.10

데이터프레임과 시리즈를 이용해서 그래프 그리기

간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용해서 바로 그래프를 그릴 수 있습니다. plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. 밀집도 그래프는 kde를 사용하고, 산점도 그래프는 scatter, 육각형 그래프는 hexbin 메서드를 사용하여 그릴 수 있습니다. 육각형 크기가 굉장히 작아서 확인이 쉽지 않다고요? 그럼 gridsize 인자를 사용하여 변경할 수 있습니다. 이번에는 box 메서드를 사용하여 박스 그래프를 그려보겠습니다. [참고자료] (Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱 Do it! 데이터 분석을 위한 판다스 입문 국내도서 저자..

AI Big Data/pandas 2020.07.09

seaborn 라이브러리 사용하기

load_dataset 메서드를 사용하여 데이터 집합을 불러올 수 있습니다. - seaborn 라이브러리로 히스토그램을 그리려면 subplots, displot 메서드를 사용하면 됩니다 - subplots 메서드로 기본 틀을 만들어줍니다. - distplot 메서드에 total_bill 열 데이터를 전달하면 히스토그램을 그릴 수 있습니다. # 히스토그램 그리기 - distplot 메서드는 히스토그램과 밀집도 그래프를 같이 그려줍니다. - 혹시라도 밀집도 그래프를 제외해서 그리고 싶다면 kde 인잣값을 False로 설정하면 됩니다. * 밀집도 그래프는 주어진 데이터를 정규화시켜 넓이가 1이 되도록 그린 그래프입니다. # 밀집도 그래프 그리기 - 밀집도 그래프만 나타내고 싶은 경우에는 hist 인자를 Fal..

AI Big Data/pandas 2020.07.09

matplotlib 라이브러리 사용하기

# 기초 그래프 (히스토그램 / 산점도 / 박스 그래프 그리기) - seaborn 라이브러리의 tips 라는 데이터 집합을 사용해보도록 하겠습니다. - tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. - 데이터프레임의 total_bill, tips 등의 열을 변수라고 부릅니다. 1-1. 히스토그램 * 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용합니다. tips 데이터프레임의 히스토그램을 그려보도록 하겠습니다. total_bill 변수를 사용한 일변량 그래프를 만들어보겠습니다. 1-2. 산점도 그래프 - 산점도 그래프는 변수 2개를 사용해서 만드는 그래프이며, 변수 2개를 사용하기 때문에 통계 용어로 '이변량 그래프' 라고 부릅니다. - ..

AI Big Data/pandas 2020.07.09

앤스콤 4분할 그래프 살펴보기

# 앤스콤 4분할 그래프 (Anscombe's quartet) Frank Anscombe이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프 # 앤스콤이 지적한 함정 - 앤스콤 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다 - 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관과계, 회귀선이 모두 같다는 특징이 있다 - 이런 결과를 통해 '데이터 그룹 I, II, III, IV의 데이터는 모두 같을 것이다' 라고 착각할 수 있음 하지만 ! 각 데이터 그룹을 시각화하면 데이터 그룹들이 서로 다른 데이터 패턴을 가지고 있다는 점을 알 수 있다 이런 점에서 데이터 시각화는 데이터 분석 분야..

AI Big Data/pandas 2020.07.09

그래프 그리기

데이터의 시각화는 데이터 분석에 있어서 아주 중요한 요소입니다. 이번 포스트에서는 간단한 그래프 작성과 함께 데이터 시각화가 무엇인지 확인하겠습니다. %matplotlib inline은 Jupyter Notebook에서 그래프를 그리기 위해 사용하는 매직 함수입니다. Kaggle에서 1985-2016년도 까지 나라별 자살률에 대한 데이터를 가지고 실습해보겠습니다. 그룹화된 데이터에서 country가 'Republic of Korea' 인 데이터를 추출하여 그래프를 만들어보겠습니다. 다시 연도별로 묶어보겠습니다. 이제 구한 값을 plot 메서드를 사용하여 그래프로 만들어보겠습니다. 이 그래프를 통해 대한민국의 자살한 사람 수는 가파르게 상승하였으나, 10만명 당 자살한 사람의 수는 30년동안 큰 차이가 없..

AI Big Data/pandas 2020.07.09

데이터 저장하고 불러오기

데이터를 추출하고 처리하면서 데이터를 가공하는 법을 배워보았습니다. 이번에는 가공한 데이터를 저장하고 불러오는 방법에 대해 살펴보겠습니다. 가공한 데이터를 피클, CSV, TSV 파일로 저장하고 다시 불러오는 걸 실습해보겠습니다. 1. 피클로 저장 피클(pickle)은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법 이름의 유래는 데이터를 오래 보관한다는 뜻으로 피클이라 지어졌습니다. 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어서 매우 편리합니다. to_pickle 메서드를 사용하며, 저장경로는 문자열로 전달해야하는 특징이 있습니다. 7월 8일 기준으로, KBO에서 가장 잘나가는 타자 3명의 이름, 홈런개수, 타율, OPS를 가지고 데이터프레임을 만들어보았습니다...

AI Big Data/pandas 2020.07.09