전체 글 91

함수와 패키지 이해하기

1. 함수 이용하기 데이터 분석은 '함수를 이용해서 변수를 조작하는 일' 이라고 할 수 있습니다. 1-1. 숫자를 다루는 함수 이용하기 - 함수는 '함수 이름'과 '괄호'로 구성됩니다. - 함수 이름을 쓰고 그 뒤에 괄호를 입력한 후 함수의 기능을 적용할 값이나 변수를 입력하면 됩니다. 1-2. 문자를 다루는 함수 이용하기 여러 문자를 합쳐 하나로 만드는 함수인 paste()를 사용해보았습니다. collapse는 단어를 구분할 문자를 지정하는 기능을 합니다. "," 는 단어들이 쉼표로 구분되도록 설정한 것이고, " "는 쉼표 대신 빈칸을 지정해 단어를 한 칸씩 띄워보았습니다. collapse처럼 함수의 옵션을 설정하는 명령어를 '파라미터(parameter)' 또는 '매개변수'라고 합니다. 각각의 함수들은..

AI Big Data/R 2020.07.19

변수란?

여기 표가 하나 있습니다. 대학교 학년 성별 점수 국적 서울 1 남 84 대한민국 연세 3 여 96 대한민국 성균관 4 여 89 대한민국 한양 2 남 93 대한민국 표를 살펴보면 [국적]은 '대한민국' 이라는 고정된 값을 지니고 있는 반면, [대학교], [학년], [성별], [점수]는 다양한 값을 지니고 있습니다. 이처럼 하나의 값으로만 되어 있는 속성은 '상수(Constant)' 라고 하지만, 다양한 값을 지니고 있는 하나의 속성은 '변수(Variable)라고 합니다. 상수는 분석할 게 없는 반면, 변수는 데이터 분석의 대상이 될 수 있습니다. 위의 표 자료에선 모든 학생들이 같은 국적을 지니고 있기 때문에 국적에 따른 점수 차이, 남ㆍ녀 비율을 분석할 수 없습니다. 그럼 R에서는 변수를 어떻게 만들까..

AI Big Data/R 2020.07.18

R Studio 살펴보기

1. 프로젝트 창 살펴보기 1-1. Source Window (명령어를 기록하는 소스 창) - 문서편집기 - 명령어나 메모를 자유롭게 기록할 수 있습니다 - 소스 창에 입력한 명령어로 만들어진 문서를 스크립트(Script)라고 합니다 - 소스 창에 명령어를 입력하고 Ctrl + Enter를 누르면 명령어가 콘솔 창으로 넘어가 실행되고 결과물이 출력됩니다 - 한 줄 씩 결과물을 출력할 수도 있지만, 여러 명령어들을 블록으로 지정한 후 Ctrl + Enter을 누르면 여러 줄의 명령어가 순차적으로 콘솔 창에 입력되면서 결과가 출력됩니다 - 전체적인 작업 흐름을 파악하는데에 용이하므로 콘솔 창보단 소스 창에 입력해서 실행하는 것이 좋습니다 1-2. Console Window (명령어를 실행하는 콘솔 창) - ..

AI Big Data/R 2020.07.16

R / R Studio 설치하기

R과 R Studio를 설치할 때는 R → R Studio 순서로 설치하면 됩니다. R Studio는 R을 사용하기 편리하게 만들어주는 IDE Software 입니다. 다양한 부가 기능을 통해 데이터를 효율적으로 분석할 수 있습니다. * IDE(Integrated Development Environment, 통합 개발 환경) - 코딩, 파일 관리, 배포 등 프로그래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어 1. R 설치하기 https://cran.r-project.org/mirrors.html CRAN - Mirrors https://cran.asia/ Personnel Psychology Laboratory, Industrial Psychology Department, Kwangwoon Un..

AI Big Data/R 2020.07.16

R이란?

R은 데이터를 분석하는 데 사용되는 소프트웨어입니다. 수많은 데이터 분석 도구들 사이에서 굉장히 인기를 끌고 있는 소프트웨어이자 점유율 또한 계속 상승하고 있는 추세입니다. R은 범용 분석 툴이기 때문에 다양한 데이터 분석에 사용되곤 합니다. 통계 분석 -데이터의 특성을 살펴보는 기초 통계 분석부터 가설검정에 사용되는 고급 통계 분석 기법에 이르기까지 다양한 통계 분석 기법을 활용할 수 있습니다. 머신러닝 모델링 - 머신러닝(Machine Learning)은 다량의 데이터를 이용해 특정 변수를 예측할 수 있는 예측 모형을 만드는 기법이다 - R에서는 랜덤 포레스트, SVM, 딥러닝 등 최신 머신러닝 알고리즘을 쉽게 활용할 수 있다 텍스트마이닝 - 텍스트 마이닝 기술을 이용하면 문자로 이루어진 데이터를 분..

AI Big Data/R 2020.07.16

[AI Big Data 활용 사례] ① 맞춤형 추천 서비스

# 맞춤형 추천 서비스 1. 아비바생명 (AVIVA, UK) - 운전자의 운전 패턴에 기반을 둔 맞춤형 보험 상품 - 차량 내 운행 기록 장치를 통해 실제 운전 행태를 수집 및 분석 - 주로 운전하는 시간과 지역 등을 감안해 보험료를 산정 - '운전한 만큼 지불하는 (Pay-as-you-drive)' 상품인 RateMyDrive 상품 출시하여 고객들의 좋은 반응 이끔 2. 사우스웨스트 항공 (SOUTHWEST AIRLINES, US) - 비행기 좌석 스크린에 승객별로 다른 광고 제공 - 엑시엄(Acxiom)의 DB에 저장되어 있는 항공기 탑승객의 쇼핑 습관과 구매 패턴 등을 분석 - 승객별 최적화된 광고 제공 3. 티몬 (TMON, KR) - 여행을 원하는 소비자들이 쉽고 간편하게 정보를 찾고 예약할 수..

AI Big Data 2020.07.13

seaborn 라이브러리를 이용하여 그래프 스타일 설정하기

seaborn 라이브러리로 만든 그래프의 스타일은 set_style 메서드를 사용하여 바꿀 수 있습니다. 스타일을 적용할 부분에서 한 번만 실행해주면 메서드를 실행한 이후의 그래프가 모두 지정한 스타일로 바뀝니다. seaborn 라이브러리 스타일은 darkgrid, whitegrid, dark, white, ticks 이렇게 5가지 입니다. tight_layout 메서드를 통해 그래프의 레이아웃을 조절하고, for 문을 활용하여 모든 스타일을 하나씩 적용해보았습니다. [참고자료] (Data) seaborn (https://seaborn.pydata.org/) seaborn: statistical data visualization — seaborn 0.10.1 documentation Seaborn is ..

AI Big Data/pandas 2020.07.10

데이터프레임과 시리즈를 이용해서 그래프 그리기

간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용해서 바로 그래프를 그릴 수 있습니다. plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. 밀집도 그래프는 kde를 사용하고, 산점도 그래프는 scatter, 육각형 그래프는 hexbin 메서드를 사용하여 그릴 수 있습니다. 육각형 크기가 굉장히 작아서 확인이 쉽지 않다고요? 그럼 gridsize 인자를 사용하여 변경할 수 있습니다. 이번에는 box 메서드를 사용하여 박스 그래프를 그려보겠습니다. [참고자료] (Book) Do it! 데이터 분석을 위한 판다스 입문 (Chen. Daniel Y 저) - 이지스퍼블리싱 Do it! 데이터 분석을 위한 판다스 입문 국내도서 저자..

AI Big Data/pandas 2020.07.09

seaborn 라이브러리 사용하기

load_dataset 메서드를 사용하여 데이터 집합을 불러올 수 있습니다. - seaborn 라이브러리로 히스토그램을 그리려면 subplots, displot 메서드를 사용하면 됩니다 - subplots 메서드로 기본 틀을 만들어줍니다. - distplot 메서드에 total_bill 열 데이터를 전달하면 히스토그램을 그릴 수 있습니다. # 히스토그램 그리기 - distplot 메서드는 히스토그램과 밀집도 그래프를 같이 그려줍니다. - 혹시라도 밀집도 그래프를 제외해서 그리고 싶다면 kde 인잣값을 False로 설정하면 됩니다. * 밀집도 그래프는 주어진 데이터를 정규화시켜 넓이가 1이 되도록 그린 그래프입니다. # 밀집도 그래프 그리기 - 밀집도 그래프만 나타내고 싶은 경우에는 hist 인자를 Fal..

AI Big Data/pandas 2020.07.09

matplotlib 라이브러리 사용하기

# 기초 그래프 (히스토그램 / 산점도 / 박스 그래프 그리기) - seaborn 라이브러리의 tips 라는 데이터 집합을 사용해보도록 하겠습니다. - tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. - 데이터프레임의 total_bill, tips 등의 열을 변수라고 부릅니다. 1-1. 히스토그램 * 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용합니다. tips 데이터프레임의 히스토그램을 그려보도록 하겠습니다. total_bill 변수를 사용한 일변량 그래프를 만들어보겠습니다. 1-2. 산점도 그래프 - 산점도 그래프는 변수 2개를 사용해서 만드는 그래프이며, 변수 2개를 사용하기 때문에 통계 용어로 '이변량 그래프' 라고 부릅니다. - ..

AI Big Data/pandas 2020.07.09