AI Big Data/R

R이란?

retro_blue 2020. 7. 16. 17:25
반응형

 

R은 데이터를 분석하는 데 사용되는 소프트웨어입니다.

수많은 데이터 분석 도구들 사이에서 굉장히 인기를 끌고 있는 소프트웨어이자 점유율 또한 계속 상승하고 있는 추세입니다.

 

R은 범용 분석 툴이기 때문에 다양한 데이터 분석에 사용되곤 합니다.

 

 

 

통계 분석

출처 : https://www.flickr.com/photos/financialaidpodcast/36604972852/in/dateposted-public/

-데이터의 특성을 살펴보는 기초 통계 분석부터 가설검정에 사용되는 고급 통계 분석 기법에 이르기까지 다양한 통계 분석 기법을 활용할 수 있습니다.

 

 

머신러닝 모델링

출처 : wikimedia.org/decision tree model.png

- 머신러닝(Machine Learning)은 다량의 데이터를 이용해 특정 변수를 예측할 수 있는 예측 모형을 만드는 기법이다

- R에서는 랜덤 포레스트, SVM, 딥러닝 등 최신 머신러닝 알고리즘을 쉽게 활용할 수 있다

 

 

텍스트마이닝

 

- 텍스트 마이닝 기술을 이용하면 문자로 이루어진 데이터를 분석할 수 있습니다. 예를 들어, 문장에서 자주 등장하는 단어를 찾거나 어떤 감정을 나타낸 단어가 자주 사용도는지 분석할 수 있습니다

 

 

 

소셜 네트워크 분석

출처 : pixabay.com

- 트위터, 페이스북과 같은 소셜 네트워크 서비스에서 사람들이 어떤 경로로 메시지가 퍼져 나가는지 분석하는 소셜 네트워크 분석 기술을 활용할 수 있습니다

 

 

지도 시각화

출처 : https://en.wikipedia.org/wiki/Security_visualisation

- 위도, 경도 등의 지리 정보와 지역 통계를 활용해 국가별 GDP, 시군구별 범죄율 등 지역별 특성을 지도로 표현할 수 있습니다.

 

 

주식 분석

출처 : http://www.quantmod.com/examples/charting/GS-ticks-subset.png

- 온라인에서 주식 관련 데이터를 수집해 분석할 수 있습니다. 주식 투자에 사용되는 지표들을 계산하거나 그래프로 표현할 수 있고, 실제 투자에 사용되는 투자 시스템을 구축할 수 있습니다.

 

 

이미지 분석

출처 : http://dahtah.github.io/imager/imager.html

- 사진, 그림 등의 이미지에서 속성을 추출해 데이터로 변환할 수 있습니다. 추출한 데이터는 이미지 식별 등 영상 처리 알고리즘을 개발하는 데 사용할 수 있습니다

 

 

사운드 분석

출처 : https://commons.wikimedia.org/wiki/File:An_audio_frequency_analysis.jpeg

- 소리 데이터에서 음량, 진폭 등의 속성을 추출해 데이터로 변환하거나 시각화할 수 있습니다. 추출한 데이터는 음석 인식 등 사운드 처리 알고리즘을 개발하는 데 사용할 수 있습니다

 

 

웹 애플리케이션 개발

출처 : https://shiny.rstudio.com/gallery/movie-explorer.html

- 데이터를 활용한 웹 애플리케이션을 쉽게 개발할 수 있습니다.

- 이용자가 입력한 값에 반응해 그래프를 생성하거나 머신러닝 알고리즘을 적용한 결과를 보여주는 등 데이터 분석 기반의 웹 애플리케이션을 구현할 수 있다

 

 

 

R은 무료로 사용할 수 있는 오픈 소스 소프트웨어!

 

뉴질랜드의 오클랜드 대학교 통계학과 교수인 로스 이하카(Ross Ihaka)와 로버트 젠틀맨(Robert Gentleman)이 만들었습니다.

 

이들은 누구든 자유롭게 R을 사용할 수 있도록 온라인에 공개하였고, 소스 코드까지 공개해서 R을 응용한 소프트웨어를 개발하거나 상업화할 수 있도록 허용하였습니다.

 

 

오픈 소스 생태계 - 다양한 패키지, 최신 분석 기법

 

오픈 소스 소프트웨어라 새로운 분석 기법이 등장하면 며칠 내로 패키지가 업로드되어 바로 다운로드 하여 사용도 가능하다는 장점이 있습니다.

 

사용자들이 패키지를 만들어 공유하는 사이트 CRAN(cran.r-project.org)에는 1만 개 이상의 패키지가 공개되어 있습니다.

 

최근에는 온라인 서비스를 중심으로 텍스트, 이미지, 동영상 등과 같은 비정형 데이터가 많이 만들어지고 있어서 이런 데이터를 다루는 분석 기법들 또한 새롭게 등장하고 있는 추세입니다.

 

 

* 연봉, 학점처럼 규직이나 구조가 있는 데이터를 '정형 데이터'라고 하고, 텍스트나 이미지처럼 정해진 규칙이나 구조가 없는 데이터를 '비정형 데이터'라고 합니다.

 

 

 

 

R은 사용자가 많은 만큼 책, 온라인 강의, 온라인 문서 등 다양한 교육 콘텐츠가 개발되어 있습니다.

Inflearn (https://www.inflearn.com/courses?s=R)

 

edX (https://www.edx.org/search?q=R)
coursera (https://www.coursera.org/search?query=R)

 

coursera 혹은 edX, inflearn 등의 사이트에서 유/무료로 양질의 강의를 들을 수도 있습니다.

물론 유튜브에도 입문자들을 위한 기초 강의들이 올라와 있어서 쉽게 배울 수 있습니다.

 

 

 

 

R은 데이터 분석툴로 많이 이용되는 만큼 다양한 그래프를 구현할 수 있습니다.

google 검색 (R ggplot)

 

코드 작성을 통해 논문이나 책 등에서 볼 수 있는 고품질의 그래프를 만들 수 있습니다.

 

 

 

R은 전문적인 데이터 분석까지 할 수 있는 '프로그래밍 방식'의 소프트웨어 입니다.

 

데이터 분석 도구에는 'GUI (Graphic User Interface) 방식' 과 '프로그래밍(Programming) 방식' 이 있습니다.

R은 후자에 속합니다.

 

GUI 방식은 우리가 사용하는 Windows 처럼 마우스, 화면 터치 등을 통해 디바이스에 명령을 지시하는 방식입니다.

반면에, 프로그래밍 방식은 키보드로 명령어를 입력하면서 작업하는 형태를 말합니다.

프로그래밍 방식은 GUI에 비해 상대적으로 다루기 어려울 수는 있습니다. 하지만 좀 더 나은 장점을 가지고 있지요.

 

데이터 분석의 전 과정이 코드에 고스란히 드러나기 때문에 재현성 (Reproducibility) 확보, 코드 공유를 통해 공동작업을 함으로써 데이터 정리, 통계 분석, 시각화 등의 여러 단계로 분업화하여 데이터를 효율적으로 분석이 가능합니다.

코드에 나타난 작업 과정들을 통해 분석 결과에 이상이 생길 시 빠르게 파악하여 수정이 가능합니다.

다른 사람에게 코드를 검토해달라고 부탁 할 수도 있습니다.

 

 

 


[참고자료]

(Book) 쉽게 배우는 R 데이터 분석 - 이지스퍼블리싱

Do it! 쉽게 배우는 R 데이터 분석
국내도서
저자 : 김영우
출판 : 이지스퍼블리싱 2017.07.20
상세보기
반응형

'AI Big Data > R' 카테고리의 다른 글

데이터 프레임 이해하기  (0) 2020.07.19
함수와 패키지 이해하기  (0) 2020.07.19
변수란?  (0) 2020.07.18
R Studio 살펴보기  (0) 2020.07.16
R / R Studio 설치하기  (0) 2020.07.16