R 9

필요한 변수만 추출하기

1. select() 함수 사용하기 필요한 변수만을 추출하고 싶을 땐 select() 함수를 사용합니다. 쉼표를 넣어 변수명을 나열하면 여러 변수를 동시에 추출할 수도 있습니다. 만약 특정 변수만 제외하고 나머지 모든 변수를 추출하고 싶다면 제외할 변수명 앞에 빼기 기호 -를 입력하면 됩니다. 여러 변수를 제외하려면 쉼표를 이용해 제외할 변수를 나열하면 됩니다. 2. dplyr 함수 조합하기 dplyr 패키지의 함수들은 %>%를 이용해 조합할 수 있다는 장점이 있습니다. 함수를 조합하면 코드의 길이가 줄어 이해하기 쉬워집니다. 2-1. filter()와 select() 조합하기 - filter()와 select()를 조합해서 1반 학생의 영어 점수를 추출해 보겠습니다. %>%로 코드가 연결되는 부분에서 ..

AI Big Data/R 2020.07.24

데이터 전처리

분석에 적합하게 데이터를 가공하는 작업을 데이터 전처리 '(Data Preprocessing)'라고 합니다. 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공함으로써 목적에 맞는 데이터 분석을 하기에 용이합니다. 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling), 데이터 랭글링(Data Wrangling), 데이터 먼징(Data Munging) 등과 같은 용어도 데이터 전처리와 비슷한 의미로 사용됩니다. dplyr 패키지는 데이터 전처리 작업에 가장 많이 사용되는 패키지입니다. dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통..

AI Big Data/R 2020.07.22

데이터 파악하기

데이터를 파악할 때는 기본적으로 아래의 여섯 가지 함수를 사용합니다. head() : 데이터 앞부분 출력 tail() : 데이터 뒷부분 출력 View() : 뷰어 창에서 데이터 확인 dim() : 데이터 차원 출력 str() : 데이터 속성 출력 summary() : 요약 통계량 출력 1. Kaggle 데이터 사용하기 이번에는 kaggle에서 데이터를 하나 가져와서 함수의 기능을 알아보겠습니다. '입사에 영향을 미치는 학업 및 고용성 요인' 에 대한 데이터 자료입니다. 프로젝트 폴더 안에 다운받아 놓은 Placement.csv 파일을 불러오도록 하겠습니다. head() 함수를 통해 데이터의 앞부분을 확인합니다. 데이터 프레임 뒤에 쉼표를 쓰고 숫자를 입력하면 입력한 행까지의 데이터가 출력되는 것을 확인할..

AI Big Data/R 2020.07.20

데이터 프레임 이해하기

데이터 프레임(Data Frame)은 행과 열로 구성된 사각형 모양의 표처럼 생겼습니다. 가장 많이 사용하는 데이터의 형태입니다. 대학교 학년 성별 점수 서울 1 남 84 연세 3 여 96 성균관 4 여 89 한양 2 남 93 저번에 만들었던 데이터 프레임을 가져왔습니다. 4개의 행, 4개의 열로 구성되어 있는 데이터 프레임입니다. 열은 대학교, 학년, 성별, 점수의 네 가지 속성으로 되어 있으며, 행을 보면 4명의 학생의 자료라는 것을 알 수 있습니다. 세로로 나열되는 열은 속성을 나타냅니다. '컬럼(Column)' 또는 '변수(Variable)' 라고 불립니다. 가로로 나열되는 행은 각 사람에 대한 정보를 나타내줍니다. 'Row' 또는 '케이스(Case)'라고 불립니다. 이렇게 한 명에 대한 데이터는..

AI Big Data/R 2020.07.19

함수와 패키지 이해하기

1. 함수 이용하기 데이터 분석은 '함수를 이용해서 변수를 조작하는 일' 이라고 할 수 있습니다. 1-1. 숫자를 다루는 함수 이용하기 - 함수는 '함수 이름'과 '괄호'로 구성됩니다. - 함수 이름을 쓰고 그 뒤에 괄호를 입력한 후 함수의 기능을 적용할 값이나 변수를 입력하면 됩니다. 1-2. 문자를 다루는 함수 이용하기 여러 문자를 합쳐 하나로 만드는 함수인 paste()를 사용해보았습니다. collapse는 단어를 구분할 문자를 지정하는 기능을 합니다. "," 는 단어들이 쉼표로 구분되도록 설정한 것이고, " "는 쉼표 대신 빈칸을 지정해 단어를 한 칸씩 띄워보았습니다. collapse처럼 함수의 옵션을 설정하는 명령어를 '파라미터(parameter)' 또는 '매개변수'라고 합니다. 각각의 함수들은..

AI Big Data/R 2020.07.19

변수란?

여기 표가 하나 있습니다. 대학교 학년 성별 점수 국적 서울 1 남 84 대한민국 연세 3 여 96 대한민국 성균관 4 여 89 대한민국 한양 2 남 93 대한민국 표를 살펴보면 [국적]은 '대한민국' 이라는 고정된 값을 지니고 있는 반면, [대학교], [학년], [성별], [점수]는 다양한 값을 지니고 있습니다. 이처럼 하나의 값으로만 되어 있는 속성은 '상수(Constant)' 라고 하지만, 다양한 값을 지니고 있는 하나의 속성은 '변수(Variable)라고 합니다. 상수는 분석할 게 없는 반면, 변수는 데이터 분석의 대상이 될 수 있습니다. 위의 표 자료에선 모든 학생들이 같은 국적을 지니고 있기 때문에 국적에 따른 점수 차이, 남ㆍ녀 비율을 분석할 수 없습니다. 그럼 R에서는 변수를 어떻게 만들까..

AI Big Data/R 2020.07.18

R Studio 살펴보기

1. 프로젝트 창 살펴보기 1-1. Source Window (명령어를 기록하는 소스 창) - 문서편집기 - 명령어나 메모를 자유롭게 기록할 수 있습니다 - 소스 창에 입력한 명령어로 만들어진 문서를 스크립트(Script)라고 합니다 - 소스 창에 명령어를 입력하고 Ctrl + Enter를 누르면 명령어가 콘솔 창으로 넘어가 실행되고 결과물이 출력됩니다 - 한 줄 씩 결과물을 출력할 수도 있지만, 여러 명령어들을 블록으로 지정한 후 Ctrl + Enter을 누르면 여러 줄의 명령어가 순차적으로 콘솔 창에 입력되면서 결과가 출력됩니다 - 전체적인 작업 흐름을 파악하는데에 용이하므로 콘솔 창보단 소스 창에 입력해서 실행하는 것이 좋습니다 1-2. Console Window (명령어를 실행하는 콘솔 창) - ..

AI Big Data/R 2020.07.16

R / R Studio 설치하기

R과 R Studio를 설치할 때는 R → R Studio 순서로 설치하면 됩니다. R Studio는 R을 사용하기 편리하게 만들어주는 IDE Software 입니다. 다양한 부가 기능을 통해 데이터를 효율적으로 분석할 수 있습니다. * IDE(Integrated Development Environment, 통합 개발 환경) - 코딩, 파일 관리, 배포 등 프로그래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어 1. R 설치하기 https://cran.r-project.org/mirrors.html CRAN - Mirrors https://cran.asia/ Personnel Psychology Laboratory, Industrial Psychology Department, Kwangwoon Un..

AI Big Data/R 2020.07.16

R이란?

R은 데이터를 분석하는 데 사용되는 소프트웨어입니다. 수많은 데이터 분석 도구들 사이에서 굉장히 인기를 끌고 있는 소프트웨어이자 점유율 또한 계속 상승하고 있는 추세입니다. R은 범용 분석 툴이기 때문에 다양한 데이터 분석에 사용되곤 합니다. 통계 분석 -데이터의 특성을 살펴보는 기초 통계 분석부터 가설검정에 사용되는 고급 통계 분석 기법에 이르기까지 다양한 통계 분석 기법을 활용할 수 있습니다. 머신러닝 모델링 - 머신러닝(Machine Learning)은 다량의 데이터를 이용해 특정 변수를 예측할 수 있는 예측 모형을 만드는 기법이다 - R에서는 랜덤 포레스트, SVM, 딥러닝 등 최신 머신러닝 알고리즘을 쉽게 활용할 수 있다 텍스트마이닝 - 텍스트 마이닝 기술을 이용하면 문자로 이루어진 데이터를 분..

AI Big Data/R 2020.07.16