AI Big Data/R 11

필요한 변수만 추출하기

1. select() 함수 사용하기 필요한 변수만을 추출하고 싶을 땐 select() 함수를 사용합니다. 쉼표를 넣어 변수명을 나열하면 여러 변수를 동시에 추출할 수도 있습니다. 만약 특정 변수만 제외하고 나머지 모든 변수를 추출하고 싶다면 제외할 변수명 앞에 빼기 기호 -를 입력하면 됩니다. 여러 변수를 제외하려면 쉼표를 이용해 제외할 변수를 나열하면 됩니다. 2. dplyr 함수 조합하기 dplyr 패키지의 함수들은 %>%를 이용해 조합할 수 있다는 장점이 있습니다. 함수를 조합하면 코드의 길이가 줄어 이해하기 쉬워집니다. 2-1. filter()와 select() 조합하기 - filter()와 select()를 조합해서 1반 학생의 영어 점수를 추출해 보겠습니다. %>%로 코드가 연결되는 부분에서 ..

AI Big Data/R 2020.07.24

데이터 전처리

분석에 적합하게 데이터를 가공하는 작업을 데이터 전처리 '(Data Preprocessing)'라고 합니다. 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공함으로써 목적에 맞는 데이터 분석을 하기에 용이합니다. 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling), 데이터 랭글링(Data Wrangling), 데이터 먼징(Data Munging) 등과 같은 용어도 데이터 전처리와 비슷한 의미로 사용됩니다. dplyr 패키지는 데이터 전처리 작업에 가장 많이 사용되는 패키지입니다. dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통..

AI Big Data/R 2020.07.22

파생변수 만들기

파생변수(Derived Variable)는 기존의 변수를 변형해 만든 변수 입니다. 여기 이름, 국어 점수, 역사 점수로 이루어진 데이터 프레임이 있습니다. 이름 국어 점수 역사 점수 박혁거세 91 81 온조 80 56 고주몽 64 77 왕건 79 95 이성계 100 68 여기에 국어 점수와 역사 점수의 평균을 구해 '평균 점수'라는 파생변수를 만들어 보았습니다. 이름 국어 점수 역사 점수 평균 박혁거세 91 81 86 온조 80 56 68 고주몽 64 77 70.5 왕건 79 95 87 이성계 100 68 84 # R Studio에서 기존 데이터 프레임의 변수를 조합하여 파생 변수 만들기 # mpg 데이터를 이용하여 통합 연비 변수 만들어보기 mpg 데이터에는 도시 연비를 의미하는 cty, 고속도로 연..

AI Big Data/R 2020.07.21

변수명 바꾸기

데이터를 다루는 데에 있어 변수명이 기억하기 어려운 문자로 되어 있으면 쉬운 단어로 변경하는 것이 데이터를 수월하게 다룰 수 있습니다. 예를 들어, 응답자의 성별이 h1232, 소득이 c323 이런식으로 변수명이 정해졌다면, 이해하기 쉽게 성별을 sex, 소득을 income으로 변경해서 사용할 수 있습니다. 실습에 활용할 2개의 변수로 구성된 데이터 프레임을 먼저 생성하겠습니다. rename() 함수를 이용하기 위해선 먼저 dplyr 패키지를 설치하고 로드해야 합니다. dplyr은 데이터를 원하는 형태로 가공할 때 사용하는 패키지입니다. - 변수명을 바꾸기 전에 원본을 보유하기 위해 df_new 라는 데이터 프레임 복사본을 만들겠습니다. - 데이터 프레임 복사본을 만드는 이유는 작업 중에 오류가 발생하더..

AI Big Data/R 2020.07.21

데이터 파악하기

데이터를 파악할 때는 기본적으로 아래의 여섯 가지 함수를 사용합니다. head() : 데이터 앞부분 출력 tail() : 데이터 뒷부분 출력 View() : 뷰어 창에서 데이터 확인 dim() : 데이터 차원 출력 str() : 데이터 속성 출력 summary() : 요약 통계량 출력 1. Kaggle 데이터 사용하기 이번에는 kaggle에서 데이터를 하나 가져와서 함수의 기능을 알아보겠습니다. '입사에 영향을 미치는 학업 및 고용성 요인' 에 대한 데이터 자료입니다. 프로젝트 폴더 안에 다운받아 놓은 Placement.csv 파일을 불러오도록 하겠습니다. head() 함수를 통해 데이터의 앞부분을 확인합니다. 데이터 프레임 뒤에 쉼표를 쓰고 숫자를 입력하면 입력한 행까지의 데이터가 출력되는 것을 확인할..

AI Big Data/R 2020.07.20

데이터 프레임 이해하기

데이터 프레임(Data Frame)은 행과 열로 구성된 사각형 모양의 표처럼 생겼습니다. 가장 많이 사용하는 데이터의 형태입니다. 대학교 학년 성별 점수 서울 1 남 84 연세 3 여 96 성균관 4 여 89 한양 2 남 93 저번에 만들었던 데이터 프레임을 가져왔습니다. 4개의 행, 4개의 열로 구성되어 있는 데이터 프레임입니다. 열은 대학교, 학년, 성별, 점수의 네 가지 속성으로 되어 있으며, 행을 보면 4명의 학생의 자료라는 것을 알 수 있습니다. 세로로 나열되는 열은 속성을 나타냅니다. '컬럼(Column)' 또는 '변수(Variable)' 라고 불립니다. 가로로 나열되는 행은 각 사람에 대한 정보를 나타내줍니다. 'Row' 또는 '케이스(Case)'라고 불립니다. 이렇게 한 명에 대한 데이터는..

AI Big Data/R 2020.07.19

함수와 패키지 이해하기

1. 함수 이용하기 데이터 분석은 '함수를 이용해서 변수를 조작하는 일' 이라고 할 수 있습니다. 1-1. 숫자를 다루는 함수 이용하기 - 함수는 '함수 이름'과 '괄호'로 구성됩니다. - 함수 이름을 쓰고 그 뒤에 괄호를 입력한 후 함수의 기능을 적용할 값이나 변수를 입력하면 됩니다. 1-2. 문자를 다루는 함수 이용하기 여러 문자를 합쳐 하나로 만드는 함수인 paste()를 사용해보았습니다. collapse는 단어를 구분할 문자를 지정하는 기능을 합니다. "," 는 단어들이 쉼표로 구분되도록 설정한 것이고, " "는 쉼표 대신 빈칸을 지정해 단어를 한 칸씩 띄워보았습니다. collapse처럼 함수의 옵션을 설정하는 명령어를 '파라미터(parameter)' 또는 '매개변수'라고 합니다. 각각의 함수들은..

AI Big Data/R 2020.07.19

변수란?

여기 표가 하나 있습니다. 대학교 학년 성별 점수 국적 서울 1 남 84 대한민국 연세 3 여 96 대한민국 성균관 4 여 89 대한민국 한양 2 남 93 대한민국 표를 살펴보면 [국적]은 '대한민국' 이라는 고정된 값을 지니고 있는 반면, [대학교], [학년], [성별], [점수]는 다양한 값을 지니고 있습니다. 이처럼 하나의 값으로만 되어 있는 속성은 '상수(Constant)' 라고 하지만, 다양한 값을 지니고 있는 하나의 속성은 '변수(Variable)라고 합니다. 상수는 분석할 게 없는 반면, 변수는 데이터 분석의 대상이 될 수 있습니다. 위의 표 자료에선 모든 학생들이 같은 국적을 지니고 있기 때문에 국적에 따른 점수 차이, 남ㆍ녀 비율을 분석할 수 없습니다. 그럼 R에서는 변수를 어떻게 만들까..

AI Big Data/R 2020.07.18

R Studio 살펴보기

1. 프로젝트 창 살펴보기 1-1. Source Window (명령어를 기록하는 소스 창) - 문서편집기 - 명령어나 메모를 자유롭게 기록할 수 있습니다 - 소스 창에 입력한 명령어로 만들어진 문서를 스크립트(Script)라고 합니다 - 소스 창에 명령어를 입력하고 Ctrl + Enter를 누르면 명령어가 콘솔 창으로 넘어가 실행되고 결과물이 출력됩니다 - 한 줄 씩 결과물을 출력할 수도 있지만, 여러 명령어들을 블록으로 지정한 후 Ctrl + Enter을 누르면 여러 줄의 명령어가 순차적으로 콘솔 창에 입력되면서 결과가 출력됩니다 - 전체적인 작업 흐름을 파악하는데에 용이하므로 콘솔 창보단 소스 창에 입력해서 실행하는 것이 좋습니다 1-2. Console Window (명령어를 실행하는 콘솔 창) - ..

AI Big Data/R 2020.07.16

R / R Studio 설치하기

R과 R Studio를 설치할 때는 R → R Studio 순서로 설치하면 됩니다. R Studio는 R을 사용하기 편리하게 만들어주는 IDE Software 입니다. 다양한 부가 기능을 통해 데이터를 효율적으로 분석할 수 있습니다. * IDE(Integrated Development Environment, 통합 개발 환경) - 코딩, 파일 관리, 배포 등 프로그래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어 1. R 설치하기 https://cran.r-project.org/mirrors.html CRAN - Mirrors https://cran.asia/ Personnel Psychology Laboratory, Industrial Psychology Department, Kwangwoon Un..

AI Big Data/R 2020.07.16