전체 글 91

암호학의 이해

■ 암호(Cryptography) - 평문(Plaintext)을 제3자가 해독할 수 없도록 암호문(Ciphertext)으로 변환하는 것 - 생성된 암호문으로부터 의미를 알 수 있는 형태로 복원하기 위한 수단이나 방법을 다루는 기술 * 평문(Plaintext) : 송신자 외 수신자 사이에 주고받고자 하는 내용을 적은 일반적인 문장 * 암호 해독 : 부호화키를 모르는 적 또는 암호분석가가 복호화키를 찾아내거나 평문 내용을 알아내는 비정상적인 과정 * 암호 해독자 : 암호 방식의 정당한 참여자가 아닌 자로 암호문으로부터 평문을 해독하려는 제3자 * 키 (Key) : 평문을 암호문으로, 암호문을 평문으로 변환하는 데 사용되는 특정 기호(메시지). 암호화키/복호화키 * 암호화 (Encryption) : 메시지를 ..

정보보호 대책

정보보호 대책이란 위험을 감소시키기 위한 대책을 구현하는 것을 말함. ■ 정보보호를 위한 보안대책 - 기술적 관점 : 방화벽, IDS, IPS, 암호화, VPN, 망 분리 - 관리적 관점 : ISMS, PIMS, PIPI, PIA, 주기적인 보안교육 - 물리적 관점 : 물리적인 출입통제, 가방검사, USB검사, 휴대폰 카메라 스티커 ■ 기술적 보안 - 정보시스템에 존재하는 취약점을 제거하고 정보시스템에 발생할 수 있는 외부로부터의 보안위협을 차단하기 위해 정보시스템을 구축, 운영하는 활동을 의미 - 종류 : 방화벽, IDS(침입탐지시스템), IPS(침입방지시스템), 암호화, VPN(가상사설망 서비스), IPSec, SSL, 망 분리 ■ 관리적 보안 - 공신력 있는 외부 정보보호전문기관(KISA)에 의한 ..

정보보호 관리

■ 보안 (Security) - 각종 정보(Data) 및 전산자원에 대해 고의 또는 실수로 인한 불법적인 노출, 변조, 파괴로부터 보호하는 것 - 전자적인 형태의 정보를 생성, 전송, 저장, 처리 등의 모든 단계에 걸쳐서 보호하는 것 ■ 정보보호의 목표, 3원칙 1. 기밀성 (= 비밀성, Confidentiality) - 오직 인가된 사용자만이 데이터에 접근할 수 있도록 제한한다 - 접근통제와 암호화를 통해 기밀성을 보장할 수 있다 * 접근통제 : 허가된 사용자만이 자원에 접근할 수 있게 함 * 암호화 : 정보가 유출되더라도 내용을 모르게 하고 변조되거나 위조되지 못하게 하는 것 2. 무결성 (Integrity) - 정보가 의도되지 않은 방법으로 변경 혹은 파괴되지 않도록 한다 - 정보의 내용이 불법적으..

데이터(Data)란?

- 1946년 영국 문헌에 처음으로 등장해서 알려진 말로, 추상적인 개념이었으나 현대에 와선 사실적인 의미로 변화했다. 데이터의 특성은 2가지로 정리할 수 있다. - 존재적 특성 : 객관적인 사실을 의미 - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 데이터의 유형에는 정성적 데이터, 정량적 데이터가 있다. 정성적 데이터는 언어, 문자 등의 형태로 데이터 저장과 분석 등에 많은 시간이 소모되는 데이터이고, 정량적 데이터는 수치, 도형, 기호 등의 형태로 정형화된 데이터이므로 비용 소모가 적은 특징을 가지고 있다. 예를 들자면, 정성적 데이터는 블로그나 트위터, 카카오톡, 문자 등의 데이터라 할 수 있다. 정량적 데이터는 주가지수, 나이, 몸무게, 키 등과 같은 데이터를 말한다. [참고자료] 이..

AI Big Data 2020.08.02

필요한 변수만 추출하기

1. select() 함수 사용하기 필요한 변수만을 추출하고 싶을 땐 select() 함수를 사용합니다. 쉼표를 넣어 변수명을 나열하면 여러 변수를 동시에 추출할 수도 있습니다. 만약 특정 변수만 제외하고 나머지 모든 변수를 추출하고 싶다면 제외할 변수명 앞에 빼기 기호 -를 입력하면 됩니다. 여러 변수를 제외하려면 쉼표를 이용해 제외할 변수를 나열하면 됩니다. 2. dplyr 함수 조합하기 dplyr 패키지의 함수들은 %>%를 이용해 조합할 수 있다는 장점이 있습니다. 함수를 조합하면 코드의 길이가 줄어 이해하기 쉬워집니다. 2-1. filter()와 select() 조합하기 - filter()와 select()를 조합해서 1반 학생의 영어 점수를 추출해 보겠습니다. %>%로 코드가 연결되는 부분에서 ..

AI Big Data/R 2020.07.24

데이터 전처리

분석에 적합하게 데이터를 가공하는 작업을 데이터 전처리 '(Data Preprocessing)'라고 합니다. 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공함으로써 목적에 맞는 데이터 분석을 하기에 용이합니다. 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling), 데이터 랭글링(Data Wrangling), 데이터 먼징(Data Munging) 등과 같은 용어도 데이터 전처리와 비슷한 의미로 사용됩니다. dplyr 패키지는 데이터 전처리 작업에 가장 많이 사용되는 패키지입니다. dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통..

AI Big Data/R 2020.07.22

파생변수 만들기

파생변수(Derived Variable)는 기존의 변수를 변형해 만든 변수 입니다. 여기 이름, 국어 점수, 역사 점수로 이루어진 데이터 프레임이 있습니다. 이름 국어 점수 역사 점수 박혁거세 91 81 온조 80 56 고주몽 64 77 왕건 79 95 이성계 100 68 여기에 국어 점수와 역사 점수의 평균을 구해 '평균 점수'라는 파생변수를 만들어 보았습니다. 이름 국어 점수 역사 점수 평균 박혁거세 91 81 86 온조 80 56 68 고주몽 64 77 70.5 왕건 79 95 87 이성계 100 68 84 # R Studio에서 기존 데이터 프레임의 변수를 조합하여 파생 변수 만들기 # mpg 데이터를 이용하여 통합 연비 변수 만들어보기 mpg 데이터에는 도시 연비를 의미하는 cty, 고속도로 연..

AI Big Data/R 2020.07.21

변수명 바꾸기

데이터를 다루는 데에 있어 변수명이 기억하기 어려운 문자로 되어 있으면 쉬운 단어로 변경하는 것이 데이터를 수월하게 다룰 수 있습니다. 예를 들어, 응답자의 성별이 h1232, 소득이 c323 이런식으로 변수명이 정해졌다면, 이해하기 쉽게 성별을 sex, 소득을 income으로 변경해서 사용할 수 있습니다. 실습에 활용할 2개의 변수로 구성된 데이터 프레임을 먼저 생성하겠습니다. rename() 함수를 이용하기 위해선 먼저 dplyr 패키지를 설치하고 로드해야 합니다. dplyr은 데이터를 원하는 형태로 가공할 때 사용하는 패키지입니다. - 변수명을 바꾸기 전에 원본을 보유하기 위해 df_new 라는 데이터 프레임 복사본을 만들겠습니다. - 데이터 프레임 복사본을 만드는 이유는 작업 중에 오류가 발생하더..

AI Big Data/R 2020.07.21

데이터 파악하기

데이터를 파악할 때는 기본적으로 아래의 여섯 가지 함수를 사용합니다. head() : 데이터 앞부분 출력 tail() : 데이터 뒷부분 출력 View() : 뷰어 창에서 데이터 확인 dim() : 데이터 차원 출력 str() : 데이터 속성 출력 summary() : 요약 통계량 출력 1. Kaggle 데이터 사용하기 이번에는 kaggle에서 데이터를 하나 가져와서 함수의 기능을 알아보겠습니다. '입사에 영향을 미치는 학업 및 고용성 요인' 에 대한 데이터 자료입니다. 프로젝트 폴더 안에 다운받아 놓은 Placement.csv 파일을 불러오도록 하겠습니다. head() 함수를 통해 데이터의 앞부분을 확인합니다. 데이터 프레임 뒤에 쉼표를 쓰고 숫자를 입력하면 입력한 행까지의 데이터가 출력되는 것을 확인할..

AI Big Data/R 2020.07.20

데이터 프레임 이해하기

데이터 프레임(Data Frame)은 행과 열로 구성된 사각형 모양의 표처럼 생겼습니다. 가장 많이 사용하는 데이터의 형태입니다. 대학교 학년 성별 점수 서울 1 남 84 연세 3 여 96 성균관 4 여 89 한양 2 남 93 저번에 만들었던 데이터 프레임을 가져왔습니다. 4개의 행, 4개의 열로 구성되어 있는 데이터 프레임입니다. 열은 대학교, 학년, 성별, 점수의 네 가지 속성으로 되어 있으며, 행을 보면 4명의 학생의 자료라는 것을 알 수 있습니다. 세로로 나열되는 열은 속성을 나타냅니다. '컬럼(Column)' 또는 '변수(Variable)' 라고 불립니다. 가로로 나열되는 행은 각 사람에 대한 정보를 나타내줍니다. 'Row' 또는 '케이스(Case)'라고 불립니다. 이렇게 한 명에 대한 데이터는..

AI Big Data/R 2020.07.19