PANDAS 13

데이터 추출하기

1. 행 단위 데이터 추출하기 데이터를 행 단위로 추출하려면 loc, iloc 속성을 사용해야 합니다. loc : 인덱스를 기준으로 행 데이터 추출 iloc : 행 번호를 기준으로 행 데이터 추출 빨간 사각형 안에 들어간 0~4까지의 숫자는 데이터프레임의 인덱스입니다. 인덱스는 보통 0부터 시작하지만, 행 데이터의 변동이 있을 경우 0이 아닌 숫자가 먼저 올 수 있습니다. 또한 숫자 뿐만 아니라 first, second, third와 같이 문자열로도 지정이 가능합니다. 반면, 행 번호는 데이터의 순서를 따라갑니다. 반드시 정수만으로 데이터를 조회/추출 할 수 있으며 실제 데이터프레임에서는 확인이 불가능합니다. 1-1. loc 속성 사용하여 데이터를 추출하기 다음은 인덱스가 0인 행 데이터를 추출하였습니다..

AI Big Data/pandas 2020.07.06

데이터 집합 불러오기

스웨덴의 비영리 통계분석 서비스. UN의 데이터를 바탕으로 한 인구 예측, 부의 이동 등에 관한 연구논문과 통계 정보 등을 공유 csv 파일은 몇 가지 필드를 쉼표(, )로 구분한 텍스트 데이터입니다. 각 나라별 15세 이상 고용률에 대한 자료를 사용하겠습니다. 1. 데이터 불러오기 # 만약 ', '가 아닌 탭(tab)으로 구분되어 있는 파일들(.tsv)을 호출할 때는 sep 속성값을 사용하여 \t를 지정합니다 ex) df = pandas.read_Csv('data/jupyter.tsv', sep='\t') 2. 데이터 집합 살펴보기 # info 메서드를 사용하면 자료형에 대해 좀 더 자세한 내용을 확인할 수 있습니다. # non-null 은 결측값 (NaN, nan, NAN) 이 없다는 뜻 # coun..

AI Big Data/pandas 2020.07.06

pandas 설치하기

1. pandas란? pandas Python 프로그래밍 언어로 구축된 오픈 소스 데이터 분석 조작 도구 구조화된 데이터나 표 형식의 데이터를 빠르고 쉽고 표현적으로 다루도록 설계된 고수준의 자료구조와 함수를 제공 NumPy의 고성능, 배열 연산 아이디어 + 스프레드시트/관계형 DB (SQL) 데이터 처리 기능을 결합 - 자료구조 : 표 형태의 로우와 컬럼 이름을 가지는 DataFrame(데이터프레임) 1차원 배열 객체인 Series(시리즈) 1-1. 아나콘다 설치 라는 파이썬과 데이터 분석 라이브러리를 한데 모아 놓은 패키지를 설치하여 실습합니다. https://www.anaconda.com/products/individual 에 접속하여 각 운영체제에 해당되는 파일을 다운 받습니다. 금전적 부담이 없..

AI Big Data/pandas 2020.07.06