Series 데이터란 Numpy array가 보강된 형태로, Data와 index를 가지고 있는 데이터 형식입니다.
시리즈 데이터는 하나의 칼럼값으로 이루어진 반면 데이터 프레임은 여러 개의 칼럼값을 가질 수 있습니다.
또한 DataFrame을 딕셔너리로 만들 수 있다.
gdp만 찍어서 나오면 gdp성분만 나오게 된다.
Series도 numpy array처럼 연산자를 쓸 수 있다.
indexing / Slicing
LOC를 통해서 원하는 행의 data를 뽑아낼 수 있다는 말이다.
2번째 예시는 population 이전의 데이터까지 뽑는다는 말이다
: 는 ~ 라고 이해
iloc : 문자를 안쓰고 행렬의 번호를 정수로 써서 뽑아낸다는 표현이다.
첫번째 예시 :
두번째 예시 : 파이썬에선 마지막꺼는 포함하지 않으니까 1,2 이전의 것만 뽑아낸다.
dataframe에 새 데이터 추가 및 수정
1. pd.DataFrame에 (columns=['이름..~~
- 컬럼으로 추가하는 방법
새로운 컬럼도 추가 가능하다.
1. dataframe['전화번호'] = np.nam (넘파이의 not a number의 약자입니다. 통상적으로 값이 비어있는 데이터임)
누락된 데이터 체그
isnull / notnull
isnull : 비어있는경우 트루
notnull : 비어있지 않으면 트루
조건으로 검색하기도 가능하다
contains("cat") 이나 match("cat")과같이 조건검색이 가능하다. 또한 df["animal'] == 'cat' 이어도 출력 가능하다.
아래는 2차원 데이터 프레임을 만든 상황이다. 이 데이터프레임에서 A컬럼이 0.5보다 작을때 true, 아닐때 false를 출력하는 예시이다.
두가지 조건을 만족하는 조건문도 만들 수 있다.
df.query("A <0.5 and B >0.3") : 쿼리라는 함수로도 줄 글로 써서도 가능하다.
함수로 데이터 처리도 가능하다. 복잡한 연산을 가공하고 써야할 때 apply라는 함수를 사용해서 가능하다.
'파이썬 공부' 카테고리의 다른 글
데이터과학에서 머신러닝까지 맛보기 (0) | 2020.04.14 |
---|---|
데이터 과학과 머신러닝 기본을 알아보자! (0) | 2020.04.08 |
파이썬 함수 vs 메서드 (0) | 2020.03.26 |
파이썬 시퀀스, 튜플, 딕셔너리 (pop,join,Tuple,dic)를 알아보자 (0) | 2020.03.25 |
파이썬 리스트 append, insert, remove, sort, in, len (0) | 2020.03.24 |