본문 바로가기
파이썬 공부

파이썬 Pandas 핵심내용 요약

by 뽀리아빵이 2020. 4. 1.
반응형

Series 데이터란 Numpy array가 보강된 형태로, Data와 index를 가지고 있는 데이터 형식입니다.

 

시리즈 데이터는 하나의 칼럼값으로 이루어진 반면 데이터 프레임은 여러 개의 칼럼값을 가질 수 있습니다.

 

 

또한 DataFrame을 딕셔너리로 만들 수 있다.

gdp만 찍어서 나오면 gdp성분만 나오게 된다.

 

Series도 numpy array처럼 연산자를 쓸 수 있다.

 

indexing / Slicing

 

 

LOC를 통해서 원하는 행의 data를 뽑아낼 수 있다는 말이다. 

2번째 예시는 population 이전의 데이터까지 뽑는다는 말이다

 : 는 ~ 라고 이해

 

iloc : 문자를 안쓰고 행렬의 번호를 정수로 써서 뽑아낸다는 표현이다.

 

첫번째 예시 : 

두번째 예시 : 파이썬에선 마지막꺼는 포함하지 않으니까 1,2 이전의 것만 뽑아낸다.

dataframe에 새 데이터 추가 및 수정

 

1. pd.DataFrame에 (columns=['이름..~~ 

 - 컬럼으로 추가하는 방법

 

새로운 컬럼도 추가 가능하다.

1. dataframe['전화번호'] = np.nam (넘파이의 not a number의 약자입니다. 통상적으로 값이 비어있는 데이터임)

 

 

누락된 데이터 체그

 

isnull / notnull

isnull : 비어있는경우 트루

notnull : 비어있지 않으면 트루

 

 

 

조건으로 검색하기도 가능하다

 

contains("cat") 이나 match("cat")과같이 조건검색이 가능하다. 또한 df["animal'] == 'cat' 이어도 출력 가능하다. 

 

 

아래는 2차원 데이터 프레임을 만든 상황이다. 이 데이터프레임에서 A컬럼이 0.5보다 작을때 true, 아닐때 false를 출력하는 예시이다. 

 

두가지 조건을 만족하는 조건문도 만들 수 있다. 

 

df.query("A <0.5 and B >0.3") : 쿼리라는 함수로도 줄 글로 써서도 가능하다. 

함수로 데이터 처리도 가능하다. 복잡한 연산을 가공하고 써야할 때 apply라는 함수를 사용해서 가능하다. 

반응형