본문 바로가기
파이썬 공부

머신러닝 ) 데이터 준비의 중요성과 파이프라인

by 뽀리아빵이 2020. 5. 18.
반응형

1. 데이터가 쓰레기인지아닌지 검증하자. 실효성있는 데이터를 사용하자

 

 

 

2. 데이터 준비 :   다양한 소스로부터 데이터를 얻어서 컴퓨터언어로 학습시키는 과정

3. 데이터 파이프라인은 다음과 같다. 

 

4. 대다수의 data preprocessing과 feature enginnering 기법은 도메인에 많은 영향을 받습니다. 

 

5. Data preprocessing : 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업

 - 세부기법  

  1) 벡터화 (Vectorization)

  2) 정규화 (Normalization)

  3) 별측값 (Handling Missing Values)

 

6. Feature Engineering 

 1) 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Preprocessed data를 변환하는 작업 

  > 컴퓨터가 잘 학습할수있게 데이터를 변환하는 작업이라고 생각하면 쉽다.

 

 

 

반응형