반응형
1. 데이터가 쓰레기인지아닌지 검증하자. 실효성있는 데이터를 사용하자
2. 데이터 준비 : 다양한 소스로부터 데이터를 얻어서 컴퓨터언어로 학습시키는 과정
3. 데이터 파이프라인은 다음과 같다.
4. 대다수의 data preprocessing과 feature enginnering 기법은 도메인에 많은 영향을 받습니다.
5. Data preprocessing : 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업
- 세부기법
1) 벡터화 (Vectorization)
2) 정규화 (Normalization)
3) 별측값 (Handling Missing Values)
6. Feature Engineering
1) 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Preprocessed data를 변환하는 작업
> 컴퓨터가 잘 학습할수있게 데이터를 변환하는 작업이라고 생각하면 쉽다.
반응형
'파이썬 공부' 카테고리의 다른 글
데이터과학에서 머신러닝까지 맛보기 (0) | 2020.04.14 |
---|---|
데이터 과학과 머신러닝 기본을 알아보자! (0) | 2020.04.08 |
파이썬 Pandas 핵심내용 요약 (0) | 2020.04.01 |
파이썬 함수 vs 메서드 (0) | 2020.03.26 |
파이썬 시퀀스, 튜플, 딕셔너리 (pop,join,Tuple,dic)를 알아보자 (0) | 2020.03.25 |