본문 바로가기

파이썬5

머신러닝 ) 데이터 준비의 중요성과 파이프라인 1. 데이터가 쓰레기인지아닌지 검증하자. 실효성있는 데이터를 사용하자 2. 데이터 준비 : 다양한 소스로부터 데이터를 얻어서 컴퓨터언어로 학습시키는 과정 3. 데이터 파이프라인은 다음과 같다. 4. 대다수의 data preprocessing과 feature enginnering 기법은 도메인에 많은 영향을 받습니다. 5. Data preprocessing : 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업 - 세부기법 1) 벡터화 (Vectorization) 2) 정규화 (Normalization) 3) 별측값 (Handling Missing Values) 6. Feature Engineering 1) 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Prepr.. 2020. 5. 18.
데이터과학에서 머신러닝까지 맛보기 데이터 과학자에게는 다양한 실무 능력이 필요하다. 프로그래밍 스킬, 수학과 통계학에 대한 지식, 도메인에 대한 전문성 , 그리고 이러한 능력이 접합하게 되면 데이터 과학이다. 머신러닝을 위한 데이터 과학자의 도구 1. 엑셀 : 수백만 건의 데이터 처리, 함수 등을 이용하여 머신러닝을 할 수 있다. 2. 파이썬 , R 과 같은 프로그래밍 언어 - 수백만 건의 데이터, 수억개의 빅데이터를 다루게 되고 좀 더 유연한 환경에서 원하는 최적화 작업을 할 수 있기 떄문에 프로그래밍 언어를 사용한다. - 파이썬 머신러닝 툴 박스 라이브러리 : 넘파이, 아이파이썬, 쥬피터 등등 아래 사진 참고 2020. 4. 14.
파이썬 시퀀스, 튜플, 딕셔너리 (pop,join,Tuple,dic)를 알아보자 1. 시퀀스 활용하기 Point I list.pop(i) : 인덱스 i의 원소를 제거 후 반환 Point II seq.count(d) : 시퀀스 내부의 자료 d의 개수를 반환 Point III str.split(c) : 문자열 c를 기준으로 문자열 str을 쪼개서 리스트를 반환 Point IV str.join(list) : str을 기준으로 list를 합쳐서 문자열을 반환 c 2. Tuple(튜플) Point I 여러 자료를 담을 수 있으면서, 변하지 않는 자료형 Point II () - 소괄호로 묶어 표현 Point III 원소가 하나라면 반드시 원소 뒤에 ,을 적어주어야함 Point IV 시퀀스 자료형의 성질을 지님 Point V 자료를 추가, 삭제, 변경할 수 없다! 3. Dictionary(사전형.. 2020. 3. 25.
파이썬 기초를 알아보자. print, 인덱싱,슬라이싱,변수,연산.. 1. print() Point I print() : 문자열을 출력하는 명령어 print("Hello Rabbit!") ## 출력결과 ## Hello Rabbit! Point II 콤마(,)를 통해 여러 자료를 출력 print(3, "Hello") ## 출력결과 ## 3 Hello Point III print()를 여러 번 사용하여 여러 줄에 걸쳐 출력 print(3) print(6) print(9) ## 출력결과 ## 3 6 9 2. 기본 자료형 Point I 숫자형 : 숫자로 이루어진 자료형 3 : 정수 3.14 : 실수 Point II 문자열 : 문자, 혹은 문자들의 집합 - 큰따옴표(")/작은따옴표(’)로 구분 'Hello' '3.14' "3.14" Point III 리스트 : 여러 자료를 함께 보.. 2020. 3. 23.