[머신러닝] 5-1. 결정 트리
결정트리 알고리즘을 사용해 새로운 분류 문제를 다루어보자. 결정트리가 머신러닝 문제를 어떤헤 해결할까? 로지스틱 회귀로 와인 분류하기 import pandas as pd wine=pd.read_csv('https://bit.ly/wine-date') wine.head()//제대로 읽었는지 확인하기 위해 처음 5개 샘플 확인 판다스 데이터 프...
결정트리 알고리즘을 사용해 새로운 분류 문제를 다루어보자. 결정트리가 머신러닝 문제를 어떤헤 해결할까? 로지스틱 회귀로 와인 분류하기 import pandas as pd wine=pd.read_csv('https://bit.ly/wine-date') wine.head()//제대로 읽었는지 확인하기 위해 처음 5개 샘플 확인 판다스 데이터 프...
경사 하강법 알고리즘을 이해하고 대량의 데이터에서 분류 모델을 훈련하는 방법을 알아보자 점진적인 학습 이전에 훈련한 모델을 버리고 다시 새로운 모델을 훈련하는 방식! 훈련한 모델을 벌지 않고 새로운 데이터에 대해서만 조금씩 더 훈련할 수는 없을까? 이것은 점진적 학습, 온라인 학습이라고 부른다. 대표적인 점진적 알고리즘은! 확률적 경사 하강법...
로지스틱 회귀 알고리즘을 배우고 이진 분류 문제에서 클래스 확률을 예측하자 럭키백의 확률 k-최근접 이웃은 주변 이웃을 찾아주니까 이웃의 클래스 비율을 확률이라고 출력하면 되지 않을까? 데이터 준비하기 import pandas as pd fish=pd.read_csv('https://bit.ly/fish_csv')# csv파일을 데이터 프레...
다중회귀분석 여러 개의 특성을 사용한 선형 회귀를 다중회귀라고 부릅니다. 적합한 변수가 누락되었을 때 다중회귀분석에 영향 중요한 변수가 회귀 모델에서 빠지게 되면 그 변수와 관련된 다른 변수들의 회귀계수 추정치가 왜곡될 수 있습니다. 모델이 실제 관계를 정확하게 반영하지 못하게 됩니다. 중요한 변수가 누락되면 상수항도 편향될 수 있습니...
여러 특성을 사용한 다중 회귀에 대해 배우고 사이킷런의 여러 도구를 사용해보자. 복잡한 모델의 과대적합을 막기 위한 릿지와 라쏘 회귀를 공부해보자 다중회귀 여러 개의 특성을 사용한 선형 회귀를 다중회귀(multiple regression)라고 부른다. 1개의 특성을 사용했을 때 선형 회귀 모델이 학습하는 것은 직선이다. 2개의 특성을 사용하면?...
k-최근접 이웃 회귀와 선형 회귀 알고리즘의 차이를 이해하고 사이킷런을 사용해 여러 가지 성형 회귀 모델을 만들기 k-최근접 이웃의 한계 혼공머신의 모델을 사용해 50cm 농어의 무게를 예측해보자 print(knr.predict([[50]])) #[1033.3333] 1033g 정도로 예측한다. 그런데 실제로는 이보다 훨씬 많이 나간다 무...
지도학습의 한 종류인 회귀 문제를 이해하고 k-최근접 이웃 알고리즘을 사용해 농어의 무게를 예측하는 프로그램 만들기 k-최근접 이웃 회귀 지도학습 알고리즘: 분류, 회귀 분류는 샘플을 몇 개의 클래스 중에서 하나로 분류하는 것이다. 회귀는 임의의 어떤 숫자를 예측하는 것이다. 정해진 클래스가 없고 임의의 수를 예측하는 것이다. 두 변수 사이에...
올바른 결과 도출을 위해서 데이터를 사용하기 전에 데이터 전처리 과정을 거친다. 전처리 과정을 거친 데이터로 훈련했을 때의 차이를 알고 표준점수로 특성의 스케일을 변환하는 방법 알기 넘파이로 데이터 준비하기 넘파이의 column_stack() 함수로 전달받은 리스트를 일렬로 세운 다음 차례대로 나란히 연결한다. 연결할 리스트는 파이썬 튜플로 전달...
지도 학습과 비지도 학습의 차이! 모델을 훈련시키는 훈련 세트와 모델을 평가하기 위한 테스트 세트로 데이터를 나눠서 학습 지도 학습과 비지도 학습 지도학습 비지도학습 훈련하기 위한 데이터와 정답이 필요하다 필요없다 정답(타깃)이 있으...
가장 간단한 머신러닝 알고리즘 중 하나인 k-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델을 훈련 생선 분류 문제 30cm보다 크면 도미! 근데 큰 생선이라고 다 도미는 아니다. 또 도미의 크기가 모두 같을 리도 없다. 어떻게 바뀌지 않을 기준을 정할까? 프로그램은 ‘누군가 정해준 기준대로’ 일을 한다. 반대로 머신러닝은 ‘스스로 ...