지금까지 회기(regression)이라는 내용의 함수를 공부하고 머신러닝에 적용하는 방식을 알아보았다.
이제 우리는 분류(Classification)라는 방식을 알아 볼 것이다.
분류란?
스팸메일 분류, 페이스북 피드 숨길것 안숨길것 등과 같은 분류를 하는 것에 사용 할 수 있다.
우리가 분류를 하기 위해서는 알아야 할 것이 있다.
0, 1 encoding 이라는 one hot encoding 이다.
원핫 인코딩은 말그대로 0과 1로 데이터를 분류하고 1이 뜨겁다. 라는 뜻을 의미하며
1만에 주목을 한다는 것이다.
예를들어,
스팸메일에서 spam(1), ham(0) 이라 하거나 0은 버리고 1이라는 것에 집중을 한다는 것이다.
다른 예를 들어보자
우리는 시험 공부 시간에 따라 시험의 pass, fail을 알아볼것이다. 참고로 pass는 1 fail은 0이다.
이걸 우리는 y = wx +b 우리가 아는 함수에 적용하면 문제가 생긴다. 데이터의 갯수에 따라 다양한 그래프가 생기게 되며 그사이에 많은 오차가 존재하게 된다.
우리는 이런 함수를 과연 분류를 하는 것에 사용 할 수 있을까?
선형 회기 (Linear Regression)으로는 정확한 분류를 하기 힘들다.
따라서 우리는 다른 방식의 적절한 함수를 찾기 시작했고 찾은 함수는 바로
이 함수이다. 이 함수를 우리는 sigmoid function이라 말하고 logistic function 이라 말한다.
따라서 우리는 새로운 가설을 구하는 방식으로 설정한다.
새로운 가설 값을 구하는 함수에 우리가 하는 함수를 넣게 되며 분류에는 이방식을 사용한다.
'AI > 머신러닝(딥러닝) 정리' 카테고리의 다른 글
6-1. softmax classification (Multinomial classification) (0) | 2022.05.02 |
---|---|
5-2. Logistic (regression) classification: cost function & gradient decent (0) | 2022.05.01 |
4. 다양한 변수 선형 회기 (0) | 2022.04.30 |
3. 어떻게 cost(loss) 비용, 손실을 작게 만들까 (0) | 2022.04.30 |
2. Linear Regression (선형 회기) (0) | 2022.04.29 |