반응형
지난 시간에 사용했던 데이터를 가져오겠습니다.
번호 | 공부시간 | 시험점수 | 통과여부 |
1 | 1.5 | 50 | 0 |
2 | 1.8 | 65 | 0 |
3 | 2.3 | 85 | 1 |
4 | 3.3 | 75 | 0 |
5 | 4.6 | 90 | 1 |
6 | 6.5 | 98 | 1 |
오늘은 회귀분석 모델을 만들어 보려고 합니다. 로지스틱 회귀분석을 하기 전에 회귀분석 모델을 만들어보는 이유가 있습니다. 범주형 데이터에 회귀분석이 알맞지 않다는 것을 보여드리기 위함입니다. 이를 통해 로지스틱 회귀분석이 왜 등장했는지 이해할 수 있습니다.
위 데이터에서 공부시간과 시험점수 사이의 그래프를 그리면 아래와 같습니다.
회귀분석을 하고 회귀모델 수식과 $R^2$ 값을 그래프에 추가하겠습니다. 회귀분석 강의가 아니므로 과정은 생략합니다.
R로 수행한 회귀분석 결과는 아래와 같습니다.
맨 아래 p값을 보시면 회귀식이 유의하다는 것을 알 수 있습니다. 이번에는 공부 시간과 통과여부의 그래프를 그려봅시다.
회귀분석을 해보면 아래와 같은 직선이 나오는데 데이터를 잘 따라가지 못합니다.
직선이 아닌 다른 형태의 모델이 필요하다는 생각이 듭니다. 아래와 같은 형태이면 좋을 것 같습니다.
위와 같은 형태의 모델을 사용하여 데이터를 분류 또는 예측을 하는 것을 로지스틱 회귀분석 이라고 부릅니다. 다음시간에는 위와 같은 형태의 함수를 알아봅시다.
반응형
'머신러닝 이론 (지도학습) > 로지스틱 회귀분석' 카테고리의 다른 글
[손으로 푸는 로지스틱 회귀분석] 5. 비용함수 (2) log loss (0) | 2023.07.28 |
---|---|
[손으로 푸는 로지스틱 회귀분석] 4. 비용함수 (1) 오차제곱합을 쓰지 않는 이유 (0) | 2023.07.26 |
[손으로 푸는 로지스틱 회귀분석] 3. 로지스틱 모형 (0) | 2022.12.10 |
[손으로 푸는 로지스틱 회귀분석] 1. 소개 (0) | 2021.06.16 |
댓글