본문 바로가기
머신러닝 이론 (지도학습)/로지스틱 회귀분석

[손으로 푸는 로지스틱 회귀분석] 2. 회귀분석의 한계

by bigpicture 2022. 12. 2.
반응형

지난 시간에 사용했던 데이터를 가져오겠습니다. 

번호 공부시간 시험점수 통과여부
1 1.5 50 0
2 1.8 65 0
3 2.3 85 1
4 3.3 75 0
5 4.6 90 1
6 6.5 98 1

 

오늘은 회귀분석 모델을 만들어 보려고 합니다. 로지스틱 회귀분석을 하기 전에 회귀분석 모델을 만들어보는 이유가 있습니다. 범주형 데이터에 회귀분석이 알맞지 않다는 것을 보여드리기 위함입니다. 이를 통해 로지스틱 회귀분석이 왜 등장했는지 이해할 수 있습니다. 

위 데이터에서 공부시간과 시험점수 사이의 그래프를 그리면 아래와 같습니다. 

 

 

회귀분석을 하고 회귀모델 수식과 $R^2$ 값을 그래프에 추가하겠습니다. 회귀분석 강의가 아니므로 과정은 생략합니다. 

 

 

R로 수행한 회귀분석 결과는 아래와 같습니다. 

 

 

맨 아래 p값을 보시면 회귀식이 유의하다는 것을 알 수 있습니다. 이번에는 공부 시간과 통과여부의 그래프를 그려봅시다. 

 

 

회귀분석을 해보면 아래와 같은 직선이 나오는데 데이터를 잘 따라가지 못합니다. 

 

 

직선이 아닌 다른 형태의 모델이 필요하다는 생각이 듭니다. 아래와 같은 형태이면 좋을 것 같습니다. 

 

 

위와 같은 형태의 모델을 사용하여 데이터를 분류 또는 예측을 하는 것을 로지스틱 회귀분석 이라고 부릅니다. 다음시간에는 위와 같은 형태의 함수를 알아봅시다. 

반응형

댓글