안녕하세요. 손으로 푸는 로지스틱 회귀분석입니다. 오늘은 로지스틱 회귀분석이 무엇인지 간단히 살펴보겠습니다.
로지스틱 회귀분석은 무언가를 분류하거나 예측하는 모델을 만드는 것입니다. 회귀분석은 많이들 들어보셨을 텐데요. 로지스틱 회귀분석과 회귀분석의 차이는 사용하는 함수가 다르다는 것입니다. 회귀분석은 1차함수인 직선을 주로 사용하구요. 로지스틱 회귀분석에서는 S자 형태의 로지스틱 함수라는 것을 사용합니다. 왜 S자 형태의 함수를 사용한 것인지는 천천히 알아가봅시다.
예시를 통해 로지스틱 회귀분석을 어떤 상황에 사용하는 것인지 알아봅시다. 소개드릴 예시는 로지스틱 회귀분석도 이해하고, 로지스틱 회귀분석과 회귀분석과의 차이도 함께 이해할 수 있는 예시입니다.
학생 10명의 공부시간, 시험점수, 시험 통과 여부를 표로 나타내었습니다.
번호 | 공부시간 | 시험점수 | 통과여부 |
1 | 1.5 | 50 | 실패 |
2 | 1.8 | 65 | 실패 |
3 | 2.3 | 85 | 통과 |
4 | 3.3 | 75 | 실패 |
5 | 4.6 | 90 | 통과 |
6 | 6.5 | 98 | 통과 |
먼저 이 데이터에 회귀분석을 적용해보겠습니다.
회귀분석
공부 시간에 따른 시험 점수를 모델로 만들고 싶을 경우에는 회귀분석을 사용합니다.
회귀분석 : 독립변수(공부시간), 종속변수(시험점수)
독립변수와 종속변수는 둘 다 수치형 데이터입니다.
로지스틱 회귀분석
공부시간에 따른 통과여부를 모델로 만들고 싶은 경우에는 로지스틱 회귀분석을 사용합니다.
로지스틱 회귀분석 : 독립변수(공부시간), 종속변수(통과여부)
독립변수는 수치형, 종속변수는 범주형 데이터입니다.
종속변수인 '통과여부'를 보면, 오직 두개의 결과만 갖는 것을 알 수 있습니다. 통과 혹은 실패의 두가지 결과만 갖습니다. 이와 같은 로지스틱 회귀분석을 '이항 로지스틱 회귀분석'이라고 부릅니다. '이항'은 항이 두개라는 의미입니다. 종속변수가 셋 또는 그 이상의 결과를 갖는 경우도 있습니다. 이런 경우는 '다항 로지스틱 회귀분석'이라고 부릅니다.
이항 로지스틱회귀분석의 경우 결과가 두가지로 나타나기 때문에 0,1로 결과를 나타냅니다.
번호 | 공부시간 | 시험점수 | 통과여부 |
1 | 1.5 | 50 | 0 |
2 | 1.8 | 65 | 0 |
3 | 2.3 | 85 | 1 |
4 | 3.3 | 75 | 0 |
5 | 4.6 | 90 | 1 |
6 | 6.5 | 98 | 1 |
위 예시에 로지스틱 회귀분석을 사용하면 공부 시간에 대한 통과 확률이 계산됩니다. 통과 확률이 0.5 이상이면 통과, 이하이면 실패로 나눌 수 있습니다. 이때 새로운 데이터가 들어오면 새로운 데이터에 대한 통과 확률이 계산되고, 통과 혹은 실패로 분류 할 수 있습니다. 로지스틱 회귀분석을 이용하면 어떤 사람의 공부 시간만 보고, 이 사람이 시험에 통과할지 실패할지를 예측하는 모델을 만들 수 있는 것입니다. 이후 강의들에서 더 자세히 배워볼 것입니다.
오늘은 로지스틱 회귀분석이 어떤 상황에 사용되는 것인지 간단히 살펴봤습니다. 다음시간에는 회귀분석과 로지스틱 회귀분석의 차이를 그래프를 그려보며 더 자세히 이해해봅시다.
#강의 영상
'머신러닝 이론 (지도학습) > 로지스틱 회귀분석' 카테고리의 다른 글
[손으로 푸는 로지스틱 회귀분석] 5. 비용함수 (2) log loss (0) | 2023.07.28 |
---|---|
[손으로 푸는 로지스틱 회귀분석] 4. 비용함수 (1) 오차제곱합을 쓰지 않는 이유 (0) | 2023.07.26 |
[손으로 푸는 로지스틱 회귀분석] 3. 로지스틱 모형 (0) | 2022.12.10 |
[손으로 푸는 로지스틱 회귀분석] 2. 회귀분석의 한계 (0) | 2022.12.02 |
댓글