데이터를 train, valdation, test 로 나누지 않고 train 과 test로만 나누는 경우

1. 데이터셋의 크기가 매우 작은 경우
데이터셋 자체가 충분히 크지 않다면, 세 덩어리(Train/Val/Test)로 쪼개면 각 파티션의 데이터가 너무 적어져서 학습/검증/테스트가 모두 불안정해질 수 있습니다.
이럴 때는 Train / Test로만 나눈 뒤, 교차 검증(Cross Validation) 등을 활용하여 하이퍼파라미터를 조정하는 경우가 많습니다.
예: K-Fold Cross Validation을 통해 Train 세트를 다시 여러 폴드로 나누어 검증을 대체하고, 최종적으로 Test 세트로 성능을 평가.

2. 과거(혹은 단순) 실습/연구 관행
과거 머신러닝 실습이나 비교적 간단한 연구에서는 Train/Test만 사용하는 것이 흔했습니다.
하이퍼파라미터가 많지 않거나, 모델 구조가 단순해 추가적인 검증 세트가 크게 필요하지 않을 때(혹은 “검증" 과정이 크게 요구되지 않을 때) Train/Test만으로 실험을 진행하기도 합니다.

3. 모델 튜닝 방법이 별도로 존재하거나, 사전에 고정된 경우
모델의 구조와 하이퍼파라미터가 이미 어느 정도 “확정”되어 있어, 추가로 Validation 데이터를 통해 조정할 부분이 없는 경우(사전 연구나 표준 모델 등).
이 경우에는 “학습 - 최종 성능 평가”만 필요하기에, 별도 Validation Split을 두지 않고 Train/Test만 사용할 수 있습니다.

4. 외부 평가나 특정 대회 형식에 맞춘 경우
Kaggle, AI Challenge 등 어떤 대회나 평가에서 “학습 데이터(Train)와 평가 데이터(Test)만 제공”할 때도 있습니다.
주최 측이 별도의 “Validation” 세트를 공개하지 않고, 참가자는 스스로 Train을 분할해 Validation을 구성할지 말지 선택할 수도 있습니다. 이때 공식적으로는 Train/Test만 존재하는 셈입니다.

저작자표시 비영리 변경금지

'Tips' 카테고리의 다른 글

딥러닝에서 에폭과 배치 쉽게 이해하기 (0)	2025.02.22
세그멘테이션 결과 평가 (Accuracy, Dice, IoU) (0)	2025.02.17
머신러닝과 딥러닝의 차이 (0)	2025.02.06
딥러닝에서 k-fold cross validation 안 쓰는 이유 (0)	2024.07.26
오토인코더는 어디에 사용되나 (0)	2023.11.16

머신러닝의 본질

데이터를 train, valdation, test 로 나누지 않고 train 과 test로만 나누는 경우

'Tips' 카테고리의 다른 글

댓글

티스토리툴바

데이터를 train, valdation, test 로 나누지 않고 train 과 test로만 나누는 경우

'Tips' 카테고리의 다른 글

관련글

댓글

티스토리툴바