Нужно ли разделять данные при использовании GridSearchCV?[закрыто]

Gridsearhcv использует StraifiedKFold или KFold.Итак, мой вопрос заключается в том, что я должен разделить свои данные на обучающие и протестировать перед использованием gridsearch, а затем подгонять только для тестовых данных?Я не уверен, нужно ли это, потому что метод cv уже разбивает данные, но я видел несколько примеров, которые делят данные заранее.Спасибо.
4 голоса | спросил Kübra Kutlu 30 J000000Sunday17 2017, 01:08:58

1 ответ


0
GridSearchCV возьмет предоставленные вами данные, разделит их на набор Train и CV и обучит алгоритм поиска лучших гиперпараметров с использованием набора CV.Вы можете указать различные стратегии разделения (например, пропорцию разделения).Но при выполнении настройки гиперпараметра информация о наборе данных все еще «просачивается» в алгоритм.Поэтому я бы посоветовал придерживаться следующего подхода:1) Возьмите исходный набор данных и сохраните некоторые данные в качестве тестового набора (скажем, 10%)2) Используйте поиск по сетке на оставшиеся 90%.Сплит будет сделан для вас по алгоритму здесь.3) После того, как вы получили оптимальные гиперпараметры, протестируйте его на тестовом наборе из # 1, чтобы получить окончательную оценку производительности, которую вы можете ожидать на новых данных.
ответил Maksim Khaitovich 30 J000000Sunday17 2017, 01:20:40

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132