TGStat
TGStat
Введите текст для поиска
Расширенный поиск каналов
  • flag Russian
    Язык сайта
    flag Russian flag English flag Uzbek
  • Вход на сайт
  • Каталог
    Каталог каналов и чатов Региональные подборки Тематические подборки Поиск каналов
    Добавить канал/чат
  • Рейтинги
    Рейтинг каналов Рейтинг чатов Рейтинг публикаций
    Рейтинги брендов и персон
  • Аналитика
  • Поиск по публикациям
  • Мониторинг Telegram
  • Продвижение
    Реклама через Яндекс Бизнес Реклама через TGStat Agency
Small Data Science for Russian Adventurers

30 Nov 2022, 01:27

Открыть в Telegram Поделиться Пожаловаться

Комментарий к предыдущему посту...

В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).

0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.

-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).

+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.

+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.

https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters

Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!

6.6k 1 53 1 69
Каталог
Каталог каналов и чатов Подборки каналов Поиск каналов Добавить канал/чат
Рейтинги
Рейтинг каналов Telegram Рейтинг чатов Telegram Рейтинг публикаций Рейтинги брендов и персон
API
API статистики API поиска публикаций API Callback
Наши каналы
@TGStat @TGStat_Chat @telepulse @TGStatAPI
Почитать
Наш блог Исследование Telegram 2019 Исследование Telegram 2021
Контакты
Поддержка Почта Вакансии
Всякая всячина
Пользовательское соглашение Политика конфиденциальности Публичная оферта
Наши боты
@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot