Small Data Science for Russian Adventurers


Гео и язык канала: Россия, Русский
Категория: Образование


БЕЗ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ КАНАЛА


Гео и язык канала
Россия, Русский
Категория
Образование
Статистика
Фильтр публикаций


Комментарий к предыдущему посту...

В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).

0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.

-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).

+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.

+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.

https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters

Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!


#статья
Вчера я изучал статьи про прогнозирование фондового рынка. Интересно, что почти все написаны людьми, которые довольно слабо разбираются в практическом ML. Вот беру случайную статью:
Stock market prediction using machine learning classifiers and social media, news
Больше 100 цитирований, в журнале из Q1 Scopus раздела General Computer Science, между прочим. Привожу табличку с оптимальными параметрами исследуемых алгоритмов, которая сразу вызовет кучу вопросов у профессионала;)
(в следующем посте могу кратко описать почему)

3.1k 1 42 34 84

#конференция
Завтра буду на форуме риск-менеджеров, поскольку часть подписчиков канала из этой среды, есть возможность "в живую" пообщаться;)
https://рисковики.рф/


#визуализация
Начался чемпионат мира по футболу в Катаре - естественно, я полез смотреть на аналитику и инфографику, подготовленную к турниру... что мне больше всего пока понравилось:

Детали чемпионата - красиво и интересно
https://multimedia.scmp.com/infographics/sport/article/3199517/qatar-world-cup-2022/index.html

Постеры на стену
https://www.graphicnews.com/en/pages/43217/soccer-fifa-world-cup-2022-wallchart-2


#визуализация
И ещё один гид по правилам хорошей визуализации (не по библиотекам, а по подходам):
https://www.lunaticai.com/dv/

7k 2 111 3 45

#конференция
Ещё про конференции, но теперь математические... сейчас проходит мероприятие под названием Вторая конференция Математических центров России. Интересны аннотации докладов - очень хороший срез "какая сейчас математика в России" (как в положительном, так и в отрицательном смысле). Да, не представлены все направления и все хорошие исследователи, но на удивление довольно разнообразный и внушительный состав участников.

П.С. Кстати, удивился, скольких же я знаю среди докладчиков (причём чаще в формате "жили в одном номере" на такой-то конференции). Тот случай, когда сам учёным не стал, но зато со всеми пожил;)


#конференция
Недавно закончилась предварительная оценка работ, поданных на ICLR 2023. Ниже статьи, которые набрали наибольшее количество баллов:

Раздел Deep Learning and representational learning (оценки 10;8;8)
Git Re-Basin: Merging Models modulo Permutation Symmetries
Действительно классная работа! Центральный вопрос: почему в нейронках SGD так хорош? Основной вывод: при оптимизации нейронок есть только одна область минимума, куда приводит SGD, если учесть симметрии нейронок. Вообще, интересно про связь симметрии и ML.
Rethinking the Expressive Power of GNNs via Graph Biconnectivity
Исследуется свойство двусвязанности графов (в статье довольно много математики из теории графов), как следствие предлагается Graphormer-GD - новая архитектура GNN, которая показала себя лучше предшественников на тестовых задачах.

Раздел Reinforcement Learning (оценки 8;8;8;10)
Emergence of Maps in the Memories of Blind Navigation Agents
Показывают, что "слепые агенты" неплохо справляются с задачами навигации. При этом неявно они всё-таки создают "карту окружения". Очень красивая идея!
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems
Предлагают эффективный метод обучения для "скелетно-мышечных моделей". Вроде как до этого такие модели не слишком хорошо обучались...

Раздел Applications (оценки 10;8;6;10)
Revisiting the Entropy Semiring for Neural Speech Recognition
Тут смесь ML и алгебры (причём абстрактной алгебры): рассматривается полукольцо, которое возникает в задачах распознавания речи. Показано, как функции ошибки можно трактовать в терминах полуколец. Работа доведена до численных экспериментов.

Раздел Theory (оценки 8;10;10;5)
Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning
Новая теория ансамблирования! По мнению авторов, первая в DL...

Раздел General Machine Learning (оценки 8;8;8)
Learning a Data-Driven Policy Network for Pre-Training Automated Feature Engineering
Автоматическая генерация признаков на основе RL. Показывают, как улучшается качество для LogReg, RF, XGBoost.
Targeted Hyperparameter Optimization with Lexicographic Preferences Over Multiple Objectives
Рассматривается многокритериальная оптимизация гиперпараметров с порядком приоритета критериев. Новый метод оптимизации опробован для Xgboost, RF и NN.

Раздел Probabilistic Methods (оценки 8;8;8)
Fast Nonlinear Vector Quantile Regression
Обобщение квантильной регрессии, написали свой GPU-солвер.
Scaling Up Probabilistic Circuits by Latent Variable Distillation
Предложена техника для применения Probabilistic Circuits на больших данных.

Раздел Optimization (оценки 8;8;8)
FedExP: Speeding up Federated Averaging via Extrapolation
Метод эффективного федеративного обучения

Раздел Social Aspects of Machine Learning (оценки 8;8;8)
Confidential-PROFITT: Confidential PROof of FaIr Training of Trees
Рассматривается проблема fair-обучения решающих деревьев. Предложенный подход не зависит от выбора тестов и не требует представления данных и модели проверяющему.

Раздел Generative models (оценки 8;8;8)
DreamFusion: Text-to-3D using 2D Diffusion
Синтез text-to-3D. При этом используются модели 2D-синтеза, не нужны 3D-данные.

7.7k 3 164 3 85

#визуализация
Ещё одна небольшая энциклопедия графики на питоне:
https://python-charts.com/

7.6k 4 237 4 76

Немного юмора в ленту... подборка ML-статей о детектировании и анализе шуток;)

This joke is [MASK]: Recognizing Humor and Offense with Prompting
Используют датасет HaHackathon Dataset (SemEval 2021 Task 7) и несколько подходов: донастройка трансформера, классификация с помощью затравок (Prompting) и определение самых значимых объектов в датасете.

Cards Against AI: Predicting Humor in a Fill-in-the-blank Party Game
Довольно большой датасет, составленный по игре "Cards Against Humanity" - там в предложение-заготовку вставляют слова, интересно, что "комичность" итогового предложения зависит, в основном, от выбранного слова (т.е. контекст не сильно важен). Успешно используется CatBoost.

ExPUNations: Augmenting Puns with Keywords and Explanations
Новый аннотированный датасет. BERTоподобные модели.

Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest
Датасет с комиксами и подписями к ним. Показано, что современные модели на нём работают не очень. Смотрели на T5, GPT3, CLIP.

Hybrid Multimodal Fusion for Humor Detection
Описано решение соревнования MuSe-Humor subchallenge of the Multimodal Emotional Challenge (MuSe) 2022. Использованы модели для текстов (BERT), аудио (DeepSpectrum), картинок (VGGface 2).

The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional Reactions, and Stress
Отчёт об указанном выше соревновании с тремя модальностями.

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results
Новый датасет (11 часов записи), 3 модальности: видео, аудио, текст. Использованы разные модели для выделения признаков из указанных модальностей.

Don't Take it Personally: Analyzing Gender and Age Differences in Ratings of Online Humor
Датасет оценок уровня юмора и оскорблений. Работа на анализ данных. Из интересного: женщины занижают оценки юмора и завышают оценки оскорблений (ну или мужчины делают наоборот).

When a Computer Cracks a Joke: Automated Generation of Humorous Headlines
В отличие от других указанных статей, тут генерация смешных заголовков.

DeHumor: Visual Analytics for Decomposing Humor
Анализируются звук и текст из открытых датасетов с выступлениями. Разработана система для анализа и проведено исследование.

Laughing Heads: Can Transformers Detect What Makes a Sentence Funny?
Датасет по игре Unfun.me, используются BERTоподобные сети. Интересная находка: одна из головок трансформера детектирует смешные фрагменты.

Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition
Проверяется гипотеза, что в юморе большую роль играет "неожиданность концовки". Используется несколько старых датасетов и модель GPT-2.

Computational Humor Using BERT Sentence Embedding in Parallel Neural Networks
Собрали свой датасет на 200k коротких текстов, классификациия на основе BERT.




#блог
Блог по линейной алгебре, много простых, коротких, обзорных заметок, например "основные матричные факторизации", "грехи линейной алгебры" и т.п. (там ещё есть сайт автора, но мало что выложено в открытый доступ)
https://nhigham.com/blog/

9.2k 1 166 2 51



#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).


#визуализация
В топологии есть такая крутая учёная - Мэгги Миллер. У неё в последние годы вышло много качественных работ (больше 20 только за последние 3 года, и это математические «плотные» статьи по 30 страниц), она завоевала несколько престижных премий. А ещё у неё классные картинки в статьях;) На рисунке лишь пример одной. Интересно вот, как они делаются? Может кто-нибудь знает… жалко, что у неё нет полноценного курса по топологии (только отдельные лекции).

8.8k 1 41 11 47

В ИИ есть такая проблема "устойчивости-пластичности" (Stability-Plasticity Problem) с чем она связана?
Опрос
  •   катастрофическое забывание (Catastrophic Forgetting)
  •   исследование-использование (Exploration-Exploitation Trade-off)
  •   проклятие размерности (Curse of Dimensionality)
  •   переобучение (Overfittting)
  •   "грокинг" (Grokking)
1366 голосов


#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).

7.1k 3 110 2 35

#интересно
По поводу последней задачи (раз уж она вызвала столько комментариев). Я тут подумал и решил, что всё портит этот самый линейный порядок. Если изменить условие: когда капитан отправляется за борт, новый капитан назначается случайно, то задача становится чуть интереснее, а ответ естественнее (в жизни так и делают).


#забавно
Я тут открыл для себя логическую задачу, которая вызывает максимальное число споров и недопонимания между математиками и не-математиками (не буду писать гуманитариями, т.к. споры возникают и, например, с химиками). Математическое решение парадоксальное и не применяется на практике:)

Есть команда пиратов, пронумеруем их: 1, 2, ..., N. У них чёткая иерархия ("линейный порядок"): 1 - капитан, 2 - его зам и т.д. N - самый последний пират. Они хотя поделить сундук с золотом из 100 монет. Капитан предлагает способ деления (например, "всем поровну" или "мне - 90, заму - 10, остальным - ничего"). После этого все (и он сам) голосуют за предложение капитана. Если предложение набирает большинство голосов, то так и делят (можно по-разному ставить задачу, в зависимости от того, что делать при равенстве голосов). Если не набирает, то капитана кидают за борт, команда сокращается, зам становится капитаном и процедура повторяется.

Вопрос: Вы капитан, N=5 (можно взять любое число), какую схему раздела добычи Вам предложить? Предполагается, что все хотят получить побольше денег и не быть выброшенными за борт.

5.8k 1 120 73 59



#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html

9.6k 1 341 11 47
Показано 20 последних публикаций.