Telegram-канал "DL in NLP" — @dlinnlp

DL in NLP

19 Apr, 18:46

Llama 3
llama.meta.com/llama3/

Немного странный анонс моделей с приговоркой "статья будет чуть позже", meta раньше так не делали, но всё равно модели очень крутые и уже доступны

Детали:
1. 16K GPU 🤯
1. 15T токенов 🤯🤯
1. Веса моделей на 8B и 70B параметров уже доступны 🎉
1. Тренируют модель на 405B параметров (без MoE) 🤯
1. 8K длина контекста

1. Архиткетурно самые большие отличия: Grouped Query Attention и 128K vocab size
1. Для тренировки оценивали scaling laws на разных доменах датасета (и на downstream задачах) после чего из них высчитывали оптимальное взвешивание

Бенчмарки:
1. На MMLU, Llama 3 8B работает на уровне PALM-540B и Chinchilla 70B
1. Там же Llama 70B обходит Claude 3 Sonnet и Mistral Large

1.9k 1 13 14 32

DL in NLP

29 Mar, 05:12

Репост из: Сиолошная

У Dwarkesh новый выпуск подкаста с двумя LLM-щиками. Именно из превью этой беседы я вчера узнал про статью о генерализации и интерпретируемости, детали которой расписал в канале.

Один из гостей — нейробиолог, переключившийся в интерпретируемость моделей (и проводящий аналогии с мозгом) и работающий в Anthropic.
Второй — исследователь в DeepMind. Он молодой, работает буквально 2 года в индустрии, но один из создателей трансформера говорил, что без этого парня Gemini могла бы не состояться, и вообще он один из лучших и недооцененных спецов в области.

Должно быть очень интересно, го смотреть: https://www.youtube.com/watch?v=UTuuTTnjxMQ

Затрагивают следующие топики:
— Long contexts
— Intelligence is just associations
— Intelligence explosion & great researchers
— Superposition & secret communication
— Agents & true reasoning
— How Sholto & Trenton got into AI research
— Are feature spaces the wrong way to think about intelligence?
— Will interp actually work on superhuman models

3.8k 0 86 1 24

DL in NLP

29 Mar, 04:50

Репост из: эйай ньюз

Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого

Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.

А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели - dense.

Зачем так - сделали - непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.

В целом ничего не понятно, но очень интересно.😊

Веса
Блогпост

@ai_newz

2.9k 0 25 2 14

DL in NLP

28 Mar, 08:30

Очень классное интервью с Андреем
https://twitter.com/stephzhan/status/1773027310587056433

Обсудили немного истории OAI и самого Андрея, насколько scale всё важен (всё ещё #1) какие другие вещи важны. Кажется это первое интервью за долгое время от которого я услышал интересные ответы на тему того куда мы двигаемся в ближайший год

Для себя всё больше понимаю насколько работа над инфраструктрой более важна чем над самими моделями/лоссами/прочим обучением и если раньше видел это как 90% инфра 10% модели кажется сейчас кажется что 99.9% инфра 0.1% модели (но обучать модели всё ещё веселее что проблема 😅)

Stephanie Zhan (@stephzhan) on X

Major highlight hosting @Sequoia AI Ascent was chatting with my friend @Karpathy. We chat about his future predictions for the ecosystem (an LLM OS!), elephant in the room questions (Is scale all that matters? How to compete as a young startup against OpenAI and others?),…

4.5k 0 89 25 31

DL in NLP

15 Mar, 06:19

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓

6.9k 1 103 1 40

DL in NLP

6 Mar, 19:34

openai.com/blog/openai-elon-musk

Почитайте блогпост и прикреплённые к нему имеилы. Кажется это довольно сильный ответ на иск Маска, но посмотрим куда это зайдёт. Из имеилов я немного удивился что уже в 2016 Сацкевер верил в скейлинг

7.5k 1 24 16 13

DL in NLP

1 Mar, 21:48

Humanoid Locomotion as Next Token Prediction
arxiv.org/abs/2402.19469

В этом году с гуманоидными роботами будет жара. Авторы предлагают обучать языковую модель на сенсомоторных траекториях с роботов или из YouTube видео людей где траектории получены с помощью обратной кинематики (использовали PHALP)

Обучались на:
1. Траекториях робота который управляется классическим алгоритмом
1. Траекториях из симуляции с RL-policy
1. Человеческих motion-capture
1. YouTube видео с людьми к которым применяли обратную кинематику чтобы получить траекторию

Плюсы подхода к этому через языковое моделирование: можно обучаться на данных у которых отсутствуют некоторые модальности. Например на YouTube видосах у вас нету actions, есть только траектория. Вы просто маскируете эти отсутствующие токены и языковая модель просто делает своё дело.

Модель обученная всего на 27 часах данных может управлять роботом в городе без какого-либо дообучения 🔥

Также показали наметки scaling law, но самая большая моделька (всего 8M параметров lol) уже отходит от scaling law, так что возможно данных надо сильно больше.

9.9k 2 107 4 63

DL in NLP

9 Feb, 20:59

Репост из: AI Для Всех

Вышел официальный курс от OpenAI: как пользоваться ChatGPT

Уникальный курс от OpenAI, раскрывающий все секреты работы с ChatGPT, от регистрации до разработки сложных запросов.

В эпоху цифровых технологий знание того, как эффективно использовать инструменты искусственного интеллекта, становится не просто преимуществом, а необходимостью. OpenAI выпустили курс, который станет вашим надежным помощником в освоении ChatGPT – от создания аккаунта до написания первого запроса.

В курсе вы научитесь:

- Использованию ChatGPT в качестве персонального ассистента: Узнайте, как максимально повысить свою продуктивность, используя ChatGPT для выполнения повседневных задач.

- Разработка запросов и Prompt Engineering: Освоите искусство формулирования запросов, чтобы получать максимально точные и полезные ответы.

- Введение в DALLE-3, GPT 3.5 и GPT 4: Погрузитесь в возможности последних версий GPT и научитесь создавать уникальный контент.

Не упустите возможность усилить свои навыки и расширить границы возможного с помощью последних технологий от OpenAI (а еще получить сертификат).

Смотреть курс

9.4k 0 303 7 97

DL in NLP

8 Feb, 22:02

Апдейт того что умеют делать наши роботы в 1X Technologies
Видео: тык
Блог: тык

Полностью автономно, видео не ускорено (1X speed), все действия контролирует нейросетка end2end

И это самое начало. В этом году будет много интересного в робототехнике

All Neural Networks. All Autonomous. All 1X speed | 1X Studio

#1X #Android #EmbodiedLearning All Neural Networks. All Autonomous. All 1X speed. This video contains no teleoperation, no computer graphics, no cuts, no video speedups, no scripted trajectory playback. It's all controlled via neural networks. Learn more on how we did it here: https://www.1x.tech/...

7.9k 2 94 22 72

DL in NLP

26 Jan, 08:56

Наткнулся на сайт который кажется как толока но для профессионалов в программировании, математике, физике и других дисциплинах. Очень забавная ниша которой кажется не существовало ещё год назад.

Вообще очень интересно докуда это дойдёт через пару лет когда выйдет GPT6. Многие из тех вещей которые мы сейчас делаем каждый день в GPT4 я лично вообще не мог себе представить всего 2 года назад. Что если реально уже скоро будут какие-то нетривиальные результаты LLM в том чтобы автономно заниматься физикой или математикой?

Я хоть серьёзными науками и не занимаюсь (практический DL на науку не тянет), но впервые подумал что и нас можно будет со временем заменить. Надо поставить себе напоминалку сделать ретроспективу этого поста в январе 2026 😅

https://tryoutlier.com

14.7k 4 200 28 48

DL in NLP

24 Jan, 19:40

Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.

9.7k 4 177 15 68

DL in NLP

22 Jan, 20:39

Репост из: Kali Novskaya

🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp

Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.

🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.

🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.

🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/

🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/

🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.

🌸Курсы попроще
Требуется только английский и Python

🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.

🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.

🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.

6.5k 0 597 1 87

DL in NLP

19 Jan, 06:59

Self-rewarding Language Models
Yuan et al., Meta AI
arxiv.org/abs/2401.10020

Кликбейтная версия заголовка: LLAMA2 обошла GPT4 🔥🔥

Зачем делать отдельную модель реворда если можно обучать реворду вашу языковую модель? Так по-видимому подумали в FAIR и придумали новый метод: Iterative DPO

1. Файнтюните вашу модель на начальном (чат-)датасете
2. Опционально тюните эту модель на данных которые оценивают качество генерации числом от 1 до 5 с помощью chain of thought
3. Используете few-shot prompting чтобы сгенерировать новые промпты
4. Генерируете N ответов на каждый промпт и оцениваете их этой же моделью
5. Goto 1

Интересным получается то что от числа итераций растет не только качество генерации ответов но и и качество оценки ответов.

После трех таких итераций LLAMA2-70B на бенчмарке AlpacaEval обходит ChatGPT3.5, Claude и даже GPT4 (версия 13 июня 2023). конечно верить только одному бенчмарку не стоит, но к сожалению других в статье нет, даже MMLU.

В любом случае очень классный и простой подход, к сожалению подходящий только GPU-богатым, но зато не требующий огромного количества пользовательских данных

8.9k 2 189 10 58

DL in NLP

18 Jan, 20:54

Подборка топовых NLP статей от Sasha Runsh
twitter.com/srush_nlp/status/1747673238434365805

После истории с тем насколько "anonymity" period в ACL конференциях вредит NLP-сообществу Sasha Rush, Yejin Choi и ещё несколько рисёчеров основали новую конференцию Conference on Language Modeling (CoLM). Первый call for papers на CoLM уже идёт и дедлайн будет в конце марта. И сегодня Саша написал несколько примеров статей чтобы показать топики которые хотят видеть на CoLM:

1. Alignment — DPO paper
1. Pre-training data — mT5
1. Evals — MT-Bench
1. Societal implications — Disability-Centered Perspectives on LLM
1. Safety, sequrity, misinformaiton — A Universal Attack on LLMs
1. LM Science (scaling laws, interpretability, ...) — Transformer Interpretability Beyond Attention Visualization
1. Compute efficient LMs — MegaBlocks (метод тренировки MoE за Mixtral)
1. Engineering for large LMs — PyTorch FSDP
1. Learning algorithms for LMs — Model Soups
1. Inference algorithms — Diverse Beam Search
1. Cognitive science/neuroscience/legal/... — What language reveals about perception
1. LMs for everyone (low-resource LMs) — Quality at a Glance
1. LLMs as world models — Generative Evidence Retrieval for Fact Verification
1. LMs and embodiment 🤖 — ProgPrompt
1. LMs and interactions — Plug-and-Play Theory of Mind
1. LMs on diverse applications — Exploring LLMs for Medical QA*

*Заменил статью на другую, тк публиковаться за пейволом неправильно

Подборка очень классная, те статьи из неё которые я читал реально были очень важны для своих областей. Если хотите чтобы я разобрал какую-то из них - пишите в комментарии.

Sasha Rush (@srush_nlp) on X

The Conference on Language Modeling 🦙 (https://t.co/7T42bAAQa4) has the mission of "creating a community of researchers with expertise in different disciplines, focused on understanding, improving, and critiquing the development of LM technology." 🧵 Here are 17 papers from 17…

9.2k 2 310 4 44

DL in NLP

15 Jan, 07:46

Вот и первые плоды переезда в СФ

За первые три дня уже встретил кучу очень классных людей. Один из них — Артемий @nn_for_science из Стенфорда

У него классный канал который обозревает кучу классных вещей от 3D CV до опыта использования Azure и просто классных историй из жизни и работы в SF Bay Area

9.3k 1 13 41 122

DL in NLP

13 Jan, 06:28

Чисто личные новости, но раз в несколько лет можно

1. В этот понедельник я защитился и получил степень PhD. Теперь можете звать меня доктором 😅
1. Сегодня я перехал в Сан Франциско 🌉
1. Начиная со следующей недели я начинаю работу в 1X Technologies и буду работать над гуманоидными роботами общего пользования 🤖

Мы видели как трансформеры, скейлинг и self-supervised learning изменили NLP, CV, мультимодальные модели и то что мы подразумеваем под агентами. Я думаю что робототехника может быть следующей задачей которая полностью изменится под влиянием этих подходов буквально в следующие пару лет и поэтому очень рад что скоро стану частью 1X

Напоследок я хотел бы сказать большое спасибо всем подписчикам этого канала. PhD был невероятно тяжёлым опытом и ведение канала и лично вы меня очень поддержали и помогли сохранить кукуху (насколько возможно). Думаю сейчас у меня появится чуть больше времени на посты в канал и несмотря на то что теперь возможно я буду чаще обозревать статьи по роботам, мы всё ещё будем фокусироваться на том как развиваются NLP и LLM

Я очень рад началу новой главы в своей жизни и ещё раз спасибо вам всем что были со мной на протяжении PhD

😘😘😘

27.1k 2 114 52 621

DL in NLP

5 Jan, 20:06

Репост из: Сиолошная

Когда-то давно OpenAI занимались направлением Robotics, но его пришлось закрыть. Ilya Sutskever говорил, что основной преградой были данные — реальные или синтетические — для обучения роботов. В последнее время всё больше и больше прорывов случается именно в этой области — я уже писал и про RT-X, и про работу из Berkeley, и вот даже вчерашний пост был про обучение навыкам из 50 демонстраций.

Вчера DeepMind дропнули блогпост «Shaping the future of advanced robotics», где описывают сразу 3 (!) работы, которые лягут в основу следующей Foundational Model. Мне захотелось поделиться с вами одной очень интересной.

AutoRT: Harnessing large models to better train robots

AutoRT — система, использующая существующие модели для масштабируемого развертывания флота роботов в совершенно новых сценариях с минимальным контролем человека (💀 может не надо?). Давайте по порядку:
1. Робот катается по месту и снимает окружение на камеру
2. Vision-Language-Model (VLM) делает описание пространства
3. LLM генерирует текстовое описание задачи, с которой роботу нужно справиться
4. LLM описывает пошаговый процесс выполнения задачи
5. Описание подвергаются критике со стороны другой LLM, использующей — ВНИМАНИЕ — конституцию, обеспечивающую более безопасное поведение. И да, часть конституции — это пересказывание Законов Азимова (но также добавляется и описание робота, что у него одна рука — поэтому критик будет убирать задачи, требующие двух робо-кутяп)
6. Прошедшие критику и автоматически отобранные задачи передаются роботу на исполнение
7. Данные собираются в общий пул, который может использоваться для дообучения роботов (а пока просто оценивается разнообразие датасета)

Система предусматривает, что для малой части задач может вмешаться человек (скажем, отсматривать 10% задач), но это необязательный компонент.

Как вы понимаете, система не зависит от количества роботов, и может запускаться параллельно на огромном флоте — в случае DeepMind это было всего лишь 20 машинок. Можно оставить 100500 роботов на складе на полгода — и появятся и грузчики, и прорабы, и (наверное) халтурщики, коротающую смену в кафе.

Очень жду RT-3, обученную на десятках тысяч разных задач — ведь из прошлых работ мы знаем, что это существенно увеличивает качество и поднимает планку «понимания» роботом ситуаций и инструкций. Ну и ждём симметричного ответа от Tesla до конца. 2024 🙂

8.5k 0 108 4 52

DL in NLP

4 Jan, 00:02

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Chi et al., June 2023
arxiv.org/abs/2303.04137
Код: тык
Данные: тык

Внезапно узнал что диффузия сейчас это лидирующий подход к learning from demonstrations в робототехнике. Диффузионная модель на основе трансформера принимает в себя стейт робота (камеры + датчики) и тренируется предсказывать следующее действие. Дальше несколько хаков касательно того насколько далеко такой моделью можно планировать и как сделать чтобы она бежала со скоростью 10Hz для того чтобы контролировать робота.

По сравнинию с другими способами learning from demonstration, на практике диффузия гораздо лучше моделирует случаи когда есть несколько валидных траекторий. Пример на картинке.

Больше видосов как роботы делают разные штуки (включая нанесение соуса на пиццу) по этой ссылке: тык

Моя первая мысль: интересно чем именно диффузия качественно отличается от того чтобы просто предсказывать следующее действие в один шаг. Или даже предсказывать последовательность действий а-ля языковое моделирование. Точно кто-то уже должен был это пробовать, но интересно как это работает at scale.

8.5k 3 101 4 49

DL in NLP

16 Dec 2023, 19:17

Если вы на NeurIPS, приходите на постер-сессию Workshop on Advancing Neural Network Training обсудить ReLoRA и то как мы скейлили метод до 1.3B!

Место: Room 243 - 245
Время: 1pm
Новая версия статьи: тык

twitter.com/guitaricet/status/1736056341343449506

10.8k 2 37 3 28

DL in NLP

15 Dec 2023, 17:40

Репост из: Kali Novskaya

🌸Все данные для тестов LLM скомпрометированы? 🌸
#nlp #про_nlp #nlp_papers

Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.

Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?

Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.

Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.

Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.

Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!

Выводы:
🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣Остается проверить так все модели OpenAI?

🟣Статья: Proving Test Set Contamination in Black Box Language Models link

6.4k 0 57 1 44

Бесплатное размещение каналов

Запусти рекламу в Telegram

Продаётся канал | Психология

DL in NLP

Гео и язык канала

Категория

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

DL in NLP

10 556

Популярное в канале

Язык сайта

Бесплатное размещение каналов

Запусти рекламу в Telegram

Продаётся канал | Психология

DL in NLP

Гео и язык канала

Категория

10 556

Популярное в канале