Сиолошная


Гео и язык канала: Россия, Русский
Категория: Технологии


Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Связанные каналы  |  Похожие каналы

Гео и язык канала
Россия, Русский
Категория
Технологии
Статистика
Фильтр публикаций


И последняя на сегодня новость по LLAMA-3

Вечером пока читал, казалось, что где-то это видел, но потерял, и не стал без источника указывать. Сейчас наткнулся снова, понял, что это были не галлюцинации (я всё таки не LLM!).

Дообучение LLAMA-3 после этапа предтренировки производилось на 10M (!) вручную размеченных людьми примеров. Это ОЧЕНЬ много — я не видел ни одной работы по LLM, где было бы существенно больше 200 тысяч. Ну, миллион, ну, полтора, но не десять же!

Вообще в META любят подразметить — в паре предыдущих работ, особенно по картиночным моделям, тоже были немаленькие датасеты, прошедшие через людей.

Очень ждём появления LLAMA-3-70B-Instruct на LMSYS Arena, посмотрим на этого храброго воина!


(продолжение поста выше с TLDR'ом подкаста: 🔼)
— Mark считает, что META будет продолжать выпускать модели в открытый доступ. Исключение - если они начнут натыкаться на навыки модели, с которыми не будут знать, что делать. Он ушёл от ответа на вопрос про «перевыравнивание» моделей через тренировку (когда исследователи дообучили модель как-то не отвечать и что-то не делать, а люди дообучили её в обратную сторону, и теперь она снова может что-то плохое писать, например). Пока надёжных способов это сделать я не видел, так что хз, как они будут с таким справляться.
— когда хост начал расспрашивать про риски открытых моделей уровня AGI, Zuck привёл уже избитый пример с кибербезопасностью. Мол, да, у плохих людей будет в руках AGI, но он же будет и в руках всех компаний и людей, так? Они смогут его использовать для защиты! Меня этот пример никогда не убеждал: ведь тогда получается, что одним могут вбухать в 100 раз больше мощностей на одну атаку, а «защищающаяся» система не сможет потянуть такое. И очевидно, что есть такие системы, куда многие недоброжелатели хотели бы вклиниться: банки, интерпол, etc. А если AGI должны будут запускать люди у себя дома, и такая модель будет, скажем, для них очищать интернет — кто за это будет платить? Почему политики не смогут в 100 раз больше вложить в создание качественной пропаганды, чтобы обойти такое было очень дорого (или близко к невозможному)?
— Но возможно они сами придут к тому, что побороть никак не смогут, и не будут ничего публиковать 🤷‍♀️
— на вопрос «релизните ли вы модель, обучение которой стоило $10b, если она полностью безопасна?» Mark ответил «да, пока нам это помогает». Под помощью тут подразумевается то, что это как-то облегчит работу компании. Часто Гуглы да Фейсбуки что-то выпускают, и оно становится стандартом индустрии; многие специалисты начинают изучать технологию, и по сути приходят готовыми. А ещё сообщество помогает искать баги 🙂 правда что будет с моделями, какая польза от людей вне компании - представить сложно. «Особенно если будут другие модели, такие, что наша не будет давать каких-то существенных преимуществ» 🙂 🚬
— моё мнение: я вижу очень большое противоречие. Основные приросты качества происходят из-за масштабирования моделей, и чем дальше в лес — тем меньше людей вообще сможет к ним прикасаться. Вот сейчас выйдет 405B модель, и что? На макбуке её уж точно никак не запустить (даже на будущем M4, почти уверен), дома нужен целый сервер. С ней будут работать компании, которые могут себе это позволить. У LLAMA-6 (самой большой версии) вообще круг ЦА потенциально узеньким будет. Людей, которые что-то придумают и улучшат, можно сразу нанимать будет, и всё, никакого опенсурса. И при этом многие вещи (вроде оптимизаций) можно будет переносить с условной LLAMA 4, если окажется, что в архитектуре и общем принципе не будет существенных изменений. В чем тогда смысл и ценность открытия моделей для META? Будем следить!
— (ну или индустрия вычислительных мощностей должна так круто перевернуться, что каждый на тостере реально сможет крутить модели. Молимся на великого Sama 🙏)
—  META работает над своим железом для обучения LLMок, но даже LLAMA-4 не будет на нём тренироваться. В первую очередь сейчас заняты чипами для разгрузки GPU, чтобы можно было перекинуть все рекомендательные системы и ранжирования на узкоспециализированные чипы (вот недавно новый представили). А уж после начнут с мелких LMок, и там LLMки.


— загадочное «400B+» в названии самой большой LLAMA 3 означает 405B. Это dense модель, не микстура экспертов.
— в ближайшие месяцы ожидаются новые модели, они будут мультимодальными (как минимум с картинками на входе), а также поддерживать больше языков и более длинный контекст
— решение закупить много GPU в 2022м было принято в рамках работы над... Reels в Instragram 😕 тогда подумали, что хорошо бы делать рекомендации не только по рилсам ваших контактов, но и по незнакомым. Mark хотел догнать TikTok с точки зрения рекомендаций и ленты. Он сделал yolo bet и сказал «давайте закажем в два раза больше? Наверняка мы что-то упускаем сейчас, пригодится». Ну вот, нашлись и другие применения 🙂
— LLAMA-2 не тренировали на большим количестве кода, так как думали, что у пользователей не будет таких задач для модели при интеграции в продукты META. Но оказалось (по-моему, исследования были и до выхода LLAMA-2, см. тут), что обучение на коде улучшает рассуждения модели и в других доменах — поэтому LLAMA-3 обучена на огромном количестве скриптов.
— в LLAMA-3 наблюдаются лишь мелкие зачатки агентности (возможности самостоятельно решать отдельные задачи с минимальным наблюдением человека), задача при разработке LLAMA-4 развить их, так как финальное видение AI-ассистентов у Mark — это что ты говоришь «сделай то-то и это», и оно делается
— При обучении 70B на 15T токенов (триллионов. Очень-очень много — LLAMA 2 видела 2T, GPT-4, по слухам, 12-13T) качество модели не вышло на плато, то есть её можно продолжать тренировать и улучшать. У 400B версии наверное вообще конца-края не видно будет 🤙 и это всё — на один проход, без повторений. И дубли, я почти уверен (статьи-то нет), отсекали и фильтровали.
— Также CEO META считает, что экспоненциальное развитие пока будет продолжаться, и что траты в сотню миллиардов долларов на дальнейшее развитие моделей выглядят приемлемыми. Но ещё до того, как индустрия придёт к тому, что капитал больше не имеет смысл вкидывать в железо и обучение, мы упрёмся в энергию, и это будет боттлнеком. Даже если у вас есть деньги — почти нигде не получится не упереться в регуляции и взять и построить электростанцию для подпитки датацентра.
— Более того, решение вопроса с энергией также позволит строить кластера большего размера, чем мы можем сегодня (тут хочу напомнить про проект суперкомпьютера OpenAI x Microsoft за $100B). Сейчас нет датацентров для тренировки LLM на 1 гигаватт. Но они будут появляться. Условно датацентр, а прямо за ним — АЭС (не шутка, Mark сам это упомянул - и он не первый кстати, CEO Anthropic тоже такое упоминал).
— Скорее всего, в будущем тренировка будет происходить не просто на имеющихся данных, а прям итерациями: обучили, сгенерировали синтетические данные, дообучились, и так по кругу. Это не лишено смысла — как писал выше, моделям нужно больше данных, они не доучиваются прям до конца, не выходят на плато. И на это тоже потребуются огромные мощности.

(это первая половина, читайте ниже остаток 🔽)

8k 1 92 30 177

Пока пишу обзор подкаста выше, вот удобная табличка для сравнения метрик будущей LLAMA-3-405B и ведущих моделей.

Проигрывает и Opus, и GPT-4-Turbo, но ведь и тренировка ещё не закончилась! Кто знает, сколько там осталось впереди?

Источник



9.2k 0 113 5 56

(но это только после показа 400B версии, до этого OpenAI чё переживать то)

источник


Модель на 400B+ параметров ещё тренируется, ждём летом.

Если у кого есть под рукой — кидайте в комментарии аналогичные метрики для Opus / GPT-4


15T токенов, но маленькое окно контекста: 8k
(для сравнения, LLAMA-2 тренировалась на 2T)

отсюда


https://llama.meta.com/llama3/
(и более подробный блог: https://ai.meta.com/blog/meta-llama-3/)

Доступны модели двух размеров: 8B и 70B

In the coming months, we expect to introduce new capabilities, longer context windows, additional model sizes, and enhanced performance, and we’ll share the Llama 3 research paper.


Сообщают, что ещё тренируют модель на 400B, так что как нибудь потом увидим.

9.8k 4 125 40 157

LLAMA 3
Опрос
  •   Не выйдет сегодня (до 4 ночи МСК)
  •   Выйдет, не будет лучше, не будет статьи
  •   Выйдет, будет лучше, не будет статьи
  •   Выйдет, не будет лучше, будет статья.
  •   Выйдет, будет лучше, будет статья.
1062 голосов


Ждём LLAMA 3 сегодня? 🚨

Уже на двух площадках засветились новые модели — сайт Replicate для развёртывания моделей и Microsoft Azure, один из крупнейших облачных провайдеров. На обоих указана версия модели на 8B параметров (против общепринятых 7), а на первом ещё есть 70B версия. Согласно утечкам, планируется сначала выпустить две модели «меньшего размера» — 70B не очень-то в это вписывается! Или, быть может, они готовят титана 150B+? Поживём - увидим.

Сейчас в Калифорнии почти 8 утра 🚬 возможно, официальный анонс будет в ближайшие 4 часа.

Главных вопроса два:
— будут ли эти модели хоть как-то лучше оных от Mistral и Cohere?
— будет ли опубликована статья с техническими деталями процесса обучения?

В опросе ниже можно делать ставки!


Стало известно, что штатный философ-предсказатель из OpenAI Daniel Kokotajlo покинул компанию «due to losing confidence that it would behave responsibly around the time of AGI».

😳

(за наводку спасибо автору @neuralpurgatory)

11.1k 0 144 137 237

Many-Shot In-Context Learning

LLM известны своим навыком In-Context Learning (ICL) — они могут выучить новую задачу без непосредственно обучения, просто по демонстрации примеров в промпте. Однако долгое время количество подаваемых примеров оставалось маленьким — 4-8, может, 25 максимум. Однако модели текущего поколения набирают обороты, и у той же Gemini 1.5 Pro в контекст влазит аж 1М токенов — хватит на сотни и даже тысячи примеров решений!

Поэтому авторы из DeepMind возвращаются к вопросу ICL и исследуют изменение качества при увеличении количества примеров. Результаты ожидаемые - почти всегда и почти везде качество растёт, тут ничего удивительного. Например, в задаче машинного перевода на редкие языки (с английского на курдский и тамильский) Gemini 1.5 Pro обходит гугл переводчик (в промпте при этом примерно 85-100k токенов пар-примеров с переводом). В разных бенчмарках по математике и рассуждениям тоже наблюдаются приросты — картинка будет в первом комментарии.

Один из вопросов с точки зрения практики - готовы ли вы платить +$0.5 за обращение к модели, чтобы поднять качество ответов на 5-15%? Уверен, найдутся домены, где это окупается.

«Ну так блин, для этого надо столько разметки вручную делать, это не всегда доступно» — можете заметить вы, и будете правы (разметка ответов и решений для помещения в промпт). Поэтому начинается интересная часть, делящаяся на два направления:
1) подавать просто текст проблем в промпт, без решений и ответов (называется Unsupervised ICL)
2) генерировать решения LLM'кой (и отбирать их по имеющемуся ответу) и брать их. Да, в таком случае некоторые неправильные решения могут приводить к верному ответу. Называется Reinforced ICL.

Эти два метода расширяют применимость ICL с большим количеством решений — в первом так вообще ничего не надо, кроме текстов проблем. И...это тоже увеличивает качество. RICL так вообще почти всегда показывает такое же качество (и даже лучше!), чем демонстрация написанных людьми решений. И даже UICL иногда работает — вероятно, потому, что модель лучше понимает и формирует внутри себя представление о том, с какими проблемами имеет дело.

Лично мне в статье не хватило сравнения с RAG подходом, когда отдельная модель сначала из всего корпуса проблем и/или решений выбирает самые подходящие, подаёт их в промпт, а затем уже LLM генерирует ответ. Тут не нужен большой контекст, и потенциально можно отфильтровать шум. Быть может этот метод будет давать качество ещё выше 🤷‍♀️

Ждём модели с 100M контекста, чтобы кормить им описание всего, что только под руку попадётся — даже если за это придётся платить долор(


Вот так выглядит пайплайн:
1) выделение фактов
2) корректировка фактов для достижения атомарности
3) оценка релевантности
4) оценка ответа через гугл (тут на самом деле под капотом много работы: составление запросов, поиск противоречий, формирование вывода— смотри вторую картинку как пример)

11.9k 1 121 30 127

LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Принято считать, что LLM часто галлюцинируют, и вообще у них большие проблемы с фактической информацией. Вот если GPT-4 мне ответит: «...и Эйфелева башня, открытая в 20м веке, обязательны к посещению» — я должен проверять период открытия? Наверное, да — уже не одна сотня людей на подобном погорела (вспомните случай с адвокатом).

Сотрудники DeepMind решили подойти к вопросу более системно и исследовать вопрос: могут ли модели текущего поколения успешно перепроверять сами себя при условии наличия доступа к гуглу? Для тех, кому лень читать, краткие выводы:
1) LLM ЛУЧШЕ ЛЮДЕЙ в перепроверке информации
2) LLM в 20 раз дешевле ручной валидации фактов
3) (конечно же) бОльшие модели лучше (косой взгляд в сторону тех, кто использует GPT-3.5)
4) GPT-4-Turbo значимо лучше остальных моделей
===

Сначала авторы генерируют 2280 относительно длинных ответов модели, запромченной упоминать как можно больше фактов - на этой выборке будут производиться замеры. Для того, чтобы перевалидировать текст, предлагается следующая многоступенчатая схема:
1) разбить текст на отдельные факты
2) сделать каждый факт самодостаточным и атомарным (например, заменив местоимения «она» на «Эйфелева башня»)
3) для каждого факта проверить релевантность оригинальному запросу
4) наконец, запустить агента в интернет с целью проверки каждого атомарного факта. Такой агент сам пишет запросы, сам открывает и читает страницы, сам может найти противоречие между разными источниками и в теории определить, какой более приоритетен
(и для всех пунктов, конечно же, используются LLM - никаких людей)

Такой пайплайн авторы называли SAFE (Search-Augmented Factuality Evaluator). На своём датасете они тоже метрики меряют, но отдельно сравнивают с людьми на датасете, созданном в рамках одной из прошлых работ в 2023м году. Там ~500 промптов, в ответах на которые выделено 16k фактов. Для каждого живой человек искал подтверждение, правда, только в рамках Википедии, а не во всем интернете.

В 72% случаев SAFE выдаёт тот же ответ, что и человек (то есть соглашается, что факт либо правильный, либо неправильный). «Пффф! ошибается в четверти случаев» — скажут одни. «Ща мы тут проверим, кто ошибается» — отвечают авторы. Затем они берут 100 примеров, где ответы модели и людей отличаются, и перепроверяют уже сами, глядя на результат. Оказывается, в 76% случаев они согласны с моделью — просто люди либо ошиблись, либо у них не было всего контекста (вне Википедии).

Код с промптами: тут и тут (разные папки одного репозитория, мб ещё где-то есть)

11.5k 1 262 43 185

Boston Dynamics опубликовали видео «Farewell to HD Atlas»

Atlas — это тот самый робот, которого вы долгие годы видели в демонстрациях: его пинали, били, клюшкой выбивали предметы из рук, заставляли бегать и делать сальто.

Вероятнее всего, нас ждёт анонс новой платформы (может быть гуманоидной, а может быть и нет) — будем следить. Этот год должен стать большим для робототехники (даже первые посты в канале в январе — про роботов!), тема очень горячая.

В самом же видео показываются моменты неудач, взлёты падения и падения — можно посмотреть, посмеяться, приговаривая «ха-ха тупая железка»

36.7k 6 374 41 197

Так в чём же фишка? Авторы замечают, что не все токены одинаково полезны при тренировке. Есть какой-то мусор, который не нужно предсказывать, есть вещи, которые сами по себе сложно предсказать (например, вымышленные фамилии).

Они берут игрушечную модель TinyLlama-1B, тренируют её, а затем анализируют изменение предсказаний на отложенной выборке. Оказывается, что:
— 51% токенов как предсказывались хорошо, так и продолжают
— лишь для 26% токенов появляется существенное улучшение в точности их предсказаний
— (и ещё есть 12% где предсказания ухудшаются, но это пофиг)

При этом если посмотреть на динамику изменения лосса (того, насколько хорошо модель предсказывает), то во время тренировки будут заметны большие флуктуации, которые мешают сходимости модели. Её как-бы шатает туда-сюда, делается бесполезная работа. Давайте сфокусируемся на основном!

Для этого отбираем очень высококачественный датасет, тренируем на нём 7B модель, а затем используем её для разметки «грязного» тренировочного корпуса. Для каждого токена мы оцениваем лосс предсказаний. Это значение называется референсным.

Затем во время тренировки мы считаем лосс текущей модели и сравниваем с референсным. И тут и кроется весь трюк:
— если и то, и другое очень маленькое — то и хрен с ним! Модели уже хорошо предсказывают
— если и то, и другое очень большое — то и хрен с ним! Модель не может это предсказывать
— и самое интересное: если референсная модель научилась предсказывать хорошо (лосс маленький), а текущая модель предсказывает плохо — то это непорядок, надо исправлять.

И вот токены, попадающие в последнюю группу, и являются наиболее важными для обучения! В них и кроется весь смысл. Авторы добавляют динамический отбор в рамках батча, по их замерам лучше всего брать топ-60% токенов, оцененных по разнице референсного значения и предсказания текущей модели. То есть на 40% слов мы не учимся (но они участвуют в формировании контекста) — отсюда не течёт градиент.

Давно ждал такой работы, идея на поверхности — перевзвешивать примеры во время обучения, игнорировать шлак. Правда, я не до конца удовлетворён исследованием:
— маленькая модель получила прирост метрик, в то время как большая только сравнялась с DeepSeek. Не ясно, получится ли улучшить и тут.
— тестировали только 7B модели, быть может на 70B+ не будет работать — например, они могли естественным образом развить склонность к выявлению и использованию полезных данных (про это я кажется третий раз за неделю пишу?)

14k 2 85 22 133

RHO-1: Not All Tokens Are What You Need

Статья от Microsoft про то, как более эффективно дообучать LLM-ки, то есть как за меньшее количество шагов обучения (и потреблённых данных) получать качество лучше. В рамках данной работы делается фокус на способности модели решать математические задачи.

Начнём с вот такого графика, чтоб было понятно. Слева модель на 1B параметров, справа — на 7B. Серая пунктирная линия сверху показывает уровень моделей семейства DeepSeekMath — китайских LLM'ок, специально обученных на 150B/500B токенов, релевантных решению математических задач (они по-умному фильтровали данные). До недавнего времени эти модели были лучшими в своём классе.

По оси X — количество тренировочных токенов, максимум 15B — то есть в 10/33 раза меньше, чем у азиатов. По оси Y — качество модели. Видно, что новый подход позволяет добиться тех же результатов за куда меньший срок (для мелкой модели — даже улучшить результат). В обоих случаях речь идёт про дообучение, а не тренировку с нуля — то есть модель сама по себе уже что-то знает (модель на 7B это Mistral, крепкая штучка).

Модели выложены, код (без данных для обучения) и ссылки тут.

13.6k 2 133 14 68

Разговоры про AI и эволюцию в 6 утра be like:

14.9k 2 22 84 164

Метрики показывают, насколько же большой разрыв между опенсурсными моделями (которые по Elo-рейтингу на LMSYS Arena почти-почти достают GPT-4) и приватными в контексте задач, требующих автономности и агентности, а не просто односложного ответа, выраженного текстом (прощающим мелкие огрехи). Смотрим на самую правую колонку: GPT-4 12.24% решенных задач, Mixtral 2.98... (и это — по тексту, без картинок)

(Gemini от Google в сделку не входила хахахаххаха)

Показано 20 последних публикаций.