Итак, пост-выжимка
анонса:
— Основной упор на том, что модели гораздо лучше в мультимодальности (понимании изображений, даже нескольких за раз), и что это — лишь начало. У META будет LLAMACon в конце апреля, возможно, ещё больше моделей, включая рассуждающие, покажут там.
— Llama 4 Scout «маленькая» модель на 109 миллиардов параметров, но активны лишь 17 (поэтому будет быстрее, чем условно Gemma 3 27b). Говорят, что можно запускать даже на одной видеокарте с 80 гигабайтами в 4 бита, но это совсем извращение. «Народной» маленькой модели нет.
— Llama 4 Maverick, средняя версия (тоже 17 миллиардов активных параметров, но экспертов больше, потому и весов — больше: 400B) получила Elo-рейтинг 1417 на LMSYS Arena. Это второе место, выше GPT-4.5, но ниже Gemini 2.5 Pro. Однако это без учёта Style Control, и доска ещё не обновилась, поэтому оценим чуть позже. Модель Maverick заточена на запуск на одной H100 DGX-ноде (8 видеокарт)
— Llama 4 Behemoth, огромная модель на 2 триллиона параметров, всё ещё тренируется; её пока не выпускают, но планируют в будущем. Она использовалась в качестве учителя при обучении маленьких моделей Scout и Maverick, из-за чего они и вышли очень мощными для своего размера. Без Behemoth такое качество бы не вышло (то же применимо к Claude Opus, которой «нет», Gemini Ultra, которой «нет», и GPT-4.5, которая есть, но почему-то люди переживают за её цену и скорость 😀)
— Для обработки изображений поменялся подход, теперь делают early fusion (если не знаете что такое, то и ладно).
— В данные для обучения Llama 4 добавили в 10 раз больше токенов языков, отличных от английского. Всего датасет порядка 30 триллионов токенов (x2 к предыдущему). Всего более 200 языков, 100 из которых имеют не менее 1 миллиарда токенов.
— Behemoth тренируется _всего_ на 32k видеокарт, зато с FP8
— Llama 4 Scout тренировалась с самого начала с 256k токенов контекста, которые потом расширили до 10M. Используют модификацию RoPE со вкраплением инсайдов из
этой статьи. 10M токенов позволяют обрабатывать ~20 часов видео.
— Метрики длинного контекста замеряли в том числе на бенчмарке MTOB, «перевод по одной книге» (писал
тут, TLDR: язык, который почти не описан, но по нему есть работа лингвистов; книгу дают LLM и просят переводить по ней — важно уметь читать всю книгу), получилось лучше Gemini 2.0 Flash Lite, но видимо хуже просто Flash (раз его не померили)
— Дообучение Бегемота является очень сложной инженерной задачей, META тут хвастается своим новым фреймворком, который существенно ускоряет процесс (аж чуть ли не в 10 раз). Интересно, что если для мелких моделей выкидывали 50% SFT-датасетов, то для бегемота выкинули 95%! и оставили лишь самое качественное. И в такой конфигурации получилось и эффективно (так как тренировочный цикл короче), и лучше (потому что только самое качественное дают модели).
— Mark подтвердил, что рассуждающие модели анонсируют на LLAMACon в конце апреля.
Ждом!
Если у вас аккаунт/VPN правильной страны, то с
какой-то из новых моделек можно пообщаться тут:
meta.ai (или в инстаграме/вацапе).