Сиолошная


Гео и язык канала: Россия, Русский
Категория: Технологии


Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Связанные каналы  |  Похожие каналы

Гео и язык канала
Россия, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Как написали во всех других пабликах вчера, OpenAI наконец-то анонсировали новый продукт — SearchGPT. Это улучшенная версия того поиска, который ChatGPT делает под капотом уже сейчас, когда считает нужным, чтобы ответить на ваш вопрос.

Пока не ясно, в чём ключевые отличия, но сделаю предположения:
— собственный поисковый индекс, а не переиспользование Bing (видел пару ликов про это, да и их парсинг-бот уже все сайты обдолбил)
— ранжирование, основанное на качестве источника и его достоверности
— в том числе, приоритетное использование партнёрских материалов: те, кто договорился с OpenAI и выдал доступ ко всем своим статьям
— полноценное использование мультимодальной GPT-4o, чтобы анализировать картинки (и мб видео) при выдаче
— потенциально отдельно дообученная GPT конкретно на задачу цитирования и перефразирования источников (то есть не модель общего назначения, а под один сценарий)
— в будущем стоит ожидать развития агентов, которые будут сёрфить куда больше страниц, анализировать сопутствующую информацию глубже, и возвращаться с ответами получше

А пока OpenAI повторили путь Google — и я не про запуск поисковика (с просадкой акций корпорации на 3%, лол), а про...ошибки в поиске. Помните был мем, что в презентации генеративного поиска в прошлом году LLM ошиблась и написала чепуху? Так и тут, буквально в первой демке на сайте 1 — первое! — из 5 мероприятий в ответ на запрос про музыкальные фестивали в августе оказался неправильными. Он заканчивается в июле, что и написано на сайте — GPT просто не туда посмотрела.

===Цитата из анонса:
Мы стремимся к процветанию экосистемы издателей и авторов. Мы надеемся помочь пользователям находить сайты и предложения издателей, одновременно предоставляя новый пользовательский опыт. На протяжении десятилетий поиск был основным способом привлечения пользователей для авторов и издателей. Теперь мы используем искусственный интеллект, чтобы улучшить этот опыт, выделяя высококачественный контент в диалоговом интерфейсе со множеством новых возможностей для взаимодействия с пользователями.
===

Пока что доступ к продукту сделан через список ожидающих, зарегистрироваться можно тут — случайно выберут 10к человек и пришлют письмо. В будущем же такой поиск может быть интегрирован в ChatGPT для всех.

9k 2 70 33 104

Репост из: Заметки безработного Апанасика
Там Твиттер по умолчанию включил всем пользователям галку на согласие предоставлять твиты и инфу на обучение их Grok'у. Многие пошли отключать. Да и в целом частое явление, когда люди отключают телеметрию и отказываются отсылать фидбек о работе с софтом. Но вот вам мем на тему.

Система: сообщает, что будет отсылать телеметрию для улучшения продукта.
Умные пользователи: отключают телеметрию.
Система: получает телеметрию от глупых пользователей.
Разработчики: изменяют систему, основываясь на телеметрии от глупых пользователей.
Умные пользователи:

#мемы

11.1k 0 186 70 482

Репост из: Нейронный Кот
SGLang — еще один фреймворк для сервинга LLM

Помните vLLM? Его выпустили люди, причастные к LMSYS Arena, 20 июня 2023 (чуть больше года назад!)

Тогда vLLM пришел на замену TGI от huggingface и принес PagedAttention, механизм, который эффективно работал с памятью для KV cache, что позволило увеличить throughput в несколько раз

С тех пор произошло несколько интересных моментов:
1. TGI поменял лицензию с Apache 2.0 на платную
2. vLLM стал более-менее стандартом индустрии
3. Появился новый игрок от NVIDIA — TensorRT-LLM с поддержкой FP8 и бэкендом для тритона
4. В TRT-LLM завезли KV cache reuse, который нам ускорил инференс на несколько десятков процентов
5. TGI вернули Apache 2.0 (pathetic 🤒)

В целом, во все фреймворки быстро завозили новые модели (мистраль, mixtral, phi, qwen, etc), новые фишки (cache reuse, fp8, speculative sampling, In-flight Sequence Batching, etc).

Эвристика для выбора движка была примерно такая:
🟡 Хочешь быстро и просто — используй vLLM
🟠 Хочешь очень быстро и сложно — используй TRT

Теперь у нас новый сервинг от LMSYS:
1️⃣ user-friendly
2️⃣ easily modifiable
3️⃣ top-tier performance

ТО ЕСТЬ 👆👆👆
1. Запускать можно также просто, как и vLLM
2. Все легко можно настроить и захакать, потому что все на python и в опен-сорсе
3. По скорости также, как и TRT-LLM

11.9k 0 215 19 145

Первая пошла

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

Система решила задач на 28 баллов из 42 (4 задачи из 6), золотая медаль от 29 (людей с баллом 29+ всего 58 из 609 участников)

Статей с деталями пока нет(

13.4k 1 252 73 231

Будет ли что-то вечером?

1) Jimmy Apples, инсайдер OpenAI, твитнул странное «Нечто витает в воздухе..что-то...математическое...»
2) The Verge написали, а потом удалили, новость о том, что Google DeepMind выпустили AlphaProof, систему (и статью) для решения математических задач, и она решила 4 из 6 задач на международной олимпиаде по математике 2024-го года
3) OpenAI неделю назад публиковали статью по математике
4) внутри OpenAI было демо системы Strawberry, которая якобы делает прорыв в решении математических задач и рассуждениях/доказательствах

😪 ни дня без отдыха

Meanwhile в комментах всё еще не понимают, о каком прогрессе речь, если GPT говорит, что 9.11 больше 9.9 😢

13.1k 0 125 127 224

Новая статья от OpenAI (блог, pdf)

Предлагается метод для формирования награды во время обучения на основе правил (Rule Based Reward, RBR): формулируются функции для желаемого или нежелательного поведения (например, отказы не должны носить осуждающий характер). Награда - это некоторое число или набор чисел, которые модель старается максимизировать во время обучения (то есть что-то, что несёт положительный сигнал). Самая простая награда - "ответ не содержит оскорблений": даём +1 балл.

В отличие от предыдущих методов, использующих обратную связь (от человека или LLM), этот метод использует детализированные многоступенчатые промпты, что приводит к большему контролю, точности и простоте обновления.

Главный результат — получаемая модель становится более полезной и при этом безопасной, то есть реже отказывается от того, от чего не нужно, и чаще отвечает на запросы, которые могли показаться нарушающими правила, но таковыми не являются. На графике это изображено как попадание модели в верхний правый уголок.

И да, этот подход использовался при дообучении GPT-4o (и большой, и mini).

Детальный разбор мб позже сделаю.

13.7k 2 122 31 178

😳 какой-то урожайный сезон — новая моделька от Mistral 🇫🇷, Large 2 (на 123B параметров)

1) 128K контекст (как у LLAMA-3.1)
2) Поддержка языков: Английский, французский, немецкий, испанский, итальянский, португальский, голландский, русский, китайский, японский, корейский, арабский и хинди
3) прокачали математику и программирование — на картинке метрики для разных ЯП на бенчмарке MultiPL-E
4) также, как и в LLAMA-3.1, улучшили следование инструкциям и использование инструментов
5) лицензия не позволяет коммерческое использование, но можно свободно заниматься исследовательской деятельностью

Блог
Модель на HF 🤗

Возможно, моделька потеряется на фоне релизов LLAMA (кроме мб программирования). Она слишком большая для локального использования, а в API есть LLAMA побольше и покачественнее, и поменьше но подешевле, ну и OpenAI никуда не делись. Зато на La Platforme можно будет теперь запускать дообучение. Цена у самих французов $3 и $9 за миллион токенов на входе/выходе — СИИИИЛЬНО больше 70B LLAMA, и совсем немногим дешевле GPT-4o.

14.8k 4 163 43 109

Вышел анализ доходов и расходов OpenAI от авторитетного издания The Information. Он основывается на ранее нераскрытых внутренних финансовых данных и информаторах, участвующих в бизнесе.

В этом году компания может потерять до 5 МИЛЛИАРДОВ долларов. Если в анализе нет крупных ошибок, то скорее всего OpenAI потребуется привлечь больше средств в ближайший +-год. Но обо всём по порядку:

— человек, непосредственно знакомый с расходами на железо, сказал, что на март 2024-го OpenAI планировали потратить на аренду серверов для ChatGPT $4B. Сюда входит только применение уже готовых обученных моделей для поддержания сервиса (включая распознавание голоса, генерацию, итд)
— суммарно кластеры для ChatGPT, со слов источника, примерно эквиваленты 350'000 видеокарточек A100, и из них ~80% идут напрямую на ChatGPT. Microsoft берёт по $1.30 в час за одну карту A100 — это большой дисконт: сейчас при заключении трёхлетнего соглашения на аренду на Azure средняя цена $1.7 (на год — вообще $2.82)
— однако плановая выручка за этот год, если помните мой прошлый пост, составляет примерно $3.5B (с учётом роста $4.5B), то есть почти окупает эту часть затрат. Но ведь это не всё...
— в дополнение, расходы на сервера для тренировки моделей оценивались ещё в $3B 😨 И это охренеть как много — сами OpenAI планировали потратить всего $800M, но по непонятной причине раздули бюджет. Может, обучение стало приносить меньше плодов, и нужны инвестиции покрупнее, а может наоборот, стало ясно, что вот если раза в 4 увеличить, то станет конфеткой. В любом случае модель следующего поколения будет куда дороже предшественников и того, что мы наблюдаем у META 😅
— плюс, есть расходы на персонал. В компании работает примерно 1'500 человек, и с учётом стремительного роста (в конце 2023-го было ~900), офисы-зарплты-кофе-то-сё, это ещё миллиард-полтора. А ведь на сайте числится больше 200 открытых вакансий...
— итого суммарно за год компания сжигает $8.5B — беспрецедентная сумма, которая кажется гигантской на фоне последнего раунда инвестиций от Microsoft в размере $10B. И тут ещё не учтено, что вообще-то планируется пустить трафик от Apple iPhone на ChatGPT, и количество запросов, а равно и траты, прыгнут вверх
— итого, ~$8.5B потратят, ~$4.5B получат, чистые потери составят $3.5-4.5B. Хорошо, что по договорённостям OpenAI платят своим инвесторам долю от прибыли (которая равна 0)
— у конкурентов не так, например, Anthropic планирует потратить $2.5B на кластера, а выручка у них $800M, да часть ещё и уходит Amazon. Так что их потери могут быть где-то $2B, что в абсолюте меньше, но как доля от выручки существенно больше. Да ещё и инвестиций не так много

И бонус:
— на данный момент не известен размер тренировочных кластеров OpenAI, которые используются для обучения модели следующего поколения (уже запущено, анонс планируется до конца года), однако на первый квартал 2024-го это было 120'000 A100 — до того, как Microsoft должна была предоставить OpenAI гораздо больше серверов для учебных целей.
GPT-4, напомню, училась на 25'000 карт, LLAMA-3-405B — на 16'000 (но более мощных).

34.9k 12 633 188 191

А ещё! OpenAI добавили сегодня возможность дообучения GPT-4o mini. Раньше такое было доступно лишь для серии GPT-3.5-turbo, для 4-ки функция находилась в ограниченном экспериментальном режиме.

Дообучение полезно, когда вам нужно подправить поведение модели (но не её знания). Обычно я предлагаю такую аналогию: мы как бы сжимаем инструкции в промпте в обучаемые параметры. Это позволяет не писать длинный детальный промпт каждый раз, и как следствие экономить на токенах, а возможно даже повышать качество.

В чем подвох? Запросы к такой модели стоят дороже, ведь OpenAI должны хранить копию дообученной модели отдельно специально под вас.

Цена подпрыгивает ровно в 2 раза:
— $0.15->$0.3 за миллион входных токенов
— $0.6->$1.2 за миллион генерируемых

Так что если генерация меньше промпта, а сам промпт достаточно длинный, и за счёт дообучения большую его часть можно опустить — то будет выгода. Другая опция — вам нужно делать обработку в фоне, а не в реальном времени: Batch API доступно и тут! И да, оно возвращает цену к исходной, деля её на 2.

В других случаях лучше продолжать пользоваться общедоступной моделью.

А теперь внимание — бонус! Дообучение будет БЕСПЛАТНЫМ для всех пользователей 4-5 тиров до 23-го сентября! То есть вы можете ничего не потратить на итерации тренировки, а затем за пару баксов потестировать, как оно стало, лучше или хуже? А если результат понравится — переехать. Думаю, для части задач переход с 4o на 4o mini может быть разумным — разница в цене космическая. Для верности можно прогонять дообученную модель 3 раза — это всё равно будет раз в 5 дешевле 😃

Документация к дообучению — тут, там всё просто, не нужно знать машинное обучение.

15.4k 5 318 26 163

Модели META также стали доступны у множества провайдеров. Вот сводная табличка всех цен для удобства.

Зелёным выделил выгодные цены для младшей модели на 8B и самой большой на 405B. Они потенциально являются конкурентами моделей GPT-4o mini и GPT-4o.

Цены указаны за миллион токенов (~0.75 слова) и делятся на вход — сколько в промпте — и на выход, сколько нужно генерировать. Для каких-то задач важнее длинный промпт, а сама генерация буквально 1 строчка (или даже одно слово), для других наоборот, генерация куда длиннее.

Для сравнения цены OpenAI:
— $0.15/$0.6 за младшую модель
— $5/$15 за полноценную

А если вам не нужно получать ответы моментально, то OpenAI предоставляют Batch API: вы закидываете файл с запросами (можно делать цепочки сообщений), ждёте до 24 часов и платите лишь половину цены. Идеально для генерации синтетических данных / разметки малоприоритетных запросов. У других провайдеров такой сервис отсутствует.

Итого выходит, что сравнимые цены лишь у самых демпингующих игроков (не ясно, работают ли они в минус, в ноль или зарабатывают), но только если нужно получать ответ быстро.

Интересно ещё, какие провайдеры разворачивают модель в 16-битной конфигурации, а какие довольствуются FP8-квантизациями. Это важно, так как хоть немного, но влияет на качество (об этом даже сама META пишет в статье).

Так что может быть такое, что те, кто продаёт доступ к модели дешевле всех, на самом деле выдают качество чуть хуже, и лучше делать сравнение. По своему опыту знаю, например, что DeepInfra (не представлено на слайде) точно ужимают модели — стабильно на пару процентов просадка относительно других.

Выводы: GPT-4o всё ещё актуальна по цене, как малая, так и большая версии. Особенно если с запросами торопиться не нужно, или если языки отличаются от официально поддерживаемых.


Ссылка на техническую статью с описанием процесса разработки: PDF

Пост будет обновляться тезисами из неё:
— Тренировка самой большой модели потребовала 3.8 × 10^25 FLOPs — примерно в полтора раза больше, чем оригинальная GPT-4, но ниже планки регуляторов США в 1.0 x 10^26 в 3 раза
— для улучшения метрик в программировании использовали много синтетики и переводов между разными языками программирования
— проводят анализ того, насколько метрики в бенчмарках завышены из-за присутствия данных в тренировочной выборке, и как это влияет на метрики. Правда для самых расхожих бенчмарков типа MMLU оценку дать не смогли, так как повторений уж слишком много (там зачастую общие вопросы, например, про историю — ну как тут фильтровать?)
— анализируется FP8-квантизация 405B модели, рекомендуется не трогать первые слои (они самые чувствительные)
— в FP8 должно влазить на 640 гигабайт VRAM (то есть 8xH100/A100), но с маленьким батчом и контекстом


Поехали

https://llama.meta.com/

Метрики из вчерашнего слива оказались правдивыми

Приятная поддержка 128k токенов контекста, причём по метрикам на in context retrieval даже лучше GPT-4o и Sonnet 3.5

14.5k 4 195 78 213

Вы знаете, у меня в канале нет ни рекламы, ни упоминания чего-то, с чем я не взаимодействовал/что я не читал до этого. Продолжаю эту традицию, и хочу привлечь ваше внимание к вот такой вакансии на Senior Backend Engineer (с готовностью вкатываться в AI) в Explee.

Стартап делается силами Алекса Катаева (ex-CTO Skyeng) и Харитона Матвеева (ex co-founder Skyeng). Я с ребятами встречался пару раз, и немного общался в личке, и всё что они спрашивали было мега адекватным — такие вопросы по LLM не каждый инженер не то что спросит, а даже поймет.

Сама вакансия: https://jobs.explee.com/backend-engineer/

Explee — потенциальный конкурент Perplexity, тоже делают веб-поиск с LLM-ками, но с куда бОльшим контекстом и глубиной проработки. Примеры ответов на три вопроса вы можете найти на странице вакансии. А вот мой запрос про бенчмарки для LLM-агентов и основные проблемы. (сервисом пока не получится пользоваться, ждите запуск через N недель)

===

Compensation: $7,000/m – $10,000/m, equity 0.1% – 0.4%, удалёнка, но команда иногда встречается в EU на виллах.

Уверен, в канале есть люди, которые подходят под жёсткие (но справедливые и понятные) требования, и буду рад, если получится кому-то помочь найти клёвую команду.

14.6k 1 144 99 170

Пятеро сенаторов Демократической партии США направили письмо с 12 вопросами Sam Altman и OpenAI с запросом на предоставление информации об усилиях по созданию безопасного и надежного искусственного интеллекта. Это происходит на фоне недавних сообщений от осведомителей, что компания поспешила с тестированием безопасности своей последней модели (GPT-4o), чтобы успеть к анонсу в мае.

Полное письмо тут, ниже — отдельные интересные вопросы:
— Планирует ли компания следовать своему обещанию выделять 20% мощностей на исследований AI Safety?
— Избавилась ли компания от практики подписаний договоренностей о пожизненном отчуждени права на критику бывшими сотрудниками?
— Существуют ли в OpenAI процедуры, позволяющие сотрудникам выражать обеспокоенность по поводу кибербезопасности и безопасности? Как решаются эти проблемы, когда они возникают?
— Планирует ли компания в настоящее время привлекать независимых экспертов по безопасной и ответственной разработке ИИ к своим процессам, процедурам и методам тестирования и оценки безопасности, а также к своей структуре управления, например, к комитету по безопасности? (ответ — да, они это активно делают, о чём написано во многих отчётах)
— Обязуется ли OpenAI предоставить свою следующую базовую модель правительственным учреждениям США для тестирования, проверки, анализа и оценки перед развертыванием?

По последнему пункту — напомню, в конце весны OpenAI собрали комитет (в который вошел отставной генерал, помните?), который должен составить публично доступный документ с рекомендациями по процессу оценки и развёртывания модели.

Источник: WSJ


Закончил 6-часовую игровую сессию в Deadlock (😉🥱), зашёл в Твиттер, а там оказывается во всю идёт обсуждение выхода LLAMA-3-405B (самого большого варианта, который МЕТА обещала). По слухам, она должна появиться завтра, 23-го, однако уже появилась карточка модели и даже веса на 4chan'е слили. Ссылок я давать не буду, подождём оф. релиза.

Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.

Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает

Pastebin с карточкой модели
Источник картинки

Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5??? 👀 Sama, пора 🙂

UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.


Исследование по безусловному базовому доходу, спонсируемое OpenAI и Sama, немного задержалось, но наконец-то опубликовано. Читать тут: OpenResearch (pdf на 140 страниц тут).

Я пока только полистал и не вчитывался, но не мог не поделиться самим фактом + несколькими тезисами ниже. А если вы имеете свои взгляды на этот счёт и особенно если занимаетесь экономикой профессионально — приглашаю в комменты!

Итак:
— 1000 людей с низким уровнем дохода получают по 1000 долларов США в месяц в течение трёх лет. Никаких звездочек или условий. В контрольной группе 2 тысячи людей (получают по $50). Несложно посчитать, что всё про всё стоило без малого $40M
— все живут в США, от 21 до 40 лет, средний доход домохозяйства участников на момент опроса составлял $29.900. Первая выплата состоялась в ноябре 2020го
— Уровень занятости и рабочее время существенно выросли в ходе исследования как для получающих деньги, так и для участников контрольной группы (потому что начало выпало на ковид, многие сидели без работы). Если посмотреть на статус занятости с течением времени, то вероятность трудоустройства получателей в течение второго и третьего годов в среднем была примерно на 2 процентных пункта ниже — и они работали на 1.2-1.3 часа в неделю меньше
— В целом, отмечается большая вариация условий, и в отдельных кейсах изменения существенные (по первой ссылке делятся несколькими историями людей, на кого это оказало большое воздействие). Например, получатели чаще искали работу, но были более избирательными, и выбирали лучшие условия (ведь у них есть подстраховка)
— у людей появилось время на обучение и здоровье: на 26% больше обращений в больницы, на 10% больше походов к стоматологам
— в то же время на 20 % снизилось количество случаев употребления алкоголя, мешающих выполнению обязанностей
— Получатели на 3 процентных пункта чаще сообщали о наличии идеи для бизнеса
— расходы в абсолютах больше всего выросли на еду, аренду, транспорт, а относительные (+25%)- на финансовую поддержку других людей (то есть стало проще делиться и отдавать)

20.4k 3 356 221 427

Elon Musk твитнул, что сегодня ночью они запустили тренировку на свежепостроенном суперкластере X.AI в Мемфис, штат Теннеси.

В этом датацентре установлено 100'000 видеокарт H100 😨 это ОЧЕНЬ много — META недавно запустила 2 кластера по 24'576 GPU, а GPT-4 тренировали, по слухам, на 25'000 карт.

Мало того, что самих чипов больше, каждый из них ещё и в 2-3 раза мощнее. Точную оценку дать сложно, многое упирается в инфраструктуру и способ обмена разных серверов информацией. Чем больше карт — тем дольше их синхронизировать, и потому падает утилизация.

Если прикидывать грубо, то система в 10 раз мощнее тренировавшей модель OpenAI (x4 за кол-во карт и x2.5 за новое поколение чипов). Честно, я не ждал, что уже в этом году заработает такой кластер — думал, может, на 75-80 тысячах остановятся. Тем более я не ждал этого от Elon — ведь его X.AI буквально последними запрыгнули в AI гонку, когда видеокарточек уже буквально не было!

Но если новичок смог за полтора года так разогнаться, то, наверное, у OpenAI x Microsoft или Google мощностей для запуска одной тренировки может быть в 2-3 раза больше. Думаю, тезис про «самый большой кластер» под вопросом (просто они непубличные и мы про них не знаем).

В любом случае, развитие продолжается, ждём Grok 3 в декабре — а вместе с ним и моделей от других ведущих лабораторий!

19.3k 9 324 143 378

Какие направления дальнейшей работы видят авторы:

— Всё еще покрыты не все ресурсы/форумы/региональные и локальные олимпиады. Можно получить сколько-то десятков-сотен тысяч задач

— Улучшения в процессе разметки и извлечения, чтобы приводить всё к одному формату

— корректировка сгенерированных синтетически решений: сейчас валидность проверяется лишь по соответствию ответу, но при этом ход решения может быть как чуть-чуть, так и в целом неправильным. Хорошей идеей может стать использование GPT-4 для перепроверки/перегенерации, чтобы не обучать свои модели на мусоре

— сейчас используется только Python, но можно подключать другие инструменты. В обществе математиков давно разработаны пруверы (доказывают) и солверы (решают), даже специальные языки есть

— улучшение процесса создания синтетических решений. Сейчас некоторые задачи слишком сложны даже для GPT-4, и в решениях есть явные паттерны ошибок, которые можно постараться обойти промптами и примерами

— во всех постах выше речь шла про решения задач, имеющих численный ответ. Но на олимпиадах не менее часто попадаются и задачи на доказательство, и у LLM тут по нулям. Создание датасета доказательств и способов обучения на этом также должно улучшить общие навыки моделей (ждём от OpenAI...)

Вот так вот. Ждём второй раунд соревнований, посмотрим, сколько можно выжать сверх полученных результатов просто за счёт чуть более умной тренировки + агрегаций предсказаний + валидации + ...


Кроме модели на 7 миллиардов параметров для соревнования, победители обучили ещё и модель на 72B (инициализированную из Qwen 2 от Alibaba) и выложили её (как и все даннные).

Результаты замеров и сравнений на картинке, сверху табличка для крохи 7B, снизу тяжеловесы.

0-shot — это когда модель сходу выдаёт первое попавшееся решение; maj@64 означает, что модель генерирует 64 решения (каждое решение = одна или больше Python-программа. Их получается несколько в том случае, если вылазит баг - тогда LLM пытается их исправить по тексту ошибки), а затем между всеми полученными ответами выбирается тот, который встречается чаще. Понятно, что во втором случае качество должно расти, что и наблюдается.

CoT = модель, обученная только на первом шаге, без написания кода программ (то есть и считает она сама, и может ошибиться даже в 2+2), TIR = с Python.

Самое интересное, пожалуй, смотреть на AIME 2024 как на самое свежее соревнование, где почти наверняка были новые задачки. А ещё на MATH — так как авторы очень старались отфильтровать похожие задачи и не тренироваться на них. 72B модель без кода показывает результат 68% при генерации ответа с первого раза. Это совсем чуть меньше 70.2%, которые были у свежей GPT-4o mini. По графику можно было подумать, что OpenAI переобучились, но видимо это достижимая планка через качественные данные и синтетику.


Вышла вторая часть описания победного решения AIMO (олимпиады по математике, которую решают LLM-ки) — вводные тут, если пропустили.

В ней рассказывается, как собирали данные для дообучения моделей, всего около миллиона задач не только с ответами, но и решениями (самой важной частью). Это существенно больше того, что было доступно на момент начала соревнований:
— MATH (7500 задач, все - околоолимпиадного уровня)
— GSM8k (7470 задач от OpenAI, но обычного школьного уровня, без олимпиад)
— orca-math (200 тысяч задач, сгенерированных синтетически через ChatGPT, тоже не олимпиадные)

Как видите, на фоне этого миллион — это ого-го! Какие сусеки скребли для сборки:
— китайский экзамен K-12 за все годы (там ещё и вариантов куча). Все задания были в PDF, их оцифровали, а затем перевели через GPT-4o (~260 тысяч задач)
— официальные решения задач AMC и AIME — всего 6500 задач, из которых оставили 4300, потому что остальные пересекались с валидационной выборкой. Как-то совсем мало, да?
— Да, потому эти задачи использовали как часть промпта для GPT-4 с целью создания синтетики - и размножили их до 160 тысяч примеров. Брали подход из вот этой статьи, промпты есть в самом конце. Процесс состоит из 3 шагов: написание новой задачи, валидация корректности постановки вопроса (и внесение корректировок), написание решения. Этот же подход применяли и к вышеупомянутому MATH
— 152 тысячи задач из PDF-ок/с сайтов международных и региональных олимпиад. Тут из-за разнородности данных пришлось запариваться, и для части файлов даже делать ручную разметку, где текст/решение вообще находится. После извлечения GPT-4o отвечала за перевод, а также за переформатирование решения и ответа. Это вообще острая тема, потому что везде всё разнородно, и это обычно плохо влияет на каечство обучения. Вручную такие объемы не перелопатить, хорошо, что можно аутсорсить GPT-хе

Ну и по мелочам то да сё, вышло 860к. А дальше самое интересное, как получали остаток — с помошью GPT-4 и TIR (Tool-Integrated Reasoning) — это когда модель может пользоваться питоном и не писать решение, а генерировать код, решающий задачу. Для геометрических задач есть отдельные библиотеки даже. Если ответ, полученный кодом, является неправильным, то мы повторяем процесс, генерируем новое решение, и так по кругу. В таком подходе нельзя быть уверенным, что решение на 100% правильное и учитывает всё, но 🤷‍♂️

И собственно всё. Дальше финальная модель сначала обучается математике в целом, обучаясь на первой части (где все решения приведены к единому виду) 3 эпохи, а затем доучивается писать код для решений в течение 4 эпох.

Над проектом работало больше 20 человек, вложено огромное количество усилий, но зато следующим итерациям соревнования будет легко, ведь есть такая база для старта.

16k 1 96 36 134
Показано 20 последних публикаций.