Сиолошная


Гео и язык канала: Россия, Русский
Категория: Технологии


Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Связанные каналы  |  Похожие каналы

Гео и язык канала
Россия, Русский
Категория
Технологии
Статистика
Фильтр публикаций


1) GPT-4o играет в Doom II на самом лёгком уровне сложности. Игра стоит на паузе, пока модель делает предсказания.

2) GPT-4o играет в Super Mario Land. Тут паузы нет, поэтому от запроса до действия проходит 3-5 секунд -> состояние меняется -> агент много раз умирает от Гумбы

3) ВАРКРАААААФТ (GPT-4o не может управиться с мышкой и кликнуть куда надо).

23.6k 4 167 28 119

VideoGameBench

В последнее время LLM демонстрируют способность решать невероятно сложные задачи на рассуждения в математике и программировании. Многие из этих задач чрезвычайно сложны для среднего человека. С другой стороны, люди могут с лёгкостью проходить видеоигры, но мы еще не видели, чтобы даже самые современные LLM или VLM полностью могли пройти такие игры, как Doom или Pokemon. Вот недавно с запуском Claude 3.7 Thinking запустили стрим, где модель играла в Pokemon — за этим следили тысячи людей!

Ofir Press, соавтор SWE-Bench, представляет VideoGameBench: бенчмарк из 20 старых игр в эмуляторах MS Dos и GameBoy. На самом деле пока это не совсем бенчмарк, а скорее платформа для него: нет способа оценки прогресса по ходу игры, разные модели не сравнивались — это ожидается в ближайшем будущем. Проект открыт, каждый может начать добавлять что-то (в том числе свои любимые игры) уже сейчас. Есть Civ 1, Doom II и WarCraft II !

Сейчас модели плохи в играх по нескольким причинам, я бы выделил три основные:
— невозможность быстро учиться из ошибок/по опыту
— проблемы с долгосрочным планированием
— неидеальное зрение / отсутствие навыка понимания/управления UI

Легко понять, что все три навыка очень сильно пригодятся агентам и рассуждающим моделям. Я уже несколько раз писал в канале про позитивный трансфер, когда обучение на чём-то одном приводит к улучшению и в других областях. Так и тут, велик шанс того, что тренировка на играх, на большом их количестве позволит делать шаг в улучшении LLM/VLM/систем поверх них.

UPD: я не сомневаюсь, что o1/o3 учили на текстовых играх, от крестиков-ноликов до условных быков-и-коров (возможно поэтому o3-mini у меня выбила 100%). Визуальная составляющая — следующий шаг.

Конкретно в этом бенчмарке в качестве входа доступна только картинки, никаких дополнительных текстовых описаний не предоставляется. Однако модель может писать себе заметки в «память», которая доступна на следующем шаге игры.

===

Так как современные модели относительно медленны, и их ответ можно ждать несколько секунд, то не все игры подходят для бенчмарка. Поэтому авторы отдельно выделили 7 игр, которые ставятся на паузу, пока VLM «думает». Очень жаль, что в список не вошла Civilization 🙁

===

Хоть авторы и не делали полноценные замеры, однако уже наблюдали за играми моделей. Они отметили, что VLM не могут даже пройти первые уровни в играх, но вот в Kirby's Dream Land даже до первого босса смогли дойти.

What gets measured — gets improved, так что к концу года модели, видимо, будут жарить 👍


Наша любимая рубрика «Новости OpenAI за неделю», девиз недели — «думаем наперёд»:

— Во вторник появилась новость, что OpenAI находятся на ранних стадиях разработки своей социальной сети, самым близким аналогом которой является Twitter у Elon Musk. Хотя по описанию в новости всё же больше похоже на Instagram: «источники сообщили, что существует внутренний прототип, ориентированный на генерацию изображений ChatGPT, и имеющий прокручиваемую ленту постов». Выход на рынок социальных сетей также ставит OpenAI на путь столкновения с Meta, которая, как сообщают в статье, планирует добавить социальную ленту в свое будущее приложение с ИИ-помощником. В целом шаг логичный, и позволит как получить больше данных, так и загребать новую аудиторию — ведь до конца года, по плану, нужно набрать миллиард ежедневных пользователей. А ещё почерпнул интересную мысль у TheInformation: «OpenAI наверняка знает, что многие пользователи ChatGPT делятся своим опытом использования на сайтах социальных сетей, таких как X и Reddit. OpenAI, вероятно, задаётся вопросом: «Зачем нам раздавать этот трафик, если мы можем оставить их себе?»

— В среду написали, что OpenAI раздумывает над покупкой Windsurf за 3 миллиарда долларов. Windsurf — это AI-first среда разработки, по своей сути очень похожа на Cursor и с ним же конкурирует. Почему OpenAI не хотели купить сразу Cursor? Они хотели, но цена слишком высока — предположительно, стартап раздуло до 10 миллиардов долларов в ходе подготовки к новому раунду инвестиций. Интересно, как поменяется динамика, если сделка состоится — насколько лучше станет Windsurf, и сколько пользователей перетечёт в него?

— Проект по постройке супер-датацентров Stargate хоть и фокусируется на строительстве инфраструктуры в США, но уже идут разговоры об экспансии в UK и/или Германию/Францию (если проект окажется «успешным», не знаю, что это значит в данном контексте). «По словам одного из лиц, участвующих в распределении расходов Stargate, планы правительства Великобритании по расширению доступа центров обработки данных к электричеству подстегнули интерес к проекту».

— Вместе с запуском новых рассуждающих моделей у OpenAI появился Flex-режим обработки API-запросов, подходящий для несрочных задач. Теперь вы можете указать, сколько готовы ждать (10-15 минут), и, если будут ресурсы, то ваш запрос обработают по цене вдвое ниже обычной. Это идеально подходит для разных бенчмарков/замеров/фоновой обработки. По сути то же самое, что Batch API, только ждать надо не 24 часа.

— o3/o4-mini комфортно приземлились на первые места во многих (но не всех) бенчмарках, обогнав Gemini 2.5 Pro: LiveBench, Aider, AIME 25, Fiction.liveBench, ...

— А ещё OpenAI начали отдавать саммари цепочек рассуждений o3 по API (видимо, также, как работает в ChatGPT в браузере). Однако фича доступна только верифицированным организациям — нужно отправить фотку паспорта и пройти проверку.

Я сам o3 почти не попробовал, но первую половину недели сидел на Gemini 2.5 Pro, очень помогла в паре задач, где GPT не хватало знаний (не самая популярная библиотека / проблемы). Хотя o1 Pro достаточно близка была.

===

— Пока CEO Nvidia лично встречается с главой DeepSeek, в США идут обсуждения о запрете использования моделей/сервисов китайского стартапа.


Репост из: Адель и МЛь
В общем, o3 и o4 mini — классные модели.

Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.

В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:

о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.

Сегодня буду тестить на рабочих задачах.

P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.

16.8k 1 191 142 465

А да, o3 дешевле o1, забыл сказать

18.8k 4 64 120 262

o3 набирает 81.3% в Aider Bench, Gemini 2.5 Pro берёт первое место с 72.9%

Остальное тут: https://openai.com/index/introducing-o3-and-o4-mini/

ChatGPT Plus, Pro, and Team users will see o3, o4-mini, and o4-mini-high in the model selector starting today, replacing o1, o3‑mini, and o3‑mini‑high.

We expect to release OpenAI o3‑pro in a few weeks with full tool support

19.1k 3 136 50 222

Через 3 часа смотрим релизный стрим про o3 (скорее всего и про o4-mini, и может даже o4... ну вдруг просто метриками похвастают?).

Это не та же o3, которую показывали в декабре: Sama говорил, что эта версия была дообучена и обновлена. Базируется ли она на новой GPT-4.1 — вопрос, ответ на который мы, возможно, узнаем.

19.9k 6 139 95 244

Стрим ещё не начался, но цены на модели уже на сайте, и они очень маленькие.

Миллион контекста тоже подтверждён.

Knowledge cutoff: Jun 01, 2024

И кэш наконец-то даёт снижение цены не в 2, а в 4 раза (у DeepSeek и Anthropic — в 10 раз)


quasar
/ˈkweɪ.zɑːr/ noun

A very energetic and distant active galactic nucleus, powered by a supermassive black hole that emits exceptionally large amounts of energy across the electromagnetic spectrum. Short for quasi-stellar radio source.

27k 6 205 170 250

OpenAI показывает новые модельки через 20 минут тут: https://www.youtube.com/watch?v=kA-P9ood-cE

Модели GPT-4.1 (да, после 4.5....) в трёх размерах: обычный, mini и nano. Возможно, это у них по миллиону токенов контекста. А может и нет — скоро узнаем!

24.7k 5 179 59 166

Вопрос к людям, которые хотя бы полистали AI 2027, и считают, что гонка между Китаем и США за развитие ИИ — это выдумка/полит. заказ/фантастика/.

Почему вы так считаете?

(В идеале в ответе больше 40 слов и 5 предложений)

27.5k 4 63 542 313

Репост из: Трудно стать богом
Next week

29.8k 0 168 106 451

Репост из: Denis Sexy IT 🤖
Так, OpenAI сегодня что-то покажет – что-то такое, от чего Сэм просыпается ночью 😁

22.5k 0 204 158 422

Я иногда посматриваю слушания в Сенате, Конгрессе и других органах (бывает очень интересно), и да, вот такие (ИМЕННО ТАКИЕ) диалоги случаются регулярно.

Послушайте сами этот момент: https://youtu.be/XoV10JoaSFM?t=8364

До сих пор не понимаю, почему не введут какой-то критерий того, что неответ на вопрос без попытки взять отвод по 5th (или что там больше подходит, если это не касается криминала?) 2 или 3 раза подряд приравнивается к наименее благоприятной интерпретации официально, а не формально. А то каждый раз цирк (ахахах особенно фраза «I'm trying to be as transparent as I can»).

Для развлечения послушайте допросы кандидатов в Верхновные судьи (TLDR: https://youtu.be/dDYFiq1l5Dg?t=123) 🙂

27.3k 5 68 34 183

Репост из: Sinекура
На этой неделе вышел очередной текст с прогнозами развития искусственного интеллекта: "AI 2027" (pdf-версия). Мне он, правда, совсем не кажется "очередным", в основном из-за списка авторов. Так что суммаризировать я его для вас не буду (текст совсем не длинный, рекомендую прочитать целиком), а лучше про этих самых авторов расскажу.

Первый автор, Даниэль Кокотайло — это бывший сотрудник OpenAI. Два самых для нас важных факта про него связаны как раз с этим трудоустройством:

— OpenAI нанял Даниэля после того, как в 2021 году он написал статью "What 2026 Looks Like", где предсказал, как будут развиваться большие языковые модели; сейчас этот текст читается потрясающе, Даниэль оказался прав очень во многом, хотя в 2021-м его прогноз выглядел маловероятно, а для многих и безумно; так что Даниэль Кокотайло — один из лучших людей мира в плане прогнозов о развитии AI;

— а когда в 2024-м Кокотайло увольнялся из OpenAI, он оказался в центре скандала с non-disparagement clause: OpenAI пригрозил ему тем, что не даст продавать акции OpenAI, если Кокотайло будет что-то разглашать о рисках развития AI, и Даниэль... плюнул на акции, чтобы стать whistleblower'ом от AGI (говорят, в акциях OpenAI было около 85% всех денег его семьи).

Второго автора, надеюсь, моим читателям представлять не надо: это Скотт Александр, автор знаменитых блогов SlateStarCodex и AstralCodexTen. Если вы вдруг их не читали, начинайте прямо сейчас (можно начать отсюда или отсюда), хотя навёрстывать придётся много. В связи с "AI 2027" Даниэль Кокотайло и Скотт Александр уже успели появиться в подкасте Дваркеша Пателя, который я тоже, конечно, целиком рекомендую.

Другие авторы не так известны широкой публике; это:
— Томас Ларсен, сооснователь Center for AI Policy;
Илай Лифланд, один из лидеров команды прогнозистов Samotsvety, один из тех самых superforecasters, которые умеют прогнозировать будущее лучше кого бы то ни было;
— Йонас Фоллмер, VC в Macroscopic Ventures, которому хватило предсказательной силы сделать одну из ранних инвестиций в Anthropic;
— Ромео Дин, магистрант Гарварда и руководитель тамошнего AI Safety Student Team.

В общем, очень внушительная команда. И сейчас все они считают, что вполне реально ожидать появления AGI к 2027–2028 годам. Если гонка разработок в области AGI в итоге победит заботу о безопасности (вам это кажется правдоподобным? мне — вполне), то примерно в 2030–2035 годах нас ждёт тот самый AI takeover, сценарий захвата мира искусственным интеллектом. Это их "плохая концовка", но в тексте предусмотрена и "хорошая", в которой люди сохраняют контроль над ситуацией. Впрочем, в хорошей концовке AGI тоже появляется и тоже трансформирует мир и общество до неузнаваемости.

Читать очень интересно. В интернете этот текст уже начали называть "Situational Awareness 2.0"; прошлогоднюю "Situational Awareness" Леопольда Ашенбреннера я в каждой обзорной лекции упоминаю, теперь, видимо, надо будет упоминать и "AI 2027".

37.1k 4 1.2k 157 404

И напоследок удобная картинка-шпаргалка с метриками по всем трём моделям. Тут же по конкурентам можно прикинуть, с кем примерно модели нацелены соревноваться и какая у них будет цена.

31k 4 77 22 112

С контролем стиля без откровений в общем зачёте, а в остальных вроде и высоко, но разброс пока большой (так как голосов мало). Может быть и выше R1/o3-mini, а может и нет.

(Maverick = средняя модель, на 400B параметров, что меньше, чем у DeepSeek)


Итак, пост-выжимка анонса:
— Основной упор на том, что модели гораздо лучше в мультимодальности (понимании изображений, даже нескольких за раз), и что это — лишь начало. У META будет LLAMACon в конце апреля, возможно, ещё больше моделей, включая рассуждающие, покажут там.
— Llama 4 Scout «маленькая» модель на 109 миллиардов параметров, но активны лишь 17 (поэтому будет быстрее, чем условно Gemma 3 27b). Говорят, что можно запускать даже на одной видеокарте с 80 гигабайтами в 4 бита, но это совсем извращение. «Народной» маленькой модели нет.
— Llama 4 Maverick, средняя версия (тоже 17 миллиардов активных параметров, но экспертов больше, потому и весов — больше: 400B) получила Elo-рейтинг 1417 на LMSYS Arena. Это второе место, выше GPT-4.5, но ниже Gemini 2.5 Pro. Однако это без учёта Style Control, и доска ещё не обновилась, поэтому оценим чуть позже. Модель Maverick заточена на запуск на одной H100 DGX-ноде (8 видеокарт)
—  Llama 4 Behemoth, огромная модель на 2 триллиона параметров, всё ещё тренируется; её пока не выпускают, но планируют в будущем. Она использовалась в качестве учителя при обучении маленьких моделей Scout и Maverick, из-за чего они и вышли очень мощными для своего размера. Без Behemoth такое качество бы не вышло (то же применимо к Claude Opus, которой «нет», Gemini Ultra, которой «нет», и GPT-4.5, которая есть, но почему-то люди переживают за её цену и скорость 😀)
— Для обработки изображений поменялся подход, теперь делают early fusion (если не знаете что такое, то и ладно).
— В данные для обучения Llama 4 добавили в 10 раз больше токенов языков, отличных от английского. Всего датасет порядка 30 триллионов токенов (x2 к предыдущему). Всего более 200 языков, 100 из которых имеют не менее 1 миллиарда токенов.
— Behemoth тренируется _всего_ на 32k видеокарт, зато с FP8
— Llama 4 Scout тренировалась с самого начала с 256k токенов контекста, которые потом расширили до 10M. Используют модификацию RoPE со вкраплением инсайдов из этой статьи. 10M токенов позволяют обрабатывать ~20 часов видео.
— Метрики длинного контекста замеряли в том числе на бенчмарке MTOB, «перевод по одной книге» (писал тут, TLDR: язык, который почти не описан, но по нему есть работа лингвистов; книгу дают LLM и просят переводить по ней — важно уметь читать всю книгу), получилось лучше Gemini 2.0 Flash Lite, но видимо хуже просто Flash (раз его не померили)
— Дообучение Бегемота является очень сложной инженерной задачей, META тут хвастается своим новым фреймворком, который существенно ускоряет процесс (аж чуть ли не в 10 раз). Интересно, что если для мелких моделей выкидывали 50% SFT-датасетов, то для бегемота выкинули 95%! и оставили лишь самое качественное. И в такой конфигурации получилось и эффективно (так как тренировочный цикл короче), и лучше (потому что только самое качественное дают модели).
— Mark подтвердил, что рассуждающие модели анонсируют на LLAMACon в конце апреля.
Ждом!

Если у вас аккаунт/VPN правильной страны, то с какой-то из новых моделек можно пообщаться тут: meta.ai (или в инстаграме/вацапе).

26.6k 9 173 24 213

Есть модель-бегемот на 2 триллиона параметров (как, по слухам, была GPT-4)

вот метрики, якобы обходит GPT-4.5 и Gemini 2.0 Pro

Эта модель использовалась для дистилляции в маленькие модели — причем прямо во время предтренировки.

21.5k 3 107 38 209

А лол, они уже на официальном сайте)

https://www.llama.com/

Релиз происходит прямо сейчас, вот один из блогов: https://ai.meta.com/blog/llama-4-multimodal-intelligence/


Ходят слухи (очень непроверенные), что сегодня вечером выйдую первые LLAMA-4, с очень длинным контекстом (10M токенов), и что якобы они уже лежат на HuggingFace.

1. 17B active, 109B total, 16 experts, 10M context length.
2. 17B active, 400B total, 128 experts, 1M context length.

Пока слухам не верим, но от непроверенного источника до проверенного — один слив 🥺

источник

Показано 20 последних публикаций.