Ну что ж! Мы все успели напсиопиться со смертью британского короля, а теперь настала пора разобрать технические псиопы.
Сегодня мы наконец-то поговорим об алгоритме Q*, который официально по слухам разрабатывают в недрах OpenAI. Он настолько будоражит умы технооптимистов, что даже Маск подал в суд на контору пидорасов Альтмана, утверждая, что от мира прячут сильный искусственный интеллект, который разработали благодаря Q*.
Мифов и домыслов об этом алгоритме ещё больше, чем в созвучном движении QAnon, но обо всём по порядку. Для начала давайте обсудим что он из себя представляет. Как это сделать, если алгоритм засекречен? А путём анализа публичных утверждений OpenAI о нём и сопоставления с научными работами по LLM в открытом доступе.
Про Q* известно, что он показывает
«искры сильного искусственного интеллекта» (Sparks of AGI) и, что ему
подвластна школьная математика, которая у больших языковых моделей до сих пор вызывает трудности. Круг поиска сузился не сильно, но этого уже достаточно, чтобы найти в ворохе научных статей что-то интересное!
В 2020-м году, до появления GPT-3 уже существовали языковые модели. Не такие большие, но обладающие теми же базовыми свойствами, что и современные. Разработчики тех моделей открыли, что качество генерируемого текста можно сильно улучшить, если заставить модель сначала
поговорить саму с собой о прочитанном запросе, а только потом генерировать ответ. Другая группа исследователей в 2021-м научила языковую модель сначала
генерировать ход решения уравнения, а лишь затем выдавать ответ, что тоже сказалось в лучшую сторону на качестве ответов. Это уже близко… Но давайте поищем дальше!
В 2022-м году был разработан
алгоритм STaR, который работает следующим образом. Модели задают вопрос, а затем заставляют сгенерировать цепочку мыслей, которая приведёт к ответу. Если ответ правильный, то вопрос, цепочку мыслей и ответ, сохраняют для будущего обучающего датасета, если нет, то модели дают правильный ответ и просят сгенерировать цепочку мыслей ещё раз, уже зная корректный ответ, и тоже отправляют в датасет, а затем обучают на нём. Такой подход позволил языковым моделям проходить тесты на математику и здравый смысл куда лучше, чем если бы была генерация напрямую. Уже теплее, но не останавливаемся.
Наконец пару дней назад вышла научная статья «
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking», в которой описывается модификация предыдущего метода. Основное отличие в том, что он направлен не только на решение задач и ответов на вопросы, но и на раскрытие подтекстов запросов. По сути, модель обучают думать над каждым токеном запроса и лишь затем выдавать ответ. Метод обучения схож с предыдущим методом, если не вдаваться в детали.
Итак! Что же это всё для нас означает? Судя по изученному ходу научной мысли, что тянется с 2020-ого года, секретный алгоритм Q* так или иначе связан с тем, чтобы заставить языковую модель через «внутренний монолог» продумывать решение для самой себя перед ответом. Насколько по итогу алгоритм будет сложным не ясно.
Поможет ли это и как сильно? Сложно сказать. Исследования однозначно показывают, что качество ответов таким образом улучшить можно, но все ещё остается нерешенной проблема размеров контекстного окна, отсутствие внутреннего представления модели мира и ограниченности метода глубокого обучения. А школьная математика? Её, а также более сложную математику неплохо решают системы символьных вычислений на манер Wolfram.
В среде разработки ИИ иногда можно услышать робкие голоса, что надо исследовать не только языковые модели, но и символьный подход, хотя бы для представления знаний, но пока без толку. Думаю, пока дяди с большими карманами не наиграются с языковыми моделями и не перестанут нести чушь про «Scale is all you need», разработка сильного ИИ будет стагнировать.
За сим откланяюсь.
#антифутуризм