Паша AI AI AI


Channel's geo and language: Russia, Russian
Category: Technologies


Про технологии в бизнесе и не только — от первого VP по технологиям МТС Павла Воронина.
✔ Актуальные новости из мира IT
✔ Экспертиза без воды
✔ Советы для бизнеса
✔ Личные кейсы и практика
Честно, открыто, по делу. Подписывайтесь.

Related channels  |  Similar channels

Channel's geo and language
Russia, Russian
Statistics
Posts filter


Оценивать ИИ-модели сложно, но нужно. Вот как это делают сегодня

Новые ИИ-модели появляются регулярно, поэтому их не получается даже сосчитать и протестировать. И все же тестировать их нужно, чтобы получить хотя бы примерное представление о возможностях алгоритмов.


Для этого сегодня существуют бенчмарки, которые способны оценить способности модели в выполнении разных задач. Но у бенчмарков есть свои ограничения и им в помощь появились так называемые чат-бот-арены. Вот как работают эти методы:

В бенчмарках сравнивают модели по качеству выполнения типовых задач

Зачем вообще нужны бенчмарки ИИ-моделей? С помощью них можно сравнить несколько моделей и оценить их эффективность по разным параметрам: точность ответа, скорость работы, работа со сложными задачами и т. д. Важно не ставить знак равенства между бенчмарком и просто тестом. Тест нужен, чтобы оценить работу модели (корректность выполнения задач, отсутствие ошибок и т. д.), а бенчмарк — чтобы сравнить модель с конкурентами.

Для бенчмарков существуют таблицы лидеров, где можно сравнить результаты разных ИИ-моделей.

Типичным примером бенчмарка можно считать ImageNet, который позволяет оценить, как ИИ-модель справляется с классификацией изображений — чем больше изображений «узнает» ИИ, тем лучше.

Есть и другие бенчмарки, заточенные под оценку выполнения одной конкретной задачи. Скажем, тест Glue/SuperGlue позволяет оценить способности ИИ-модели в обработке естественного языка; LibriSpeech тестирует ИИ на распознавание речи; FRMT дает представление о том, насколько хорошо модель справляется с машинным переводом.

Для бенчмарков используют специальные датасеты

Возьмем для примера Glue. Внутри этого бенчмарка 9 тестов, каждый из которых проверяет ИИ-модель на качество работы с разными аспектами естественного языка: классификация предложений, ответ на вопрос, анализ тональности текста и т. д.

Каждый тест — это отдельный датасет, на котором и проверяют ИИ-модель, давая ей задания разной сложности (например, противоречит ли одно предложение другому и т. д.).

По каждому из тестов бенчмарк выставляет оценку по шкале (чаще всего от 0% до 100%), а затем выводит среднее значение.

SuperGlue отличается более сложными задачами: ИИ тестируют на более длинных отрывках текста, от модели требуется более глубокое понимание языка, его логики и т. д.

У бенчмарк-тестов есть свои недостатки

Например, велика вероятность, что тестируемая модель обучалась на тех же датасетах, что присутствует в бенчмарке. В этом случае говорить об объективной оценке производительности ИИ-модели невозможно.

Еще бенчмарки не всегда могут дать реальное представление о том, как ИИ поведет себя в «полевых» условиях. Бенчмарк — это контролируемая среда, где невозможно учесть все варианты того, как будет использоваться модель.

Чтобы справиться с этими недостатками, появились чат-бот-арены
В качестве альтернативы обычным бенчмаркам появилась LMSYS Chatbot Arena. Принцип ее работы следующий: пользователю предлагают задать вопрос двум LLM, названия которых он не знает, а затем выбрать лучший. Пользователь также может выбрать модели, которые он хочет протестировать.

Появление арен стало ответом на усложнение самих языковых моделей, которые теперь могут отвечать не только на закрытые, но и открытые вопросы. Качество ответов на открытые вопросы оценить сложнее, поэтому создатели LMSYS обратились к краудсорсингу. Так разработчик видит оценку производительности своей модели не только со стороны «бездушного» бенчмарка, но и от непосредственных пользователей сервиса. То есть арена не заменяет обычные бенчмарки, а дополняет их.

Для составления таблицы лидеров в арене используется рейтинг Эло — универсальный метод оценки навыков в любой игре, где соревнуются 2 игрока (или 2 команды). Изначально рейтинг Эло использовали в шахматах.


Новый фреймворк экономит до 40% на маршрутизации LLM

Ученые университета Berkeley и компании Anyscale представили опенсорс-фреймворк RouteLLM для экономичной маршрутизации запросов к языковым моделям без ущерба качеству.

Такие большие закрытые модели, как GPT-4, обеспечивают высокое качество ответа, но требуют серьезных вложений, особенно при большом объеме запросов. А малые модели с открытым исходным кодом более экономичны, но не отличаются высоким качеством.

RouteLLM помогает сбалансировать эти аспекты. Он направляет простые запросы к малым моделям, а наиболее сложные и специфичные — к закрытым LLM. Небольшие модели могут эффективно обрабатывать 90–95% запросов, причем вычисления проводятся на локальных устройствах — смартфонах и компьютерах. Это значит, что дорогие модели можно будет использовать всего для 5–10% запросов.

Исследователи обучили 4 маршрутизатора: маршрутизатор ранжирования с взвешенной схожестью (SW), модель матричной факторизации, классификатор на основе BERT и классификатор причинной LLM.

Маршрутизаторы значительно снижают траты на эксплуатацию LLM. Исследователи сравнили RouteLLM с коммерческими маршрутизаторами Martian и Unify AI на MT Bench, используя GPT-4 Turbo в качестве сильной модели и Llama 2 70B или Mixtral 8x7B в качестве слабой. Маршрутизаторы RouteLLM показали схожую производительность, при этом экономия составила 40%.

Кроме того, эффективность разработки оценили на бенчмарках MT Bench, MMLU и GSM8K. По результатам тестов, маршрутизаторы на MT Bench показали 95% производительности GPT-4, при всего 26% лимита запросов к GPT-4. Тем временем затраты сократились на 48%, по сравнению с базовым уровнем.


В ключевых датасетах стало меньше информации

Исследователи MIT проанализировали несколько тысяч веб-доменов, информация из которых содержится в основных дата-сетах для обучения ИИ-моделей.
Выяснилось, что за прошедший год значительное количество владельцев этих доменов закрыли доступ к информации для разработчиков нейросетей.

Например, в случае с так называемыми «высококачественными» источниками (например, СМИ или ресурсы с научными публикациями), число тех, кто запретил собирать информацию для обучения ИИ, достигло 30%.

Понятно, что та информация, которая уже есть в датасетах, не исчезнет. Но это означает, что актуальную информацию из этих источников получить будет нельзя. Если, конечно, разработчики нейросетей не готовы нарушать требования владельцев информации.

Авторов, которые охраняют право на свой контент любыми доступными способами, можно понять. Обратной стороной этого желания является тот факт, что датасетами пользуются не только компании с многомиллиардными бюджетами, но и молодые стартапы, а также научные сотрудники. Им, вероятно, станет гораздо сложнее получить доступ к качественной информации, чтобы разработать свою ИИ-модель.


В Сингапуре придумали, как зарядить телефон без зарядки

Исследователи Национального института Сингапура (NUS) вместе с коллегами из Японии и Италии рассказывают о новой разработке — модуле, который использует радиочастотные сигналы для получения постоянного тока. 

Модуль может захватить сигнал от работы Wi-Fi-роутера, Bluetooth-модуля или 5G-антенны. Главная инновация устройства, разработанного в NUS — его способность использовать даже очень слабые сигналы, от -20 дБм и меньше. 

В ходе тестов исследователям удалось заставить работать обычный температурный датчик, использовав сигнал мощностью всего -27 дБм — и никаких аккумуляторов и батареек. 

Просто представьте, что в будущем у вас будет смартфон, который не нужно будет раз в несколько часов ставить на зарядку — специальный модуль будет постоянно поддерживать его в рабочем состоянии (если, конечно, поблизости будет Wi-Fi). 

Беспроводная зарядки устройств с помощью модуля — одна из главных целей исследователей.  Следом за ней идет создание умных автономных систем, которые для питания будут использовать только разработку NUS.


Какими высокими технологиями запомнится Олимпиада в Париже

Я уже рассказывал про технологии для спорта на примере Евро-2024. Сейчас идет парижская Олимпиада, где также реализовали несколько примечательных решений:

— Для трансляций используют нейросеть Gemini от Google: ИИ будет рассказывать зрителями интересные факты про соревнования. Также благодаря сервисам Google в эфире показывают иммерсивные 3D-карты с основными местами, где проходят соревнования. В трансляциях американских каналов ИИ используют для пересказа главных событий за день

— Нейросети также самостоятельно отбирают хайлайты — самые зрелищные моменты соревнований

— Японские атлеты выступают на Олимпиаде в специальных костюмах, которые блокируют инфракрасные камеры (тепловизоры). Нужны они не для достижения спортивных рекордов, а для спокойствия спортсменов: ведь с помощью тепловизоров можно увидеть, что у спортсмена под формой. В 2020 году спортсмены, выступавшие на Олимпиаде в Токио, жаловались, что их «инфракрасные» фото широко обсуждались в соцсетях

— Организаторы Олимпиады запустили систему на основе ИИ, которая мониторит соцсети и помечает оскорбительный контент с упоминанием спортсменов. Информацию передают владельцам платформ, которые должны принять меры

— На Олимпиаде активно используются цифровые двойники, с помощью которых отслеживают энергопотребление на спортивных объектах

Ранее технологичные решения затрагивали только участников соревнований. Сейчас технологии улучшают и «зрительский» компонент соревнований — делают их более зрелищными даже для тех, кто не считает себя спортивным фанатом.

Еще новейшие разработки помогают обеспечить психологическое спокойствие спортсменов, чтобы они могли сосредоточиться только на соревнованиях.


Что нужно знать о самой мощной версии Llama

Meta* выпустила самую большую версию своей языковой модели с открытым кодом — Llama 3.1 с 405 млрд параметров. Ранее пользователям стали доступны версии Llama на 7 млрд параметров и 80 млрд параметров.

Главные особенности новой модели:

— В Meta называют Llama 3.1 первой опенсорсной моделью, которая может сравниться по производительности с топовыми пропиетарными LLM от OpenAI, Google и других;

— Специально для Llama 3.1 Meta увеличили объем информации, на которой обучалась LLM, и повысили ее качество (например, использовали актуальные данные 2024 года и не только на английском языке);

— Для обучения языковой модели потребовалось 16 тыс. GPU H100 от Nvidia. Это значит, что стоимость обучения LLM составляла как минимум несколько сотен миллионов долларов;

— Файнтюнинг модели производили, в том числе с помощью синтетической информации;

— Llama 3.1 обладает увеличенным контекстным окном (объем информации, который может запоминать модель) на 128 тыс. токенов. Это значит, что модель может работать приблизительно с 50 страницами текста, помещенными в один промпт. У последней версии GPT — 4o — такое же контекстное окно;

— Meta утверждают, что (несмотря на свой размер) Llama 3.1 обойдется разработчикам вдвое дешевле при запуске на собственной инфраструктуре, чем закрытые аналоги. Компания сотрудничает с десятками компаний, которые должны представить кастомные версии LLM;

— Llama 3.1 не мультимодальная и понимает только текстовую информацию. Создание версии, которая будет понимать аудио, видео и изображения, идет полным ходом, заверяют разработчики;

— Llama 3.1 доступна для загрузки, с моделью также могут работать пользователи облачных сервисов AWS, Azure, Google Cloud. Обычные пользователи могут оценить возможности языковой модели через ИИ-помощника MetaAI, интегрированного в WhatsApp**, Instagram** и Messenger**. Скоро помощник появится и в VR-гарнитуре Quest.


*Организация, запрещенная на территории РФ
*Входят в Meta — организацию, запрещенную на территории РФ


Устройство, передающее информацию на сверхскоростях

Над таким (пока безымянным) устройством совместно работают японский оператор связи DoCoMo, телеком-гигант NTT и производители электроники NEC и Fujitsu. Оно способно передавать информацию на рекордной скорости 100 Гбит/с в субтерагерцовом диапазоне 100 Ггц и 300 Ггц — это приблизительно в 20 раз быстрее, чем может обеспечить 5G.

Использование субтерагерцового диапазона (90 Ггц–300 Ггц) позволяет передавать информацию с очень высокой скоростью и минимальными задержками.

Такая скорость позволяет, например, использовать голографическую связь, стримить видео в качестве Ultra HD и обеспечивать управление беспилотными средствами передвижения в реальном времени. Некоторые считают, что 6G даст жизнь не просто следующему поколению умных устройств, которые смогут обмениваться большим объемом информации, но и целых умных городов.

DoCoMo отвечал в проекте за разработку беспроводного оборудования для передачи данных на высокой скорости; NTT — за разработку непосредственно устройства; NEC — специальной антенны, состоящей из более чем 100 элементов; Fujitsu — обеспечил высокую энергоэффективность системы.

Большая проблема нового стандарта связи в том, что для него понадобится с нуля создавать устройства, которые смогут его поддерживать. Более того, на данный момент не определены даже необходимые технические характеристики будущих устройств. Соответственно, коммерциализация стандарта 6G может занять продолжительное время (особенно учитывая, что даже 5G пока так полностью и не заменил предыдущее поколение).

Появление коммерческих 6G-устройств ожидается не раньше 2030 года.

Участники нынешнего эксперимента, собираются и дальше вместе работать над стандартизацией новой технологии. Компании исследуют возможности устройств, использующих субтерагерцовый диапазон с 2021 года.

Кроме Японии, активно экспериментируют с 6G в США, Южной Корее, Германии и других странах. Китай в начале этого года объявил о запуске первого в мире 6G-спутника. В России запуск коммерческих 6G-сетей планируется не раньше 2035 года.


Мячи с датчиками, барокамеры и умные кольца: какие технологии использовали на прошедшем Евро-2024

В прошедшее воскресенье победой Испании завершился Евро-2024. Оценивать качество игры участников — не профиль этого канала, зато можно вспомнить, какими передовыми технологиями отличился прошедший турнир.

Умный мяч
Официальный мяч чемпионата — Adidas Fusballliebe — впервые в истории чемпионата стал умным, благодаря технологии Connected Ball. Спортивный снаряд в реальном времени передает информацию о своем перемещении и о касаниях (данные передаются с частотой 500 раз в секунду). Это позволило арбитрам в дополнение к информации с многочисленных камер точно и быстро принимать решения, связанные, например, с офсайдами.

Именно из-за датчиков, установленных на мяче, команде Бельгии не засчитали один из голов.

Камеры
Их количество и сферы применения вышли на новый уровень. Например, только на вратарскую зону было направлено семь камер. Как рассказывали организаторы, помимо всего прочего камеры отслеживали 29 точек на теле каждого игрока в каждой команде. Это помогает арбитрам выносить более точные решения в спорных ситуациях.

Технологический хаб
Все данные, полученные с многочисленных датчиков и камер, установленных на стадионах, отправляются в FTECH Hub. Он распределяет информацию по соответствующим приложениям — например, для того же контроля офсайдов или на портал анализа спортивных результатов

Носимые устройства
Игроки сборных использовали различные wearable-девайсы для мониторинга состояния здоровья. Так, сборная Англии носила умные кольца, которые позволяли следить за правильным сном. По словам тренера команды, Гарета Саутгейта, именно сон и правильное питание позволяют быстро восстановиться после матча.

Саутгейт уточнил, что сам он не следит за своими игроками через эти кольца, но такие девайсы помогают им самостоятельно отслеживать свое состояние.

Знаменитый португалец Криштиану Роналду и вовсе является амбассадором умного браслета Whoop. Браслет отслеживает сон и биометрические показатели и по словам Роналду изменил его жизнь. Но браслет все же не помог Роналду забить ни одного гола на чемпионате.

Также игроки на Евро-2024 носили уже традиционные жилеты, которые отслеживают расстояние, которое спортсмен пробежал за матч. Они позволяют тренеру корректировать тренировки команды.

Технологии для восстановления игроков Высокие технологии на Евро использовались не только во время матчей, но и после.

Так, победители из испанской сборной использовали гипербарические барокамеры и криогенные камеры. Первые под высоким давлением насыщают тело кислородом, а вторые — за счет низких температур снижают утомляемость и улучшают кровообращение (все тот же Роналду уже несколько лет пользуется своей личной криокамерой).


Новый подход к дополненной реальности: ИИ-голография для миниатюрных AR-очков

Ученые из Стэнфордского университета представили прототип AR-гарнитуры размером с обычные солнцезащитные очки. Устройство работает на базе голографической технологии визуализации, которая обеспечивает реалистичную полноцветную 3D-картинку с разной глубиной.

Зачастую AR-cистемы используют сложные оптические системы — пользователь фактически не видит реальный мир через линзы гарнитуры. Вместо этого на его глаза проецируется увеличенное видео с камер на очках и наложенные на него компьютерные изображения. Это своего рода виртуальная реальность, а не настоящая дополненная реальность, считают исследователи.

Большинство AR-систем громоздки, поскольку в них используются увеличительные линзы между глазом пользователя и проекционными экранами. Помимо громоздкости, такие системы могут снизить комфорт от использования гарнитуры — некоторые пользователи чувствуют головокружение, усталость глаз и тошноту.

Технология голографии устраняет эти проблемы. Для улучшения глубины изображений ученые использовали искусственный интеллект. Затем они смогли проецировать компьютерные голограммы на линзы очков, не полагаясь на громоздкую дополнительную оптику.

Маленькие голографические дисплеи, которые находятся у висков пользователя, проецируют компьютерные изображения через вырезанные в очках узоры, которые отражают свет внутри линзы. Пользователь может одновременно видеть как реальный мир, так и полноцветные компьютерные 3D-изображения. Эффект 3D усиливается, поскольку он создается как стереоскопически, как при традиционном 3D-изображении, так и голографически.

У лабораторного прототипа есть один существенный недостаток: он обеспечивает поле зрения всего в 11,7°. Для сравнения, у Magic Leap 2 FOV составляет 70°, а у Microsoft HoloLens 2 — 52°. При этом, по словам разработчиков, это первое настолько компактное AR-устройство с высоким качеством изображения.

Разработка, по словам ученых, может изменить сферу развлечений, образования, медицины, авиамеханики. Например, хирург может использовать очки для планирования тонкой и сложной операции, а авиамеханик — чтобы научиться работать с реактивным двигателем.

Конкуренция на рынке AR-систем набирает обороты — компании стремятся сделать устройства миниатюрными и удобными. IT-гигант Meta* планирует выпустить потребительскую версию AR-очков Ray-Ban в 2027 году. Китайская компания Rokid недавно представила легкие AR-очки весом менее 80 граммов. Один из самых продаваемых брендов на рынке — XReal — также предлагает легкие очки, при этом оснащенные дисплеями с высоким разрешением.

*Организация, запрещенная на территории РФ


Та, которую можно не называть: инженеры Apple тестируют отказ Siri от триггера «Hey, Siri»

На июньской презентации Apple сильно прокачала Siri с помощью AI. В голосовой ассистент добавили новый набор функций Apple Intelligence (AI). Это сделает Siri умнее — теперь с ней можно будет общаться, как с человеком, как голосом, так и текстом. Она научилась выполнять больше действий в приложениях по поручению пользователя. Например, она сможет анализировать действия пользователя на экране и заполнять онлайн-формы на основе личных данных, сохраненных в смартфоне. Обновления станут доступны осенью.

Но не все возможности AI в голосовых помощниках, которые представили в Apple, вошли в этот релиз. За несколько месяцев до презентации разработчики компании опубликовали интересное исследование о способностях Siri распознавать речь. Они попробовали использовать для этих целей мультимодальную нейросеть. Она работает одновременно с акустической информацией, текстовыми расшифровками запросов и сигналами ASR-декодера.

Исследователи научили Siri реагировать на пользователя без известной фразы-триггера «Hey, Siri». Отказаться от триггера — значит научить голосового помощника отличать речь, направленную на iPhone, от фоновой речи во время общения с голосовым помощником. Вместе с этим ученые улучшили показатель равного коэффициента ошибок EER (Equal Error Rate, или EER) на 40%. Это значит, что LLM-модель с Siri стала точнее идентифицировать личность и его запросы.

Добиться таких результатов помогла в том числе ASR-система Whisper от OpenAI, а также контрастивный лингво-аудио предварительный тренинг (Contrastive Language-Audio Pretraining, или CLAP). Например, при удачных тестах записей голоса самый низкий EER Whisper составил 10,98% (ранний лучший результат — 12,15%), у EER Clap — 19,13% (12,15% ранее).

Ученые обучали большую языковую модель на акустических данных (речь и фоновый шум) для поиска паттернов, которые могут указать на желание пользователя получить помощь. В тренировочный датасет включили 40 тыс. целенаправленных высказываний (где люди просили ассистента о чем-то конкретном) и 40 тыс. более абстрактных фраз вроде «спасибо за помощь». Общая длительность записей — примерно 126 часов.

Также в набор данных для обучения добавили 3 млн транскрибированных с помощью технологии ASR речевых сигналов Near-Field (пойманных на небольшом расстоянии).

При построении новой модели использовали GPT-2 от OpenAI, потому что она относительно легкая и потенциально могла бы работать на смартфонах. Еще один плюс GPT-2 — она может быть адаптирована к новым задачам, связанными с генерацией текстов, за счет предоставления обучаемых префиксов. При префиксной настройке в LLM вводят и обучают небольшое количество специфичных векторов или «префиксов», специфичных для задачи, чтобы настроить LLM под целевую задачу. Префиксная настройка также сохраняет параметры предварительно обученной LLM и обучает только небольшую часть данных. Обычно способ обучения на основе префиксов используют, когда данных мало. Например, с его помощью обучали GPT-3.
Отказ от фразы-триггера сделает общение с ИИ-помощником более удобным, а пользовательский опыт — бесшовным. Для тех же, кто любит обращаться к устройствам по-человечески, оставили функцию Vocal Shortcuts. С помощью нее в iOS 18 можно будет вызывать Siri под любым именем или ключевым словом.

Но расширение возможностей  Siri все же может усилить опасения общественности по поводу постоянного прослушивания их устройств. На Reddit уже обсуждают, что ситуация с безопасностью личных данных станет хуже (а она и так оставляла желать лучшего).


Черное зеркало в действии: какие сервисы запишут все ваши действия на компьютере

Функция Recall — один из самых громких и противоречивых релизов майской презы Microsoft, которую компания провела на конференции Microsoft Build 2024. Инструмент, который записывает все действия пользователя, вызвал скандал среди журналистов и экспертов по кибербезопасности — последние даже стали давать рекомендации о том, как нужно защищаться от Recall. В итоге Microsoft не стала делать эту функцию включенной по умолчанию, а затем и вовсе отложила запланированный выход новой фичи на 18 июня компания отложила на несколько недель для тестирования среди участников программы Windows Insider.

Напомню, как работает эта фича. Она отслеживает и фиксирует все действия пользователя на компьютере с помощью снимков, работает в приложениях, онлайн-беседах и при просмотре сайтов. Все действия Recall отображает на временной шкале (похожа на Timeline из Windows 10), для поиска есть отдельное поле вверху.

Официально Recall работает не на всех устройствах с Windows, а только на тех, где установлены нейронные процессоры на основе ИИ. Среди них — ИИ-ноутбуки Copilot Plus с Arm-чипами Qualcomm Snapdragon X Elite (они уже в продаже, минимальная цена — $999). Хотя вероятно, эти требования — скорее рекомендация, в соцсетях пишут, что смогли запустить Recall и на неспециализированном железе

Для запуска Recall на жестком диске нужно минимум 256 ГБ, при этом 50 ГБ должны быть свободны. По умолчанию на устройстве с 256 ГБ приложение задействует 25 ГБ — снимки можно хранить примерно три месяца.

Решение от Microsoft — не единственное в своем роде. В апреле группа разработчиков из Китая yuka-friends представила open-source приложение для Windows, которое записывает и ищет все, что когда-либо происходило на экране пользователя. Вдохновением послужило приложение на Mac от Rewind (о нем ниже) и третья серия сериала-антологии «Черное зеркало» — «История всей твоей жизни». По его сюжету в людей в альтернативной реальности вживлен чип, который записывает все, что человек делает, видит или слышит. Они могут воспроизводить воспоминания и на отдельном экране.

Windrecorder работает на основе FFmpeg, набора сводных библиотек с открытым исходным кодом, которые позволяют записывать и передавать аудио- и видеозаписи в различных форматах. Для обработки данных разработчики использовали Python.

Рекордер записывает все происходящее на экране 15-минутными видео, затем — индексирует их с помощью API OCR от Windows (позволяет анализировать изображения). Все данные собираются в локальном интерфейсе, где пользователь может перематывать назад или искать, например, по заголовкам окон, описаниям изображений и ключевым словам. Проект работает полностью локально, без подключения к интернету.

Прообраз этих двух сервисов, приложение Rewind, создал одноименный стартап в ноябре 2022 года. Работает Rewind только на MacOS и записывает все, что происходит на устройстве за день. Сервис определяет, какое приложение сейчас открыто и как долго его используют. Информацию Rewind фиксирует с помощью автоматического распознавания речи и оптического распознавания символов. Все данные инструмент хранит только на устройстве — он сжимает их до 3,7 тыс. раз, чтобы они не занимали много места.

Записи можно приостанавливать или удалять, а также выбирать, какие приложения не должны записываться. Есть и режим «инкогнито» — при нем информация не фиксируется.

Но комментаторов всех уровней — от обычных пользователей до Илона Маска — пугают эти инструменты, уж слишком много они записывают. Действительно ли пользователям так важно все запомнить?  


Microsoft представил свою самую маленькую модель

Компания представила компактную ИИ-модель Phi-3 Mini с 3,8 млрд параметров. Она уже доступна в Azure, Hugging Face и Ollama — у модели есть свободная MIT-лицензия.

По словам разработчиков, при создании модели они вдохновлялись детскими книгами, в которых сложные вещи объясняют простыми словами.

Вместо обучения модели на необработанных веб-данных исследователи Microsoft решили использовать подготовленную и более качественную информацию. Они создали датасет из 3000 слов, включавший равное количество существительных, глаголов и прилагательных. Затем большая языковая модель сгенерировала миллионы детских рассказов, используя слова из списка. Полученный набор данных назвали TinyStories, его применяли для обучения совсем маленьких моделей с около 10 млн параметров.

Затем исследователи тщательно отобрали открытые данные из интернета, собрали в единый датасет и использовали похожую схему для генерации данных. Чтобы добиться высокого качества, они неоднократно фильтровали полученный контент, прежде чем отправить его обратно в LLM для дальнейшего синтеза. За несколько недель ученые накопили достаточно большой массив синтетических данных, чтобы обучить более способную модель.

Phi-3 Mini стала первым релизом в линейке компактных моделей Microsoft. В будущем компания выпустит Phi-3 Small и Phi-3 Medium с 7 и 14 млрд параметров соответственно.

Разработчики уверены, что Phi-3 Mini по своим возможностям сопоставима с некоторыми большими моделями, например, GPT-3.5. При этом инженеры согласны: по сложности ответов и широте охвата Phi-3 уступает передовым LLM, например, GPT-4.

Phi-3 — это улучшенная версия предыдущих итераций модели. Phi-1 заточена на кодирование, Phi-2 обучили рассуждать, а Phi-3 еще лучше справляется с написанием кода и с рассуждениями.

Некоторые техкомпании разрабатывают малые LM, но, как правило, они специализируются на решении узких задач. Например, модели Gemma 2B и 7B от Anthropic анализируют научные статьи с графиками и быстро обобщают их, а модель Llama 3 от Meta* можно использовать при написании кода и создания чат-ботов. Microsoft же заявляет, что Phi-3 — универсальное решение, подходящее для разных задач.

Ранее СМИ сообщили, что Microsoft формирует команду, специализированную на компактных моделях ИИ. Вместе с Phi компания также разработала модель Orca-Math для решения математических задач.
*Организация, запрещенная на территории РФ


В Китае пользователи играют в «технологичные прятки» с помощью местного аналога Google Maps

Игра в «кошки-мышки» (так ее обычно называют в Китае) в прошлом году стала вирусной. Еженедельно в ней участвовали тысячи людей. Видеоролики с игроками, которые залезали на деревья и прятались в канализации, набирали в соцсетях миллионы просмотров.

Для игры нужен смартфон, приложение с геолокацией и неоновый браслет — он отличит участников от случайных прохожих. Правила простые: несколько десятков человек собираются в одном месте, например, в парке, и делятся на две команды. Примерно 90% становятся «мышками», остальные — «кошками».
После старта «мышкам» дается пять минут, чтобы спрятаться. Задача «кошек» — найти игроков из другой команды и дотронуться до них. Пойманные «мыши» меняют команду и сами становятся «хищниками». Игра продолжается до тех пор, пока всех не отловят.

Главная фишка — в том, что участники делятся местоположением в реальном времени. Просто спрятаться в укромном месте у «мышек» не получится. Но и «кошек» они видят на карте, так что могут вовремя сменить убежище.  
В играх обычно используется приложение Amap от Alibaba. Google в Китае заблокирован, в итоге Amap стал одним из самых популярных картографических сервисов, ежедневно в него заходит более 100 млн человек.
Amap как минимум с 2017 года поддерживает обмен местоположением в режиме реального времени. Изначально опция была доступна только небольшим группам, но потом приложение расширило их размер до 100 человек. Компания ориентировала эту функцию на членов семьи и туристов-походников. Она также сотрудничала с несколькими китайскими студиями для разработки игр с отслеживанием геолокации. Ни одна из них не преуспела.
А вот простые «кошки-мышки» залетели, причем абсолютно случайно. Сначала игроки использовали WeChat, но постепенно перешли на Amap как на более удобную альтернативу и, по сути, сделали его приложением по умолчанию.

Дочка Alibaba о своей внезапной популярности знает и даже добавила несколько функций для игроков. В Amap можно создать группу специально для «кошек-мышек», где будет больше 100 человек. А еще приложение может распределять роли, устанавливать индивидуальные правила и автоматизировать некоторые процессы, включая смену аватаров после поимки «мышей». Хотя игрокам часто хватает простого шеринга геолокации.
У Amap много других функций, не связанных с игрой. Alibaba развивает его как суперапп и добавляет туда те сервисы, в которых можно как-то использовать карты и геолокацию. В том числе с его помощью можно вызывать помощь на дорогу, если случилась авария, или отслеживать беговые тренировки.


Обмен идеями — двигатель прогресса

Как сказал Стив Джобс: «Источник инноваций — люди, которые сталкиваются в коридорах или звонят друг другу ночью с новой идеей». Конференция — отличный способ собрать таких людей вместе и раскачать ИТ-комьюнити.

Сегодня в Санкт-Петербурге стартовала SaintHighload++ — IT-конференция для разработчиков высоконагруженных систем. МТС в этом году выступает генеральным партнёром конференции. У нас есть True Tech Day, но нам так же важно поддерживать ивенты коллег, чтобы развивать ИТ-сообщество.


Провели турнир по алгоритмическому программированию

В турнире «Ночная лига» участвовали школьники 9-11 классов. Участники прошли 2 этапа онлайн-отбора и 4 очных этапа, причем очные проходили по вечерам в наших офисах и на базе кампуса ведущего технического вуза страны.

Четыре месяца, более 1500 человек на онлайн-отборе и 150 участников. Интересные задачи, лекции, экскурсии и, наконец, грандиозный финал.

Десятка победителей забрала в качестве призов ноутбуки, остальные получили наушники, клавиатуры и смарт-часы. Поздравляем ребят!


Если бы я начинал карьеру сегодня…

Я бы точно занялся искусственным интеллектом. И не просто стал бы ИТ-специалистом, с которым, возможно, будет конкурировать ИИ, а именно исследователем ИИ, создающим мультимодальные большие языковые модели, например.

А учиться бы пошел на программу, которую МТС этой осенью запускает вместе с НИУ ВШЭ. Там бы я получил и знания для научных исследований в сфере ИИ, и навыки предпринимателя. А дальше — все двери открыты - в науку, в свой стартап или крупную корпорацию (в том числе и в МТС!)

Детали программы здесь, а заявку можно оставить здесь с 19 до 25 июля. Ну и не забудьте подписаться на чат для абитуриентов — там есть новости и полезные советы по поступлению.


Жидкие нейросети. Что? Да!

ИИ-моделей становится все больше, они становятся все сложнее (читай, требовательнее к вычислительным ресурсам), поэтому исследователи ищут самые разные способы их оптимизации. Одним из таких способов может стать новый тип нейросетей — жидкие нейросети.

Что это такое
Первые упоминания жидких нейросетей (LNN) появились еще в 2018 году, но ключевым моментом стал выход работы Liquid Time-Constant Networks в 2020 году.
Ее подготовили ученые из MIT, Венского технического университета и австрийского Института науки и технологий.

Авторы определяют ключевое отличие LNN как способность обучаться в процессе работы, а не только в ходе изначальной тренировки, к этой особенности и отсылает слово «жидкий» в названии.

Чем они отличаются от других нейросетей
LNN использует текучую постоянную времени (Liquid Time Constant — LTC). LTC позволяет нейросети в зависимости от задачи с разной скоростью обрабатывать информацию. Более медленная обработка дает нейросети больше времени на «размышления», а это должно привести к более точному и детальному ответу.

Использование LTC позволяет нейросети адаптироваться к новой задаче, при этом обладая меньшим количеством нейронов, чем другие типы нейросетей. Это значит, что для работы LNN потребуется меньше вычислительных мощностей.

Один из авторов работы — Рамин Хасани — @hession520/liquid-neural-nets-lnns-32ce1bfb045a%26amp;sa%3DD%26amp;source%3Deditors%26amp;ust%3D1718631108245211%26amp;usg%3DAOvVaw1ggxrXwssKFpWmOyjUGlTY&sa=D&source=docs&ust=1718631108264916&usg=AOvVaw268RKm0ENlnk6bpzE6egUZ' rel='nofollow'>рассказывал@hession520/liquid-neural-nets-lnns-32ce1bfb045a%26amp;sa%3DD%26amp;source%3Deditors%26amp;ust%3D1718631108245211%26amp;usg%3DAOvVaw1ggxrXwssKFpWmOyjUGlTY&sa=D&source=docs&ust=1718631108264916&usg=AOvVaw268RKm0ENlnk6bpzE6egUZ' rel='nofollow'>, что при разработке концепции LNN вдохновлялся нематодами (круглыми червями). Нематоды, имея чуть больше 300 нейронов (для сравнения у кошек — 300 млн нейронов), способны выполнять сложные действия. Хасани хотел, чтобы у LNN было мало нейронов, но при этом они бы были сложнее («богаче»), чем у других типов нейросетей. Хасани также является основателем стартапа Liquid AI, который специализируется на разработке LNN.

Плюсы LNN
Помимо меньшей требовательности к ресурсам, LNN обладают еще одним важным качеством — из-за своего относительно небольшого размера, такие нейросети позволяют лучше понимать, как именно они принимают те или иные решения. Это может быть важно при использовании в уже упоминавшихся беспилотных автомобилях.

Огромные современные нейросети, которые обладают десятками миллиардов параметров, часто называют «черными ящиками», так как даже сами разработчики не понимают, как они работают. У LNN может быть всего несколько десятков тысяч параметров.

Минусы LNN
К минусам LNN можно отнести возможность обучения только на последовательной, а не на статичной информации — например, на видео, но не на изображении. Это может усложнить процесс работы с моделью.

Также LNN подвержены и распространенной среди нейросетей проблеме исчезающего градиента, при которой у нейросети падает эффективность обучения, так как она перестает реагировать на небольшие ошибки в ходе процесса.

Где можно использовать LNN
Несмотря на относительную новизну LNN, количество потенциальных способов использования таких нейросетей постоянно растет. Благодаря своим особенностям LNN в теории могут использоваться в таких разных областях, как беспилотные автомобили, роботы, тренировка спортсменов и реабилитация после травм.

В MIT уже провели эксперимент по использованию LNN в дронах. Нейросеть позволяет устройству самостоятельно перемещаться в неизвестном помещении.  


В США создали самый большой 3D-принтер в мире — он может напечатать дом за 80 часов

Университет штата Мэн в апреле представил Factory of the Future 1.0 (FoF 1.0, «Фабрика будущего») — 3D-принтер для печати на термопластичных полимерах. Он может создавать объекты длиной в 30 метров, 10 метров — в ширину, и 5,5 метра — в высоту, потребляя до 226 кг сырья в час.

Принтер поддерживает разные способы производства: аддитивный (когда материал добавляется в форму), субтрактивный (материал удаляется с заготовки), автоматизированная укладка ленты (пластик находится в виде лент в ролике принтера) и печать роботизированной рукой.

С помощью «Фабрики будущего» Университет Мэн побил свой собственный рекорд, занесенный в книгу рекордов Гиннеса. В 2019 году его инженеры создали MasterPrint, на тот момент самый крупный в мире полимерный 3D-принтер, который из перерабатываемых материалов (из древесного волокна и материалов на основе биосмолы) напечатал дом площадью 56 м². Новый принтер это делает в четыре раза быстрее — такой же дом он может напечатать за 80 часов. Оба принтера находятся в одном помещении, в Центре перспективных конструкций и композитов Университета, а также могут работать одновременно.

Большинство материалов, с которыми работает «Фабрика будущего», пригодны для вторичной переработки. Например, 3D-принтер может печатать объекты из древесных отходов. Для Мэн это особенно актуально, это один из самых зеленых штатов США (на севере и северо-востоке растут ель и пихта, на юго-западе — сосна и тсуга).

Технологию биопечати могут использовать для расширения другого проекта Университета — BioHome3D. Его суть — в увеличении объема доступного жилья в США путем печати на 3D-принтерах домов из биоматериалов. По оценке директора по развитию компании MaineHousing Марка Визендангера, к 2030 году в штате Мэн нужно будет построить около 80 тыс. жилых домов.

Финансирование для создания 3D-принтера Университет штата Мэн получил от Инженерного корпуса армии, Министерства обороны и Министерства энергетики США. По задумке «Фабрика будущего» может помочь не только при строительстве домов, но также и мостов, морских судов и оборудования для использования энергии воды или ветра.

В России тоже есть интересные проекты, связанные с 3D-печатью в строительстве. В Татарстане сейчас «печатают» целый поселок под названием «Квадрум» из 34 домов, и в первые дома уже заехали жильцы. В строительстве используют принтер S-300 производства российской компании «АМТ-Спецавиа».

Такой принтер может напечатать бетонной смесь здание высотой до 2 этажей и площадью до 180 кв.м., печатается дом за 21 день — впрочем, после печати еще нужно, например, вставлять окна. Но служить такой дом должен от 80 до 120 лет.

В самой компании отмечают: тот факт, что с помощью 3D-принтеров строят уже не отдельные дома, а поселки, означает, что в России 3D-печать в строительстве переходит из разряда экспериментальной технологии к массовой.

Выглядят дома слегка футуристично, но жильцы не жалуются — говорят, что летом в таком доме прохладно, а зимой тепло.


ИИ-агенты: от ассистентов к автономным помощникам

В 2023 году эксперты объявили, что следующий этап развития ИИ — автономные агенты. Об этом, к примеру, говорят Билл Гейтс и CEO Google DeepMind Демис Хассабис.

Сейчас мы живем в эпоху ИИ-ассистентов. Они выполняют конкретные действия: пишут выжимки из текстов, генерируют изображения и так далее. Но люди вынуждены проверять их результаты, чтобы ИИ не нагаллюцинировал.

ИИ-агенты устроены иначе. Они автономно работают с задачами, которые требуют множества шагов. К примеру, автономные автомобили с ними смогут сами находить себе сервис и покупать в интернете нужные запчасти. Агенты-кодеры смогут создавать по промпту целые приложения, а агенты-маркетологи — запускать рекламные кампании со всеми креативами и закупкой рекламы. Армии автономных ИИ-роботов смогут работать на фабриках и заводах. А контролировать их будет агент-дирижер, способный отслеживать действия и перенаправлять процессы в случае чрезвычайных ситуаций.  

В Accenture считают, что в перспективе ближайших 10 лет появятся экосистемы агентов, где десятки и сотни ИИ будут работать на разных задачах компаний и взаимодействовать друг с другом, будто рабочие на большой фабрике.

Впрочем, сегодня самостоятельный ИИ — скорее цель, чем реальность. Что-то похожее запускают и сегодня, но пока такие решения слишком часто ошибаются.

В 2023 году появились несколько агентов на базе ChatGPT от независимых разработчиков — AutoGPT, AgentGPT, VimGPT. Они подключаются к разным источникам данных, к приложениям и выполняют несложные цепочки действий — например, могут оформить подписку на интернет-журнал или разослать приглашение на праздник. Но такие решения совершают кучу ошибок, например, приводят неверные вычисления или генерируют неработающий код, а часто просто не могут найти способ справиться с задачей без помощи пользователя. Встроить их в процессы с пользой получилось мало у кого — поэтому они не взлетели.

Более перспективно выглядят недавние релизы. Агент для пользовательских задач MultiOn может по промпту заказать такси или доставку еды, или даже сдать электронный экзамен на права. Правда, он пока не умеет анализировать изображения, а на кнопку «далее» на странице с тестом может нажать только после подсказки пользователя.

ИИ-кодер Devin от Cognition AI может по текстовому промпту писать целые приложения, проверять код и разворачивать их, а также устанавливать и обучать модели ИИ. Правда, даже по внутренним тестам он справляется лишь с 13,8% задач — больше, чем любые другие ИИ, но несравнимо меньше, чем опытные программисты.

Для агентности современному ИИ не хватает долгосрочной и краткосрочной памяти, способностей к самоанализу. Мнения расходятся — достаточно ли для реальной агентности развития современных технологий (возможно, ее поможет достичь уже GPT-5) или нужен рывок и принципиально новые решения.

В целом предстоит еще многое понять о будущем агентов. Непонятно, насколько универсальными будут пользовательские агенты — придется ли нам использовать десять таких решений для разных задач или все будет собрано в одном. Неясно, как будет обеспечиваться защита наших данных — ведь агентам придется дать доступ ко всем приложениям. Пользовательские агенты потребуют доступ ко всем личным данным и банковским счетам, а корпоративные — к огромным массивам внутренней информации и коммерческой тайне. А значит, не смогут обойтись без принципиально новых протоколов безопасности, которых тоже пока не видно даже на горизонте.



Стартапы оцифровывают запахи: теперь разрабатывать новые ароматы можно с помощью «ИИ-носов»


ИИ — горячая тема практически для всех отраслей, парфюмерной индустрии это тоже касается. В нейросети инвестируют и крупнейшие производители (Givaudan, Firmenich), и стартапы. Основная задача — оцифровать запахи, чтобы изменить подход к разработке новых ароматов.

Одна из компаний в авангарде этого движения — Osmo AI. Стартап уже получил $60 млн инвестиций, в него, в том числе вложился фонд Google Ventures. CEO Алекс Уилтшко, кстати, раньше работал научным сотрудником в Google Research. Osmo можно считать продолжением исследований Google.

Компания разработала метод оцифровки обоняния, который включает в себя три ключевых этапа: чтение, картирование и запись. Первый этап — это преобразование атомов в цифровые биты, примерно как камера фиксирует свет. На втором этапе происходит картирование за счет распознавания и организации этих битов. Это похоже на использование модели RGB для цвета. Последний этап — превращение цифровых битов обратно в атомы, которые может воспринимать человек (аналогия с принтером).

В основе подхода Osmo — их «почти 300-мерная» ИИ-карта запахов. Она позволяет предсказать запах молекулы по ее структуре. По сути, это и есть «обонятельная версия RGB».

Osmo AI совместно с учеными из разных университетов разработали свою ИИ-модель на основе графовой нейронной сети. Они загрузили в нее 5 тыс. молекул из каталога ароматов для обучения, а потом «скормили» ей 400 молекул, которые еще не выпустили. Машина должна была предсказать их запах. ИИ смог правильно определить восприятие в половине случаев, что уже можно считать хорошим результатом (но точность будет расти).

У решения Osmo огромный потенциал для создания ароматов. Правда, есть несколько «слепых пятен» — например, молекулы, идентичные по структуре, но отличающиеся по запаху. С такими тонкостями ИИ работать сложнее. А еще пока возникают трудности с определением интенсивности запахов, смешиванием молекул, субъективностью восприятия людей.

В любом случае решение может пригодиться для промышленности. Выводить на рынок новые ароматы сложно и дорого, а с ИИ можно проанализировать миллиарды возможных молекул и создать оптимальную. Совместно с Фондом Гейтса команда Osmo уже разработала восемь молекул для репеллентов, которые должны стать более эффективны, чем существующие формулы. А еще компания предполагает, что сможет сделать доступными уникальные запахи — те, которые можно найти только лишь в тропиках.

Оцифровкой запахов занимается не только Osmo. Revorn создает платформу, которая аккумулирует данные о запахах со всего мира. Для этого она использует запатентованные девайсы и ИИ. Их идея в том, чтобы воспроизвести человеческое обоняние с помощью датчика запаха (нос) и ИИ (мозг).

В перспективе «ИИ-нос» можно было бы использовать, чтобы создавать запахи, которые будут вызывать теплые воспоминания у людей. Еще один интересный юзкейс — обнаружение заболеваний на ранних стадиях, потому что именно по запаху часто можно засечь аномалии в работе организма. Похожая история — с выявлением испорченных продуктов, утечек газа. В общем, применять такие технологии можно во многих индустриях.

20 last posts shown.