Паша AI AI AI


Channel's geo and language: Russia, Russian
Category: Technologies


Про технологии в бизнесе и не только — от первого VP по технологиям МТС Павла Воронина.
✔ Актуальные новости из мира IT
✔ Экспертиза без воды
✔ Советы для бизнеса
✔ Личные кейсы и практика
Честно, открыто, по делу. Подписывайтесь.

Related channels  |  Similar channels

Channel's geo and language
Russia, Russian
Statistics
Posts filter


Устройство, передающее информацию на сверхскоростях

Над таким (пока безымянным) устройством совместно работают японский оператор связи DoCoMo, телеком-гигант NTT и производители электроники NEC и Fujitsu. Оно способно передавать информацию на рекордной скорости 100 Гбит/с в субтерагерцовом диапазоне 100 Ггц и 300 Ггц — это приблизительно в 20 раз быстрее, чем может обеспечить 5G.

Использование субтерагерцового диапазона (90 Ггц–300 Ггц) позволяет передавать информацию с очень высокой скоростью и минимальными задержками.

Такая скорость позволяет, например, использовать голографическую связь, стримить видео в качестве Ultra HD и обеспечивать управление беспилотными средствами передвижения в реальном времени. Некоторые считают, что 6G даст жизнь не просто следующему поколению умных устройств, которые смогут обмениваться большим объемом информации, но и целых умных городов.

DoCoMo отвечал в проекте за разработку беспроводного оборудования для передачи данных на высокой скорости; NTT — за разработку непосредственно устройства; NEC — специальной антенны, состоящей из более чем 100 элементов; Fujitsu — обеспечил высокую энергоэффективность системы.

Большая проблема нового стандарта связи в том, что для него понадобится с нуля создавать устройства, которые смогут его поддерживать. Более того, на данный момент не определены даже необходимые технические характеристики будущих устройств. Соответственно, коммерциализация стандарта 6G может занять продолжительное время (особенно учитывая, что даже 5G пока так полностью и не заменил предыдущее поколение).

Появление коммерческих 6G-устройств ожидается не раньше 2030 года.

Участники нынешнего эксперимента, собираются и дальше вместе работать над стандартизацией новой технологии. Компании исследуют возможности устройств, использующих субтерагерцовый диапазон с 2021 года.

Кроме Японии, активно экспериментируют с 6G в США, Южной Корее, Германии и других странах. Китай в начале этого года объявил о запуске первого в мире 6G-спутника. В России запуск коммерческих 6G-сетей планируется не раньше 2035 года.


Мячи с датчиками, барокамеры и умные кольца: какие технологии использовали на прошедшем Евро-2024

В прошедшее воскресенье победой Испании завершился Евро-2024. Оценивать качество игры участников — не профиль этого канала, зато можно вспомнить, какими передовыми технологиями отличился прошедший турнир.

Умный мяч
Официальный мяч чемпионата — Adidas Fusballliebe — впервые в истории чемпионата стал умным, благодаря технологии Connected Ball. Спортивный снаряд в реальном времени передает информацию о своем перемещении и о касаниях (данные передаются с частотой 500 раз в секунду). Это позволило арбитрам в дополнение к информации с многочисленных камер точно и быстро принимать решения, связанные, например, с офсайдами.

Именно из-за датчиков, установленных на мяче, команде Бельгии не засчитали один из голов.

Камеры
Их количество и сферы применения вышли на новый уровень. Например, только на вратарскую зону было направлено семь камер. Как рассказывали организаторы, помимо всего прочего камеры отслеживали 29 точек на теле каждого игрока в каждой команде. Это помогает арбитрам выносить более точные решения в спорных ситуациях.

Технологический хаб
Все данные, полученные с многочисленных датчиков и камер, установленных на стадионах, отправляются в FTECH Hub. Он распределяет информацию по соответствующим приложениям — например, для того же контроля офсайдов или на портал анализа спортивных результатов

Носимые устройства
Игроки сборных использовали различные wearable-девайсы для мониторинга состояния здоровья. Так, сборная Англии носила умные кольца, которые позволяли следить за правильным сном. По словам тренера команды, Гарета Саутгейта, именно сон и правильное питание позволяют быстро восстановиться после матча.

Саутгейт уточнил, что сам он не следит за своими игроками через эти кольца, но такие девайсы помогают им самостоятельно отслеживать свое состояние.

Знаменитый португалец Криштиану Роналду и вовсе является амбассадором умного браслета Whoop. Браслет отслеживает сон и биометрические показатели и по словам Роналду изменил его жизнь. Но браслет все же не помог Роналду забить ни одного гола на чемпионате.

Также игроки на Евро-2024 носили уже традиционные жилеты, которые отслеживают расстояние, которое спортсмен пробежал за матч. Они позволяют тренеру корректировать тренировки команды.

Технологии для восстановления игроков Высокие технологии на Евро использовались не только во время матчей, но и после.

Так, победители из испанской сборной использовали гипербарические барокамеры и криогенные камеры. Первые под высоким давлением насыщают тело кислородом, а вторые — за счет низких температур снижают утомляемость и улучшают кровообращение (все тот же Роналду уже несколько лет пользуется своей личной криокамерой).


Новый подход к дополненной реальности: ИИ-голография для миниатюрных AR-очков

Ученые из Стэнфордского университета представили прототип AR-гарнитуры размером с обычные солнцезащитные очки. Устройство работает на базе голографической технологии визуализации, которая обеспечивает реалистичную полноцветную 3D-картинку с разной глубиной.

Зачастую AR-cистемы используют сложные оптические системы — пользователь фактически не видит реальный мир через линзы гарнитуры. Вместо этого на его глаза проецируется увеличенное видео с камер на очках и наложенные на него компьютерные изображения. Это своего рода виртуальная реальность, а не настоящая дополненная реальность, считают исследователи.

Большинство AR-систем громоздки, поскольку в них используются увеличительные линзы между глазом пользователя и проекционными экранами. Помимо громоздкости, такие системы могут снизить комфорт от использования гарнитуры — некоторые пользователи чувствуют головокружение, усталость глаз и тошноту.

Технология голографии устраняет эти проблемы. Для улучшения глубины изображений ученые использовали искусственный интеллект. Затем они смогли проецировать компьютерные голограммы на линзы очков, не полагаясь на громоздкую дополнительную оптику.

Маленькие голографические дисплеи, которые находятся у висков пользователя, проецируют компьютерные изображения через вырезанные в очках узоры, которые отражают свет внутри линзы. Пользователь может одновременно видеть как реальный мир, так и полноцветные компьютерные 3D-изображения. Эффект 3D усиливается, поскольку он создается как стереоскопически, как при традиционном 3D-изображении, так и голографически.

У лабораторного прототипа есть один существенный недостаток: он обеспечивает поле зрения всего в 11,7°. Для сравнения, у Magic Leap 2 FOV составляет 70°, а у Microsoft HoloLens 2 — 52°. При этом, по словам разработчиков, это первое настолько компактное AR-устройство с высоким качеством изображения.

Разработка, по словам ученых, может изменить сферу развлечений, образования, медицины, авиамеханики. Например, хирург может использовать очки для планирования тонкой и сложной операции, а авиамеханик — чтобы научиться работать с реактивным двигателем.

Конкуренция на рынке AR-систем набирает обороты — компании стремятся сделать устройства миниатюрными и удобными. IT-гигант Meta* планирует выпустить потребительскую версию AR-очков Ray-Ban в 2027 году. Китайская компания Rokid недавно представила легкие AR-очки весом менее 80 граммов. Один из самых продаваемых брендов на рынке — XReal — также предлагает легкие очки, при этом оснащенные дисплеями с высоким разрешением.

*Организация, запрещенная на территории РФ


Та, которую можно не называть: инженеры Apple тестируют отказ Siri от триггера «Hey, Siri»

На июньской презентации Apple сильно прокачала Siri с помощью AI. В голосовой ассистент добавили новый набор функций Apple Intelligence (AI). Это сделает Siri умнее — теперь с ней можно будет общаться, как с человеком, как голосом, так и текстом. Она научилась выполнять больше действий в приложениях по поручению пользователя. Например, она сможет анализировать действия пользователя на экране и заполнять онлайн-формы на основе личных данных, сохраненных в смартфоне. Обновления станут доступны осенью.

Но не все возможности AI в голосовых помощниках, которые представили в Apple, вошли в этот релиз. За несколько месяцев до презентации разработчики компании опубликовали интересное исследование о способностях Siri распознавать речь. Они попробовали использовать для этих целей мультимодальную нейросеть. Она работает одновременно с акустической информацией, текстовыми расшифровками запросов и сигналами ASR-декодера.

Исследователи научили Siri реагировать на пользователя без известной фразы-триггера «Hey, Siri». Отказаться от триггера — значит научить голосового помощника отличать речь, направленную на iPhone, от фоновой речи во время общения с голосовым помощником. Вместе с этим ученые улучшили показатель равного коэффициента ошибок EER (Equal Error Rate, или EER) на 40%. Это значит, что LLM-модель с Siri стала точнее идентифицировать личность и его запросы.

Добиться таких результатов помогла в том числе ASR-система Whisper от OpenAI, а также контрастивный лингво-аудио предварительный тренинг (Contrastive Language-Audio Pretraining, или CLAP). Например, при удачных тестах записей голоса самый низкий EER Whisper составил 10,98% (ранний лучший результат — 12,15%), у EER Clap — 19,13% (12,15% ранее).

Ученые обучали большую языковую модель на акустических данных (речь и фоновый шум) для поиска паттернов, которые могут указать на желание пользователя получить помощь. В тренировочный датасет включили 40 тыс. целенаправленных высказываний (где люди просили ассистента о чем-то конкретном) и 40 тыс. более абстрактных фраз вроде «спасибо за помощь». Общая длительность записей — примерно 126 часов.

Также в набор данных для обучения добавили 3 млн транскрибированных с помощью технологии ASR речевых сигналов Near-Field (пойманных на небольшом расстоянии).

При построении новой модели использовали GPT-2 от OpenAI, потому что она относительно легкая и потенциально могла бы работать на смартфонах. Еще один плюс GPT-2 — она может быть адаптирована к новым задачам, связанными с генерацией текстов, за счет предоставления обучаемых префиксов. При префиксной настройке в LLM вводят и обучают небольшое количество специфичных векторов или «префиксов», специфичных для задачи, чтобы настроить LLM под целевую задачу. Префиксная настройка также сохраняет параметры предварительно обученной LLM и обучает только небольшую часть данных. Обычно способ обучения на основе префиксов используют, когда данных мало. Например, с его помощью обучали GPT-3.
Отказ от фразы-триггера сделает общение с ИИ-помощником более удобным, а пользовательский опыт — бесшовным. Для тех же, кто любит обращаться к устройствам по-человечески, оставили функцию Vocal Shortcuts. С помощью нее в iOS 18 можно будет вызывать Siri под любым именем или ключевым словом.

Но расширение возможностей  Siri все же может усилить опасения общественности по поводу постоянного прослушивания их устройств. На Reddit уже обсуждают, что ситуация с безопасностью личных данных станет хуже (а она и так оставляла желать лучшего).


Черное зеркало в действии: какие сервисы запишут все ваши действия на компьютере

Функция Recall — один из самых громких и противоречивых релизов майской презы Microsoft, которую компания провела на конференции Microsoft Build 2024. Инструмент, который записывает все действия пользователя, вызвал скандал среди журналистов и экспертов по кибербезопасности — последние даже стали давать рекомендации о том, как нужно защищаться от Recall. В итоге Microsoft не стала делать эту функцию включенной по умолчанию, а затем и вовсе отложила запланированный выход новой фичи на 18 июня компания отложила на несколько недель для тестирования среди участников программы Windows Insider.

Напомню, как работает эта фича. Она отслеживает и фиксирует все действия пользователя на компьютере с помощью снимков, работает в приложениях, онлайн-беседах и при просмотре сайтов. Все действия Recall отображает на временной шкале (похожа на Timeline из Windows 10), для поиска есть отдельное поле вверху.

Официально Recall работает не на всех устройствах с Windows, а только на тех, где установлены нейронные процессоры на основе ИИ. Среди них — ИИ-ноутбуки Copilot Plus с Arm-чипами Qualcomm Snapdragon X Elite (они уже в продаже, минимальная цена — $999). Хотя вероятно, эти требования — скорее рекомендация, в соцсетях пишут, что смогли запустить Recall и на неспециализированном железе

Для запуска Recall на жестком диске нужно минимум 256 ГБ, при этом 50 ГБ должны быть свободны. По умолчанию на устройстве с 256 ГБ приложение задействует 25 ГБ — снимки можно хранить примерно три месяца.

Решение от Microsoft — не единственное в своем роде. В апреле группа разработчиков из Китая yuka-friends представила open-source приложение для Windows, которое записывает и ищет все, что когда-либо происходило на экране пользователя. Вдохновением послужило приложение на Mac от Rewind (о нем ниже) и третья серия сериала-антологии «Черное зеркало» — «История всей твоей жизни». По его сюжету в людей в альтернативной реальности вживлен чип, который записывает все, что человек делает, видит или слышит. Они могут воспроизводить воспоминания и на отдельном экране.

Windrecorder работает на основе FFmpeg, набора сводных библиотек с открытым исходным кодом, которые позволяют записывать и передавать аудио- и видеозаписи в различных форматах. Для обработки данных разработчики использовали Python.

Рекордер записывает все происходящее на экране 15-минутными видео, затем — индексирует их с помощью API OCR от Windows (позволяет анализировать изображения). Все данные собираются в локальном интерфейсе, где пользователь может перематывать назад или искать, например, по заголовкам окон, описаниям изображений и ключевым словам. Проект работает полностью локально, без подключения к интернету.

Прообраз этих двух сервисов, приложение Rewind, создал одноименный стартап в ноябре 2022 года. Работает Rewind только на MacOS и записывает все, что происходит на устройстве за день. Сервис определяет, какое приложение сейчас открыто и как долго его используют. Информацию Rewind фиксирует с помощью автоматического распознавания речи и оптического распознавания символов. Все данные инструмент хранит только на устройстве — он сжимает их до 3,7 тыс. раз, чтобы они не занимали много места.

Записи можно приостанавливать или удалять, а также выбирать, какие приложения не должны записываться. Есть и режим «инкогнито» — при нем информация не фиксируется.

Но комментаторов всех уровней — от обычных пользователей до Илона Маска — пугают эти инструменты, уж слишком много они записывают. Действительно ли пользователям так важно все запомнить?  


Microsoft представил свою самую маленькую модель

Компания представила компактную ИИ-модель Phi-3 Mini с 3,8 млрд параметров. Она уже доступна в Azure, Hugging Face и Ollama — у модели есть свободная MIT-лицензия.

По словам разработчиков, при создании модели они вдохновлялись детскими книгами, в которых сложные вещи объясняют простыми словами.

Вместо обучения модели на необработанных веб-данных исследователи Microsoft решили использовать подготовленную и более качественную информацию. Они создали датасет из 3000 слов, включавший равное количество существительных, глаголов и прилагательных. Затем большая языковая модель сгенерировала миллионы детских рассказов, используя слова из списка. Полученный набор данных назвали TinyStories, его применяли для обучения совсем маленьких моделей с около 10 млн параметров.

Затем исследователи тщательно отобрали открытые данные из интернета, собрали в единый датасет и использовали похожую схему для генерации данных. Чтобы добиться высокого качества, они неоднократно фильтровали полученный контент, прежде чем отправить его обратно в LLM для дальнейшего синтеза. За несколько недель ученые накопили достаточно большой массив синтетических данных, чтобы обучить более способную модель.

Phi-3 Mini стала первым релизом в линейке компактных моделей Microsoft. В будущем компания выпустит Phi-3 Small и Phi-3 Medium с 7 и 14 млрд параметров соответственно.

Разработчики уверены, что Phi-3 Mini по своим возможностям сопоставима с некоторыми большими моделями, например, GPT-3.5. При этом инженеры согласны: по сложности ответов и широте охвата Phi-3 уступает передовым LLM, например, GPT-4.

Phi-3 — это улучшенная версия предыдущих итераций модели. Phi-1 заточена на кодирование, Phi-2 обучили рассуждать, а Phi-3 еще лучше справляется с написанием кода и с рассуждениями.

Некоторые техкомпании разрабатывают малые LM, но, как правило, они специализируются на решении узких задач. Например, модели Gemma 2B и 7B от Anthropic анализируют научные статьи с графиками и быстро обобщают их, а модель Llama 3 от Meta* можно использовать при написании кода и создания чат-ботов. Microsoft же заявляет, что Phi-3 — универсальное решение, подходящее для разных задач.

Ранее СМИ сообщили, что Microsoft формирует команду, специализированную на компактных моделях ИИ. Вместе с Phi компания также разработала модель Orca-Math для решения математических задач.
*Организация, запрещенная на территории РФ


В Китае пользователи играют в «технологичные прятки» с помощью местного аналога Google Maps

Игра в «кошки-мышки» (так ее обычно называют в Китае) в прошлом году стала вирусной. Еженедельно в ней участвовали тысячи людей. Видеоролики с игроками, которые залезали на деревья и прятались в канализации, набирали в соцсетях миллионы просмотров.

Для игры нужен смартфон, приложение с геолокацией и неоновый браслет — он отличит участников от случайных прохожих. Правила простые: несколько десятков человек собираются в одном месте, например, в парке, и делятся на две команды. Примерно 90% становятся «мышками», остальные — «кошками».
После старта «мышкам» дается пять минут, чтобы спрятаться. Задача «кошек» — найти игроков из другой команды и дотронуться до них. Пойманные «мыши» меняют команду и сами становятся «хищниками». Игра продолжается до тех пор, пока всех не отловят.

Главная фишка — в том, что участники делятся местоположением в реальном времени. Просто спрятаться в укромном месте у «мышек» не получится. Но и «кошек» они видят на карте, так что могут вовремя сменить убежище.  
В играх обычно используется приложение Amap от Alibaba. Google в Китае заблокирован, в итоге Amap стал одним из самых популярных картографических сервисов, ежедневно в него заходит более 100 млн человек.
Amap как минимум с 2017 года поддерживает обмен местоположением в режиме реального времени. Изначально опция была доступна только небольшим группам, но потом приложение расширило их размер до 100 человек. Компания ориентировала эту функцию на членов семьи и туристов-походников. Она также сотрудничала с несколькими китайскими студиями для разработки игр с отслеживанием геолокации. Ни одна из них не преуспела.
А вот простые «кошки-мышки» залетели, причем абсолютно случайно. Сначала игроки использовали WeChat, но постепенно перешли на Amap как на более удобную альтернативу и, по сути, сделали его приложением по умолчанию.

Дочка Alibaba о своей внезапной популярности знает и даже добавила несколько функций для игроков. В Amap можно создать группу специально для «кошек-мышек», где будет больше 100 человек. А еще приложение может распределять роли, устанавливать индивидуальные правила и автоматизировать некоторые процессы, включая смену аватаров после поимки «мышей». Хотя игрокам часто хватает простого шеринга геолокации.
У Amap много других функций, не связанных с игрой. Alibaba развивает его как суперапп и добавляет туда те сервисы, в которых можно как-то использовать карты и геолокацию. В том числе с его помощью можно вызывать помощь на дорогу, если случилась авария, или отслеживать беговые тренировки.


Обмен идеями — двигатель прогресса

Как сказал Стив Джобс: «Источник инноваций — люди, которые сталкиваются в коридорах или звонят друг другу ночью с новой идеей». Конференция — отличный способ собрать таких людей вместе и раскачать ИТ-комьюнити.

Сегодня в Санкт-Петербурге стартовала SaintHighload++ — IT-конференция для разработчиков высоконагруженных систем. МТС в этом году выступает генеральным партнёром конференции. У нас есть True Tech Day, но нам так же важно поддерживать ивенты коллег, чтобы развивать ИТ-сообщество.


Провели турнир по алгоритмическому программированию

В турнире «Ночная лига» участвовали школьники 9-11 классов. Участники прошли 2 этапа онлайн-отбора и 4 очных этапа, причем очные проходили по вечерам в наших офисах и на базе кампуса ведущего технического вуза страны.

Четыре месяца, более 1500 человек на онлайн-отборе и 150 участников. Интересные задачи, лекции, экскурсии и, наконец, грандиозный финал.

Десятка победителей забрала в качестве призов ноутбуки, остальные получили наушники, клавиатуры и смарт-часы. Поздравляем ребят!


Если бы я начинал карьеру сегодня…

Я бы точно занялся искусственным интеллектом. И не просто стал бы ИТ-специалистом, с которым, возможно, будет конкурировать ИИ, а именно исследователем ИИ, создающим мультимодальные большие языковые модели, например.

А учиться бы пошел на программу, которую МТС этой осенью запускает вместе с НИУ ВШЭ. Там бы я получил и знания для научных исследований в сфере ИИ, и навыки предпринимателя. А дальше — все двери открыты - в науку, в свой стартап или крупную корпорацию (в том числе и в МТС!)

Детали программы здесь, а заявку можно оставить здесь с 19 до 25 июля. Ну и не забудьте подписаться на чат для абитуриентов — там есть новости и полезные советы по поступлению.


Жидкие нейросети. Что? Да!

ИИ-моделей становится все больше, они становятся все сложнее (читай, требовательнее к вычислительным ресурсам), поэтому исследователи ищут самые разные способы их оптимизации. Одним из таких способов может стать новый тип нейросетей — жидкие нейросети.

Что это такое
Первые упоминания жидких нейросетей (LNN) появились еще в 2018 году, но ключевым моментом стал выход работы Liquid Time-Constant Networks в 2020 году.
Ее подготовили ученые из MIT, Венского технического университета и австрийского Института науки и технологий.

Авторы определяют ключевое отличие LNN как способность обучаться в процессе работы, а не только в ходе изначальной тренировки, к этой особенности и отсылает слово «жидкий» в названии.

Чем они отличаются от других нейросетей
LNN использует текучую постоянную времени (Liquid Time Constant — LTC). LTC позволяет нейросети в зависимости от задачи с разной скоростью обрабатывать информацию. Более медленная обработка дает нейросети больше времени на «размышления», а это должно привести к более точному и детальному ответу.

Использование LTC позволяет нейросети адаптироваться к новой задаче, при этом обладая меньшим количеством нейронов, чем другие типы нейросетей. Это значит, что для работы LNN потребуется меньше вычислительных мощностей.

Один из авторов работы — Рамин Хасани — @hession520/liquid-neural-nets-lnns-32ce1bfb045a%26amp;sa%3DD%26amp;source%3Deditors%26amp;ust%3D1718631108245211%26amp;usg%3DAOvVaw1ggxrXwssKFpWmOyjUGlTY&sa=D&source=docs&ust=1718631108264916&usg=AOvVaw268RKm0ENlnk6bpzE6egUZ' rel='nofollow'>рассказывал@hession520/liquid-neural-nets-lnns-32ce1bfb045a%26amp;sa%3DD%26amp;source%3Deditors%26amp;ust%3D1718631108245211%26amp;usg%3DAOvVaw1ggxrXwssKFpWmOyjUGlTY&sa=D&source=docs&ust=1718631108264916&usg=AOvVaw268RKm0ENlnk6bpzE6egUZ' rel='nofollow'>, что при разработке концепции LNN вдохновлялся нематодами (круглыми червями). Нематоды, имея чуть больше 300 нейронов (для сравнения у кошек — 300 млн нейронов), способны выполнять сложные действия. Хасани хотел, чтобы у LNN было мало нейронов, но при этом они бы были сложнее («богаче»), чем у других типов нейросетей. Хасани также является основателем стартапа Liquid AI, который специализируется на разработке LNN.

Плюсы LNN
Помимо меньшей требовательности к ресурсам, LNN обладают еще одним важным качеством — из-за своего относительно небольшого размера, такие нейросети позволяют лучше понимать, как именно они принимают те или иные решения. Это может быть важно при использовании в уже упоминавшихся беспилотных автомобилях.

Огромные современные нейросети, которые обладают десятками миллиардов параметров, часто называют «черными ящиками», так как даже сами разработчики не понимают, как они работают. У LNN может быть всего несколько десятков тысяч параметров.

Минусы LNN
К минусам LNN можно отнести возможность обучения только на последовательной, а не на статичной информации — например, на видео, но не на изображении. Это может усложнить процесс работы с моделью.

Также LNN подвержены и распространенной среди нейросетей проблеме исчезающего градиента, при которой у нейросети падает эффективность обучения, так как она перестает реагировать на небольшие ошибки в ходе процесса.

Где можно использовать LNN
Несмотря на относительную новизну LNN, количество потенциальных способов использования таких нейросетей постоянно растет. Благодаря своим особенностям LNN в теории могут использоваться в таких разных областях, как беспилотные автомобили, роботы, тренировка спортсменов и реабилитация после травм.

В MIT уже провели эксперимент по использованию LNN в дронах. Нейросеть позволяет устройству самостоятельно перемещаться в неизвестном помещении.  


В США создали самый большой 3D-принтер в мире — он может напечатать дом за 80 часов

Университет штата Мэн в апреле представил Factory of the Future 1.0 (FoF 1.0, «Фабрика будущего») — 3D-принтер для печати на термопластичных полимерах. Он может создавать объекты длиной в 30 метров, 10 метров — в ширину, и 5,5 метра — в высоту, потребляя до 226 кг сырья в час.

Принтер поддерживает разные способы производства: аддитивный (когда материал добавляется в форму), субтрактивный (материал удаляется с заготовки), автоматизированная укладка ленты (пластик находится в виде лент в ролике принтера) и печать роботизированной рукой.

С помощью «Фабрики будущего» Университет Мэн побил свой собственный рекорд, занесенный в книгу рекордов Гиннеса. В 2019 году его инженеры создали MasterPrint, на тот момент самый крупный в мире полимерный 3D-принтер, который из перерабатываемых материалов (из древесного волокна и материалов на основе биосмолы) напечатал дом площадью 56 м². Новый принтер это делает в четыре раза быстрее — такой же дом он может напечатать за 80 часов. Оба принтера находятся в одном помещении, в Центре перспективных конструкций и композитов Университета, а также могут работать одновременно.

Большинство материалов, с которыми работает «Фабрика будущего», пригодны для вторичной переработки. Например, 3D-принтер может печатать объекты из древесных отходов. Для Мэн это особенно актуально, это один из самых зеленых штатов США (на севере и северо-востоке растут ель и пихта, на юго-западе — сосна и тсуга).

Технологию биопечати могут использовать для расширения другого проекта Университета — BioHome3D. Его суть — в увеличении объема доступного жилья в США путем печати на 3D-принтерах домов из биоматериалов. По оценке директора по развитию компании MaineHousing Марка Визендангера, к 2030 году в штате Мэн нужно будет построить около 80 тыс. жилых домов.

Финансирование для создания 3D-принтера Университет штата Мэн получил от Инженерного корпуса армии, Министерства обороны и Министерства энергетики США. По задумке «Фабрика будущего» может помочь не только при строительстве домов, но также и мостов, морских судов и оборудования для использования энергии воды или ветра.

В России тоже есть интересные проекты, связанные с 3D-печатью в строительстве. В Татарстане сейчас «печатают» целый поселок под названием «Квадрум» из 34 домов, и в первые дома уже заехали жильцы. В строительстве используют принтер S-300 производства российской компании «АМТ-Спецавиа».

Такой принтер может напечатать бетонной смесь здание высотой до 2 этажей и площадью до 180 кв.м., печатается дом за 21 день — впрочем, после печати еще нужно, например, вставлять окна. Но служить такой дом должен от 80 до 120 лет.

В самой компании отмечают: тот факт, что с помощью 3D-принтеров строят уже не отдельные дома, а поселки, означает, что в России 3D-печать в строительстве переходит из разряда экспериментальной технологии к массовой.

Выглядят дома слегка футуристично, но жильцы не жалуются — говорят, что летом в таком доме прохладно, а зимой тепло.


ИИ-агенты: от ассистентов к автономным помощникам

В 2023 году эксперты объявили, что следующий этап развития ИИ — автономные агенты. Об этом, к примеру, говорят Билл Гейтс и CEO Google DeepMind Демис Хассабис.

Сейчас мы живем в эпоху ИИ-ассистентов. Они выполняют конкретные действия: пишут выжимки из текстов, генерируют изображения и так далее. Но люди вынуждены проверять их результаты, чтобы ИИ не нагаллюцинировал.

ИИ-агенты устроены иначе. Они автономно работают с задачами, которые требуют множества шагов. К примеру, автономные автомобили с ними смогут сами находить себе сервис и покупать в интернете нужные запчасти. Агенты-кодеры смогут создавать по промпту целые приложения, а агенты-маркетологи — запускать рекламные кампании со всеми креативами и закупкой рекламы. Армии автономных ИИ-роботов смогут работать на фабриках и заводах. А контролировать их будет агент-дирижер, способный отслеживать действия и перенаправлять процессы в случае чрезвычайных ситуаций.  

В Accenture считают, что в перспективе ближайших 10 лет появятся экосистемы агентов, где десятки и сотни ИИ будут работать на разных задачах компаний и взаимодействовать друг с другом, будто рабочие на большой фабрике.

Впрочем, сегодня самостоятельный ИИ — скорее цель, чем реальность. Что-то похожее запускают и сегодня, но пока такие решения слишком часто ошибаются.

В 2023 году появились несколько агентов на базе ChatGPT от независимых разработчиков — AutoGPT, AgentGPT, VimGPT. Они подключаются к разным источникам данных, к приложениям и выполняют несложные цепочки действий — например, могут оформить подписку на интернет-журнал или разослать приглашение на праздник. Но такие решения совершают кучу ошибок, например, приводят неверные вычисления или генерируют неработающий код, а часто просто не могут найти способ справиться с задачей без помощи пользователя. Встроить их в процессы с пользой получилось мало у кого — поэтому они не взлетели.

Более перспективно выглядят недавние релизы. Агент для пользовательских задач MultiOn может по промпту заказать такси или доставку еды, или даже сдать электронный экзамен на права. Правда, он пока не умеет анализировать изображения, а на кнопку «далее» на странице с тестом может нажать только после подсказки пользователя.

ИИ-кодер Devin от Cognition AI может по текстовому промпту писать целые приложения, проверять код и разворачивать их, а также устанавливать и обучать модели ИИ. Правда, даже по внутренним тестам он справляется лишь с 13,8% задач — больше, чем любые другие ИИ, но несравнимо меньше, чем опытные программисты.

Для агентности современному ИИ не хватает долгосрочной и краткосрочной памяти, способностей к самоанализу. Мнения расходятся — достаточно ли для реальной агентности развития современных технологий (возможно, ее поможет достичь уже GPT-5) или нужен рывок и принципиально новые решения.

В целом предстоит еще многое понять о будущем агентов. Непонятно, насколько универсальными будут пользовательские агенты — придется ли нам использовать десять таких решений для разных задач или все будет собрано в одном. Неясно, как будет обеспечиваться защита наших данных — ведь агентам придется дать доступ ко всем приложениям. Пользовательские агенты потребуют доступ ко всем личным данным и банковским счетам, а корпоративные — к огромным массивам внутренней информации и коммерческой тайне. А значит, не смогут обойтись без принципиально новых протоколов безопасности, которых тоже пока не видно даже на горизонте.



Стартапы оцифровывают запахи: теперь разрабатывать новые ароматы можно с помощью «ИИ-носов»


ИИ — горячая тема практически для всех отраслей, парфюмерной индустрии это тоже касается. В нейросети инвестируют и крупнейшие производители (Givaudan, Firmenich), и стартапы. Основная задача — оцифровать запахи, чтобы изменить подход к разработке новых ароматов.

Одна из компаний в авангарде этого движения — Osmo AI. Стартап уже получил $60 млн инвестиций, в него, в том числе вложился фонд Google Ventures. CEO Алекс Уилтшко, кстати, раньше работал научным сотрудником в Google Research. Osmo можно считать продолжением исследований Google.

Компания разработала метод оцифровки обоняния, который включает в себя три ключевых этапа: чтение, картирование и запись. Первый этап — это преобразование атомов в цифровые биты, примерно как камера фиксирует свет. На втором этапе происходит картирование за счет распознавания и организации этих битов. Это похоже на использование модели RGB для цвета. Последний этап — превращение цифровых битов обратно в атомы, которые может воспринимать человек (аналогия с принтером).

В основе подхода Osmo — их «почти 300-мерная» ИИ-карта запахов. Она позволяет предсказать запах молекулы по ее структуре. По сути, это и есть «обонятельная версия RGB».

Osmo AI совместно с учеными из разных университетов разработали свою ИИ-модель на основе графовой нейронной сети. Они загрузили в нее 5 тыс. молекул из каталога ароматов для обучения, а потом «скормили» ей 400 молекул, которые еще не выпустили. Машина должна была предсказать их запах. ИИ смог правильно определить восприятие в половине случаев, что уже можно считать хорошим результатом (но точность будет расти).

У решения Osmo огромный потенциал для создания ароматов. Правда, есть несколько «слепых пятен» — например, молекулы, идентичные по структуре, но отличающиеся по запаху. С такими тонкостями ИИ работать сложнее. А еще пока возникают трудности с определением интенсивности запахов, смешиванием молекул, субъективностью восприятия людей.

В любом случае решение может пригодиться для промышленности. Выводить на рынок новые ароматы сложно и дорого, а с ИИ можно проанализировать миллиарды возможных молекул и создать оптимальную. Совместно с Фондом Гейтса команда Osmo уже разработала восемь молекул для репеллентов, которые должны стать более эффективны, чем существующие формулы. А еще компания предполагает, что сможет сделать доступными уникальные запахи — те, которые можно найти только лишь в тропиках.

Оцифровкой запахов занимается не только Osmo. Revorn создает платформу, которая аккумулирует данные о запахах со всего мира. Для этого она использует запатентованные девайсы и ИИ. Их идея в том, чтобы воспроизвести человеческое обоняние с помощью датчика запаха (нос) и ИИ (мозг).

В перспективе «ИИ-нос» можно было бы использовать, чтобы создавать запахи, которые будут вызывать теплые воспоминания у людей. Еще один интересный юзкейс — обнаружение заболеваний на ранних стадиях, потому что именно по запаху часто можно засечь аномалии в работе организма. Похожая история — с выявлением испорченных продуктов, утечек газа. В общем, применять такие технологии можно во многих индустриях.


Зачем нужен программист, когда есть Devin?

Одним из обсуждаемых запусков в марте 2024 года стала нейросеть Devin от стартапа Cognition Labs. Она может самостоятельно создавать и развертывать приложения, вспоминать контекст на каждом шаге и самосовершенствоваться.

В компании говорят, что Devin умеет выполнять задачи разного уровня сложности, от поиска и исправления ошибок в кодовых базах до файнтюнинга LLM. Он может научиться использовать незнакомые для него технологии, если прочитает про них в статье.

Работает Devin примерно как реальный человек. Пользователь описывает ему задачу в чат-боте, а ИИ-инженер готовит подробный пошаговый план решения. Потом он приступает к реализации — пишет собственный код, исправляет его, проводит тесты и сообщает о ходе проекта в режиме реального времени. Если человеку что-то не понравилось, он может зайти в чат и дать ИИ команду исправить ситуацию.

Обозреватель Bloomberg пишет, что Devin действительно смог создать сайт с нуля за 5-10 минут и примерно за такое же время воссоздать веб-версию игры Pong. Пару раз автору приходилось подсказывать, как улучшить физику движения мяча в игре, и просить внести косметические изменения. Со всем этим Devin справился без проблем.

В тесте SWE-bench, где ИИ-ассистенты должны разбираться с проблемами из open-source проектов на GitHub, Devin (вроде как) смог правильно решить 13,86% задач без какой-либо помощи со стороны человека. Для сравнения, Claude 2 справился только с 4,80% проблем, а SWE-Llama-13b и GPT-4 — с 3,97% и 1,74% соответственно.

В Cognition говорят: секрет успеха их модели якобы в том, что она делает упор на «рассуждения». Обычно инструменты генеративного ИИ ориентируются на вероятность — то есть, например, предполагают, какое слово с наибольшей вероятностью будет следующим. Но Cognition считает, что именно умение ИИ рассуждать может «открыть новые возможности в широком спектре дисциплин».

Релиз сразу вызвал беспокойство у программистов. Кайл Шевлин, основатель и инженер-программист агентства Athagist, уже написал в X, что индустрия «пытается агрессивно заменить одну из немногих оставшихся работ, которая приносит законный доход среднему классу».

Но надо учитывать, что независимых тестов Devin пока не было — поэтому его реальная автономность под вопросом. Единственные бенчмарки были получены в рамках исследовательских тестирований самими его разработчиками. Да, цифра в 13,86% гораздо выше, чем у других решений, но это все еще очень немного — особенно по сравнению с опытным программистом, способным верно выполнить почти 100% задач.

Его можно использовать для несложных задач, но и в этом случае Devin не способен работать без постоянного человеческого надзора. По мнению технического директора Pixee.ai Аршана Дабирсиаги, Devin может справиться с очень небольшим спектром задач, и в кратковременной перспективе не сможет существенно повлиять на то, как строится работа разработчиков.  

Также недавно в сети разошлось видео с говорящим названием Debunking Devin: «First AI Software Engineer» Upwork lie exposed! В нем в том числе сказано, что в демо-ролике решение Devin для Upwork на самом деле не соответствует требованиям заказчика (который просил инструкции по настройке, а не код), что Devin исправляет ошибки не в чужом исходном коде репозитория на GitHub, а в своих файлах, и что он выполняет бессмысленные команды и вносит плохие изменения в код.

На мой взгляд, проект пока что находится примерно на уровне GPT-Engineer — или даже хуже. В общем, кажется, что программистам можно немного расслабиться.  


Video is unavailable for watching
Show in Telegram
МТС True Tech Day 2.0

3,6 тыс. человек в зале, 85 тыс. зрителей онлайн, 5 треков, 50 экспертов. Одна из крупнейших технологических конференций в стране.

Посмотрите видео о том, как это было, а еще лучше — доклады с конференции на сайте МТС True Tech Day.


Технологии – это, в первую очередь, люди. Эти люди уже завтра соберутся на True Tech Day 2.0

Развитие профессионального True Tech сообщества – приоритетная задача для МТС. В сердце этого сообщества — конференция True Tech Day. В прошлом году на ней уже встретились 1,5 тыс. участников в офлайне и более 60 тыс. онлайн-зрителей. В этом году мы решили повторить — масштабнее, интереснее, полезнее!

В этом году True Tech Day разделена на пять треков, в рамках которых более 50 ведущих экспертов и лидеров ИТ представят доклады. Все они так или иначе затронут связь науки и технологий, каждый из них стоит вашего внимания — сейчас я лишь укажу на несколько интересных мне тем:

Анатомия облачной платформы. CTO МТС Web Services Данила Дюгуров разберет ключевые инженерные концепции, лежащие в основе облачной платформы
Карьера в ML: треки, развилки и личный опыт. Директор Центра Big Data MTC Виктор Кантор (сам прошел в ML путь от junior-разработчика до топ-менеджера) подготовил обзор актуальных карьерных треков и рекомендации по выбору пути развития
Deep Learning в fashion-индустрии. Илья Черников из Lamoda Tech расскажет, как они усилили поисковую выдачу в сложных случаях, дополнив языковые модели компьютерным зрением, и как из этого решения появилась генерация образов к товару
На треке Development Владимир Алешин из Авито расскажет о паттернах управления БД в мультикластерной среде kubernetes, Максим Чудновский из СберТеха объяснит, как сделать мультикластерную инсталляцию Kubernetes с помощью Service Mesh.
О технологии «Мультимастер» в экосистеме PostgreSQL расскажут Михаил Жилин и Павел Конотопов из Postgres Professional. Вы узнаете как развивалась эта технология, что представляет из себя сейчас, на каких внутренних механизмах PostgreSQL основана и как её можно использовать.

Еще мы обсудим наступление эры кибербезопасности с управляющим директором и директором по продуктам Positive Technologies Денисом Кораблевым, будущее науки с первым проректором НИУ ВШЭ Леонидом Гохберг, искусство будущего с художником Мишей Most.

Образовательным треком мы не ограничимся — на конференции будут воркшопы и дискуссии, экспертные сессии с технологическими лидерами, интерактивные игры и квизы, а также фестиваль продуктов. Завершится конференция музыкальным сетом

Мы ждем не менее 2,5 тыс. участников офлайн в МТС Live Холл, а онлайн может подключиться кто угодно — для этого зарегистрируйтесь на сайте конференции.


Несколько мыслей о новинках OpenAI и Google

Будущее ИИ — не в самих моделях, а в том, что они могут сделать для пользователя. Эти слова прозвучали на презентации Google, но они хорошо отражают суть обоих событий. Модели уже не так сильно поражают достижениями в бенчмарк-тестах и числом параметров, но многие продукты с презентаций помогут использовать эти модели по-новому.

Персональный помощник, с которым общаются голосом и демонстрацией видео — новый основной сценарий для нейросетей. С этим связан и упор обновленных моделей на мультимодальность, чтобы обрабатывать аудио- и видеоинформацию, и способности некоторых моделей работать локально на устройстве, способности работать быстро, чтобы лучше имитировать человеческое общение  

Компании очень хотят бесшовно встроиться в существующие персональные устройства. Работа GPT-4o как персонального помощника во многом ориентирована на смартфоны — именно с них удобно общаться по аудио и видео. То же самое касается Project Astra и режима Gemini Live. Также Google показал новые ИИ-функции для Android. Нас ждет все больше нового пользовательского опыта на смартфонах.

Поэтому до принципиально новых ИИ-устройств все еще далеко. Намеки на очки со встроенным ИИ мы увидели в презентации Google, но конкретики по продукту не прозвучало. В дни презентаций появилась информация, что Meta* работает над ИИ-наушниками со встроенными камерами — и там все тоже на очень ранней стадии.

Лучше — это не только больше. Как уже написали, разработчикам интересно сделать не только модель с максимальным числом параметров, но и небольшие модели под определенные сценарии использования. А еще — сделать модели быстрее, как Gemini 1.5 Flash, и дешевле, как GPT-4o.

Google все еще в позиции догоняющего. Если главную новинку OpenAI можно было протестировать уже в день презентации, то основные продукты Google — до сих пор на уровне анонсов. Более того, Google сконцентрировался на создании конкурентов уже известным продуктам OpenAI: Veo против Sora, Imagen 3 против Dall-E 3. Только в основной стезе, интернет-поиске, Google еще впереди OpenAI.

Пока очень мало сказано про ИИ-агентов. Общие слова на эту тему прозвучали на презентации Google, зачатки агентности можно увидеть в новых функциях для Gmail. Но, вероятно, текущие разработки компаний пока не позволяют реализовать агентность на достойном бигтехов уровне.

Много возможностей OpenAI стали бесплатными — но компания найдет, как заработать. Из очевидного — хоть GPT-4o и стала доступной даже без регистрации, но лимиты на число запросов вряд ли позволят раскрыться ей полностью, так что число подписчиков может и подрасти. Из менее очевидного: в сценарии персонального ассистента пользователи будут делиться с OpenAI еще большим количеством персональных данных, а ведь именно данные — главная ценность для ИИ-компании.

*Организация, запрещенная на территории РФ


Как чиплеты помогают компаниям поспевать за законом Мура


В январе MIT Technology Review назвал чиплеты одной из прорывных технологий 2024 года. На их инновационность участники рынка обратили внимание еще в сентябре 2022 года, когда генеральный директор NVIDIA, крупнейшего в мире разработчика графических процессоров, заявлял, что закон Мура уже не актуален.

Один из основателей Intel Corporation, Гордон Мур, в 1975 году первый заметил, что количество транзисторов в интегральных схемах удваивается каждые два года.
Например, если на однокристальный процессор Intel 4004 (1971 год) размером 10 мкм приходилось 2,3 тыс. транзисторов, то на процессор Intel 80186 (1980 год) размером 3 мкм — 134 тыс.

Позже стало понятно, что размещать все большее число транзисторов на меньшей площади невозможно — к 2060 году элементы микросхем должны стать размером с атом. Пришлось пересматривать архитектуру их работы — период удвоения транзистров увеличился до 2,5 лет.

Долгое время микрочипы делали монолитными. На плате создавали один крупный кристалл, на который помещали все нужные транзисторы и другие элементы. Но производство чипов оставалось дорогим. Сделать этот процесс более дешевым помогло разделение кристалла на несколько подложек.

Структура чиплетов предполагает разделение процессора на отдельные блоки или части. Создаются они независимо друг от друга, затем — объединяются в единый процессор. Чиплеты более гибки, они позволяют создавать процессоры разных конфигураций в зависимости от задач.

Развитием чиплетной технологии занимается INVIDIA, Intel, AMD, Qualcomm, Broadcom и другие крупные компании. В B2C-продуктах чиплеты появились в 2017 году, в процессорах Ryzen Threadripper от AMD. В нем два кристалла Zeppelin объединили на одной подложке, за счет чего число ядер выросло вдвое — с 8 до 16. Именно AMD сейчас использует чиплеты максимально широко.

В 2018 году технологию чиплетов начала использовать Intel. Тогда компания представила новое поколение процессоров Intel Sunny Cove, которые строятся по архитектуре Foveros 3D, аналогичной с чиплетами AMD. Архитектура также предусматривает дискретный графический ускоритель поколения Gen11, цепи управления питанием, блок ИИ, контроллеры PCIe Gen 4.0 и память DDR5.

Свой самый сложный на сегодня чиплет AMD показала на CES 2023 — APU Instinct MI300. В нем — 146 млрд транзисторов, I/O-контроллер (концентратор входа-выхода) и память HBM3. Разработка переплюнула Intel Xeon Max с 100 млрд транзисторов, а также гибрид NVIDIA Grace Hopper с 80 млрд транзисторов.

В 2024 году Intel выпустит процессоры Xeon поколения Granite Rapids. Состоять они будут из пяти чиплетов, два из которых будут отвечать за вход-выход.

В AMD не согласны с тем, что закон Мура больше неактуален. Глава компании Лиза Су считает, что он замедлился. Продлить действие закона Мура может переход с кремния, из которого производят транзисторы, на углерод. Радиус атома углерода — около 70 пикометров, что меньше радиуса атома кремния (111 пикометров).


ИИ научился копировать почерк

Инструменты ИИ уже позволяют создавать точные копии голосов и пугающе реалистичные видео-дипфейки. Теперь алгоритмы добрались и до рукописного текста. Ученые из Университета искусственного интеллекта имени Мохаммеда бен Заида в Абу-Даби (MBZUAI) разработали технологию, которая может имитировать почерк человека. Для обучения нейросети достаточно всего нескольких абзацев.

Впервые команда поделилась результатами исследования по теме в 2021 году. В презентации тогда отметили, что раньше для имитации использовали генеративно-состязательную сеть (GAN). Почерк, созданный с помощью GAN, отражает общий стиль писателя — например, наклон или ширину штрихов в буквах. Но таким способом трудно воссоздать лигатуры — связки между символами.  

Так что вместо GAN исследователи решили применить Vision Transformers. Этот тип нейросетей обычно используют для решения задач в области компьютерного зрения. Идея в том, что трансформер-модели способны обрабатывать так называемые дальние зависимости (на больших расстояниях между элементами последовательности). Они распознают, как физически удаленные друг от друга части изображения связаны между собой.

В ходе нового исследования ученые сравнили свой подход к созданию рукописного текста HWT (от Handwriting Transformers) с двумя другими ИИ-технологиями GANwriting и Davis et al. Все модели должны были повторить почерк шести авторов.

Выяснилось, что у GANwriting есть ограничение на длину слов, которые она может копировать. Плюс, она не совсем понимает контекст (модель сгенерировала слово precise вместо precisely). А Davis et al смогла повторить общий стиль писателей, но не справилась с деталями. Результаты HWT были ближе всего к оригиналу.

Исследователи показали текст, сгенерированный тремя моделями, 100 людям и спросили, какой они предпочитают. Участники исследования выбрали результаты HWT в 81% случаев. В других тестах люди вообще не смогли отличить имитированный почерк от реального.

Команда MBZUAI уже получила патент на систему ИИ от Бюро патентов и торговых марок США. Исследователи еще не выпустили готовый продукт, но планируют применить свои разработки в течение нескольких месяцев и сейчас ищут коммерческих партнеров.

Модель потенциально может быть интересна в абсолютно разных сферах, от расшифровки почерка врачей до создания персонализированной рекламы. А еще  автоматическая генерация рукописного текста будет полезна для людей с ограниченными возможностями или травмами. Технологию также можно использовать для улучшения других ИИ-моделей.

При этом очевидно, что модель открывает новые возможности для мошенничества и подделки документов. Так что придется разрабатывать новые инструменты для борьбы с фродом.

В любом случае, впереди у исследователей еще много работы. Модель-трансформер может обучаться и писать на английском и, с переменным успехом, на французском языках. Но, по словам команды, они все еще пытаются справиться с арабским. В этом языке связки между буквами слишком сложные.

20 last posts shown.