Паша AI AI AI


Channel's geo and language: Russia, Russian
Category: Technologies


Про технологии в бизнесе и не только — от первого VP по технологиям МТС Павла Воронина.
✔ Актуальные новости из мира IT
✔ Экспертиза без воды
✔ Советы для бизнеса
✔ Личные кейсы и практика
Честно, открыто, по делу. Подписывайтесь.


Channel's geo and language
Russia, Russian
Statistics
Posts filter


Генератор веб-интерфейсов по промптам 

Brewed — это ИИ-инструмент для веб-дизайна на основе GPT-4 и GPT-4 Vision. С его помощью можно преобразовать текстовые промпты и изображения в интерфейс на HTML. Он может генерировать как отдельные части сайта (например, дропдаун-меню), так и целые страницы.

В X (Twitter) создатели постоянно публикуют примеры своих дизайнов. Среди них — не только лендинги, но и дашборды, и даже копию основной страницы Reddit.

ИИ-модель Brewed обучена на большом наборе данных из компонентов пользовательского интерфейса. На первом этапе после запроса пользователя она создает 1-3 варианта дизайна. После этого можно вносить неограниченное количество правок — например, попросить ИИ поменять цвет сайта.

В Brewed есть и стандартный UI-редактор. Он позволяет менять элементы вручную: выделить текст и по-другому выровнять его, поменять шрифт и так далее. Еще можно редактировать исходный HTML любого дизайна и переключаться между кодом и визуалом. Как выглядит редактор, видно здесь.

Для работы с Brewed нужны кредиты. Чтобы их приобрести, можно использовать собственный ключ OpenAI, а в ближайшее время появится опция покупки напрямую. Также в Brewed действует реферальная программа.

Для своих дизайнов платформа использует tailwind css. Скоро планируется добавить поддержку react и других фреймворков. Также разработчик пишет, что в будущем будет делать аналогичное решение для мобильных приложений, а потом и для бэкенда.

Сервис вызвал большой интерес и бурные обсуждения на Product Hunt, хотя он все еще находится на стадии вейтлиста. А еще он уже попал в несколько популярных рассылок про ИИ, например, The Rundown AI и Ben's Bites.


Cервис авторизации для кастомных GPT-ботов

В ноябре 2023 года OpenAI разрешила пользователям создавать кастомные чат-боты (GPTs) на основе ChatGPT, а в январе 2024 запустила для них GPT Store. Подписчики ChatGPT Plus разработали уже более 3 млн GPTs, хотя не все они открыты для других юзеров.

Открытие стора сделало более актуальной проблему безопасности пользовательских чат-ботов. Злоумышленники могут получить к ним доступ и, например, использовать Prompt Injection, чтобы манипулировать LLM с помощью промптов. Так они заставляют модель игнорировать предыдущие инструкции и делиться чувствительной информацией.

Сервис GPT Auth создан, чтобы решить проблему неавторизованного доступа. Он позволяет разработчикам настроить аутентификацию для своих чат-ботов. Это no-code инструмент.

Для конечного пользователя чат-бота процесс выглядит так: когда человек пытается получить доступ к кастомному GPT, GPT Auth просит его указать свою электронную почту. После этого на этот адрес отправляется уникальный 4-значный код. Пользователь должен ввести код, чтобы подтвердить свою личность и использовать чат-бот.

Для разработчиков в системе есть GPT Auth Dashboard, через который может управлять доступом к GPT. В дашборде можно найти полный список пользователей и их электронных адресов, разработчики могут напрямую взаимодействовать с пользователями своего продукта. Еще одна функция — трекинг запросов пользователей в режиме реального времени.

При разработке GPT Auth использовались Next.js, OpenAI, Tailwind, Flask и Sqlalchemy. Создателям GPTs доступна опция селф-хостинга, но для локального размещения есть минимальные требования — наличие Node.js v18, OpenAI API Key и Python3. 

Разработчики сейчас могут выбрать из двух тарифных планов: бесконечная подписка стоит $49, подписка на месяц — $9. В обе входит трекинг действий пользователей, клиентская поддержка от девелопера и обновления. И еще пара плюсов — при необходимости можно обратиться за помощью к сообществу в Discord и посмотреть демо плагина ChatGPT с GPT Auth.


Малая языковая модель от Microsoft, которая может конкурировать с LLM

В декабре Microsoft представил новую SLM Phi-2. У неё всего 2,7 млрд параметров. Она хорошо справляется с задачами, которые связаны с логическим мышлением и пониманием языка.

Phi-2 обходит по результатам агрегированных бенчмарков «здравый смысл», «понимание языка», «математика» и «программирование» Mistral и Llama-2 с 7 и 13 млрд параметров. А в написании кода она эффективнее даже Llama-2-70B, которая в 25 раз больше. Phi-2 превосходит и Gemini Nano от Google, предназначенную для работы на мобильных устройствах. Это подчеркивает потенциал Phi-2 в области мобильных технологий.

Модель Microsoft обучалась в течение 14 дней на 96 графических процессорах A100. Создатели говорят, что качество тренировочных датасетов сыграло решающую роль для производительности модели. Компания использовала синтетические наборы данных: они были специально созданы для обучения SLM здравому смыслу и общим знаниям (например, в научной сфере). Также их дополнили тщательно отобранными веб-данными. Их команда отфильтровала исходя из их ценности и качества.

И еще одна важная деталь — ученые смогли добиться эффективности без методов обучения с подкреплением, основанных на человеческой обратной связи, или методов инструкционной настройки (instructional tuning).

По словам представителей Microsoft, Phi-2 идеальна для исследований в области безопасности ИИ, интерпретируемости и этического развития языковых моделей. Она уже доступна в каталоге Azure AI Studio.

Phi-2 — третья из малых языков моделей от Microsoft. Phi-1 с 1,3 млрд параметров показала лучшие результаты при программировании на Python среди существующих SLM. Затем ИТ-гигант сделал фокус на логику и понимание языка и создал новую модель с тем же количеством параметров — Phi-1.5. Ее производительность сопоставима с моделями в 5 раз больше.

SLM более экономически эффективны, чем LLM, так как не требуют такой вычислительной мощности.


Почему GPT Store важен для генеративных моделей и ИИ-экономики

В середине января OpenAI наконец-то запустила магазин кастомных чат-ботов, которых пользователи могут создавать, а затем продавать на площадке. Запуск магазина отложили на несколько недель из-за скандала с увольнением Сэма Альтмана из OpenAI, который в итоге триумфально вернулся.

Некоторые эксперты считают запуск GPT Store важной вехой в развитии генеративного ИИ, сравнимой с запуском App Store в 2008 году — и вот почему.

Что из себя представляет GPT Store
Магазин сделан по аналогии с App Store и Google Play. На главной страничке есть подборка ботов, выбранных редакторами; самые популярные программы и разбивка по тематике. Все боты построены на модели GPT, использование сторонних моделей не предусмотрено.

В пресс-релизе по случаю запуска магазина сообщалось, что пользователи создали 3 млн кастомных ботов, но сколько из них попали в GPT Store не уточняется.

Почему запуск магазина — это важно
OpenAI постепенно выстраивает собственную экосистему по аналогии с теми, что есть у Google и Apple.

Потенциально GPT Store — это революционная история, которая в корне изменит ИИ-бизнес, как когда-то App Store превратил iPhone в незаменимое повседневное устройство, допустив на площадку сторонних разработчиков.

То есть как сегодня практически у любой компании есть свое приложение, так в ближайшие месяцы должен появиться и свой чат-бот. При этом у бота есть важные преимущества по сравнению с приложением, главные из которых — разработка чат-бота и его поддержка практически ничего не стоят, а для его создания не обязательно быть программистом. Прог входа на рынок чат-ботов гораздо ниже (по крайней мере сейчас), чем у приложения.

В этом году компания обещает запустить программу вознаграждений, которая будет поощрять разработчиков самых популярных ботов, что должно еще больше подстегнуть интерес к магазину и построить принципиально новую экономику вокруг генеративного ИИ.

Разработчики уже видят в GPT Store хорошую площадку для привлечения новых пользователей к своему продукту (за счет большой пользовательской базы), а также дешевый инструмент для тестирования новых функций.

Отчасти GPT Store находится даже в более выгодном положении, чем App Store в 2008-м году. Когда Apple запускала свой магазин, по всему миру было продано лишь 6 млн айфонов. У ChatGPT на сегодня около 100 млн пользователей. Чем больше пользовательская база, тем больше разработчиков захотят создать свой чат-бот.

Какие проблемы могут возникнуть и уже возникают у GPT Store
Во-первых, у магазина пока что явные проблемы с модерацией. В первые дни после запуска площадку заполонили боты виртуальных подружек, которые не успевали удалять, хотя они прямо нарушают правила использования GPT.

Во-вторых, пока нельзя точно сказать, будет ли GPT Store, а точнее боты, которые там появятся, по-настоящему успешными. Готовы ли будут пользователи в принципе платить за расширенные возможности кастомного чат-бота, учитывая, что они уже платят за подписку ChatGPT Plus.

Из этого логично вытекает следующая проблема: зачем мне использовать (а тем более платить) за чей-то чат-бот, когда я могу создать собственный чат-бот, который будет выполнять задачи, интересные конкретно мне. Вариантом может быть какая-то «эксклюзивная» информация, но захочет ли кто-то ей делиться через чат-боты, к безопасности которых есть вопросы.

Некоторые эксперты предполагают, что будущее чат-ботов — быть встроенными в другие приложения, а как самостоятельный сервис они не выживут. Сегодня сложно представить, что пользователь, который годами гуглил информацию, вдруг захочет перейти на другой сервис только потому, что он выдает ему информацию в виде связного текста, а не набора ссылок. Тем более, если за более качественные результаты поиска придется еще и заплатить.


Новые процессоры для ИИ-моделей — как они работают и зачем нужны

Нейросети все чаще запускают локально на устройстве, а не в облаке, чтобы снизить задержку.  Но у такого подхода есть очевидный минус — высокая загрузка устройства.

Чтобы справиться с вызовом, был придуман новый тип процессоров — к привычным CPU и GPU добавился Neural Processor Unit или NPU.

NPU появились около 6–7 лет назад, но именно с развитием нейросетей (а если конкретнее — после выхода ChatGPT) о них заговорили как о ключевом компоненте в современных устройствах.

Как устроен NPU
NPU, как правило, работает в связке с CPU и GPU. Он берет на себя задачи, связанные с ИИ: распознавание голоса, генерация изображений, работа чат-бота и т. д.

Такой чип заточен под матричные вычисления, без которых нельзя выполнить большинство алгоритмов ИИ. В основе нейросетей лежат операции с многомерными массивами данных — тензорами, которые могут быть представлены в виде матриц. Матричные вычисления позволяют параллельно обрабатывать эти массивы данных, значительно ускоряя обучение и инференс моделей ИИ. CPU менее эффективны в обработке этих вычислений из-за своей последовательной архитектуры

Важно понимать: это не замена CPU и не новая ступень эволюции процессоров, а всего лишь дополнение к существующей линейке, эффективность которой проявляется только для узкого сегмента специфичных «нейросетевых» задач.

Кто уже использует NPU
NPU появились в новейших чипах Snapdragon и X Elite от Qualcomm — они оптимизированы для работы с изображением, аудио- и текстовой информацией.

Intel под конец прошлого года представил Core Ultra — первые процессоры компании, оптимизированные для работы с ИИ. В компании называют новые системы AI PC и прогнозируют, что к 2028 году они будут занимать 80% рынка.

Свое ИИ-решение есть и у вечного конкурента Intel — AMD. Компания интегрировала NPU еще в прошлое поколение своих процессоров Ryzen 7040, а в декабре выпустила Ryzen 8040, которые в 1,5 раза быстрее предшественника.

Какие минусы у технологии
Пока встроенные коммерческие NPU довольно слабы и смогут справиться только с небольшими моделями. Можно сравнить такие чипы со встроенными видеокартами середины нулевых — для базовых задач мощности хватит, но для видеоигр или монтажа видео нужно решение посерьезнее.

С другой стороны, смартфону или ноутбуку, возможно, в ближайшее время и не потребуются мощности для запуска моделей на миллиарды параметров, а как минимум продлевать работу устройства от одного заряда аккумулятора NPU уже научились.


Fooocus — бесплатная нейросеть на основе Stable Diffusion для тех, кто не хочет заморачиваться

Fooocus — это нейросеть для генерации изображений, построенная на оптимизированной модели Stable Diffusion XL (SDXL).

Как говорит разработчик Fooocus, его целью было взять лучшее от Stable Diffusion (открытый код, офлайн-работа) и Midjourney (удобство использования), объединив все в одном user-friendly-сервисе.

Для установки Fooocus достаточно скачать несколько файлов и запустить их на Windows, Mac или Linux-устройстве. Также с нейросетью можно работать через Google Colab.

Интерфейс Fooocus действительно предельно прост: окно для промпта, клавиша для генерации и еще одна клавиша для режима Image-to-Image. Расширенные настройки вынесены в отдельный блок, где, например, можно выбрать визуальный стиль.

Последняя на сегодня версия Fooocus (V2) также научилась самостоятельно дополнять текстовые подсказки, добавляя детали к изначальному промпту c помощью языковой модели GPT (функцию можно отключить).

Простоту использования Fooocus многие считают и главным недостатком сервиса — в угоду доступности были принесены расширенные возможности для настройки нейросети «под себя» и функциональность, которые есть у других сервисов (например, ComfyUI).

Для оптимальной работы Fooocus потребуется машина с 16 Гб памяти и 6 Гб видеопамяти, но нейросети вполне хватит и связки из 8 и 4 Гб.


Рассказываю, что нового происходит в мире хаптических технологий

Девайсы на основе хаптической технологии воссоздают у пользователей чувство осязания. В ближайшие годы мы увидим активное внедрение хаптики в игровую индустрию, автопром и здравоохранение, а объем мирового рынка этой технологии к 2028 году достигнет $5 млрд (в 2022 было $3,9 млрд).

Производитель хаптической одежды OWO и Ubisoft выпустили футболку для игры Assassin’s Creed Mirage. В ней можно ощутить любые эффекты, которые испытывает аватар — пулевые ранения, удары, отдачу от выстрелов пулемета и даже ветер. За это отвечают встроенные в футболку 10 электростимулирующих зон вокруг торса и рук. Поиграть можно будет на ПК и консолях PlayStation 5, PlayStation 4, Xbox Series X и Xbox Series S — футболка подключается к ним по Bluetooth. Стоит $580.

Американский стартап Music: Not Impossible тестирует хаптические костюмы, которые через вибрации помогают слабослышащим чувствовать музыку. Комплект системы включает в себя два браслета на запястья, два браслета на лодыжки и специальный жилет. Костюм считывает звуковые вибрации, а затем система посылает электрические импульсы.  

В клиниках Министерства по делам ветеранов США будут использовать хаптический браслет Neosensory — чтобы помочь бывшим военным справиться с нарушениями слуха. Технология Neosensory Duo использует бимодальную стимуляцию (вибрации браслета и мелодии из приложения), чтобы научить мозг игнорировать фантомный шум. Она может помочь и другим пострадавшим от сильного шума — строителям, музыкантам, посетителям концертов.

Браслет с технологиями Neosensory Sound Awareness и Clarify прослушивает речь и переводит ее в паттерны вибрации, ощущаемые на запястье. Люди с легким нарушением слуха после использования браслета реже или совсем не пользуются слуховыми аппаратами. Глухим устройство позволяет начать распознавать звуки автомобиля, плач ребенка, звонки в дверь и многое другое.

Исследователи из Городского университета Гонконга и других институтов в Китае разработали новый хаптический интерфейс, который подает сигналы на кожу и стимулирует сенсорные рецепторы в теле человека, реагирующие на прикосновения. То есть, если до вас кто-то дотронулся в игре, технология пошлет импульс на нужный участок кожи, а вы почувствуете прикосновение. Патчи с электродами крепятся на ладони, руки и шею пользователя, а ощущения передаются одновременно и через электрическую стимуляцию, и через механическое воздействие. Технологию планируют использовать в VR- и AR-индустриях.

Стартап HaptonTech разработал хаптическую пленку, которая под воздействием электричества имитирует неровности на разных поверхностях. В отличие от тактильных пленок других компаний, эта полностью прозрачная, гибкая и тонкая, и ее можно нанести, например, на солнечные панели марсохода, чтобы очищать их от песка и пыли (направил импульс на пленку, она деформировалась, грязь слетела), или на смартфон — информацию можно будет получать, не глядя на экран.
 


МТС Линк теперь будет писать за вас саммари встречи

Мы внедрили в платформу для бизнес-коммуникаций и совместной работы МТС Линк новую функцию на основе генеративного ИИ. Сразу после встречи участники будут получать автоматически сгенерированное краткое содержание встречи. Для этого не нужно подключать сторонние инструменты, всем участникам саммари отправляется в один клик.

Языковая модель обучалась на базе расшифровок совещаний, которые проходят в МТС. Разработчики МТС Линк учили ее причислять каждую реплику к определенной категории: обозначение повестки, заключение договоренностей, переход от одной темы к другой и т.д. На первом этапе это делалось вручную, чтобы получить справочник, на который уже сможет опираться модель.

Пользователям доступна и полная расшифровка встреч: в ней можно искать по ключевым словам и переходить из расшифровки к нужному моменту записи. Сейчас команда работает над тем, чтобы свести к минимуму ошибки, связанные с нечеткой речью и использованием сленга. А посторонние шумы уже отфильтровываются с помощью инструментов шумоподавления — тоже на основе ИИ.

Для участников текстовая расшифровка работает так же, как и запись звонка. Ее можно включать и выключать, и тогда в расшифровку могут попадать только нужные моменты встречи.

Основной результат внедрения: клиенты сэкономят время на расшифровки, получат более комфортный опыт. За счет этого вырастет их удовлетворенность и лояльность, по нашим прогнозам — на 15-20%.

Мы стали первым из российских сервисов ВКС, кто внедрил автоматическое формирование саммари встреч. В будущем ИИ в МТС Линк поможет пользователям улавливать содержание встреч, на которые они опоздали, лучше выглядеть в кадре и распознавать жесты.


Простой и бесплатный ИИ-редактор изображений с автопромптом

Stylar — ИИ-генератор и редактор, который пригодится для создания иллюстраций, абстрактного искусства, дизайна персонажей, интерьеров, логотипов и даже татуировок. На сайте указано, что скоро команда добавит больше функций для работы с портретами и фотографиями продуктов.

В основе управления лежит механика drag-and-drop. Пользователь творит на холсте, размер которого он выбирает сам. Редактор заточен на работу со слоями, так что можно соединить несколько изображений, сгенерировать с помощью промпта дополнительную деталь или добавить текст. Одна из функций позволяет разделить картинку на слои и сохранить их на будущее.

Сервис включает десятки стилей, от гиперреализма до 3D-мультфильмов. Stylar также поддерживает экспорт работ в форматах PNG или JPG высокой четкости. Максимальное разрешение — 4608px × 4608px.

У инструмента есть функция автопромптинга. Часто, чтобы улучшить готовое изображение с помощью нейросетей, его нужно сначала описать. Stylar может самостоятельно проанализировать картинку, которую вы загрузили в редактор, и подготовить подробный промпт. После этого вы можете использовать его для генерации изображения в другом стиле. Еще один интересный вариант — воспользоваться ИИ-ассистентом. По короткому описанию он создаст нужный промпт за вас.

Сейчас Stylar находится на стадии бета-тестирования. На Product Hunt он появился совсем недавно, поэтому отзывов у него еще немного. Зато в комьюнити Discord уже больше 13 тыс. человек.


Покопался в платформе DataRobot для разработки и интеграции ИИ-модели: вот что там есть

Платформа позволяет обучать и тестировать модель в песочнице для последующей оптимизации, файнтюнинга и интеграции. После этого работу модели можно мониторить и вносить изменения

Изначально DataRobot поддерживал только ML-модели, но в последних версиях к ним добавилась и поддержка генеративного ИИ для создания соответствующих приложений.

Через API DataRobot поддерживает интеграцию с наиболее распространенными программами, LLM, облачными сервисами и векторными базами данных. Управлять проектами на платформе можно через пользовательский интерфейс и программно с помощью REST, Python и R.

Для обеспечения безопасности работы с генеративным ИИ, разработчики недавно запустили так называемые Guard Models. Это модели ИИ, которые контролируют работу других запущенных на платформе моделей. Они, например, позволяют ограничить темы, на которые ИИ будет «разговаривать» с пользователями, а также контролировать галлюцинации нейросетей.

В основном на Data Robot запускают модели для работы с данными: аналитики, аугментации, редактирования данных и других действий. Известны кейсы применения платформы для разработки и тестирования системы рекомендаций фильмов и для анализа рисков подтоплений в европейских городах.


ИИ-генератор изображений и нейрофотошоп на одной платформе

Playground AI — ИИ-сервис для генерации и редактирования изображений. Это аналог Midjourney, но с дополнительными настройками.

Работать можно в двух режимах:

Board — создание одной или нескольких картинок фиксированного разрешения;
Canvas — последовательная генерация холста неограниченного размера по частям.

Пользователям доступно много разных функций. Например, Exclude From Image позволяет указать, каких цветов и объектов не должно быть на изображении, а Filter — выбрать стиль. Обычно для этого нужны дополнительные промпты, но они не всегда корректно срабатывают.

Другие опции — возможность добавить референс, указать количество картинок, их разрешение, качество и точность попадания в запрос. Разработчики не рекомендуют ставить максимальную точность, чтобы оставить нейросети пространство для креатива.

Результаты удобно редактировать: менять размер, добавлять и убирать элементы, дорисовывать окружение, удалять фон, улучшать лица. Работать можно, в том числе вместе с другими пользователями, как в Figma.

В режиме Board изображения генерируются с помощью одной из трех моделей на выбор: Stable Diffusion 1.5, Stable Diffusion XL и Playground v2, в режиме Canvas доступно только две последние. Раньше у Playground AI была интеграция и с DALLE-2, но сейчас такой опции на сайте нет.

Отдельно остановлюсь на Playground v2 — новой модели от Playground AI. Компания пишет, что эту модель выбирают в 2,5 раза чаще, чем Stable Diffusion XL. Она использует новый бенчмарк MJHQ-30K для автоматической оценки эстетического качества. Для этого рассчитывается FID на высококачественном наборе данных Midjourney (включает 10 категорий, каждая из трех тыс. образцов).

Еще одна фишка Playground AI — сообщество, где публикуются результаты генерации других пользователей. Можно посмотреть сами изображения, параметры, промпты, отредактировать чужой арт или сделать его ремикс.

Бесплатный тариф Playground AI позволяет создать до 500 изображений в день. После 50 включаются ограничения на качество и детализацию картинок. Также есть два платных тарифа за $15 и $45 в месяц. Подробно условия описаны здесь.

На Product Hunt Playground AI получил оценку 4,6 из 5. Пользователи отмечают user-friendly интерфейс и большое количество изображений для бесплатной генерации (правда, раньше их было еще больше — одна тыс. штук в день).


5 главных принципов эффективной работы из биографии Илона Маска

«Ты никогда не добьешься успеха!» — сказал Эррол Маск своему 17-летнему сыну, который в 1989 году решил переехать из Южной Африки в Канаду. Спустя 32 года основатель SpaceX и Tesla стал самым богатым человеком в мире.

В сентябре 2023 года издательство Simon & Schuster опубликовало авторизованную биографию Илона Маска. Ее автор — Уолтер Айзексон, бывший руководитель CNN, TIME и Института Аспена. Он уже писал о Бенджамине Франклине, Альберте Эйнштейне,  Леонардо да Винчи и Стиве Джобсе. В течение двух лет Айзексон практически ходил по пятам за Маском и часами брал интервью у него самого, его семьи, друзей, коллег и оппонентов. Книга стала бестселлером по версии The New York Times.

Я хочу поделиться алгоритмом из этой книги, который помог Маску оптимизировать работу заводов Tesla в Неваде и Фримонте. Он стал важной частью его философии. Его можно применять для повышения как личной, так и командной эффективности. Вот как он выглядит:

Ставьте под сомнение каждое требование. Всегда нужно понимать, кто именно это требование сформулировал. Не нужно мириться с тем, что оно исходит от какого-то отдела — вы должны знать имя конкретного человека. Затем, независимо от того, насколько этот сотрудник умен, следует проверить его требование на адекватность. Более того — именно мнения умных людей наиболее опасны, так как в них реже сомневаются. Этот совет Маск распространяет даже на свои собственные запросы.  
Избавьтесь от максимального количества процессов — или их частей. Возможно, позже их придется вернуть. Более того — если в итоге вы не вернули хотя бы 10% из них, значит, вы изначально убрали недостаточно.
Упрощайте и оптимизируйте. Этот шаг должен следовать за вторым. Распространенная ошибка — упрощение и оптимизация процессов, которых в принципе не должно быть в компании.
Ускоряйте циклы работы. Любой процесс можно ускорить. Но делать это следует только после первых трех шагов. Как говорит сам Маск, «на заводе Tesla я потратил много времени на ускорение процессов, от которых, как я потом понял, следовало избавиться».
Автоматизируйте. Это последний пункт, который обязательно должен идти после предыдущих. По словам Маска, его большой ошибкой в Неваде и Фримонте была попытка сразу автоматизировать каждый шаг. Однако сначала нужно было усомниться во всех требованиях, избавиться от лишнего и улучшить оставшееся.

В книге также описаны следствия из этого алгоритма:

- По словам Маска, все технические руководители должны обладать практическим опытом. Например, тим-лидам команд разработчиков ПО нужно  проводить не менее 20% своего времени за программированием. Иначе такие сотрудники будут похожи на командира кавалерии, который не умеет сидеть на лошади, или генерала без навыков владения шпагой.
- Дружба на работе опасна. Она мешает людям спорить друг с другом. Сотрудники боятся испортить отношения с коллегами, а делать этого не следует.
- Ошибаться — это нормально. Главное — не быть уверенным в себе и при этом ошибаться.
- Никогда не нужно просить своих сотрудников сделать то, что вы не готовы делать сами.
- При возникновении проблем не стоит идти сразу к руководителям. Сначала пообщайтесь с теми, кто находится непосредственно под ними.  
- При найме важно искать людей с правильным подходом к делу. Навыкам можно научить. Для изменения отношения к работе нужно пересадить мозг.
- Маниакальное чувство срочности — это принцип работы.
- Единственные правила — те, которые диктуются законами физики. Все остальные — это рекомендации.


Создаем презентации с помощью ИИ-сервиса SendStep

Создание презентаций стало одним из самых перспективных направлений использования генеративного ИИ. Подобные сервисы появляются чуть ли не каждый месяц, при этом продукты очень сильно разнятся по качеству. На этом фоне SendSteps есть что предложить пользователю.

У сервиса простой интерфейс, можно работать с ppt и pptx-файлами, а также есть поддержка русского языка (это большой плюс), правда, только в платной версии. SendSteps может сгенерировать презентацию по промпту или на основе загруженного документа. Также можно докрутить уже готовую презентацию с помощью встроенной нейросети: например, дописать текст или сгенерировать иллюстрации.

Перед генерацией для презентации можно задать примерную продолжительность по времени, а также подходящий тон: нейтральный, разговорный, интеллектуальный или убеждающий.

Готовую презентацию можно запустить в режиме просмотра для коллег прямо с сайта SendSteps.

Для теста я попросил через промпт сгенерировать презентацию про годовую выручку крупнейших технологических компаний мира за 2022 год. Итоговый результат вряд ли можно было использовать как готовую презентацию — скорее, можно как черновик. Все слайды были с приятной анимацией (если анимация не нравится, то фон можно изменить); разделены по темам, которые ИИ посчитал важными (методология, анализ данных, примеры и т. д.), оформлены логотипами компаний и т. д. В конце сервис даже добавил опрос для посмотревших презентацию.

При этом SendSteps не берет цифры из интернета и предлагает пользователю их найти самому, чтобы затем добавить в презентацию. Учитывая склонность нейросетей выдумывать несуществующие данные, которые все равно придется перепроверять — возможно, это тоже плюс сервиса.

У SendSteps есть несколько вариантов подписки: бесплатная, с ограничением по количеству презентаций, пользователей и доступных языков; начальная, с безлимитным количеством презентаций и поддержкой 85 языков и возможностью экспортировать файл в PowerPoint; профессиональная, в которой к начальной версии добавлена возможность создавать интерактивные опросы и тесты.


Создаем чат-ботов на основе пользовательской информации при помощи Llama Index

Llama Index (когда-то известный как GPT Index) упрощает процесс создания чат-ботов, если вам нужно привязать вашу информацию к LLM.

Источником информации может быть что угодно: API, база данных, просто PDF или файл из Google Docs.

Запускается Llama Index через IDE или Google Colab. По дефолту фреймворк использует GPT-3.5 Turbo для генерации текста, но самостоятельно можно интегрировать и другие LLM.

Кстати, придумал Llama Index Джерри Лю, который до этого работал в Uber, где занимался разработкой беспилотных автомобилей.  

Llama Index не только автоматически вытащит информацию, но и самостоятельно структурирует ее так, чтобы LLM могли ее понять. После этого с информацией можно будет взаимодействовать, используя естественный язык. Есть возможность делать запрос сразу по нескольким источникам.

Также Llama Index упрощает процесс обновления информации в пользовательском датасете. Базу информации совсем не обязательно обновлять полностью, достаточно добавить только новую часть, а Llama «подвяжет» ее к основной части.

Юзкейсов для Llama Index множество. Например, пользователь vc.ru поделился, как он использует сервис в своей работе менеджером по продуктам.
С помощью Llama Index он обобщает отзывы клиентов и ищет архивную документацию по функциям, над которыми работает в данный момент.

В качестве альтернативы Llama Index иногда советуют фреймворк LangChain. Те, кто много пользовался и тем, и другим решением, предлагают использовать Llama для задач, завязанных на работу с информацией, а LangChain — для более сложных случаев, когда требуется использование сразу нескольких инструментов.


Как GEN-2 стала главной нейросетью для генерации видео

За 5 лет с момента основания в 2018 году стартап Runway прошел путь от крохотного бизнеса до стартапа с оценочной стоимостью в $1,5 млрд, чьи технологии использовались в триумфаторе Оскара-2023 «Все везде и сразу».

Главный продукт Runway — мультимодальная нейросеть GEN-2, которая генерирует видео по промпту, редактирует уже готовые клипы и анимирует статичные изображения с помощью генеративного ИИ. GEN-1 работала только с уже готовыми видео.

У модели много конкурентов (Pika, Stable Video, над своей моделью работает и Midjourney). Но благодаря тому, что стартап получил серьезную поддержку инвесторов (например, от Google и Nvidia) и с самого основания работал фактически только над одним продуктом, их GEN-2 стала главной нейросетью для видео.

GEN-2 построена на нескольких ML-фреймворках, включая TensorFlow, PyTorch и Keras. Благодаря им использовать нейросеть может как новичок, который хочет сразу приступить к генерации видео, так и профессионал, который хочет донастроить модель под себя.

Сейчас GEN-2 можно использовать через сайт, сервер Discord и приложение iOS. Сервис работает по фримиум-модели: первые несколько генераций можно сделать бесплатно, дальше придется платить от $144 в год.

Модель отличается высокой консистентностью и высоким разрешением генераций. К концу года вторая версия нейросети научилась выдавать 18-секундные клипы по сравнению с 3–4 секундами на запуске в марте 2023 года.

Глава и сооснователь компании Кристобаль Валенсуэла уверен, что уже в ближайшем будущем с помощью Runway можно будет генерировать полнометражные фильмы — но это не основная цель стартапа. Валенсуэла видит роль GEN-2 в качестве креативного помощника, который будет занимать важную роль в кинопроизводстве (особенно в создании спецэффектов), но никогда полностью не заменит людей.

У компании, где сегодня работает около 50 человек, большой потенциал для роста: сейчас Runway зарабатывает несколько миллионов долларов в год, большую часть из которых составляют платные подписки на сервисы компании.  

Недавно компания анонсировала амбициозный проект General World Models (GWM). Его цель — создать генеративные модели, реалистично симулирующие окружающий мир и последствия событий, происходящих в нем. В Runway говорят, что GEN-2 — это мини-версия GWM.
Попробовать можно тут.


Помощник для генерации кода, который подстроится под ваш стиль программирования

TabbyML — это self-hosted ИИ-помощник для генерации кода, который быстро интегрируется в IDE через интерфейс OpenAPI.

Помощника легко запустить локально на своей системе, так как TabbyML не слишком требователен и поддерживает большинство современных GPU, которые есть в розничной продаже.

TabbyML можно гибко настроить, он поддерживает такие LLM, как CodeLlama, StarCoder и DeepseekCode.

Большой плюс TabbyML в том, что со временем он начинает различать нюансы «стиля» пользователя при написании кода и более точно дает советы или предлагает исправления во время работы. Для обучения модели используются и те случаи, когда пользователь отказывается от предложенных TabbyML вариантов.

Опенсорс-системы пока отстают по качеству работы, но постоянно оптимизируются и быстро догоняют конкурентов, требуя при этом меньше ресурсов. Уже сегодня Microsoft теряет $20 в месяц на каждом пользователе GitHub Copilot из-за высокой стоимости «содержания» системы с несколькими миллиардами параметров, работающей в облаке.

Прошлой осенью TabbyML удалось привлечь $3,2 млн инвестиций.


Как обучать и файнтюнить LLM в 30 раз быстрее

Unsloth обещает увеличить скорость обучения больших языковых моделей в 30 раз.  Это достигается исключительно за счет оптимизации программного обеспечения, без необходимости дополнительного оборудования.

Сервис поддерживает языковые модели Llama, Mistral, Yi, CodeLlama и их вариации.

Разработчики утверждают, что благодаря Unsloth время обучения открытой модели Alpaca сокращается с 85 часов до всего 3 часов без ущерба для точности обучения. При этом устройств использует на 60% меньше памяти.

Максимальная эффективность Unsloth доступна через платную подписку Max, предназначенную для корпоративных пользователей. Именно она обеспечивает поддержку нескольких GPU одновременно. На бесплатной версии скорость обучения LLM увеличивается лишь в 2 раза. Стоимость подписки доступна по запросу.

Unsloth использует несколько технологий оптимизации:

- Технология ручной оптимизации автоградиента, включающая в себя метод обратного распространения ошибок.
- Применение техник QLoRA/LoRA, оптимизирующих количество параметров, необходимых для обучения модели.
- Использование языка программирования Triton от OpenAI, ориентированного на упрощение создания алгоритмов машинного обучения.

Unsloth поддерживает большинство GPU от Nvidia, выпущенных с 2018 года (CUDA 7.0+). Разработчики планируют добавить поддержку AMD и Intel. Приложение работает как на Linux, так и через WSL на Windows.


Учёные из Клермонтского университета использовали ИИ, чтобы определить хиты по частоте сердечных сокращений. Метод, известный как «нейропрогнозирование», также можно использовать для прогнозирования динамики фондового рынка.

Каждую неделю в мире выходит около 170 тыс. новых песен. Предсказать, какая из них станет хитом, практически невозможно. Но, согласно новому исследованию, алгоритмы машинного обучения могут анализировать реакцию нейронов на песни — чтобы точно предсказать её успех или провал.

Степень «погружения» в музыку учёные выявляли по частоте сердечных сокращений у участников эксперимента. И именно этот параметр считали показателем того, насколько трек интересен участникам.

Что в итоге

Используя статистические методы анализа ответов, учёные пришли к выводу, что могут предсказывать хиты — треки с наибольшим показателем «погружения» — с точностью 69%. Когда они обучили алгоритм на большом наборе синтетических данных, точность прогноза увеличилась до 97%.

Что это даёт бизнесу

Зная потенциал треков, артисты и дистрибьюторы контента смогут правильно распределять ресурсы и маркетинговые активности. Например, выбирать для синглов песни с самым высоким рейтингом.

Такой подход называется нейропрогнозированием — и его тестируют не только в индустрии развлечений.

✔ Несколько лет назад ученые из Стэнфорда заявили, что активность мозга может предсказать, какие видео на YouTube станут вирусными.

✔ В Роттердамской школе менеджмента выяснили, что нейронные реакции профессиональных инвесторов могут предсказывать динамику фондового рынка.

Попытки предсказать хиты по активности мозга тоже были, но не такие точные, как в случае с измерением пульса. Тем не менее, прогресс в этой области очевиден — и, возможно, очень скоро мы уже увидим ИИ на основе нейротехнологий. А вместе с ним — новый уровень рекомендаций и нейромаркетинга.


Джефф Дин — главный научный сотрудник AI-подразделения Google и один из самых высокооплачиваемых инженеров-программистов компании. Его годовой доход — $3 000 000. Почему корпорация готова платить ему такие деньги?

Что Дин гениален было понятно уже в школе. В старших классах он разработал программу Epi Info, которая могла прогнозировать эпидемии. И делала она это в 26 раз быстрее аналогичных инструментов того времени. Эпидемиологические центры сразу внедрили Epi Info и используют её до сих пор — разумеется, с некоторыми изменениями.

В Google Джефф Дин оказался в 1999 году, когда в компании работало всего два десятка человек. Уже тогда он имел репутацию одного из самых талантливых учёных США в области информатики.

Первые 15 лет Дин в Google не занимал руководящих должностей. Вместо этого он сосредоточился на коде. Дин участвовал в разработке таких проектов:

Tensor Flow — программная библиотека для тренировки нейросетей,
Spanner — база данных, которая позволяет хранить данные на серверах разных континентов,
LevelDB — дисковое хранилище ключей и значений с открытым исходным кодом,
MapReduce — фреймворк для обработки больших объемов данных,
Google Brain — проект по изучению ИИ на основе глубокого обучения.

Сейчас в подчинении Дина — больше сотни человек. Его команда работает над созданием серии мощных мультимодальных моделей ИИ — нейросетей, которые смогут работать одновременно с текстом, видео, изображениями и аудио.

Напоследок — шутка, которую придумали коллеги Джеффа:

«Дин компилирует и запускает свой код перед коммитом, но только чтобы проверить на баги компилятор и CPU».

Сам Джефф Дин говорит, что просто сесть и написать идеальную программу — не всегда лучший способ решения проблемы. Вместо этого он предпочитает сделать предварительные расчёты и найти компромисс между качеством и скоростью процесса.

Больше узнать о работе и исследованиях Дина можно из его статьи для Google Research. Джефф рассказывает о достижениях его команды в разных областях ИИ, делает прогнозы на будущее и обсуждает лучшие разработки последних лет.


Пусть 2024 год принесёт удачу, тепло и вдохновение. Верьте в себя, дерзайте, воплощайте большие мечты: технологии любят смелых. И не забывайте отдыхать — самые креативные идеи приходят как раз в это время.

Не цепляйтесь за прошлое — концентрируйтесь на том, что важно сейчас. Заберите с собой в новый год всё самое классное и освободите место для развития. А для рутины есть нейросети 😉

Встретимся в 2024-м!

20 last posts shown.