Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест:
📹 ВИДЕО + АРТ 🎨
Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.
Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.
Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.
Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.
Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.
Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.
Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.
DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.
Lumia: нейронка для генерации в разных модальностях (изображения, музыка).
Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.
🎸 ЗВУК 🎸
Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.
See-2-Sound: скармливаем видео и получаем звуковые эффекты.
🤖 ЧАТЫ 🤖
HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.
LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.
Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.
Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.
Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.
Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.
Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.
FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.
Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.
Как сделать свой чат по PDF на основе Mistral.
Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.
VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.
MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.
Конвертор PDF в датасет.
3D-Grand: VLM для чата по 3D локациям.
Magpie: генерация высококачественных данных для алаймента LLM.
Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Источник
➖➖➖
#AI
➖➖➖
💟 User's Digest - Все каналы
➖➖➖
📹 ВИДЕО + АРТ 🎨
Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.
Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.
Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.
Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.
Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.
Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.
Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.
DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.
Lumia: нейронка для генерации в разных модальностях (изображения, музыка).
Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.
🎸 ЗВУК 🎸
Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.
See-2-Sound: скармливаем видео и получаем звуковые эффекты.
🤖 ЧАТЫ 🤖
HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.
LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.
Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.
Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.
Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.
Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.
Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.
FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.
Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.
Как сделать свой чат по PDF на основе Mistral.
Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.
VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.
MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.
Конвертор PDF в датасет.
3D-Grand: VLM для чата по 3D локациям.
Magpie: генерация высококачественных данных для алаймента LLM.
Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Источник
➖➖➖
#AI
➖➖➖
💟 User's Digest - Все каналы
➖➖➖