Data Science | Machinelearning [ru]


Channel's geo and language: Russia, Russian
Category: Technologies


Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)
По сотрудничеству - @g_abashkin

Related channels  |  Similar channels

Channel's geo and language
Russia, Russian
Statistics
Posts filter


​​Студенты из России выиграли ICPC

ICPC — самая престижная международная олимпиада по программированию в мире. Соревнования проходили в Египте, причем было проведено сразу два финала олимпиады — за 2022 и 2023 годы.
За 2023 год абсолютными чемпионами стала команда FFTilted. В ее составе — Фёдор Ромашов, Александр Бабин и Кирилл Кудряшов. Ребята обошли команду из Пекинского университета, которая была чемпионом 2022 года.
Третье место в абсолютном зачете 2022 года заняла команда Undertrained+Overpressured. Ее представляли Максим Гороховский, Иван Сафонов и Тимофей Федосеев. 
Обе команды состоят из студентов факультета компьютерных наук ВШЭ, а команда, занявшая первое место – студенты программы Прикладной математики и информатики (ПМИ), созданной Яндексом в момент основания факультета. Всего в международной олимпиаде приняли участие студенты из 170 университетов и 50 стран мира.  
Победа в ICPC — это очень круто. Знаем, что крупнейшие технологические компании активно хантят победителей соревнований. Респект от всего сообщества программистов.

Читать…


Как прокачать свои знания в ИТ и стать уверенным специалистом по машинному обучению и ИИ?
Магистратура Университета ИТМО Проектирование и разработка систем искусственного интеллекта

Вы научитесь создавать законченный программный продукт и станете программистом сложных многокомпонентных систем со знаниями в области искусственного интеллекта. На программе 22 бюджетных места, а поступить можно дистанционно.
На программе вы научитесь:
• собирать бизнес-требования к системам;
• понимать особенности использования методов и технологий машинного обучения и их встраивания в продуктовые системы;
• проектировать архитектуры систем машинного обучения (ML system design), включая инференс модели;
• строить системы мониторинга и сопровождать модели машинного обучения;
• работать с инструментами MLFlow, AirFlow, DVC, Tensorboard, ClearML и др.

Большинство преподавателей сотрудники крупных ИТ-компаний. Партнеры программы компании MTS, VK Education, Nexign.
После выпуска вы сможете работать архитектором систем искусственного интеллекта (AI Architect), руководителем команды разработки ML-систем (ML TeamLead или ML Project Manager).

Полное описание программы и подача документов по ссылке.

Реклама. Университет ИТМО ИНН:7813045547 erid:2VfnxxkNTfe


​​💻 AutoCodeRover: Autonomous Program Improvement

AutoCodeRover — это полностью автоматизированный подход к решению проблем GitHub (исправление ошибок и добавление функций), в котором LLM сочетается с возможностями анализа и отладки для определения приоритетности местоположений исправлений, которые в конечном итоге приводят к созданию исправления.

AutoCodeRover решает ~ 16 % проблем SWE-bench (всего 2294 проблем GitHub) и ~ 22 % проблем SWE-bench lite (всего 300 проблем GitHub), улучшая текущую эффективность инженеров-программистов искусственного интеллекта.

▪️Github
▪️Paper

@DevspПодписаться


Приглашаем выпускников и студентов старших курсов программ бакалавриата по математике и IT испытать себя сложными математическими задачами машинного обучения в рамках олимпиады «Математика машинного обучения».

Победители олимпиады получат призы и могут быть зачислены на совместную магистратуру Сколтеха и НИУ ВШЭ «Математика машинного обучения» (победа в олимпиаде приравнивается к успешному прохождению конкурсного отбора).

Регистрация открыта до 5 мая, успейте подать заявку и загрузить все документы


​​⚡️ LLMRec: Large Language Models with Graph Augmentation for Recommendation

LLMRec — это новая структура, которая расширяет возможности рекомендателей за счет применения трех простых, но эффективных стратегий расширения графов на основе LLM к системе рекомендаций.

🖥 Github: https://github.com/hkuds/llmrec

📕Paper: https://arxiv.org/abs/2311.00423v1

Project: https://llmrec.github.io/

🌐 Dataset: https://llmrec.github.io/#

@DevspПодписаться


​​🖥TORCH UNCERTAINTY

TorchUncertainty — это пакет, разработанный, чтобы помочь вам использовать методы количественной оценки неопределенности и сделать ваши глубокие нейронные сети более надежными.

TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.

🖥 Github: https://github.com/ensta-u2is/torch-uncertainty

📕Paper: https://arxiv.org/abs/2311.01434v1

Project: https://llmrec.github.io/

👣Api: https://torch-uncertainty.github.io/api.html

🌐 Dataset: https://paperswithcode.com/dataset/cifar-10

@DevspПодписаться


📊 Хотите углубиться в Machine Learning или Data Science?

Начните с изучения базовых методов парсинга и работы с html! Приходите на бесплатный практический урок от OTUS. Спикер Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.

💻 На вебинаре вы:

— освоите основные принципы работы c html в Python;
— изучите основные инструменты парсинга;
— научитесь скачивать различные типы данных с сайтов на сайты.

👉 Встречаемся 22 апреля в 18:00 мск в рамках курса «Machine Learning. Professional». Все участники вебинара получат специальную цену на обучение и консультацию от менеджеров OTUS!

🟢 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/Yn0U/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru


​​⚡️ EntitySeg Toolbox: Towards open-world and high-quality image segmentation

EntitySeg — это набор инструментов с открытым исходным кодом, предназначенный для сегментации изображений в открытом мире и высокого качества.

🖥 Github: https://github.com/qqlu/entity

📕Paper: https://arxiv.org/abs/2311.03352v1

🌐 Dataset: https://paperswithcode.com/dataset/coco

@DevspПодписаться


​​🚀 Introducing YOLO-NAS Pose : A Game-Changer in Pose Estimation

YOLO-NAS обеспечивает современную производительность с непревзойденной точностью и скоростью, превосходя другие модели, такие как YOLOv5, YOLOv6, YOLOv7 и YOLOv8.

Для решения различных задач модель выпускается в четырех вариантах, каждый из которых имеет свой размер и время задержки.

Также доступна модель YOLO-NAS-POSE для оценки позы, обеспечивающая современный компромисс между точностью и производительностью.

🖥 Github: https://github.com/Deci-AI/super-gradients

📕Notebookhttps://colab.research.google.com/drive/1O4N5Vbzv0rfkT81LQidPktX8RtoS5A40

🚀 Demo: https://huggingface.co/spaces/Deci/YOLO-NAS-Pose-Demo

🌐 Colab: https://colab.research.google.com/drive/1agLj0aGx48C_rZPrTkeA18kuncack6lF

@DevspПодписаться


Данные сегодня ценнее золота. А умение извлекать из них пользу — навык, который уже сейчас нужен крупным работодателям.

Приходите на день открытых дверей онлайн-бакалавриата «Аналитика и Data Science» от ТюмГУ и Нетологии, чтобы погрузиться в тему больших данных. Встреча пройдёт 20 апреля в 14:00 мск.

Вы узнаете:
- Кто работает с данными и чем именно занимаются эти специалисты.
- Какие знания и навыки нужны, чтобы реализоваться в профессии.
- Как устроено обучение в бакалавриате и что входит в программу.
- Какие есть требования к поступлению.

Погрузитесь в одну из самых востребованных и перспективных профессий. Регистрируйтесь, чтобы сделать первый шаг к карьере аналитика или Data Scientist.

Записаться → https://netolo.gy/c4qL
Реклама ООО “Нетология” LatgBkVCK


​​🔥Создание 3D-моделей из плоской картинки с помощью DUSt3R

DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).

DUSt3R не требует калибровки камеры или данных о точке обзора.

🖥GitHub

@DevspПодписаться


​​🔥Wunjo AI — open-source проект позволяющий создавать дипфейки и не только

Wunjo AI - это локальное приложение, которое работает даже на слабых компьютерах, предоставляя вам возможности по созданию контента, любой длительности, т.е. по своей природе веб-сервисы не могут позволить обрабатывать часовые фильмы, а Wunjo AI может - это долго.

Помимо создания дипфейков этот проект с открытым исходным кодом может клонировать речь, генерировать видео, удалять текст и объекты, а также получать изображения без фона, прямо на вашем компьютере.

Приложение полностью бесплатное и с открытым исходным кодом, использует вычислительные ресурсы вашего компьютера, а не сервера.

📎Описание Wunjo AI от автора
📎GitHub

@DevspПодписаться


​​🔥 Text Generation Inference v2.0.0 —  готовый сервер для инференса LLM, написанный на Rust, Python и gRPC.

Text Generation Inference (TGI) — это набор инструментов для развертывания и обслуживания моделей большого языка (LLM).

TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и других.

В новую версию Text Generation Inference добавлена поддержка модели Command R+.

Используя возможности Medusa heads, на тестах достигается беспрецедентная скорость с задержкой всего в 9 мс на токен для модели 104B!

Github
Установка

@DevspПодписаться


​​🚀 Whisper-V3 / Consistency Decoder

Whisper — это предварительно обученная модель автоматического распознавания речи (ASR) и перевода речи.

Модели Whisper, обученные на 680 тысячах часов размеченных данных, демонстрируют сильную способность обобщать множество наборов данных и областей без необходимости тонкой настройки.

Модели, говорящие только на английском языке, были обучены задаче распознавания речи.

Для распознавания речи модель прогнозирует транскрипцию на том же языке, что и звук.

- Whisper paper: https://arxiv.org/abs/2212.04356
- Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762
- Consistency Models: https://arxiv.org/abs/2303.01469
- Consistency Decoder release: https://github.com/openai/consistencydecoder

@DevspПодписаться


Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки до 12 мая, успейте зарегистрироваться.

ШАД для вас, если вы:

· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования

Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.

Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.


​​🪞 Mirror: A Universal Framework for Various Information Extraction Tasks

Мощный инструмент для решения практически всех задач извлечения и унификации информации.

Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.

🖥 Github: https://github.com/Spico197/Mirror

📕Paper: https://arxiv.org/abs/2311.05419v1

🌐 Dataset: https://paperswithcode.com/dataset/glue

@DevspПодписаться


​​⚡️ LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.

Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.

LCM можно выделить из любой предварительно обученной стабильной диффузии (SD) всего за 4000 шагов обучения (около 32 часов графического процессора A100) для создания высококачественных изображений с разрешением 768 x 768 за 2–4 шага или даже за один шаг, что значительно ускоряет обработку текста и генерацию изображения.

🖥 Github: https://github.com/luosiallen/latent-consistency-model

📕Paper: https://arxiv.org/abs/2311.05556v1

🌐 Project: https://latent-consistency-models.github.io

🤗 Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model

@DevspПодписаться


​​⚡️ LLocalSearch: completely locally running meta search engine using LLM Agents

LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.

Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.

▪️Github

@DevspПодписаться


​​🦾 Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.

Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.

▪️Статья: arxiv.org/abs/2402.19427
▪️Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b

@DevspПодписаться


​​🔥Мощная модель LLM для локального использования — Qwen 72B

Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.

Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.

📎Перевод инструкции по установке
🖥GitHub

@DevspПодписаться

20 last posts shown.