Клуб CDO


Гео и язык канала: Россия, Русский
Категория: Технологии


Сообщество профессионалов в области работы с данными и искуственным интеллектом

Связанные каналы  |  Похожие каналы

Гео и язык канала
Россия, Русский
Категория
Технологии
Статистика
Фильтр публикаций


И как бы прям в продолжении семинара сегодня анонс от команды Flower


In partnership with Andrew Ng and his wonderful team at DeepLearning.AI we have launch two courses on federated learning using Flower!

The two courses will cover both FL fundamentals, as well as how to federate LLMs and use them to safely include private, sensitive and regulated data.

https://www.deeplearning.ai/short-courses/intro-to-federated-learning/?utm_campaign=flower-launch&utm_content=301436194&utm_medium=social&utm_source=twitter&hss_channel=tw-992153930095251456

To support these courses we have made a new slack channel: #course-deeplearning-ai in which we will answer questions, discuss the content and provide additional materials. We will also host an AMA next Monday from this channel that will be also broadcast on our YouTube channel: 29 July 16:00 UTC (09:00 SF, 12:00 NY, 17:00 LON, 18:00 CET, 21:30 IST, 00:00 北京)


Репост из: NoML Digest
Семинар про FL в медицине

▫️ 24 июля (среда), 17:00 МСК
▫️ Подключение→

Выступают: Евгений Попов (Yandex Cloud), Никита Лазарев (ИСП РАН), Юрий Маркин (ИСП РАН)

Тема: Практический опыт применения FL в медицине на примере обучения модели по классификации ЭКГ-синдромов

Аннотация
На семинаре рассмотрим следующие вопросы:
▫️ Федеративное обучение (FL): основные классы решаемых задач, возможности и ограничения, обзор основных алгоритмов агрегации в FL;
▫️ Предпосылки пилота для Сеченовского Университета, особенности предметной области при обучении моделей классификации ЭКГ-синдромов;
▫️ Архитектура FL-фреймворка NVFlare, особенности настройки инфраструктуры для FL, процесс разработки FL моделей с помощью NVFlare;
▫️ Эксперимент с обучением FL модели для классификации ЭКГ, основные результаты, дальнейшие планы.


Коллеги, я как то писал в своем обзоре и упомянал в ходе вебинара по FL о кейсе коллег из Yandex - а в эту среду они расскажут о нем из первых уст :) Так что преглашаю всех присоединиться и послушать!


Репост из: Реймер | Трансформация Бизнеса
Нецифровая трансформация. Принципы успеха в условиях неопределенности

🔜 24 июля в 19:00 в рамках старта программы повышения квалификации руководителей "Трансформация Бизнеса" в Высшей школе бизнеса НИУ ВШЭ проводим бесплатный онлайн семинар.

Обсудим актуальные технологические тренды, влияние искусственного интеллекта на эффективность бизнеса.
Разберем ключевые факторы и принципы успеха и неудач трансформации бизнеса. Определим образы лидера и организации, способной быть успешной в эпоху неопределенности, а также почему трансформация теперь нецифровая и непрерывная.

Спикеры:

- Денис Реймер. CEO Reymer Digital, Профессор и академический руководитель программ «Трансформация бизнеса» ВШБ НИУ ВШЭ
- Армен Бекларян. к.т.н., Доцент департамента бизнес-информатики ВШБ НИУ ВШЭ
- Степан Масленников. CEO Движение бизнеса. Лидер и эксперт по трансформации бизнеса. Член советов директоров частных компаний.

Приходите и приглашайте коллег!

Регистрация на семинар по ссылке.
➡️ https://gsb-hse.timepad.ru/event/2962670/4

Программа повышения квалификации "Трансформация Бизнеса: лидерство в эпоху неопределенности”
➡️ https://www.hse.ru/edu/dpo/908893000


Всем привет! Делюсь анонсом от наших друзей




А кто нибудь встречал какие то уже +/- внятные объяснения что за global сбой происходит? интересны причины, но пока нигде не вижу никакой более менее конкретной инфомрации

UP: https://www.theregister.com/2024/07/19/crowdstrike_falcon_sensor_bsod_incident
UPP: https://news.ycombinator.com/item?id=41004103




Google по всей видимости раскатил Gemini на public Gmail


Дайджест статей

От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе
https://habr.com/ru/companies/mvideo/articles/827876/

Unified Database: Laying the foundation for large language model vertical applications
https://www.microsoft.com/en-us/research/blog/unified-database-laying-the-foundation-for-large-language-model-vertical-applications/

GPT для генерации кода в реальном применении на производстве
https://habr.com/ru/companies/nlmk/articles/826754/

Будущее хранения данных. Где и на чем будем хранить данные в будущем
https://habr.com/ru/companies/timeweb/articles/826284/

How data governance contributes to a data-driven culture
https://www.datasciencecentral.com/how-data-governance-contributes-to-a-data-driven-culture/

MIT researchers introduce generative AI for databases
https://news.mit.edu/2024/mit-researchers-introduce-generative-ai-databases-0708

Optimize AI Model Performance and Maintain Data Privacy with Hybrid RAG
https://developer.nvidia.com/blog/optimize-ai-model-performance-and-maintain-data-privacy-with-hybrid-rag/




Using Federated Machine Learning to Overcome the AI Scale Disadvantage

Статья не новая, прошлого года, но любопытная. Рассказывается кейс использования Federated Learning в исследовательских задачах в фарминдустрии. Ряд довольно крупных компаний, таких как AstraZeneca, Bayer, GSK, Janssen Pharmaceutica, Merck, and Novartis в 2017 году организовали консорциум Melloddy в рамках которого проводили эксперимент по создания общей платформы для работы с данными в децентрализованном режиме. В качестве базы для платформы использовали стартап Owkin (https://www.owkin.com/substra).

Инновации в фармацевтике - дело очень дорогое и трудоемкое. Средняя стоимость вывода нового препарата на рынок составляет около 2,3 миллиарда долларов по состоянию на 2022 год, а сам процесс может занять более 10 лет. Одна из основных трудностей при открытии лекарств связана с чрезвычайно большим количеством возможных молекул (порядка 10⁶⁰) и связанной с этим проблемой поиска молекул с перспективными свойствами в этом огромном пространстве. Фармацевтические компании также сталкиваются с давлением, поскольку такие крупные технологические игроки, как Alphabet, используют свои глубокие знания в области искусственного интеллекта и машинного обучения для открытия лекарств.

Melloddy - представлял собой трехлетний пилотный проект, целью которого было проверить FedML на целесообразность и эффективности. Проект финансировался совместно с Европейским союзом; Еврокомиссия рассматривала Melloddy как тестовый пример для получения информации для бизнес-секторов за пределами фармацевтики. Используя данные друг друга, но не делясь ими, участвующие фармацевтические компании могли обучать свои модели машинного обучения на самом большом в мире наборе данных об открытии лекарств, что позволяло делать более точные прогнозы относительно перспективных молекул и повышало эффективность процесса открытия лекарств.

Результаты пилотного проекта Melloddy, который завершился в 2022 году, показали, что создание безопасной многосторонней платформы для совместного ИИ с использованием децентрализованных данных вполне осуществимо и что производительность моделей машинного обучения действительно повышается при использовании подхода FedML.

Но вот про дальнейшие шаги что то в статье не очень много деталей 🙂


Репост из: Data Secrets
Видео недоступно для предпросмотра
Смотреть в Telegram
Это шедевр: известное австралийское медиа, которое снимает колкую политическую сатиру, опубликовало видео про ИИ

В ролике пародийный ИИ-ассистент GovGPT, "сделанный компанией ClosedAI", с сарказмом и пасхалками прожаривает тех-гигантов и отвечает на вопрос "Будет ли SkyNet?".

Ничего лучше вы сегодня не увидите


Репост из: Все о блокчейн, мозге и WEB 3.0 в России и мире
AI_and_Blockchain_Task_Force_Joint_Paper_1720436999.pdf
2.0Мб
Если вы строите экономику данных, то этот отчет о совместном использовании ИИ и блокчейна для вас

Ключевые сферы внимания в докладе:

1. обеспечение экономики данных децентрализованными фреймворками ИИ, использование блокчейна для безопасного и эффективного обучения моделей ИИ, а также использование ИИ для автоматизированного маркет-мейкинга и торговых стратегий в децентрализованных финансах (#DeFi ).

2. представлены тематические исследования по выявлению мошеннических схем на основе ИИ, сохранение #privacy в DeFi и использование обработки естественного языка (#NLP ) для анализа тональности и анализа данных.

3. обсуждается применение цифровых двойников #digitaltwin в управлении активами.

4. рассматриваются этические, социальные и управленческие принципы, подчеркивая необходимость глобального отрудничества и надежной нормативно-правовой базы для обеспечения положительного воздействия этих конвергентных технологий на общество.


Друзья!

У нас есть неожиданное и очень приятное предложение от редакции канала CDO Club и команды CleverData: давайте повторим наш оффлайн формат и соберемся в августе в Москве, чтобы обсудить рынок данных, монетизацию, тренды и поделиться новостями?

Мы видим, что интерес к теме на рынке растет, и чувствуем, что накопилось достаточно информации для продуктивного разговора и обмена идеями. Это будет уютная камерная встреча без записи и трансляций, в кругу единомышленников и экспертов.

С этим постом мы хотим получить вашу обратную связь: насколько вам интересно принять участие, какие у вас есть идеи и предложения. Кто хочет что-то рассказать? Какие пожелания по формату, повестке и организации мероприятия?

На данный момент у нас есть ориентировочная дата – 13 августа.

Давайте вместе создадим незабываемое событие! Ваши идеи и предложения можно оставить в комментариях или прислать в личные сообщения.

Ждем отклика!


Дайджест статей

Базовое руководство для улучшения качества продуктов с LLM
https://gopractice.ru/skills/improving-products-with-llm/

Как влияет искусственный интеллект на управление данными
https://cio.osp.ru/articles/270624-Kak-vliyaet-iskusstvennyy-intellekt-na-upravlenie-dannymi

Build an Advanced RAG App: Query Rewriting
https://dzone.com/articles/build-an-advanced-rag-app-query-rewriting

Инфраструктура для data engineer S3
https://habr.com/ru/articles/827052/

Phased Approach to Data Warehouse Modernization
https://dzone.com/articles/phased-approach-to-data-warehouse-modernization

Knowledge Graph Enlightenment, AI, and RAG
https://dzone.com/articles/knowledge-graph-enlightenment-ai-and-rag-the-year

Generative Search: Practical Advice for Retrieval Augmented Generation (RAG)
https://www.infoq.com/presentations/vector-embedding-llm/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей
https://habr.com/ru/companies/selectel/articles/826266/

17 продвинутых RAG-техник: как превратить прототип LLM-приложения в готовое решение
https://habr.com/ru/companies/bothub/articles/825850/

Графы в рекомендательных системах [часть 1]
https://habr.com/ru/articles/825896/

Хранилища данных. Обзор технологий и подходов к проектированию
https://habr.com/ru/articles/822669/

Визуализация данных: четыре простых способа быстро улучшить диаграмму
https://habr.com/ru/companies/vk/articles/824260/


Репост из: Анализ данных (Data analysis)
⚡️ Microsoft только что был опубликовали Graph RAG!

Проект Graph RAG - это пакет для обработки и преобразования данных открытым исходным кодом, предназначенный для извлечения структурированных данных из неструктурированного текста с использованием возможностей LLMs.

Эо методология использования структур памяти knowledge graph для улучшения работы LLM.

Github
Docs
Blog

@data_analysis_ml


Опыт команды LinkedIn по внедрению GenAI в свой продукт:

- "главное выбрать правильного агента" - короче распознать что конкретно хочет пользователь так и остается одной из важных задач в диалоговых системах и просто кидать запросы в LLM не помогает решить конкретную пользовательсксую проблему 🙂

- Retrieval - а еще агент должен не только знать но и уметь ходить в нуные сервисы за информацией, а не просто выдавать ответы на основе обучающих данных. Поэтому нужна интегарция и гереация запросов. А еще агент должен уметь делать дейвия в системах, тогда он рельно будет приносить пользу, а не просто давать советы из области "вам надо стать ежиками" 🙂 Реально клиентский опыт меняет не ответы а дейтвия: отпишись от всех "друзей" с должность "business developer", например (коли речь идет о LinkedIn, там это просто боль)

What worked for us:
- Fixed 3-step pipeline
- Small models for routing/retrieval, bigger models for generation
- Embedding-Based Retrieval (EBR) powered by an in-memory database as our 'poor man's fine-tuning' to inject response examples directly into our prompts
- Per-step specific evaluation pipelines, particularly for routing/retrieval

What we are working on: a unified skill registry to dynamically discover and invoke APIs/agents packaged as LLM friendly skills across our generative AI products.

А еще интересные компромисы подсвечиваются: Quality vs Latency - ну понятно, надо либо бытсро либо хорошо. А пользователь хочет и быстро и хорошо 🙂

https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product


Новый рекорд скорости передачи данных через стандартную оптику -

402 Tb/s



Показано 20 последних публикаций.