Клуб CDO


Гео и язык канала: Россия, Русский
Категория: Технологии


Сообщество профессионалов в области работы с данными и искуственным интеллектом

Связанные каналы  |  Похожие каналы

Гео и язык канала
Россия, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Поделюсь новостью, хотя обычно стараюсь не превращать канал в ленту новостей, отдавая предпочтение аналитическому контенту. Тем не менее - вчера OpenAI выкатили нового агента ChatGPT Deep Research.

Это не новая модель, а новый агент, предназначенный для исследований. Но самое инетресное тут - что такое "исследования". На самом деле это не только научный reseach который мне тут читается по умолчанию, а вообще любое предметное изучение любой тематики.

Например это может быть полезно для разборчивых покупателей, которым нужны гиперперсонализированные рекомендации по покупкам, обычно требующим тщательного изучения, например автомобилям, бытовой технике и мебели. Каждый вывод полностью документирован, с четкими ссылками и кратким изложением мыслей, что облегчает поиск и проверку информации. Он особенно эффективен при поиске нишевой, неинтуитивной информации, для получения которой пришлось бы просматривать множество веб-сайтов. Глубокое исследование высвобождает драгоценное время, позволяя разгрузить и ускорить сложные, требующие много времени веб-исследования с помощью всего одного запроса. Глубокое исследование самостоятельно находит, осмысливает и консолидирует информацию, полученную со всего Интернета.

В общем "Агентский подход + веб поиск в реальном времени + о3 mini = очень полезный инструмент для работы и жизни".

https://openai.com/index/introducing-deep-research/

835 0 22 3 14

Дайджест статей

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
https://habr.com/ru/companies/kaspersky/articles/876834/

Дорожная карта миграции большого хранилища данных
https://habr.com/ru/companies/oleg-bunin/articles/876306/

Руководство по интерпретации данных
https://habr.com/ru/companies/otus/articles/877712/

По ту сторону экрана: про найм в Data-аналитики глазами нанимающего Лида
https://habr.com/ru/articles/877932/

Менеджер данных: как новая роль изменила подход к работе с ML
https://habr.com/ru/companies/2gis/articles/877868/

How does Netflix ensure the data quality for thousands of Apache Iceberg tables?
https://blog.det.life/how-does-netflix-ensure-the-data-quality-for-thousands-of-apache-iceberg-tables-76d3ef545085


Обновленная матрешка

992 0 39 3 21



Кстати вот эта вся шумиха про DeepSeek неплохо имхо про суммирована в этой статье.

Редакция еще не прочитала, но беглый просмотр материала привел в выводу, что надо поспешить поделиться.


https://open.substack.com/pub/thealgorithmicbridge/p/7-implications-of-deepseeks-victory?r=15862q&utm_medium=ios


Пора переименовывать канал :) Не модно уже (в кои то веки автозамена написала действительно «модно» когда это нужно :)) )

https://amzn.to/3PZBGxu


Дайджест статей

Логика построения BI-приложения. Методология DAR для проектирования дашбордов
https://habr.com/ru/articles/876318/

Обзор и карта рынка платформ для защиты ML
https://habr.com/ru/companies/securityvison/articles/875958/

Что вам нужно знать об ИИ-агентах
https://habr.com/ru/companies/haulmont/articles/875238/

Обработка каталога и товаров на LLM
https://habr.com/ru/companies/raft/articles/874966/

Сегментация данных — это не больно. Применяем ML-модели в аналитике
https://habr.com/ru/companies/sravni/articles/875046/

4 Architecture Patterns for Master Data Management(MDM)
https://blog.det.life/4-architecture-patterns-for-master-data-management-mdm-e7d5bfdd5ebd

How AI Agents & Data Products Work Together to Support Cross-Domain Queries & Decisions for Businesses
https://medium.com/@community_md101/how-ai-agents-data-products-work-together-to-support-cross-domain-queries-decisions-for-3129b1d58c5e

Generative AI: The Game Changer for Data Engineering Best Practices
https://medium.com/@alexpongpech/generative-ai-the-game-changer-for-data-engineering-best-practices-e60c020d438b

What Are AI Agents? A Short Intro And A Step-by-Step Guide to Build Your Own.
https://medium.com/codex/what-are-ai-agents-your-step-by-step-guide-to-build-your-own-df54193e2de3

Data Philosophy : Blueprint for Data Architecture
https://medium.com/@anmol.aj/data-philosophy-blueprint-for-data-architecture-1a0a3589e1fa

Types of Data Engineering Architecture
https://medium.com/@ckekula/types-of-data-engineering-architecture-8e28a8e7519f




Text-to-SQL

Попалась на глаза эта статья с интригующим заголовком. Мне тема кажется до сих пор очень интересной, хотя редакция никак не внедрит этот подход на подотчетной территории, надежд мы не бросаем и тему изучаем.

Text-to-SQL (T2SQL) — это технология или методология, которая позволяет преобразовать запросы на естественном языке в SQL-запросы, используемые для взаимодействия с базами данных. Основная цель Text-to-SQL — упростить доступ к данным для людей, не обладающих навыками программирования или знаниями SQL, позволяя им находить нужную информацию через обычный текст.

Важное замечание касаемо статьи: хотя в заголовок статьи вынесено название Uber, внутри делается интересное сравнение QueryGTP от Uber с open-source инструментом Wren AI, который позволяет делать примерно тоже самое (по мнению авторов статьи, сам не пробовал) что и QueryGPT.

Собственно эта статья командой WrenAI и написана :) но я во второй ссылке ниже привожу оригинал статьи от Uber с которой идет сравнение.
Внимательное изучение материала ниже дало несколько интересных инсайтов:

- Интеграция с агентным подходов: обратите внимание на картинку с архитектурой решения, там на каждом шаге преобразования текста в SQL запрос работает отдельный агент на базе LLM: Intent Agent, Table Agent, Column Prune Agent
- Разработана отдельная модель QueryGPT — это концепция или инструмент, построенный на основе технологий генеративного искусственного интеллекта, таких как модели GPT (Generative Pre-trained Transformer). Он предназначен для обработки запросов на естественном языке и их преобразования в SQL-запросы или выполнения других задач, связанных с взаимодействием с базами данных.
- Wren AI - это агент SQL AI с открытым исходным кодом, призванный демократизировать технологию преобразования текста в SQL. Предлагая облачную платформу, в которую интегрированы многие из тех же функций, что и в QueryGPT от Uber, Wren AI стремится выровнять игровое поле.

В общем этот Wren AI выглядит интересно, позиционируется как доступный инструмент для Text-to-SQL.

https://medium.com/wrenai/how-uber-is-saving-140-000-hours-each-month-using-text-to-sql-and-how-you-can-harness-the-same-fb4818ae4ea3
https://www.uber.com/en-TW/blog/query-gpt/
https://github.com/Canner/WrenAI


NVIDIA и Закон Хуанга

В сфере вычислительной техники закон Мура долгое время был руководящим принципом, предсказывающим удвоение количества транзисторов на чипе примерно каждые два года. Но последний десяток лет я наблюдаю вялотекущее обсуждение того продолжает ли действовать этот закон или нет. Очевидно, что в его первоначальной формулировке в части “удвоения количества транзисторов” он давно не работает, при этом еще и на горизонте отчетливо видел физический предел в меньшее этих транзисторов. Но энтузиасты (да и я в их числе), аппелировали к тому, что мы должны рассматривать не просто количество транзисторов, а увеличение вычислительной мощности компьютерной техники, принимая во внимание, что увеличение вычислительной мощности обуславливается сейчас архитектурными и качественными улучшениями (включая и квантовые вычисления), а не просто количеством транзисторов.

А вот компания NVIDIA пошла еще дальше и ввела новый закон: Закон Хуанга, введенный Дженсеном Хуангом (Jensen Huang), генеральным директором NVIDIA, предсказывает, что производительность графических процессоров (GPU), особенно в приложениях ИИ, будет увеличиваться более чем вдвое каждые два года. В отличие от закона Мура, который касается центральных процессоров (CPU), закон Хуанга относится именно к GPU.

Но самая хитрость этого закона в том, что он подразумевает, что увеличение мощности GPU включает в себя не только улучшение железа и архитектуры вычислений, но и совершенствование алгоритмов и программной обработки, включая улучшения и оптимизацию архитектур нейтронных сетей.

Это неплохо объясняет некоторый диссонанс между тем, что на последней конференции н CES25 NVIDIA ярко заявляла о качественно новом уровнем графики с использование DLSS 4 в то время как специалисты критиковали это за то, что DLSS 4 это больше программная разработка а не возможности нового процессора и неплохо работает даже на старых вилдеокартах.

Так что похоже NVIDIA тоже видит предел своего железа на горизонте и уходит даже не в архитектуру, а в софт и оптимизацию драйверов?

https://www.nvidia.com/en-gb/geforce/technologies/dlss/

https://formtek.com/blog/huangs-law-a-new-chapter-in-computing/

https://www.perplexity.ai/page/ai-chips-may-outpace-moore-s-l-HcJymVppT6CVb.t_Kyjw4Q


Дайджест статей

Облачные хранилища в мире Top Gear
https://habr.com/ru/companies/selectel/articles/873456/

Профессии будущего в BI
https://habr.com/ru/companies/cinimex/articles/844042/

Как менялась аналитическая платформа Modus BI в 2024 году?
https://habr.com/ru/companies/modusbi/articles/873586/

Визуализация данных Мосбиржи и не только
https://habr.com/ru/articles/873814/

ПИКантная миграция: путь от Tableau к FineBI
https://habr.com/ru/companies/glowbyte/articles/873922/

Data-driven культура и подход по версии аналитика
https://habr.com/ru/articles/874206/

Здоровый интерес: как аптечная сеть получила возможность с помощью BI-системы анализировать продажи и остат
https://habr.com/ru/articles/874402/

Переливаем таблицы БД между средами: быстро и без боли на примере MS SQL
https://habr.com/ru/companies/vk/articles/874342/

Shaping an Impactful Data Product Strategy
https://www.infoq.com/news/2025/01/impatful-data-product-strategy/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

Dark Data: Recovering the Lost Opportunities
https://dzone.com/articles/dark-data-recovering-lost-opportunities

Data Analytics Transforms Healthcare Business Management
https://www.smartdatacollective.com/data-analytics-transforms-healthcare-business-management/

Bringing Gen AI to ETL: Redefining Data Engineering through LLMs
https://medium.com/snowflake/llm-powered-etl-snowflakes-leap-into-data-warehouse-ai-1aebcaee8025


Очень любопытный ресурс в копилку на регулярное чтение и мониторинг.

«Signals and Threads» — это технологический подкаст компании Jane Street, в котором ведущий Рон Мински беседует с инженерами на темы, связанные с различными уровнями технологического стека. Темы обсуждений включают синхронизацию времени, надежную передачу данных, системы сборки и программируемое оборудование.

Каждый эпизод предлагает глубокое погружение в определенную тему, раскрывая подходы Jane Street к решению сложных технологических задач.

https://signalsandthreads.com/


Неплохая картинка про то как меняется взаимодействие наше с LLM. Мне кажется еще большинство пользователей не освоили и первый подход, а тут надо уже переучиваться.


Теперь в ChatGPT доступны запланированные задачи! OpenAI начала внедрять новую функцию, которая позволяет пользователям ставить напоминания, такие как "Напомни мне написать тесты через пять минут". ChatGPT выполнит это задание в назначенное время.

В тесте напоминание пришло по электронной почте через платформу MailChimp's Mandrill, а в будущем ожидаются уведомления на мобильные устройства.

https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt


AI трансформирует не только профессию программиста, но и роль продакт-менеджера. Теперь, когда средства и сложность разработки простых решений значительно снизились за счёт GenAI, в задачи продакт-менеджера добавляется активность не только по сбору и проработке требований, но и по разработке прототипа решения.

Лично я считаю, что практика прототипирования - одна из лучших практик из арсенала менеджера по управлению продуктом. На её базе, во-первых, очень легко собрать и проработать с пользователями то, что им нужно получить в конечном итоге, а во-вторых, для команды разработки это в 1000 раз понятнее, чем чтение 1000 страниц документации, описания или презентаций.

В статье собран весь современный арсенал решений, который поможет справиться с этой задачей.

https://www.lennysnewsletter.com/p/a-guide-to-ai-prototyping-for-product?r=15862q&utm_medium=ios&triedRedirect=true


А пока AI-агенты забирают у людей работу, где то в далекой далекой галактике космический аппарат делает потрясающе подробные снимки скрытой поверхности Меркурия.

В прошлую среду аппарат BepiColombo, состоящий из двух сросшихся космических аппаратов, пролетел мимо Меркурия в шестой и последний раз, используя гравитационное притяжение планеты для корректировки траектории, чтобы в 2026 году выйти на орбиту. Миссия стартовала в октябре 2018 года как совместное предприятие Европейского космического агентства (ЕКА) и Японского агентства аэрокосмических исследований (ДЖАКСА), каждое из которых предоставило свой орбитальный аппарат для исследования Меркурия. По данным ЕКА, во время последнего пролета космический аппарат-близнец пролетел над поверхностью Меркурия на расстоянии около 180 миль (295 километров).

https://gizmodo.com/spacecraft-captures-spectacularly-detailed-images-of-mercurys-hidden-surface-2000548169


Если вы интересуетесь что "под капотом" у современных трейдинговых платформ, то посмотрите это видео от коллег из компании CoralBlocks оо архитектуре middleware компонента SEQUENCER. Это решение для обмена сообщениями между другими компонентами торговой платформы, которое используют многие финансовые компании – маркет-мейкеры, биржи, банки и другие. SEQUENCER позволяет создавать очень надежные распределенные системы, которые работают в режиме реального времени. В видео подробно объясняется, как SEQUENCER обеспечивает высокую доступность и отказоустойчивость. Очень рекомендую к просмотру всем, кто интересуется финансовой сферой и IT!

https://www.youtube.com/watch?v=DyktSiBTCdk


Дайджест статей

Открытые книги по ML и работе с данными
https://habr.com/ru/companies/mws/articles/872230/

The History of Data Engineering
https://vutr.substack.com/p/the-history-of-data-engineering?r=15862q&utm_medium=ios&triedRedirect=true

Preventing Data Nightmares: Top 5 Data Quality Checks Every ETL Pipeline Needs
https://garvit-arya.medium.com/preventing-data-nightmares-top-5-data-quality-checks-every-etl-pipeline-needs-e4cba295687a

Revolutionizing Catalog Management for Data Lakehouse With Polaris Catalog
https://dzone.com/articles/catalog-management-data-lakehouse-polaris

Цифровые двойники для вышек связи и самооптимизирующиеся сети — как телекомы и интернет-провайдеры используют системы ИИ
https://habr.com/ru/companies/vasexperts/articles/872904/

Revolutionize Stream Processing With Data Fabric
https://dzone.com/articles/revolutionize-stream-processing-with-data-fabric

High Performance Time- series Database Design with QuestDB
https://www.infoq.com/presentations/questdb/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

Optimizing SQL Server Performance With AI: Automating Query Optimization and Predictive Maintenance
https://dzone.com/articles/automate-query-optimization-predictive-maintenance

Data Governance Challenges in the Age of Generative AI
https://dzone.com/articles/data-governance-challenges-in-generative-ai

AI Governance: Building Ethical and Transparent Systems for the Future
https://dzone.com/articles/ai-governance-build-ethical-transparent-systems

Как банки предсказывают кредитные риски: опыт создания PD-моделей из ФинТеха
https://habr.com/ru/articles/872250/


Очень интересный блог, в список к прочтению.

https://simonwillison.net/


Репост из: Малоизвестное интересное
Таков главный итог 2024. Не с позиций ИИ-шных теоретиков и экспертов. А с позиции сотен миллионов пользователей, из коих сейчас лишь 1% в ощутимом выигрыше от идущей уже 3й год революции ChatGPT.

И вот что из этого следует в качестве рекомендаций на 2025 для 99% пользователей ИИ-чатботов (в число которых, согласно The AI Proficiency Report, входят: 8% уже практикующих, 33% только экспериментирующих, 47% блуждающих в тумане и 11% изначальных скептиков)
• Не покупайтесь на кажущуюся простоту ИИ-чатботов (казалось бы, подумаешь, делов-то всего, - написать вопрос и прочесть ответ).
• Чтобы извлечь из LLM максимум пользы и избежать их многочисленных ловушек, нужна огромная глубина понимания и немалый опыт.

Дело в том, что новые поколения LLM и работающие на их базе ИИ-чатботы становятся все сложнее. В 2024 году эта проблема ощутимо обострилась, а в 2025 станет совсем сложно.

И в этом я 100%но согласен с Саймоном Виллисоном (профессиональным веб-разработчиком и инженером Python с более чем 20-летним стажем), написавшим это в итоговом анализе «Что мы узнали о LLM в 2024».

Анализ пользовательских практик использования ИИ-чатботов показывает удручающую картину.

99% пользователей ИИ-чатботов:
• Вместо вдумчивого диалога с ИИ-чатботами, используют их исключительно в режиме «задал вопрос-получил ответ» (что сводит эффективность отдачи от их использования до max 5% потенциала)
• Не перепроверяют ответы 2-ым и 3-им мнением других ИИ-чатботов
• Не понимают, что ИИ-чатбот зеркалит своего текущего пользователя и напичкан когнитивными предрассудками миллионов неизвестных людей.
• Не принимают в расчет, что ИИ-чатбот способен, подстраиваясь под пользователя, дать ему почти что любой желаемый ответ
• Не читали ни одного руководства по промпт-инжинирингу (напр.)
• Не пользуются библиотеками промптов (напр.)
• Не используют специализированных интеллектуальных инструментов для персонализации синтеза знаний (напр., напр.)
• Не заморачиваются чтением почти еженедельно публикуемых новых методов повышения функциональной эффективности ИИ-чатботов (напр., напр.)

Итоги столь примитивного массового использования LLM плачевны:
✔️ Уже имеющиеся колоссальные возможности повышения производительности многих видов деятельности не приносят ощутимой отдачи, т.к. доступны лишь 1% пользователей.
✔️ В общественном дискурсе это мало кого занимает, и вместо этого идут бесконечные пустопорожние дискуссии «как согласовать ценности ИИ с нашими» (будто они у всех людей одинаковые) и «когда появится AGI» (хотя каждый понимает этот термин по-своему).
✔️ А тем временем запущен и начал работать глобальный механизм углубления пропасти интеллектуального неравенства, способный довольно быстро превзойти по глубине уже колоссальную, но все еще углубляющуюся пропасть имущественного неравенства (о чем скоро будет мой лонгрид)


#LLM #Вызовы21века #ИнтеллектуальноеНеравенство

Показано 20 последних публикаций.