Учёные из группы Epoсh в
новом исследовании сообщают, что у человечества скоро закончатся… данные для обучения ИИ 🤖📂
Большие ИИ-модели обучаются на триллионах токенов (слова или части слов) из открытых источников. Эти массивы – тексты, написанные людьми. Вот только объём данных, используемых ИИ, растёт примерно в 2,5 раза в год. При таких темпах в интервале между 2026 и 2032 годами весь произведённый человеком контент просто закончится.
Как дальше совершенствовать ИИ? Есть несколько вариантов.
1️⃣ – обучение на «синтетике», то есть на текстах, которые сгенерировал сам ИИ. Это уже самообучение, но есть и проблема: ошибки неидеального ИИ будут множиться.
2️⃣ – конфиденциальная информация (переписки, электронная почта, соцсети и т. д.). Огромная релевантная база, но не каждый человек (или компания) поделится своими секретами с машиной.
3️⃣ – обучение на ограниченных ресурсах. Сейчас модель сначала наращивают, а потом специализируют для узкой области. А вот можно ли сначала специализировать модель, а потом наращивать на отобранных данных – вопрос.
📌Может, через год подход будет кардинально отличаться. Однако на данный момент проблема есть, её подтвердил и гендиректор OpenAI Сэм Альтман. Он
рассказал, что уже пробовал работать только с «синтетикой», и результаты его не удовлетворили.