Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение


Гео и язык канала: Россия, Русский
Категория: Технологии


Все самое полезное для дата сайентиста в одном канале.
Список наших каналов: https://t.me/proglibrary/8353
Учиться у нас: https://proglib.io/w/907158ab
Обратная связь: @proglibrary_feedback_bot
По рекламе: @proglib_adv
Прайс: @proglib_advertising

Связанные каналы  |  Похожие каналы

Гео и язык канала
Россия, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Репост из: Proglib.academy | IT-курсы
👩‍💼Собеседование — самое важное событие для начинающего специалиста

Для многих новичков сам факт приглашения на собеседование — уже большое событие. И, как нам кажется, половина успеха!

Давайте проверим, насколько вы к нему готовы — мы выбрали три популярных вопроса, которые задают на собеседованиях будущим Data-специалистам; пишите свои ответы в комментариях!

1️⃣ Как оценить статистическую значимость анализа?

2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?

3️⃣ Что такое центральная предельная теорема, и почему она важна?


#собес_academy


🦙 Вышла Llama 3

Это самая крупная открытая языковая модель от Meta*. Ключевые особенности:

🔘Доступна сейчас в двух версиях: предобученная модель с 8 млрд параметров и дообученная на инструкциях модель на 70 млрд.
🔘Должна хорошо справляться со сложными, многоступенчатыми задачами и генерацией кода.
🔘Размер контекстного окна составляет 8 тысяч токенов.
🔘По бенчмаркам превосходит другие открытые LLM.
🔘Дообучение Llama 3 после этапа предтренировки производилось на 10 миллионах примерах, вручную размеченных людьми.

Известно также, что в процессе обучения находится модель с 400+ млрд параметров.

🔗 Репозиторий Llama 3
🔗 Страница моделей на Hugging Face
🔗 Ссылка на тестового чат-бота

*организация, деятельность которой запрещена на территории РФ


На вход нейросети подаётся фотография размером 227×227×3. К ней применяется свёрточный слой с фильтром размером 11×11. Всего применяется 96 фильтров с шагом 4. Каким будет размер выходного изображения после этого слоя?
Опрос
  •   54x54x96
  •   55×55×96
  •   54x54
  •   55×55
146 голосов


Репост из: ВТБ
⚡️Data Fusion-2024 начала свою работу!

Сегодня и завтра говорим о Data Science, искусственном интеллекте и машинном обучении. Участников конференции ждут:

🔹 Более 30 научных и бизнес-сессий и 150 спикеров: обсуждаем все от трендов ИИ до новостей сферы беспилотного транспорта. Трансляция самого интересного — здесь.
🔹 Доклад об опасностях развития ИИ и о том, как их избежать
🔹 Награждение победителей конкурса Data Fusion Contest, одного из самых сложных соревнований в сфере Data Science.

Живем в эпоху больших данных 💚

Кстати, на скриншотах — наша метавселенная, где уже совсем скоро стартует одна из сессий конференции. Пока тестируем и используем метаверс внутри банка: например, проводим в ней встречи команд и создаем 3D-модели сложных технологических продуктов и сервисов.


🤔 Оптимизация гиперпараметров за 5 секунд?

Гиперпараметры — это характеристики модели, которые фиксируются ещё до начала обучения. Например, глубина решающего дерева и learning rate для градиентного спуска. Их подбор — очень важный этап обучения. Правильные значения гиперпараметров могут радикальным образом повлиять на производительность.

На «Хабре» опубликовали обзор следующих основных методов оптимизации гиперпараметров:
▫️Grid Search
▫️Random Search
▫️Байесовская/вероятностная оптимизация
▫️TPE (Tree-structured Parzen Estimator).

🔗 Читать статью


Данные сегодня ценнее золота. А умение извлекать из них пользу — навык, который уже сейчас нужен крупным работодателям.

Приходите на день открытых дверей онлайн-бакалавриата «Аналитика и Data Science» от ТюмГУ и Нетологии, чтобы погрузиться в тему больших данных. Встреча пройдёт 20 апреля в 14:00 мск.

Вы узнаете:
- Кто работает с данными и чем именно занимаются эти специалисты.
- Какие знания и навыки нужны, чтобы реализоваться в профессии.
- Как устроено обучение в бакалавриате и что входит в программу.
- Какие есть требования к поступлению.

Погрузитесь в одну из самых востребованных и перспективных профессий. Регистрируйтесь, чтобы сделать первый шаг к карьере аналитика или Data Scientist.

Записаться → https://netolo.gy/c4qO
Реклама ООО “Нетология” LatgBqBwM


🔥 Вышла новая PyTorch-библиотека для файн-тюнинга LLM

Библиотека называется torchtune. Она поддерживает весь воркфлоу, включая:

🔸 Загрузку и подготовку датасетов и чекпойнтов моделей;
🔸 Настройку процесса обучения с помощью разнообразных строительных блоков (как в torch);
🔸 Процесс логирования и метрики для отслеживания процесса обучения;
🔸 Квантизацию моделей после обучения;
🔸 Оценку моделей с помощью популярных бенчмарков;
🔸 Локальный запуск для тестирования.

🔗 Репозиторий torchtune
🔗 Туториалы по работе с библиотекой


Репост из: Библиотека питониста | Python, Django, Flask
🖥 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

💬 Как автоматически создавать субтитры

В статье рассматривается простейший способ транскрипции видео и создания субтитров — с помощью Python, Whisper и FFmpeg.

▶️ Видеотуториалы

🔘Основные приёмы работы с SQLAlchemy
SQLAlchemy — это библиотека, предназначенная для работы с реляционными базами данных. Умеет выполнять все запросы, доступные в SQL.
🔘Клон ChatGPT на Django
Автор видео показывает, как сделать аналог знаменитого чат-бота с помощью Django, вебсокетов (Channels) и HTMX.

🛠 Инструменты

🔘Tkinter Designer — автоматически конвертирует дизайны Figma в код Tkinter GUI.
🔘drawpyo — библиотека для визуализации диаграмм, карт и схем Draw.io.
🔘Great Tables — создаёт привлекательные таблицы для визуализации данных из датафреймов Pandas и Polars.

Вы можете подписаться на email-рассылку здесь


🧡 Гайд для новичков по Google Colab 💛

Один из специалистов Google по машинному обучению выпустил получасовой ролик, который охватывает все необходимые новичку тонкости использования Colab-ноутбуков.

🔸04:05 Виды ячеек
🔸10:49 Вызов подсказок
🔸13:02 Отрисовка графиков
🔸13:43 Создание форм
🔸15:07 Установка пакетов
🔸17:30 Интеграция с Google Drive
🔸19:41 Магические команды
🔸22:19 Установка секретов

🔗 Ссылка на видео


💬 Начните писать в комментариях фразу «Искусственный интеллект скоро...», а подсказки при вводе пусть продолжат за вас.

#интерактив


🤖💣 ИИ-ассистенты разработчика: скрытая угроза

Внедрение ИИ в процессы разработки и отладки неизменно сопровождается изматывающими обсуждениями с участием юристов, комплаенс-менеджеров и специалистов по кибербезопасности. И это понятно — никому не хочется нести ответственность за риски, связанные с безопасностью данных, конфиденциальностью и соблюдением авторских прав.

Однако самый важный вопрос — как использование ИИ повлияет на качество готового продукта — обычно остается без внимания. Именно эту проблему мы и обсудим.

🔗 Читать статью
🔗 Зеркало


🔥🎥 Adobe анонсировала ИИ-редактор для Premiere Pro

Компания показала на видео возможности модели Adobe Firefly. Скоро в Premiere Pro появится вкладка Generative, в которой будут следующие опции:

🔸Object Addition — позволяет выделить участок сцены и промптом указать, что именно там должно располагаться. Нужные объекты сгенерируются в нужном месте.
🔸Object Removal — объекты можно не только добавлять, но и убирать. Их выделение выглядит очень просто, и видимых следов от присутствия не остаётся.
🔸Generative Extend — позволяет расширить ваши футажи, чтобы добиться необходимой длительности ролика.

Все фишки появятся в Premiere Pro «позже в этом году». Кроме того, программу можно будет интегрировать со сторонними видеомоделями (Pika, Runway и, может быть даже, Sora от OpenAI).


👆Как обучаются большие языковые модели👆

#memes


🧑‍💻 Анализ навыков data-специализаций в вакансиях HH.ru

Один из пользователей «Хабра» проанализировал вакансии на HeadHunter по следующим трём специализациям:
▪️BI/Data аналитик;
▪️Data Science;
▪️Продуктовый аналитик.

Автор также создал дашборд, где можно посмотреть требуемые навыки для каждой специализации, среднюю зарплату и количество вакансий по России.

🔗 Desktop-версия дашборда
🔗 Mobile-версия дашборда

👉 Здесь можно прочитать статью


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈


Как выбрать количество скрытых слоёв и нейронов в нейросети?

Не существует универсального решения этой проблемы. Выбор количества скрытых слоёв и нейронов часто зависит от практических наблюдений и экспериментов. Однако есть несколько общих принципов и эвристик, которые можно использовать.

▫️Количество скрытых слоёв может быть определено сложностью решаемой проблемы. Простые задачи можно решить с использованием всего одного скрытого слоя, тогда как более сложные задачи могут потребовать больше. Однако нужно помнить, что добавление дополнительных слоёв также увеличивает риск переобучения. Следует находить компромисс.

▫️Количество нейронов в скрытом слое может быть определено на основе количества входных признаков и желаемого уровня сложности модели. Некоторые специалисты советуют применять такие правила:
— Число нейронов в скрытых слоях должно лежать в диапазоне от количества входных до количества выходных нейронов.
— Можно сделать количество нейронов в скрытом слое кратным к размеру входного слоя. Например, в два раза больше или в два раза меньше.

На практике бывает полезно начать с простой модели и постепенно увеличивать её сложность до достижения желаемой производительности.

#вопросы_с_собеседований


📊 Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

На «Хабре» вышла хорошая статья, рассказывающая о:
🔘анализе выборок;
🔘влиянии параметров эксперимента и статистических критериев на результаты анализа;
🔘основных критериях;
🔘доверительных интервалах;
🔘статистических тестах.

🔗 Читать статью


Репост из: Библиотека питониста | Python, Django, Flask
🐍❌ 10 основных ошибок начинающих Python-разработчиков

В статье рассматриваются самые частые ошибки новичков, а также даются советы по их решению. Многие из указанных проблем связаны с читаемостью кода, так как именно читаемость — одно из важнейших качеств.

🔗 Читать статью
🔗 Зеркало


🦾 Почти 1000 опенсорсных LLM-инструментов

На этом сайте каждые 6 часов обновляется llama-police — список инструментов на основе больших языковых моделей (LLM) с открытым исходным кодом. В таблице перечислены репозитории таких проектов, их краткое описание, количество контрибьюторов, звёзд и т.д.

👉 Большинство из проектов также можно найти в cool-llm-repos на GitHub.

🔗 Ссылка на сайт


Репост из: Библиотека нейротекста | ChatGPT, Gemini, Bing
😍 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘С помощью браузера Opera теперь можно загружать и использовать локальные LLM. Поддерживается более 150 моделей.
🔘AI-компании уже соскрапили почти весь интернет и в ближайшее время начнут испытывать недостаток в данных.
🔘Stability AI представила новую версию модели Stable Audio 2.0 для генерации музыкальных треков длиной до 3 минут.

🛠 Инструменты

🔘Undermind — ИИ-поисковик, который ищет решения самых сложных проблем по огромной базе научных публикаций.
🔘IMG2HTML — конвертирует скриншоты в HTML-код. Может создать клон сайта по URL.
🔘CallTeacher — ИИ-преподаватель иностранных языков.
🔘Photoroom — мощный ИИ-редактор изображений.

📈 Исследования

🔘Какие модели лучше всего справляются с суммаризацией. Спойлер: не GPT-4.
🔘Придумана новая техника взлома LLM. Метод заключается в том, чтобы незаметно перенастроить модель на выполнение вредоносных запросов, на которые она обычно отказывается отвечать.

Вы можете подписаться на email-рассылку здесь

Показано 20 последних публикаций.