#4354 post — OTUS IT News (@Otusjava)

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Hududiy to‘plamlar Tematik to‘plamlar Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish
Targ‘ibot

Yandex Business orqali reklama Реклама в каналах через TGStat Agency Реклама на сайте TGStat.ru

OTUS IT News

26 May 2021, 17:29

Telegram'da ochish Ulashish Shikoyat qilish

#expert

⚡️ Всем привет! Сегодня в гостях у OTUS News Артемий Козырь — Analytics Engineer в компании Wheely, автор телеграмм-канала Technology Enthusiast, а также преподаватель курсов Data Engineer, Hadoop Ecosystem в OTUS.

Поговорили с Артемием про принципы, лежащие в основе решений, работающих с Big Data ⬇️

***

Большие данные, кластерные вычисления, MPP базы данных – всё это может звучать так сложно и загадочно не только для обывателя, но и для ИТ-специалистов.
Однако, принципы, лежащие в основе решений, работающих с Big Data, логичны и интуитивно понятны. Они одинаково применимы и к инструментам экосистемы Hadoop (Hive, Spark, HBase, Kafka), и к аналитическим движкам корпоративного уровня (Teradata, Vertica, Oracle, Exasol), и к современным облачным решениям (Snowflake, Databricks, Redshift, BigQuery).

⏺ Параллелизация вычислений. Распределение большого объема данных на ноды кластера и обеспечение независимой параллельной обработки каждой из частей. MapReduce – классический пример.

⏺ Структурирование данных. Сегментация пользователей и их транзакций по идентичному ключу, например, по user_id. А также партиционирование – деление данных на логические части, например, в зависимости от даты транзакции (горячие, теплые, холодные)

⏺ Оптимизация физического хранения. Запись данных на диск в колоночном формате, применение алгоритмов кодирования и сжатия. Предварительная сортировка данных.

⏺ Актуализация статистических данных (метаданные). Это гистограммы распределения, количество уникальных значений, минимумы, максимумы, наличие NULL. Такая метаинформация критически важна для построения оптимального плана выполнения и выбора алгоритмов.

⏺ Управление ресурсами и мониторинг. Выделение ресурсных пулов, квот на использование мощностей, разграничение прав доступа и полномочий. Мониторинг поможет со своевременным реагированием на инциденты и проблемные места.

Новый запуск курса Data Engineer, стартующий 31 мая, приобретает кейс-ориентированный подход. Каждый модуль посвящен разбору отдельного сценария: Architecture, Data Lake, DWH, NoSQL, MLOps.

На подходе курс DWH Analyst, в котором основной фокус делается на направление Analytics Engineering: углубленная аналитика, моделирование данных, Business Intelligence, Data Quality.

***

💬 Мы ищем гостей для новых выпусков рубрики.

Пиши мне, если есть, что рассказать.

Обсудить

1.5k 1 3

Katalog

Kanal va guruhlar katalogi Kanallar to‘plamlari Kanallar qidiruvi Kanal/guruh qo‘shish

Reytinglar

Telegram-kanallar reytingi Telegram-guruhlar reytingi Postlar reytingi Brendlar va shaxslar reytingi

API

Statistika API'si Postlar qidiruvi API'si API Callback

Kanallarimiz

@TGStat @TGStat_Chat @telepulse @TGStatAPI

O‘qish

Blogimiz Telegram tadqiqoti 2019 Telegram tadqiqoti 2021 Telegram tadqiqoti 2023

Kontaktlar

Qo‘llab-quvvatlash Email Vakansiyalar

Har xil narsalar

Foydalanuvchi shartnomasi Maxfiylik siyosati Ommaviy oferta

Botlarimiz

@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot

Sayt tili