Дата-журналистика


Kanal geosi va tili: Rossiya, Ruscha
Toifa: Bloglar


Как находить истории в данных и рассказывать их интересно и без ошибок. Для всех, кто буквами описывает цифры. По всем вопросам: @matyuschenko

Связанные каналы

Kanal geosi va tili
Rossiya, Ruscha
Toifa
Bloglar
Statistika
Postlar filtri


Добавил в чек-лист распространённых ошибок ещё один пункт.

2. Неправдоподобные средние. Если называете среднее или медиану, убедитесь, что они не выходят за пределы частностей. Например, если утверждаете, что средняя продолжительность жизни мужчин — 65 лет, а женщин — 76, то общий показатель должен быть где-то между ними, но никак не 63 и не 79. 🚫

#чеклист_ошибки


Пользователей Wi-Fi в метро опросили, какую окрошку они едят. И всё бы ничего, но авторам очень уж понравился вариант «на берёзовом соке». Он далеко не популярный — всего 0,1% ответов, — но тем не менее:

😱 Берёзки вынесли на иллюстрацию к «своему варианту» — прямо рядом с большой цифрой 9%.
😱 Берёзовый сок включили в блок «другие ответы», и кажется, что он там на пятом месте. Это не так: судя по тексту, среди вариантов есть и свекольник, и пиво, и у них доля выше. Но про них просто забыли, надо же показать берёзовый сок.

Если говорить в целом про иллюстрацию, то неочевидно, что «3 место» и «другие ответы пользователей» — это одно и то же, просто с разной степенью подробности. Выглядят как отдельные блоки. Но это уже мелочи после такого рейдерства со стороны берёзок.

#антипример отсюда


Что тут не так👇


Продолжим с тем, #когочитать.

Сегодня расскажу про The Wall Street Journal Graphics. У них много работ только по подписке на WSJ, но есть и доступные всем. Занятное из последнего:
анализ твиттера Илона Маска — где нарисован каждый твит
§c про мужчин и женщин на карьерной лестнице — с карьеровозрастной пирамидой
➌ про выбросы углекислого газа по странам — с картами потребления разных видов топлива по странам, по которым видно, что у нас жгут газ, а в других странах — уголь


Начну собирать распространённые ошибки при работе со статистикой. Записывать их буду в чек-лист, чтобы с ним было удобно сверяться, когда пишете или читаете что-то на основе данных. ✏️

Итак, что нужно проверять. Сегодня пункт первый.

1. Суммы сходятся. Если вы раскладываете что-то общее на частности и называете цифры, проверяйте, что сумма соответствует слагаемым.

Например, мэрия называет статистику имён новорождённых:
Всего в 2017 году в Москве появились на свет 134 572 младенца. (…) При этом 62 692 ребенка стали первыми у матерей, 49 190 детей — вторыми. Третьим и более по счету ребенком в московских семьях стали 21 998 детей.
Но 62692 + 49190 + 21998 = 133880, а не 134572. Сумма не сходится. Возникают сомнения, можно ли в целом доверять такой аналитике. 🚫

#чеклист_ошибки #данные #анализ


Зачинаю серию постов #когочитать — подборку источников, которые делают хорошую инфографику и материалы на основе данных. Планирую рубрику регулярной, в очереди уже 15 ссылок, так что следите.

1/15
Первыми выбрал не самую популярную, но качественную команду — Bloomberg Graphics.

Интересные работы из последнего:
❇️ как изменился состав выращиваемых сельхозкультур в разных уголках Америки (https://www.bloomberg.com/graphics/2018-crop-shift/), впечатляющие карты
❇️ статья про финансы Tesla с завораживающим счётчиком (https://www.bloomberg.com/graphics/2018-tesla-burns-cash/)
❇️ динамика демократичности в разных странах мира (https://www.bloomberg.com/graphics/2018-democracy-decline/), есть и про Россию


📆 Как выбрать период: 3 правила

Почти каждый анализ начинается с выбора периода: за какой срок взять данные для изучения?

Вот три правила, которые должны вам помочь. (Вопрос достаточного количества данных не учитываю — о нём отдельно; предположим, что информации хватает в каждом случае, а вопрос только в датах.)

Период должен быть:

1️⃣ Показательным. Данные за период должны полноценно отражать предмет, который изучаем. Например, оценивать пробки по летним данным бессмысленно: летом пробок меньше, и результаты не будут применимы для ситуации на дорогах в целом. 🚗

2️⃣ Не искажённым. Бывает, что выбранные месяцы обычно показательны, но именно в этот раз что-то случилось. Например, изучить в июне спрос на спорттовары — неплохая идея, в начале лета многие начинают упражняться. Но не в этом году: был чемпионат мира по футболу, и он повлиял на интерес к спортивной форме и мячам. ⚽️

3️⃣ Умеренным. Если взять слишком большой срок, рискуете учесть закономерности, которые уже не актуальны. Например, вряд ли стоит агрегировать статистику о магазине мобильных приложений за 3 года. Предмет слишком быстро меняется: появляются новые игроки, меняется устройство магазина и сценарии его использования. (Конечно, это не актуально, если изучить предмет в долгосрочной динамике и есть ваша задача.) 📈

#данные #анализ


Друзья, я в этом канале затрагиваю разные темы, связанные с интерпретацией данных. Хочу узнать, какие интереснее вам, чтобы готовить самый полезный контент.

Расскажите:
https://goo.gl/forms/3IdMYiocfo1QBbZv1
(только один вопрос обязательный, он отнимет секунд девятнадцать; я замерял)












Пайчарты: когда ок, когда нет

Пайчарты то ругают последними словами, то предпоследними. Но бывает, что они уместны — если у вас подходящие данные и задача.

Рассказываю тезисно, ниже то же самое в картинках.

Пайчарты годятся, когда
✅ важно показать, какую часть отдельные значения (секторы, «дольки») составляют от целого (всего круга)
✅ важно сравнить только одно или два значения со всеми остальными или друг с другом
✅ привлекательность важнее информативности (в том числе когда нужно быстро заинтересовать читателя); пайчарт, что ни говори, немного симпатичнее столбцов, полосок и таблиц
✅ значения, которые нужно показать, близки к половине или четверти — эти доли люди хорошо считывают, все привыкли смотреть на часы со стрелками

Пайчарты не годятся, ко
гда
✖️ важна возможность попарно сравнить всех со всеми
✖️ ваш материал читают снобы, знающие толк в графиках — они не любят пайчарты :)

Рецепт хорошего пайча
рта
✅ Резать с верхней точки — так проще оценивать доли, потому что похоже на привычный циферблат
✅ Сортировать секторы по убыванию — так понятно, какой из похожих секторов на самом деле больше
✅ Не наклонять — 3D искажает размеры секторов
✅ Подписывать категории и значения у секторов — для тех, кто хочет больше подробностей и сравнений

#картинки #пайчарты










Оси не от нуля

Оси не от нуля делать можно. Но только в тех случаях, когда вы уверены, что читатели это видят и могут правильно интерпретировать.

В чём вообще проблема? Когда ось начинается от нуля, расстояние от точки (например, на кривой) до края графика равно значению этой точки. Посмотрите на первый график ниже. Это всем привычный формат. Но когда колебания в значениях незначительны, с осью от нуля они будут почти не видны. Обратите внимание на синюю линию. Почти прямая.

Тут появляются оси не от нуля. Мы как бы приблизились в нужный участок картинки (смотрите на второй график). Теперь характер колебаний гораздо заметнее. Такой формат допустим, когда читателю важны именно эти небольшие изменения и он знает, что площади под кривой сравнивать нельзя.

Но если читатель этого не понимает, он может сделать неверные выводы. На примере ниже можно подумать, что значения по синей кривой в разы больше, чем по рыжей. Хотя на первом графике мы видели, что они почти равны.

Ошибиться можно даже если кривая только одна. Посмотрите на последние две картинки.

Если не уверены в подготовке читателя, делайте ось от нуля.

Берегите себя и смотрите на оси.

#картинки #манипуляция


Там же в тексте забыли про разницу между процентами и процентными пунктами:
«За год конверсия в мобильных устройствах выросла на 0,17%, а в десктопах — всего на 0,07%». Хотя речь про пункты, конечно.

20 ta oxirgi post ko‘rsatilgan.

169

obunachilar
Kanal statistikasi