Как Вы думаете сколько Excel файлов опубликовано на сайте российского ЦБ ? Более 18 тысяч, в форматах XLS и XLSX, даже если предположить что большая часть из них это ежемесячные файлы в повторяющейся структуре - это будет сотни-тысячи наборов данных. Сколько Excel файлов публикуется другими органами власти - сотни тысяч, причём в развитых странах, как правило, большая их часть - это не продукт ручной работы, а экспорт из внутренних систем органов власти.
Ещё когда только-только появлялись первые порталы открытых данных я говорил что собрать десятки тысяч, сотни тысяч файлов наборы данных не является сложной задачей. Сложности не в том чтобы собрать, а в том чтобы собрать полезное и поддерживать сообщество вокруг. В мире, по моим наблюдениям, это лучше всего получается во Франции и в Испании, но не только, просто везде разные акценты. В США на бесконечном объёме научных и геоданных, в Европе на геоданных и на high-value datasets и так далее.
Всё проще когда данных много в общедоступных государственных информационных системах и когда открытые данные худо-бедно существуют. Поэтому на российских общественных порталах открытых данных вроде
Хаба открытых данных (
hubofdata.ru) мы не стали собирать бесконечное количество Excel файлов, хотя они в наличии всегда были.
Сложнее когда этих систем мало или когда они устаревают и получить структурированные данные из них сложно. Поэтому, к примеру,
портал открытых данных Армении (
data.opendata.am) который мы создали включает те немногие данные что были доступны онлайн, но многие источники не в стране, а порталы вроде WorldPop или Humanitarian Data Exchange. Внутри страны открытые данные как открытые данные органами власти практически не публикуют. Мы сейчас собрали 810 наборов данных, что немало для страны с населением чуть менее 3 миллионов человек, но есть ещё много других данных
Что возвращает нас к всего лишь нескольким способам их создания:
1. Попросить у госорганов. Написать в госорганы в Армении запрос на публикацию существующих данных как открытых. Скорее всего займёт много времени и ответы в стиле "спасибо что написали, но у нас на это денег нет", что во, многом, правда.
2. Извлечь из существующих информационных систем и дата-каталогов. Их список известен (
https://registry.commondata.io/country/AM) и частично это уже сделано, но данных там не так много как хотелось бы.
3. Вернуться к идее сбора Excel файлов по госсайтам и не просто парсить HTML таблицы, а собрать и систематизировать опубликованные реестры и иные данные с официальных госсайтов: правительства, министерств, служб, региональных правительств (марзов) и так далее. Это даст возможность собрать ещё несколько тысяч наборов данных.
4. Самоограничить себя до сбора high-value datasets и их размещения в открытом доступе, а то есть тех данных которые:
- обладают большим объёмом
- имеют множественное практическое применение
- хорошо визуализирутся
- весьма востребованы
Такие данные тоже есть, например, все законы в РА из системы ARLIS.
Как бы то ни было, идея в автоматизации сбора Excel файлов с сайтов органов власти меня до конца не покинула, она не то чтобы совсем проста, но не слишком сложна в реализации.
#opendata #opengov #armenia