телеграм канал Ivan Begtin
Оцени!

Ivan Begtin

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff
Chat https://tgram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Информация о канале

Телеграм канал «Ivan Begtin» @begtin (4541 подписчик). Добавлен в каталог 15 Октября 2020. Категория 💻 IT, технологии. Открыть в: Telegram | в web версии | Ссылка в каталоге: https://tgram.me/begtin | Телеграм ссылка: https://t.me/begtin Язык: Русский, Английский.

Дата добавления
15 Октября 2020 22:42
Последнее обновление
14 Апреля 2021 14:09
Дата создания
16 Января 2016 06:36
Адрес в каталоге
https://tgram.me/begtin
Telegram ссылка
https://t.me/begtin
Подписчики
4541
Язык
Русский, Английский

Похожие каналы

Телеграм каналы похожие на @begtin

Отзывы на канал @begtin

Оставьте пожалуйста свой комментарий о телеграм канале «Ivan Begtin».

Популярное в каталоге

Посмотрите популярные ресурсы в каталоге

Последние посты

Последние сообщения в телеграм канале «Ivan Begtin».

Я довольно давно хочу написать про тему того насколько хорошо/плохо работает с данными Росстат как пример того как вообще с данными работают те органы власти которые должны с ними работать. Если про открытые данные у них всё стало куда лучше за последние годы и раздел "Открытые данные" [1] стал представлять какую-то ценность, но открытые данные - это лишь малая часть деятельности, так что поговорим про методическую работу.

Вот к примеру, ЕМИСС (fedstat.ru) [2], единый портал для публикации показателей десятками органов власти. По многим признаком хороший ресурс - данные публикуются как открытые, у каждого показателя есть паспорт, сведения о том как он актуализируется, возможность выгрузки в XML (специальный формат SDMX) и Excel и в целом кажется что неплохо. Когда начинаешь смотреть внутри, то возникает множество вопросов.

1. Данные актуализируются с очень большими задержками. Не все, но многие данные задерживаются в среднем на 1.5-2 года. Где-то это особенность методологии, но везде ли?
2. По любому показателю есть "просмотр по умолчанию" при котором отображаются не все параметры, а только несколько. Например, только последние годы и только несколько регионов. Это можно поменять в настройках отображения, но надо для этого делать доп. действия и это может показаться безобидным.
3. На самом деле этот "просмотр по умолчанию" не безобиден. Потому что экспорт данных по умолчанию из этого просмотра по умолчанию. Нет простого способа получить все значения показателя, нужны дополнительные действия и скрейперы или ручная выгрузка данных.
4. У Росстата, по совершенно неизвестной мне причине, нет системы управления нормативно справочной информацией. Это называют системы НСИ. Они есть у Минздрава, ФФОМС, Минцифры и ещё много где, но у Росстате нет. В результате, например, на около 7 тысяч показателей в ЕМИСС есть чуть менее 700 справочников (691 на сегодня). Они называются code lists, такие справочники есть, например, у Евростата, система RAMON [3], там 283 справочника при заметно большем числе, 10.5 тыс индикаторов. Из российских 691 справочника которые видны только внутри XML файлов у десятков если не более есть пересечения. Это справочники товаров, регионов и стран. Почему так? Может быть потому что работа с НСИ - это и есть огромная методологическая работа, а вести её некому.
5. Может быть это проблема конкретно ЕМИСС и в других случаях ситуация получше ? В витринах данных Росстата (showdata.gks.ru) [4] ситуация ещё хуже. Методических пояснений меньше, справочники вообще не приведены, экспорта в форматы включающие справочники (code lists) тоже нет. Только простые форматы CSV, XLS и тд. В других системах Росстата (общедоступных) нет и такого

Всем этим я хочу сказать что просто открывать данные недостаточно. Если их ведение в исходной системы должно быть вестись так чтобы их можно было использовать повторно, а это использование ограничено. Нельзя вот так просто, к примеру, взять показатели с ЕМИСС и попробовать собрать профиль региона, потому что справочников с регионами там более одного и они не связаны.

Ссылки:
[1] https://gks.ru/opendata/
[2] https://fedstat.ru
[3] https://ec.europa.eu/eurostat/ramon/index.cfm?TargetUrl=DSP_PUB_WELC
[4] https://showdata.gks.ru

#opendata #statistics #rosstat rosstat.gov.ru Открытые данные

1.7K 15:26

ФНС России загрузила в Государственный информационной ресурс бухгалтерской (финансовой) отчетности данные за 2020 год по 2,3 млн организаций.

В лучших традициях ФНС, данные по одной организации в виде веб-интерфейса доступны бесплатно, а за API придется заплатить (об этом прямо написано в пресс-релизе). Стоимость машиночитаемого удовольствия - 200 тыс. руб. в год.

Для интереса посмотрела, сколько примерно ФНС заработала на этих данных за предыдущий год - 12,2 млн руб., что примерно равняется 61 пользователю.

12 млн руб. - стоимость отсутствия в открытом доступе API (или хотя бы дампов данных) с обновляемыми сведениями о бухгалтерской финансовой отчетности компаний. Надеюсь, хотя бы налог на прибыль организации с этой суммы оплатили :).

ФНС не единственный орган, практикующий продажу данных. Пару лет назад (вряд ли что-то с тех пор изменилось) в продаже данных был замечен и Росстат, который не просто продавал данные компаниям и гражданам, а продавал их муниципальным (и, возможно, региональным) госорганам.

1.7K 16:09

В блоге Signal пост о том как их команда попыталась разместить рекламу в Инстаграм с информацией о тех критериях по которым она подбиралась в рекламной сети Facebook [1]. Всё это чтобы показать то сколько информации Facebook собирает о пользователе.

Аккаунт им быстро закрыли, без объяснения причин. Авторы подчёркивают что компании AdTech такие как Facebook собирают много данных, но не хотят чтобы другие знали о том что и в каком объёме они собирают.

Это, кстати, хорошая идея для мини-исследования/расследования которое может провести любой журналист в России. Разместить такие рекламные объявления во Vkontakte (Mail.ru) или в рекламной сети Яндекс. Но, скорее всего, рекламный аккаунт, также, закроют навсегда;)

Ссылки:
[1] https://signal.org/blog/the-instagram-ads-you-will-never-see/

#adtech #signal #ads #privacy #surveillance

1.6K 06:49

Twitter покупает Scroll [1], компанию создателей Nuzzel [2], автоматизированной рассылки на основе Ваших интересов, интересов друзей в Twitter и тд. Очень удобный сервис, я пользовался им много лет, через него получаю около 25% всех новостей о которых пишу тут на своём канале. Например, последняя новость про эксперименты Signal с рекламой в Facebook оттуда же. Twitter судя по всему планируют сделать эти функции частью своей платформы, что, конечно, совсем неплохо.

Но, жаль конечно, что анонс о покупке был 4 мая, а уже 6 мая сервис Nuzzel закрывается. Всё это в лучших традициях Yahoo, которые уничтожали многие свои покупки, но и не только. Больше похоже что внутри Twitter'а сервис рассылок уже на финальной стадии, Scroll они покупают для закрытия конкурента.

В своё время я перебрал несколько десятков сервисов мониторинга публикаций в СМИ и в соц сетях по нужным мне темам, и ничего универсального. Когда-то пробовал сделать на базе Paper.li [3], обнаружил плохое покрытие российских источников информации и так далее. В итоге остановился на нескольких рассылках таких как The GovLab digest, Nuzzel и ещё несколько. Поэтому закрытие Nuzzel расстраивает.

Ссылки:
[1] https://scroll.blog/2021/05/04/scroll-is-joining-twitter/
[2] https://nuzzel.com
[3] https://paper.li

#mailing #startups

1.2K 07:09

Совсем свежий открытый проект по контролю качества данных soda-sql [1] от создателей платформы мониторинга качества данных Soda [2]. Помимо того что сама платформа выглядит интересно, хотя и не применима в российских условиях госпроектов, к примеру, но сделана она с правильными акцентами на наблюдаемость данных и автоматизацию контроля качества. А тут ещё и soda-sql, можно сказать что инструмент из коробки для оценки пропусков в данных и подсчёта десятка разных метрик для оценки их качества. Для тех кто собирает собственные технологические стеки работы с данными - этот инструмент будет удобным дополнением.

Автоматизация контроля качества данных - это важная "фишка" современных платформ сбора и обработки данных поэтому за Soda стоит понаблюдать и далее, и как за решением с открытым кодом, и как за платформой.

Ссылки:
[1] https://github.com/sodadata/soda-sql
[2] https://www.soda.io/

#data #dataquality GitHub sodadata/soda-sql Data testing and monitoring for SQL accessible data - sodadata/soda-sql

1.2K 07:49

По поводу инициативы МВД по созданию приложений по борьбе с телефонными спамерами [1], давайте будем честными, когда государство приходит на рынки где есть лучшего качества частные решения - это почти всего имеет за собой одну из 3-х причин:
1. Неэффективно потратить бюджетные средства.
2. Непонимание потребностей пользователей/граждан и некачественной госполитики в этой области.
3. Расширение полномочий/возможностей органов власти.

А иногда и все эти 3 причины вместе. В случае с созданием мобильного приложений от МВД я хочу обратить ваше внимание что у МВД и других силовых органов есть ограничения накладываемые на оперативно-розыскную деятельность (ОРД), ограничивающие запросы МВД к сотовым операторам и другим организациям. А имея под своим прямым контролем данные которые можно собрать таким сервисом можно многое собирать о гражданине и без ОРД.

Это всё +1 причина не пользоваться сотовой связью для звонков без острой необходимости.

Ссылки:
[1] https://vc.ru/legal/241427-mvd-do-konca-goda-zapustit-mobilnyy-servis-kotoryy-budet-preduprezhdat-o-zvonkah-moshennikov

#privacy #surveillance #mvd #russia vc.ru МВД до конца года запустит мобильный сервис, который будет предупреждать о звонках мошенников — Право на vc.ru Его создание обойдётся почти в 45 млн рублей.

6.9K 09:51

Бизнес модель связанной с данными о которой я регулярно пишу - это предоставление большого объёма данных компаниями занимающимися хостингом и иной инфраструктурой. Хороший пример - Amazon с их реестром открытых данных большого объёма [1], данные можно скачивать откуда угодно, но гораздо удобнее из датацентров самого Amazon.

Другой пример - Microsoft Azure Open Datasets [2] с совершенно той же логикой и, похоже на них, Google BigQuery [3] и в этом списке я ранее не упоминал CreoDIAS (DIAS) [4], консорциум созданный CloudFerro, Wroclaw Institute of Spatial Information and Artificial Intelligence (WIZIPISI), Geomatys, Eversis и Sinergise [5] и имеющий контракт с Европейским космическим агенством (ESA).

CreoDIAS, как и все ранее упомянутые, работают преимущественно с открытыми данными от ESA, но и я рядом коммерческих поставщиков. Важнее объёмы данных - это 21.9 петабайт в архиве и около 20 терабайт ежедневные обновления. Большая часть данных, около 90%, это снимки спутников Sentinel 1, Sentinel 2, Sentinel 3.

Бизнес модель CreoDIAS в том что они предоставляют много тарифных планов для аренды серверов непосредственно подключённых к их ЦОДам и предположительно удешевляют стоимость обработки спутниковых данных и снимков.

В Евросоюзе организаторы хакатонов CASSINI [6] предоставляют доступ к инфраструктуре CreoDIAS для участников и дают возможность создавать космические ИТ проекты с доступом к этим данным.

Конечно этот пример не единственный, многие отраслевые банки данных всё более становятся гибридными сервисами совмещая доступ к данным, доступ к инструментам с облачной инфраструктурой. В нескольких формах такое уже есть в биоинформатике и иных data-rich областях медицины и фармацевтики и во многом другом.

Ссылки:
[1] http://registry.opendata.aws/
[2] https://azure.microsoft.com/en-us/services/open-datasets/
[3] https://cloud.google.com/bigquery/public-data
[4] https://creodias.eu
[5] https://creodias.eu/about-us
[6] https://hackathons.cassini.eu/

#opendata #satellite #hackathons #earthobservation #datahosting Microsoft Open Datasets | Microsoft Azure Use curated, public datasets to improve the accuracy of your machine learning models with Azure Open Datasets. Save time on data discovery and prep.

1.1K 07:06

Вышел свежий законопроект про НСУД [1], я набросал свои мысли по его поводу, формат достаточно большой чтобы не поместилось в канал, но недостаточно для рассылки, поэтому в блоге [2] для разнообразия.

Мне скорее не нравится то что получается чем нравится. Опять нет ничего про открытость данных, в закон вписывают одну ФГИС и одну ГИС, а Правительству РФ дают ещё один инструмент прямого влияния на муниципалитеты.

Ссылки:
[1] https://regulation.gov.ru/p/115660
[2] https://begtin.tech/nsudlaw/

#data #nsud Ivan Begtin blog Было ваше, стало государственное На regulation опубликовали законопроект о НСУД [1], в виде проекта изменений в 149-ФЗ «Об информации, информационных технологиях и о защите информации», сейчас он должен проходить антикоррупционную экспертизу. Разрабатывали этот законопроект давно, наконец…

1.1K 08:16

Одним из моих первых официальных мест работы в конце 90-х была небольшая телеком компания сидевшая в НИИ Радио, где я был сисадмином всякого телеком оборудования. В одной комнате сидели мы, в составе 4-5 человек собиравшие стенды из маршрутизаторов Motorola, адаптеров Cronyx и другого железа, которое потом развертывалось на далёких объектах для организации IP телефонии через спутниковые линки, а в соседней комнате уже какие-то дельцы (не удивлюсь что тогда бывшие или действующие сотрудники НИИ) организовали риэлторскую фирму. В самом институте только в нескольких местах/этажах тогда теплилась жизнь, так что мне ещё повезло что я был занят реальным делом.

Мне тогда довелось поездить по сибирским городам с ворохом железа в руках, поночевать в контейнерах, постах охраны, в серверных, понастраивать мониторинг оборудования через Tcl/Tk + Expect, постичь дзен в программировании на zsh и настройках маршрутизаторов и ещё много всего пригодившегося в будущем когда я много лет занимался программированием и автоматизацией тестирования ПО.

Всех сопричастным с Днём Радио!

1.1K 08:50