mikaprok (mikaprok) wrote,
mikaprok
mikaprok

Очень большие данные



Не знаю, насколько это будет интересно широкой общественности в лице узкого круга моих читателей :-), но мне интересно, поэтому напишу об одной небольшой служебной истории.

Есть такая крамольная идея «цифрового правительства». Никто достоверно не знает, что это такое, хотя на эту тему написано только толстых монографий штук 20.

Подходы ищутся по крайней мере с конца 70-х и народ породил ветвистое дерево разнородных концепций, как и что нужно делать и чего делать не следует.

С начала 90-х в практическую плоскость стали одна за другой ложится фрагменты этой бесперебойной фабрики смыслов.




Разумеется, лидером в этом направлении с самого начала были США. Сейчас они утратили первую, а может и сошли с пьедестала, но успели двинуть вперед саму технологию с помощью гигантского рычага крупнейшего в мире ИТ-рынка.

Что мы имеем на сегодняшний день?

Как правило всё мыслительное богатство выливается в очередную инициативу «единого окна». В принципе вещь не бесполезную и экономящую в ряде случаев силы и время, однако так и не доросшую до сквозного процесса принятия конечных решений ни в одном государстве мира.

И понятно почему.




Вторым, и на мой скромный взгляд куда более важным, начинанием является раскрытие некоторого количества общегосударственной статистики.

Она практически всегда кусочно фальсифицируется и при желании можно указать где конкретно, но по большей части представлена достоверна и даже где-то избыточна.

Как правило процесс сопоставления ноликов и единичек кросс-проверяем, т.е. в одном из представленных разрезов информация не бьется по причине ее отсутствия на низовом уровне, неправомерного округления и прочей бюрократической абракадабры. Провода ведут в бетонную стену.

Тем не менее, в ряде случаев это единственная мерка, которой в принципе можно пользоваться при сопоставлении макроэкономических или производственных показателей. И если приноровиться, то выводы можно сделать самые богатые.

По принципу: картина висит криво, но хоть дырку в стене закрывает. Поэтому диаметр дырки мы +/- понимаем.
Когда я пишу о проблемах США, то, как правило, беру за основу материала исследования, ищу популярные обзоры проблем и всегда проверяю представленную информацию в одном из нескольких hard data источников.
Самый крупный из них это Data.gov, существующий с 2009 года и агрегирующий большую часть публичной статистики в США.

Также очень хорошим сервисом обладают несколько продуктов OpenGov, стартапа, центрирующего усилия по верхнеуровнему государственному бюджетированию.

Разумеется, там нет самых вкусных кусков: расходов на силовые структуры, а косвенно связанные с ними контракты тщательно замалеваны под одной «шапкой». Но и имеющихся данных более, чем достаточно.
Другой разговор – это слабо читаемо. Какой-нибудь один изолированный график построить еще можно, а встроить это в другие показатели, показать взаимосвязи и не потратить на это 3 вечера с лопатой и знаменитым бубном, не всякому под силу.




В 2015 году бывший глава Microsoft Стив Балмер и студия Artefact с подачи набора заокеанских государевых людей приступили к реализации единой витрины правительственных данных, представленных в удобном и более-менее читаемом виде.

В апреле 2017-го они выползли с бетой, называемой USAFacts, и ваш покорный слуга был в числе первой сотни подписантов, попробовавших руками покопаться в цифровых богатствах лысого весельчака.

Освоил проект по официальным данным $10 миллионов и подбил под одной крышей 30 последних лет сбора данных всех крупных федеральных агентств США. А их больше 70, на всякий случай.

По словам самого главного босса, было затрачено, в общей сложности, 100000 человеко-часов на оцифровку всей макулатуры из обкомов и крайкомов.

Получилась гигантская инфографика, при печати ложащаяся на лист в 30000 футов, т.е. 10000 метров.

По утверждению г-на Болмера в полноценном проекте можно будет «провалиться» в любой верхнеуровневый график и получить детальную картину происходящего.

С мая они выложили в открытый доступ какую-то небольшую часть данных «на поиграть».
Если концепция будет реализована в заявленном масштабе, USAFacts станет самым крупным хранилищем связанных госданных на Земле.

На его основе можно, в частности, посимулировать работу всех этих комитетов-подкомитетов-рабочих групп крупного государственного организма и сделать вкусные выводы.

Считаю, полезное развлечение для неранодушных и вдумчивых строителей собственного национального государства.

Тамада хороший


и конкурсы интересные!



https://telegram.me/mikaprok

Tags: #egovernment, #steve ballmer, #usa, #usafacts, #статистика, #сша, trivia
Subscribe
promo mikaprok july 7, 2017 00:17 88
Buy for 20 tokens
Редкий для меня служебно-личный пост. За последние полгода накопилось просто какое-то невероятное количество тем, о которых стоит поговорить, но за повседневной текучкой не доходят руки. Причем большей частью тем вполне жежешных форматов, которые не нужно упрощать-адаптировать и…
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 46 comments