Рубрики

/ / Разбираемся с «тёмными данными»: версия дата-журналиста

Разбираемся с «тёмными данными»: версия дата-журналиста

04 Июня 2021

Просмотров за сутки 1341
Изображение к посту «Разбираемся с «тёмными данными»: версия дата-журналиста»

Чтобы разобраться с тем, что такое «тёмные данные» и как их использовать, мы обратились к специалистам, которые работают с данными каждый день, и задали им несколько вопросов. Лауреат конкурса Data Journalism Awards в номинации «Лучший молодой дата-журналист года» Дада Линделл рассказала о работе дата-журналистов, о пропусках в больших данных, которые можно игнорировать, и тех, которые нельзя игнорировать ни в коем случае.

Дэвид Хэнд

Темные данные

«Практическое руководство по принятию правильных решений в мире недостающих данных»

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой крайне опасно. Хэнд также рассказывает о том, какие меры могут сгладить эффект темных данных и как их можно обратить себе на пользу.

Читайте также: Разбираемся с «тёмными данными»: версия исследователя данных

Дэвид Хэнд в книге «Тёмные данные» говорит о том, что на нашу жизнь большое влияние оказывают данные, которых у нас нет. Мы опираемся только на известную информацию и не подозреваем, что не знаем чего-то. Это приводит к ошибочным выводам. Можете объяснить, почему возникают «тёмные данные»?

Само по себе возникновение того, что профессор Хэнд в своей классификации называет «темными данными», — это нормально; известно, что никакого новаторства тут нет. Однако ценность книги как раз в том, что с её помощью можно в качестве введения ознакомиться с широким спектром возможных ошибок в статистических измерениях и выводах в сжатом виде. Вообще описанные классы «тёмных данных» называются иначе, missing data (неполные данные), к которым профессор Хэнд присовокупляет погрешности измерений. Или это можно назвать также пропусками в данных (missingness).

«Тёмные данные», как правило, возникают в случае непродуманной методологии. В другом возможном варианте их появление вследствие принятой методологии было продумано, и тогда исследователь пытается устранить возможную ошибку статистическими методами. В медицинских исследованиях — да и в любых других, просто все это началось с медицины — есть понятия non-ignorable missingness, те пропуски, которые нельзя игнорировать. Именно с утрированного примера такого пропуска и начинается книга; в противовес есть ignorable missingness — такие пропуски, которые можно игнорировать. Существование и работа с такими пропусками должны быть прописаны в методологии, в этом и состоит работа исследователя.

Разбираемся с «тёмными данными»: версия дата-журналиста

Читайте также:

Много цифр

«Анализ больших данных при помощи Excel»

Джон Форман доказывает, что анализ данных можно организовать в простом, понятном, очень эффективном и знакомом многим Excel. Причём не важно, сколь велик ваш массив данных. Техники, предложенные в этой книге, будут полезны и владельцу небольшого интернет-магазина, и аналитику крупной торговой компании; маркетологам, бизнес-аналитикам и руководителям разных уровней, которым важно владеть статистикой для планирования будущего компаний.

Читать дальше → 

Как дата-сайентисты и дата-журналисты работают с этими отсутствующими данными? Учитывают ли они их, и если да, то как?

Как журналист, я ставлю перед собой задачу делать выводы на основе собранных самостоятельно данных, и минимизация возможных ошибок из-за «тёмных данных» тогда находится на моей стороне: приходится тщательно продумывать методологию, учитывать возможность влияния на выводы разных факторов. Нередко мы с редакторами отказывались от историй, в которых могли возникнуть ошибки из-за «тёмных данных».

А вот работая с государственной статистикой или с предоставленными кем-то уже обработанными данными, самое главное — понять, как и кем они собирались. Я всегда советую читать формы статистических наблюдений, регламенты или опросники. Кажется, например, что исследование Росстата по зарплатному неравенству охватывает всю Россию, однако это не так, ведь в нем берется информация о зарплатах только на средних и крупных предприятиях, а малый бизнес в исследовании не участвует. К тому же не учитывается теневая экономика. Такие исследования, если их правильно не интерпретировать и не донести эту информацию до читателя, могут привести к неправильным выводам.

Разбираемся с «тёмными данными»: версия дата-журналиста

Читайте также:

Как лгать при помощи статистики

В этой всемирно известной работе Дарелл Хафф рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Ответы на эти и многие другие вопросы вы найдете в книге.

Читать дальше → 

Можете привести пример из практики или истории, когда ошибка в анализе больших данных привела к масштабным последствиям и повлияла на многих людей?

Такой пример приводит в книге сам профессор Хэнд, это катастрофа шаттла Challenger. В советской истории был еще более ужасающий пример ситуации, произошедшей по схожей причине: взрыв на Чернобыльской АЭС. Одна из наиболее вероятных причин этой трагедии — незнание конструкторами определённого эффекта, возникающего в топливных элементах при их резком извлечении из реактора при его низкой мощности. Яркое описание того, что происходит в топливных элементах в этой ситуации, приведено в сериале «Чернобыль» (HBO, 2019). По этой версии выходит, что, если бы конструкторы топливных элементов в полной мере осознавали этот процесс, они, наверное, могли бы его учесть. Но, возможно, у них не было доступа к таким данным, и учесть их никто не мог, чтобы внести правки в эксплуатационные инструкции.

Разбираемся с «тёмными данными»: версия дата-журналиста

Читайте также:

Чернобыль

«История катастрофы»

«Чернобыль: История катастрофы» — неизгладимая картина одного из величайших несчастий ХХ века и одновременно документ человеческой стойкости и изобретательности, свидетельство тяжелых уроков, усвоенных человечеством, пытающимся подчинить природу своей воле, — уроков, которые перед лицом наступающих изменений климата и других угроз современности выглядят не просто важными, а жизненно необходимыми.

Читать дальше → 


Читайте также:

Читайте также

Получать самые интересные статьи

Подпишитесь на рассылку «Альпина.Медиа»

Книги на эту тему

Комментарии для сайта Cackle
 

Войти на сайт

или


Ваша корзина пуста
Нажмите здесь, чтобы продолжить покупки
Корзина