Рубрики

/ / Разбираемся с «тёмными данными»: версия исследователя данных

Разбираемся с «тёмными данными»: версия исследователя данных

28 Мая 2021

Просмотров за сутки 1461
Изображение к посту «Разбираемся с «тёмными данными»: версия исследователя данных»

Чтобы разобраться с тем, что такое «тёмные данные» и как их использовать, мы обратились к специалистам, которые работают с данными каждый день, и задали им несколько вопросов. Директор АНО «Информационная культура», руководитель Ассоциации участников рынка данных Иван Бегтин рассказал о способах использования больших данных, об ошибках при их сборе и обработке и объяснил, как устроена регуляторная политика в отношении данных в разных странах.

Как большие данные влияют на жизнь обычного человека? Можете описать преимущества и риски, связанные с их сбором и анализом?

Большие данные бывают разные. Это могут быть большие данные, которые собирают AdTech-корпорации для манипуляции потребителями, могут быть большие данные адронного коллайдера, а могут быть большие данные рентгеновских снимков для улучшения диагностики болезней. Большие данные можно сравнить с ядерной энергией. Как она влияет на жизнь человека? Даёт тепло и может унести миллиарды жизней. Всё зависит от того, в чьих она руках.

Дэвид Хэнд

Тёмные данные

«Практическое руководство по принятию правильных решений в мире недостающих данных»

Статистик Дэвид Хэнд выделяет 15 видов данных, которые остаются в тени. Например, сигналы бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результаты медицинского исследования, которые намеренно утаили или случайно исказили, или  данные, ставших темными из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект темных данных и как их можно обратить себе на пользу.

Читайте также: Маркетплейс осудит: о чёрных и белых методах сбора отзывов

Объясните механизм работы с данными: как существующая где-то информация превращается в прогнозную модель? На какие шаги можно разложить этот процесс?

Прогнозные модели — это лишь один из многих вариантов продуктов на данных. Например, поисковые системы — это тоже продукты на данных; рекомендательные системы также основаны на данных; на данных создаются все системы «мягкого искусственного интеллекта», распознавания образов, умные станки, голосовые помощники и многое другое. В прогнозных моделях данные чаще используются для того, чтобы получить картину прошлого или настоящего, иногда чтобы скорректировать будущее. Всё начинается со сбора данных, отбора ключевых элементов (параметров), а далее применение разного рода алгоритмов выявления закономерностей.

Стоит ли верить большим данным? Какова вероятность ошибок или искажений и от чего они зависят?

Данные собирают люди или приборы. Доверие им такое же, как доверие процедурам сбора. Хорошие и правильные решения приводят к хорошим данным, плохие решения — к плохим. Так, если у вас есть система с форматно-логическим контролем (проверкой того, что все вводимые данные вводятся верно), то и вероятность, что в ней будут ошибочные данные из-за опечатки в каком-то коде невелика. А если вы создали систему датчиков анализа потоков пользователей в зависимости от их идентификаторов устройств Wi-Fi, а потом производители меняют правила игры и делают эти идентификаторы переменными, то и ваша система сбора данных перестанет работать. Индустрия данных стремится к контролю за потоками данных, автоматизации их по возможности и контролю качества как первой необходимости.

Разбираемся с «тёмными данными»: версия исследователя данных

Читайте также:

Тирания показателей

«Как одержимость цифрами угрожает образованию, здравоохранению, бизнесу и власти»

Компании формализуют процессы и вводят разнообразные KPI, веря, что путь к успеху заключается в количественной оценке работы. Однако такой подход зачастую искажает действительность и приводит к серьезному ущербу. Книга Джерри Мюллера поможет критически взглянуть на стремление измерять все подряд и взвешенно подойти к принятию решения о необходимости использования показателей результативности.

Читать дальше → 

Некоторые люди боятся оставлять цифровые следы: не сидят в соцсетях, отключают рекламу, используют шифрующие приложения. Они правы? Насколько наши данные защищены?

Наши данные защищены по-разному, но всё зависит от того, от кого мы хотим их защищать. От хакеров? У крупных сервисов защита в целом неплохая. От владельца данных? Мало защищены и только законодательно. Платформы часто злоупотребляют своими возможностями манипуляции пользователями. От государства? Защищены только выбором сервиса, с которым работаем, и его юрисдикцией. Например, регуляторная политика Евросоюза направлена на защиту граждан входящих в ЕС стран в любой точке мира и при использовании его сервисов, регуляторная политика Китая ориентирована на защиту интересов китайских компаний, а регуляторная политика США — на баланс интересов потребителей в США и крупнейших цифровых корпораций. Баланс важен, поскольку чрезмерная защита граждан приводит к существенным ограничениям для бизнеса, а недостаточная — к серьёзному социальному давлению на компании и на власти стран.

Разбираемся с «тёмными данными»: версия исследователя данных

Читайте также:

IT как оружие

«Какие опасности таит в себе развитие высоких технологий»

Авторы этой книги, руководители компании Microsoft, раскрывают актуальные проблемы, которые стоят перед IT-компаниями, и предлагают пути их решения. Как в эту новую эру найти правильный баланс общественной безопасности и неприкосновенности частной жизни? Удастся ли нам создать мир, в котором наши дети смогут найти работу? Сможем ли мы вообще контролировать зарождающийся новый мир?

Читать дальше → 


Читайте также:


Получать самые интересные статьи

Подпишитесь на рассылку «Альпина.Медиа»

Книги на эту тему

Комментарии для сайта Cackle
 

Авторизация

или


Ваша корзина пуста
Нажмите здесь, чтобы продолжить покупки
Корзина