Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных

Глава 4

Непреднамеренные темные данные

Видим одно, регистрируем другое

Общая картина

Не все измерения абсолютно точны. Подсчет детей в семье или кораблей в море ведется в удобных целых числах, но такие измерения, как, например, длина, будут неизбежно округляться до некоторого уровня. Это может быть сантиметр, миллиметр, микрон (миллионная доля метра), десятая доля микрона, но не бесконечное число знаков после запятой. Иными словами, мы не можем определить детали дальше какого-то уровня приближения и вынуждены ограничиваться общей картиной (хотя сама по себе она может быть просто малюсенькой!). А это означает, что детали остаются во мраке.

Мы видим округление всякий раз, когда смотрим на табличные данные, например 70,3, или 0,04, или 41,325, или значения вроде 76,2±0,2, где ±0,2 — диапазон точности, в пределах которого значение можно считать истинным. Такая запись наглядно демонстрирует тот факт, что мы имеем дело с темными данными.

Округление необходимо и стало настолько привычным, что подчас мы просто не замечаем, что оно скрывает данные. Например, возраст людей часто записывается с точностью до ближайшего года, несмотря на тот факт, что на самом деле понятие возраста включает в себя число дней, часов, минут и т.д., а также на то, что присущая данному параметру погрешность, связанная с разной продолжительностью самих родов, означает, что более высокая точность не может быть достигнута. Общее правило округления возраста до ближайшего меньшего целого числа лет означает, во-первых, что возраст стремится к целому числу и, во-вторых, что его значение всегда меньше, чем фактическое время, которое прожил человек.

Иногда возраст округляют до ближайших пяти лет или вообще классифицируют как «младший», «средний» или «старший» с границами на уровне 25 и 65 лет. Хотя для некоторых целей этого бывает достаточно, мы упускаем много информации, а именно то, что происходит внутри возрастных групп. Эта проблема становится особенно заметной, если взять крайний случай и разделить людей на две категории — на младших и старших, в зависимости от того, являются они моложе или старше, скажем, 35 лет. Данные, обобщенные таким образом, дают нам возможность увидеть, имеет ли старшая группа свойства, отличные от свойств младшей группы, например, отличается ли их средний доход или доля, состоящих в браке. Но мы не видим более тонких взаимосвязей. Например, мы не можем утверждать, увеличивается ли средний доход начиная с младшего возраста, достигая своего максимума в среднем возрасте, а затем снижаясь у пожилых людей. Затемнение или «укрупнение» данных лишает нас потенциальной возможности таких открытий, опуская плотный занавес.

Когда данные собираются непосредственно людьми, их затемнение, вызванное округлением значений, может быть особенно коварным и даже привести к ошибочным решениям и действиям. Симон де Лузиньян и его коллеги изучили 85 000 зарегистрированных значений артериального давления. Нет никакой разумной причины для того, чтобы эти реальные значения оканчивались на какую-то одну цифру чаще, чем на другие. Иначе говоря, мы должны ожидать, что около 10% всех значений будут оканчиваться на 0, 10% — на 1, 10% — на 2 и т.д. Однако исследователи обнаружили, что 64% всех показаний систолического артериального давления (в момент, когда сердце сокращается) и 59% показаний диастолического давления (когда сердечная мышца расслабляется между ударами) оканчивались на 0. Кроме того, они обнаружили, что среди остальных значений было значительно больше четных чисел, нежели нечетных, а среди нечетных самой распространенной последней цифрой была цифра 5. Но реальные показатели кровяного давления не имеют этой странной тенденции группироваться вокруг определенных чисел! Значит, зарегистрированные значения искажены стремлением людей все округлять до удобных чисел.

Так ли это важно? Британский норматив по гипертонии указывает пороговые значения артериального давления, выше которых рекомендуется медикаментозное лечение. В частности, для систолического давления это значение равно 140 мм рт. ст. или выше. Но склонность к округлению до значений, оканчивающихся на ноль (например, округление 137 до 140), означает, что у значительной части пациентов, у которых зарегистрировано это пороговое значение, реальное систолическое давление ниже 140 мм рт. ст.

Стоит отметить, что в этом примере округление является следствием конструктивных особенностей измерительного прибора. Если показания считываются с градуированной шкалы, такой, как на измерительной линейке, возникает естественное стремление округлить их до ближайшего удобного значения. Однако, если показания выводятся в цифровом виде на дисплей, они с большей вероятностью будут зарегистрированы точно или по крайней мере с бо́льшим количеством десятичных знаков. Это внушает оптимизм, поскольку автоматизация современных приборов оказывается полезной с точки зрения противодействия темным данным.

Последний пример подсказывает, что быть особенно внимательными нам следует, когда люди считывают значения с градуированной шкалы измерительного прибора, такой как на линейках, транспортирах или циферблатах. Но то же самое относится и к подсчетам, которые делают сами респонденты в процессе опроса. Джон Робертс-младший и Девон Брюер опросили потребителей наркотиков, со сколькими партнерами им довелось делить наркотики в течение предыдущих шести месяцев. Хотя только два человека сказали, что имели девять партнеров, и четыре человека, что имели 11 партнеров, колоссальное число респондентов, равное 39, заявило, что у каждого из них было по 10 партнеров. Точно так же, у 21 респондента было по 20 партнеров, никто не сказал, что делил наркотики с 19 или 21 партнером. Все это выглядит весьма подозрительно. Было бы очень странно, если бы люди тяготели к такому конкретному количеству партнеров, и не менее странно, если бы эти пиковые значения просто случайно попали в выборку. Куда вероятнее то, что респонденты давали приблизительные ответы, округляя их до ближайшего десятка.

Я называю этот феномен округлением, но когда он является результатом человеческого фактора в процессе сбора данных, то может иметь и другое название: аккумуляция, скопление, образование максимумов, дискретизация или предпочтение определенных чисел.

Он также может принимать форму преднамеренного приближения максимальных и минимальных пределов к наблюдаемым значениям. Например, опросы на тему заработной платы часто включают формулировки типа «$100 000 и более», чтобы побудить ответить тех, кого предоставление подробной информации просто оттолкнуло бы от участия в опросе. При такой стратегии устанавливают верхний предел избыточности наряду с нижним пределом избыточности, когда отсекают нижние значения.

Игнорирование такого усечения может привести к серьезным ошибкам. Например, средняя заработная плата, рассчитанная на основе таких данных, может быть далека от действительности, если вы не учли тот факт, что «$100 000 или более» может означать намного больше, возможно, на десятки миллионов долларов. Более того, отсечение наибольших значений и обработка их как значений интервальных, безусловно, приведет к недооценке дисперсии данных.

Обобщение

Как правило, пытаться понять смысл большой таблицы данных, просто разглядывая ее, занятие малопродуктивное. Чтобы облегчить задачу, нужно сначала обобщить значения. Другими словами, мы анализируем данные, сжатые до формата сводок, который нам удобнее воспринимать. Например, мы вычисляем средние значения и диапазоны значений, а также более сложные статистические обобщения, такие как коэффициенты корреляции, коэффициенты регрессии и факторные нагрузки. Однако, по определению, любое обобщение означает жертвование деталями или, что то же самое, затемнение данных (DD-тип 9: обобщение данных).

Если я скажу вам, что средний вес американских мужчин старше 20 лет составляет 88,8 кг, то вы наверняка сочтете эту информацию потенциально полезной. И действительно, можно сравнить это значение со значениями предыдущих лет, чтобы узнать, изменяется ли средний вес. Но вот что вы не сможете сделать, так это определить число мужчин, вес которых выше той или иной величины. Вы не сможете сказать, является ли это среднее результатом существования небольшого числа чрезмерно тяжелых мужчин и очень худых или же есть много таких, у кого вес чуть выше среднего. Вы не сможете сказать, для скольких мужчин среднее значение показывает их вес с точностью до килограмма. На эти и другие вопросы невозможно ответить, потому что само понятие среднего исключает индивидуальные значения, затемняя данные.

Из этого мы можем сделать несколько выводов. Один из них состоит в том, что разные статистические сводки, обобщая данные разными способами (например, по среднему значению, по разбросу значений, по степени отклонения значений от среднего), не сообщают нам всех данных. Затемняя данные, сводки могут скрывать важную информацию, и мы всегда должны быть начеку.

Вторым важным выводом является то, что нам нужно тщательно выбирать статистические сводки, чтобы они соответствовали вопросу, который мы хотим задать. Средний доход, рассчитанный как среднее арифметическое, в небольшой компании из десяти сотрудников, девять из которых зарабатывают в год по $10 000, а один — $10 млн составляет более $1 млн. Такая информация будет вводить в заблуждение, например, того, кто претендует на работу в этой компании. По этой причине доходы и благосостояние часто рассчитываются не как средняя, а как медианная величина, когда половина зарплат ниже, а половина выше этого значения. Еще лучше дать информацию о распределении доходов, включая статистику по числу тех, кто зарабатывает всего $10 000 в год или максимальный размер дохода.

Человеческий фактор

Округление, которое мы обсуждали ранее в этой главе, нельзя отнести к ошибкам в прямом смысле этого слова. Речь шла о приближении, которое скрывает детали, хотя и довольно непредсказуемым образом (например, не все значения артериального давления округлялись так, чтобы в конце был ноль). Но человеческий фактор может привести к возникновению более серьезных темных данных.

В 2015 г. Алекс Розетто и Люк Паркин, студенты второго курса Нортумбрийского университета в Великобритании, приняли участие в исследовании по изучению влияния кофеина на учебу. Однако вкравшаяся «ошибка данных» привела к тому, что вместо дозы кофеина, втрое превышавшей его содержание в стандартной порции кофе, каждый получил по 300-кратной дозе, или около 30 г. (Я взял выражение «ошибка данных» в кавычки, дабы подчеркнуть, что проблема была вовсе не в данных, а в человеке, который записывал цифры.) О возможной цене этой ошибки говорит тот факт, что смертельная доза кофеина для человека начинается от 18 г. Неудивительно, что Алекс и Люк провели несколько дней в отделении интенсивной терапии, где им удаляли кофеин из крови с помощью процедуры диализа.

Причиной передозировки стала довольно распространенная ошибка: десятичный знак был поставлен в неправильном месте, поэтому данные исказили предписание.

Довольно распространенная ошибка? Через два дня после своего 19-летия ирландец Карл Смит получил €19 636 вместо ожидаемых €196,36. К сожалению, он поддался искушению, тут же начал тратить их, и даже 17 судебных прецедентов не смогли помочь в его случае — молодой человек был отправлен в тюрьму. Рабочий в Северном Йоркшире Стивен Берк должен был получить £446,60, но вместо этого его банковский счет из-за «своевольной» запятой пополнился более чем на £40 000. Он также не смог устоять перед соблазном, потратил £28 000 и получил условное тюремное заключение. (Печальные примеры хотя бы дают хороший урок: если вы обнаружите, что ваш банковский счет внезапно раздулся, не тратьте эти деньги!)

В декабре 2013 г. городской совет Амстердама выплатил стандартные жилищные пособия почти 10 000 получателям. Однако все, что должно было быть центами, внезапно оказалось евро, поскольку на этот раз запятая уехала на две позиции вправо. Эта оплошность обошлась городу в €188 млн. В 2005 г. трейдер Lehman Brothers по ошибке заплатил за сделку $300 млн вместо $3 млн. В отчете о ценах на лекарства, опубликованном в газете The Times (Лондон) от 26 мая 2018 г., упоминалась аптека в графстве Шропшир, где покупатель заплатил £6030 за лекарство, которое должно было стоить £60,30, и еще одна, в Гринвиче, где болеутоляющие средства стоимостью £74,50 обошлись кому-то в £7450.

В качестве примера обратной ошибки в пользу клиента можно вспомнить авиакомпанию Alitalia Airlines, которая в 2006 г. намеревалась предложить билеты бизнес-класса на рейс Торонто — Кипр за $3900,00, но из-за невнимательного обращения с запятой билеты были проданы по цене $39,00 за место, что привело к убытку в $7,2 млн.

Все вышесказанное было следствием обычной невнимательности. По крайне мере я так надеюсь. Но иной раз уповать на случайность не приходится, как, например, в истории с лордом Рэндольфом Черчиллем, отцом знаменитого британского премьер-министра Уинстона Черчилля, который однажды, увидев колонку цифр с десятичными дробями, ничуть не смущаясь заявил, что он «никогда не мог разобрать эти чертовы запятые». Все бы ничего, но на тот момент он занимал должность канцлера британского казначейства, что эквивалентно министру финансов, а это уже, согласитесь, повод для некоторого беспокойства.

Неправильная постановка десятичного знака относится к типу ошибок ввода данных, который иногда называют эффектом «неуклюжего пальца». Из бессчетного множества разнообразных проявлений этого эффекта можно вспомнить инцидент, когда инвестиционная компания Mizuho Securities в 2005 г. потеряла более $300 млн, предложив 610 000 акций J-com по 1 иене за штуку вместо продажи одной акции за 610 000 иен. Или случай в апреле 2018 г., когда около 2000 сотрудников Samsung Securities должны были получить дивиденды в размере $0,93 на акцию, что составляло около 2 млрд южнокорейских вон. К сожалению, вместо этого было выпущено 2 млрд акций, что более чем в 30 раз превышало общее количество акций компании и обошлось ей почти в $105 млрд.

Когда происходят подобные ошибки, их стараются исправить как можно скорее, но часто реагируют недостаточно быстро. В случае с Samsung Securities потребовалось 37 минут, чтобы разобраться с оплошностью, но к этому времени 16 сотрудников компании успели воспользоваться возможностью и продали 5 млн свалившихся на них акций. Стоимость акций Samsung Securities рухнула почти на 12% и на момент написания этих строк все еще была на 10% ниже предыдущих значений, так что компания потеряла еще и на рыночной стоимости около $300 млн.

Если ошибка ценой $105 млрд кажется вам недостаточно серьезной, то можно припомнить инцидент на Токийской фондовой бирже, случившийся в 2014 г. Вместо того, чтобы провести сделку с акциями Toyota на сумму 1,96 млрд иен, брокер случайно ввел это число в поле количества акций и в результате сумма сделки выросла до $617 млрд. Не правда ли, довольно легко допустить такую ошибку? Мне и самому случалось вводить данные не в те поля, правда, не с такими последствиями. К счастью, в последнем примере заявку успели отменить до того, как она была исполнена.

Человеческий фактор выражается и в трансформации чисел, когда цифры вводятся в неправильном порядке (например, 89 вместо 98), или одна цифра по ошибке вводится вместо другой (например, 7 вместо 2), или когда значения повторяются из-за слишком долгого нажатия на клавишу (например, 222) и т.д.

Подобные искажения — это просто оплошности, но, к сожалению, люди совершают такие ошибки сплошь и рядом. Например, путают единицы измерения, как в случае с космическим аппаратом Mars Climate Orbiter в 1998 г., который разрушился в атмосфере Марса из-за слишком низкого прохождения над его поверхностью по причине того, что в программном обеспечении британские единицы измерения силы не были преобразованы в международную систему единиц СИ; или как в случае с рейсом 143 Air Canada, который разбился в 1983 г. из-за того, что топливо при заправке измеряли в фунтах вместо килограммов.

Другой тип ошибки, связанной с человеческим фактором, повлиял на исход миссии NASA Genesis. Космический зонд успешно взял образцы частиц солнечного ветра с лунной орбиты и доставил их обратно, но на последней стадии полета, во время посадки в Юте, он потерпел крушение. Причина: неверные данные от акселерометров зонда, которые были установлены задом наперед, так что аппарат ускорялся, приближаясь к поверхности Земли, вместо того, чтобы замедляться.

Менее очевидная проблема заключается в том, что пригодность данных может со временем снижаться. Это происходит не потому, что данные портятся, подобно гниющим фруктам, а в силу того, что мир вокруг нас меняется. Вы думаете, например, что на ваш сберегательный счет по-прежнему начисляют 3% в год, но при обращении в банк испытываете легкий шок, обнаружив, что ставка была снижена без всякого уведомления. Данные, относящиеся к людям, особенно подвержены устареванию (DD-тип 7: данные, меняющиеся со временем) по той простой причине, что меняются сами люди.

Что еще хуже (и в следующих главах мы это подробно рассмотрим), данные могут искажаться людьми преднамеренно. Исследование, проведенное Бюро переписи населения США в 1986 г., показало, что 3–5% счетчиков причастны в той или иной форме к фальсификации данных, потому что слишком ленивы для настоящей работы по их сбору. Американский статистик Уильям Крускал утверждал, что «достаточно проницательный человек, обладающий здравым смыслом и склонностью к цифрам, может взять почти любой структурированный и существенный набор данных или статистический сборник и менее чем за час обнаружить в нем странные числа». Медиааналитик Тони Твайман сформулировал закон, получивший известность как Закон Тваймана, который гласит, что любые численные данные, которые выглядят интригующе или как-то выделяются, обычно неверны. Более того, ввиду гигантского количества ежедневно регистрируемых чисел следует ожидать, что какие-то из них будут введены неправильно. Например, в 2014 г. каждый день в мире совершалось около 35 млрд финансовых транзакций, и с тех пор это число только увеличилось. В своей книге «Принцип невероятности» (The Improbability Principle) я подробно рассматриваю проблему ошибочных записей при таком большом количестве цифр.

Специалисты в области глубинного анализа данных, которые занимаются поиском любопытных или полезных аномалий в больших наборах данных, называют следующие причины возникновения необычных структур в таких наборах (в порядке убывания их важности):

  • проблема на уровне самих данных (возможно, они были повреждены или искажены в процессе сбора, или частично отсутствуют);
  • аномалии обусловлены случайными колебаниями (иначе говоря, речь идет о единичных значениях, которые не несут в себе существенной информации);
  • структуры уже известны (как, например, в случае открытия того факта, что люди часто покупают сыр и крекеры вместе);
  • структуры не представляют интереса (если, например, обнаружено, что около половины женатых людей в Великобритании — женщины).

Пока все эти факторы не исключены, необычная структура не может называться реальной, интересной или потенциально ценной. Для нас же важно то, что большинство аномалий в этой области, кажущихся на первый взгляд открытиями, — не что иное, как иллюзии, вызванные проблемами на уровне данных.

Учитывая вышесказанное, неудивительно, что, по подсчетам IBM, «низкое качество данных обходится экономике США примерно в $3,1 трлн в год». Однако верна ли эта оценка?

Во-первых, все зависит от того, что именно она включает в себя: входит ли в оценку стоимость выявления проблем с данными, исправления допущенных ошибок, а также их последствий? Во-вторых, в контексте ВВП США, который составляет около $20 трлн, сумма $3,1 трлн кажется неоправданно большой, и у меня возникает вопрос, не является ли сама эта оценка «данными низкого качества»?

Недостатки приборов

Влияние человеческого фактора огромно, но не только люди допускают ошибки: порой из строя выходят измерительные приборы, что тоже влечет за собой скрытые проблемы с темными данными. По крайней мере если неисправность прибора не обнаружить сразу, то он какое-то время будет регистрировать нулевые или просто неверные значения. Помните эти драматичные моменты в фильмах, когда сигнал на кардиомониторе обрывается и мы видим недвусмысленную прямую, сопровождаемую жутким писком? Так вот, точно такую же картинку можно получить, если сенсоры просто свалятся с пациента.

Один из моих аспирантов работал над проектом по исследованию влияния неблагоприятных погодных условий, таких как сильные ветра и ливни, на телекоммуникационные сети. Он собрал данные из подробных отчетов об авариях в сетях и их ремонте, а также из метеосводок (фактически связывая наборы данных, как это описано в следующем разделе). Будучи толковым студентом, прежде чем приступить к анализу, он внимательно изучил сами данные, отобразил их графически и так и этак, выискивая аномальные значения, и в результате заметил нечто очень странное. Необработанные цифры показывали, что часто ровно в полночь на сотовые вышки обрушивались ураганные порывы ветра. Это выглядело тем более таинственно, что никто почему-то о них не мог вспомнить. И действительно, записи Метеорологической службы подтверждали, что ничего подобного вроде бы не происходило.

У зловещей загадки оказался забавный ответ. Копая глубже, аспирант обнаружил, что в полночь установленные на вышках анемометры, измеряющие скорость ветра, автоматически перезагружались. И иногда в этот момент они выдавали сигнал сильного порыва ветра, что, конечно, не имело отношения к действительности. Если бы мой ученик не понимал необходимости тщательно проверять данные, их анализ привел бы к абсурдным выводам. Но, к счастью, он заметил проблему и смог ее решить.

Неисправность приборов может обойтись очень дорого. В 2008 г. бомбардировщик ВВС США B-2 Spirit потерпел крушение на Гуаме из-за неверных данных, переданных намокшими датчиками. Экипаж полагал, что самолет набрал необходимую для взлета скорость 140 узлов, тогда как на деле она была на 10 узлов меньше.

В предыдущем разделе мы рассмотрели случаи, когда данные произвольно отсекаются границами диапазона значений. Но часто такой эффект возникает из-за самой конструкции измерительных приборов.

Например, напольные весы имеют верхнее предельное значение, которое они могут отобразить. Все, кто тяжелее этого максимума, будут знать, что их вес превышает его, однако точное значение будет скрыто в области темных данных. Хотя эта ситуация и напоминает верхний предел избыточности, рассмотренный нами ранее, она не является результатом преднамеренного выбора исследователей и имеет собственное название — эффект потолка. Аналогичным образом в других контекстах существует нижний предел значений, ниже которого все данные будут регистрироваться как меньшие или равные минимальному порогу измерительного прибора. По вполне понятным причинам эта ситуация называется эффектом пола. Например, температура ниже точки замерзания ртути не может быть зарегистрирована с помощью ртутного термометра. Эффекты потолка и пола приводят к появлению темных данных DD-тип 1: данные, о которых мы знаем, что они отсутствуют, поскольку факт существования значений нам известен, в отличие от самих значений, о которых мы знаем только то, что они выше или ниже некоторого предела. Поэтому эти данные относятся еще и к DD-типу 10: ошибки измерения и неопределенность.

Эффекты потолка и пола могут проявляться довольно неожиданно. Например, по приблизительным оценкам, во Вселенной около 1024 звезд — полностью это число выглядит как единица с 24 нулями. Но только около 5000 звезд видны невооруженным глазом с Земли, а поскольку сама планета закрывает от наблюдателя половину небесного свода, в любой ее точке мы можем видеть лишь половину этих звезд. Это означает, что большинство данных, относящихся к астрономическим объектам, были темными до изобретения телескопа: яркость этих объектов лежала ниже уровня чувствительности человеческого глаза. Таким образом, любые выводы о природе Вселенной, основанные на анализе нескольких тысяч видимых звезд, могут быть очень обманчивыми.

Около 1609 г. Галилей начал исследовать небосвод с помощью своего телескопа с примерно 30-кратным увеличением и обнаружил существование звезд, о которых раньше никто не подозревал. С тех пор развитие технологий сообщало нам все больше информации о Вселенной. Тем не менее основная проблема до сих пор заключается в том, что чем более удалены астрономические объекты, тем ниже их яркость и, соответственно, вероятность обнаружения. Неспособность как-то исправить эту ситуацию стала причиной смещения Малмквиста, названного в честь шведского астронома Гуннара Малмквиста, который открыл этот эффект в 1920-х гг. Смещение Малмквиста проявляется, например, в том, что хотя и звезды, и галактики имеют одинаковый предел яркости, при котором могут быть обнаружены, но звезды с большей вероятностью превысят этот порог обнаружения и станут видимыми, поскольку представляют собой более концентрированные источники света. Игнорирование этого характерного для темных данных эффекта искажает наше понимание структуры Вселенной.

Все более мощные телескопы, как наглядный пример технологического прогресса, буквально раздвигают границы познаваемого мира, а если говорить языком этой книги, то высвечивают данные, скрытые доселе во мраке. В других областях этой цели служат иные инструменты. Микроскопы и применение сканирования в медицине позволяют получить новую информацию о человеческом теле, аэрофотоснимки рассказывают нам о древних сооружениях на поверхности Земли, а сейсмические приборы и детекторы магнитного поля дают возможность заглянуть в ее глубины. Эти и множество других инструментов расширяют возможности нашего восприятия, постепенно раскрывая темные данные.

Объединение наборов данных

Отдельные наборы данных сами по себе имеют огромный потенциал для человечества, но возможность связывания, объединения или слияния наборов данных из разных источников создает условия для синергии. Данные одного набора в сочетании с данными другого могут давать иные типы информации; они могут дополнять друг друга, позволяя отвечать на вопросы, на которые ни один из наборов данных по отдельности не может дать ответа; или способны повысить точность, например, благодаря триангуляции и условному расчету, когда значения, отсутствующие в одном наборе данных, могут быть заполнены с использованием другого.

Хорошо известно, что подобные методы используют эксперты в области судебной статистики и правоохранительные органы, выявляющие мошенничества, но в действительности сфера их применения гораздо шире. Проекты британской сети по изучению административных данных продемонстрировали мощь такого подхода. Этот консорциум университетов и национальных статистических институтов четырех стран Соединенного Королевства постарался облегчить процессы объединения и анализа административных данных для исследований в области социологии и государственной политики. Например, в одном из проектов были собраны данные из нескольких источников для изучения влияния жилищных субсидий на состояние здоровья бездомных и использование ими медицинских услуг. Другая объединенная база данных позволила изучить влияние «топливной бедности» на здоровье граждан. Еще одна объединенная база данных была создана, чтобы выявить параметры связи между плотностью точек продажи алкоголя и здоровьем местного населения.

Преимущества такого подхода ярко раскрылись в проекте, который связал данные шести социальных служб в Соединенных Штатах, чтобы получить четкую картину бездомности в округе Лос-Анджелес, и в рамках которого была разработана программа строительства 10 000 домов для бездомных с проблемами психического здоровья стоимостью $2 млрд.

Потенциал подобных проектов неограничен, а сами они демонстрируют возможности современных технологий обработки данных для того, чтобы нести людям добро. Однако связывание наборов данных и их объединение не обходятся без проблем, поскольку и здесь темные данные создают риски. Для объединения наборов данных нужны общие идентификаторы, чтобы записи в одном наборе можно было соотнести с записями в другом. Но часто данные регистрируются в разных форматах или оформляются в разных стилях, так что возникают несоответствия. Почти всегда в одной базе данных можно найти записи, имеющие отношение к людям, которых нет в другой базе данных. Дублирующие друг друга записи еще больше усложняют ситуацию. Методы сопоставления и связывания данных для уменьшения объема темной части уже стали важной областью исследований, и в дальнейшем их значение будет только возрастать по мере накопления больших наборов данных.

Итак, подведем итог. В главе 2 мы рассмотрели различные виды данных, а в двух последующих, включая эту, — риски, связанные с темными данными, которые возникают в процессе сбора данных. В число таких рисков входят неоднозначные определения, отсутствующие переменные, случайные аспекты измерительных процессов, ограничения приборов, укрупнение данных, эффект «неуклюжего пальца» и др. Но существует целый ряд рисков, еще не рассмотренных нами. В следующей главе мы познакомимся с совершенно другим классом источников темных данных.

Показать оглавление

Комментариев: 0

Оставить комментарий