Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных

Глава 2

Обнаружение темных данных

Что мы собираем, а что нет

Темные данные со всех сторон

Данные не возникают сами собой. Они не существуют с начала времен, ожидая, пока их проанализируют. Кто-то должен собрать их. И разные методы сбора данных, как вы догадываетесь, порождают разные типы темных данных.

В этой главе мы рассмотрим три основных метода создания наборов данных, а также пути возникновения темных данных, связанные с каждым из них. Следующая глава посвящена дополнительным осложнениям, которые темные данные могут вызывать в разных ситуациях.

Итак, вот три основные стратегии создания наборов данных.

  • Сбор данных обо всех интересующих нас объектах.

    Именно к этому стремятся, например, во время переписи населения. Точно так же инвентаризации преследуют цель максимально детализировать все позиции на складе или в любом другом месте. В 2018 г. ежегодная инвентаризация в лондонском зоопарке, которая занимает около недели, показала, что в данной организации насчитывается 19 289 животных — от филиппинских крокодилов до беличьих обезьян, пингвинов Гумбольдта и двугорбых верблюдов (в случае муравьев, пчел и других социальных насекомых подсчитывались колонии). В главе 1 мы уже отмечали, что супермаркеты собирают данные обо всех покупках. То же самое касается налогов, операций по кредитным картам и персонала. Не менее подробно регистрируются спортивная статистика, книги на полках библиотек, цены в магазинах и многое другое. Во всех этих примерах каждая единица — будь то объект или человек — детализируется для формирования набора данных.

  • Сбор данных о некоторых элементах совокупности.

    Альтернативой полной переписи населения является сбор данных в рамках ограниченной выборки. Репрезентативная выборка крайне важна в нашем контексте, и мы подробно рассмотрим ее взаимосвязь с проблемой темных данных. Проще говоря, порой приходится собирать только те данные, которые легче собрать. Чтобы понять, как ведут себя покупатели в принципе, вы можете понаблюдать за теми, кто пришел в магазин сегодня. Для того чтобы узнать, сколько времени у вас отнимает дорога до работы, вы можете просто ежедневно на протяжении месяца следить за продолжительностью поездки. Бывают ситуации, когда просто не нужно измерять все: чтобы увидеть динамику изменения цен на продукты питания, вам не нужна информация о каждой покупке, а для определения среднего веса песчинки ни к чему взвешивать каждую из них. В главе 1 мы уже видели, что само понятие «измерение всего» может быть лишено смысла. Полнота данных, например о вашем росте, будет ограничена только теми измерениями, которые вы проведете.

    Несколько лет назад, еще до начала эры легкодоступных больших наборов данных, мы с коллегами опубликовали «Справочник по небольшим наборам данных», включающий в себя 510 массивов реальных данных, на примере которых преподаватели могут иллюстрировать концепции и методы статистики. В справочнике приведены результаты 20 000 бросков игральной кости, данные о сроках беременности, толщине роговицы глаза, длительности нервных импульсов и множество других наборов данных, очень немногие из которых описывают генеральные совокупности целиком.

  • Изменение условий.

    Первые две стратегии помогают собрать так называемые данные наблюдения. Вы просто измеряете значения, которые присущи объектам или людям, никак не меняя условия, в которых проводятся измерения. Вы не даете людям лекарств, чтобы отследить их реакцию, не просите выполнить какое-либо задание, чтобы подсчитать, сколько времени это займет, не меняете удобрения, чтобы посмотреть, какие из них дают самый обильный урожай, не пробуете разную температуру воды, чтобы понять, как она влияет на вкус чая. Если же вы меняете условия сбора данных, иначе говоря, вмешиваетесь, то такие данные называются экспериментальными. Экспериментальные данные особенно важны, потому что они могут дать информацию о контрфактуальности (DD-тип 6: данные, которые могли бы существовать), упомянутой в главе 1.

    Хотя у всех трех методов сбора данных есть немало общих недостатков, связанных с темными данными, для каждого из них характерны и свои особые проблемы. Мы начнем с рассмотрения первой стратегии сбора данных, претендующей на полный охват.

Извлечение, отбор и самоотбор данных

Компьютеры оказали революционное влияние на все аспекты нашей жизни. Где-то это влияние проявляется очевидным образом, например в программном обеспечении, которое я использую для подготовки рукописи этой книги, или в системе бронирования авиабилетов, а где-то оно не так заметно, если речь идет, скажем, о встроенных компьютерах, управляющих тормозами и двигателем автомобиля, или о начинке какого-нибудь копировального аппарата.

Но независимо от того, очевидна или нет роль компьютеров, во всех случаях в машины поступают данные — измерения, сигналы, команды — и обрабатываются ими, чтобы принять решение или выполнить какую-либо операцию. Казалось бы, по завершении операции можно попрощаться с данными, однако зачастую этого не происходит. Данные все чаще сохраняют, отправляют в базы данных и там аккумулируют. То же самое происходит и с побочными или, как их еще называют, выхлопными данными (по аналогии с выхлопными газами), которые в дальнейшем помогают добиться лучшего понимания, усовершенствовать системы или восстановить картину событий, если что-то пошло не так. Черный ящик в самолете является классическим примером такого рода систем.

Выхлопные данные, описывающие людей, называются административными. Особая сила административных данных заключается в том, что они сообщают не то, что люди говорят о своих действиях (как, например, в случае опросов), а то, что они делают на самом деле. Такие данные показывают, что люди купили, где они это купили, что они ели, какие поисковые запросы делали и т.д. Считается, что административные данные намного точнее демонстрируют реалии общества, чем ответы людей на вопросы об их действиях и поведении. Это привело к накоплению правительствами, корпорациями и рядом других организаций гигантских баз данных, описывающих наше поведение. Нет сомнения в том, что эти базы данных представляют собой очень ценный ресурс, настоящую золотую жилу в сфере знаний о человеческом поведении. Сделанные на их основе выводы помогут усовершенствовать процесс принятия решений, повысить корпоративную эффективность и лучше продумать государственную политику — конечно, при условии, что эти выводы будут точными и не подвергнутся влиянию темных данных. Кроме того, когда данные, которые мы хотели бы сохранить в темноте, становятся известны другим, возникают риски нарушения конфиденциальности. Мы вернемся к этому вопросу чуть дальше, а пока давайте поищем темные данные, причем в самых неожиданных местах.

Один из очевидных и очень серьезных недостатков административных данных кроется в самом их преимуществе: они сообщают о том, что на самом деле делают люди, а это может быть полезным только тогда, когда вы не пытаетесь исследовать, что люди думают и чувствуют. Например, своевременное обнаружение недовольства сотрудников тем, как идут дела, может быть не менее важным для корпорации, как и наблюдение за их поведением в жестких рамках повседневной работы, когда начальник буквально стоит за спиной. Но, чтобы узнать, что чувствуют люди, нам придется активно допытываться этого, например с помощью опроса. Для решения разных задач требуются и разные стратегии сбора данных, при этом каждая из них грозит своими особыми проблемами, связанными с темными данными.

Мое первое настоящее знакомство с темными данными состоялось в сфере банковских услуг для потребительского сектора: кредитные и дебетовые карты, персональные займы, автокредиты, ипотека и прочие подобные вещи. Данные о транзакциях по кредитным картам представляют собой гигантские наборы данных, поскольку миллионы клиентов ежегодно совершают миллиарды операций. Так, с июня 2014 г. по июнь 2015 г. было совершено около 35 млрд транзакций по картам Visa. Каждый раз, когда покупка оплачивается кредитной картой, регистрируется потраченная сумма, валюта, продавец, дата и время транзакции, а также многие другие детали, общий список которых включает 70–80 пунктов. Большую часть этой информации составляют данные, необходимые для совершения транзакции и списывания суммы с соответствующего счета — это обязательная часть операции, поэтому пропуск таких деталей маловероятен или даже невозможен. Например, операция не может быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие данные, которые не критичны для проведения операции, поэтому существует вероятность того, что они не будут собраны. В частности, номер партии товара, его идентификационный код или цена за единицу не являются обязательной информацией для проведения транзакции. Очевидно, что это DD-тип 1: данные, о которых мы знаем, что они отсутствуют.

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных — DD-тип 4: самоотбор. Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.

Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» — статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.

По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».

Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении всех будущих заявителей. Предоставленные мне данные, безусловно, не были генеральной совокупностью, отражавшей всех заявителей — они касались лишь тех, кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, потому что им был присвоен статус приемлемого риска в соответствии с каким-то более ранним механизмом отбора — на основе либо предыдущей статистической модели, либо субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной выборкой с неизвестными критериями отбора (или смещением выборки), и любая статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в случае применения ко всем потенциальным кандидатам.

На самом деле проблема была еще глубже, поскольку имелось несколько слоев темных данных. Необходимо было учесть следующее.

  • Кто подавал заявки? В прошлом банк проводил почтовые рассылки потенциальным клиентам, предлагая им взять кредит. Кто-то заинтересовался, кто-то никак не отреагировал. Банковские данные по таким рассылкам включали только тех, кто откликнулся на них сразу, и здесь приобретали значение такие факторы, как формулировка кредитного предложения, его сумма, процентная ставка, а также множество других, о которых я не был осведомлен. Те же, кто не ответил на рассылку, представляли собой темные данные.
  • Кто получал предложение? Тех, кто откликнулся, банк оценивал с точки зрения платежеспособности и некоторым предлагал взять кредит, в то время как другим отказывал. Но, так как я не знал, на каких основаниях делались эти персональные предложения, темных данных становилось еще больше.
  • Кто принимал предложение? Вдобавок к двум предыдущим процедурам отбора не все из тех, кому был предложен кредит, взяли его, и это породило еще один слой темных данных.

Вместе эти слои делали совершенно непонятным то, как можно использовать полученные от банка данные для решения поставленной задачи — создания модели оценки новых заявок. Несколько слоев темных данных могли означать, что имеющаяся у меня выборка со всеми известными хорошими/плохими исходами кардинально отличается от той совокупности, к которой банк хотел применить модель. А вы уже знаете, что игнорирование темных данных может иметь катастрофические последствия. (Впрочем, замечу, что банк все еще существует — видимо, моя модель оказалась не так уж плоха!)

Административные данные вездесущи. Только представьте себе все те базы данных, в которых хранится информация о вашем образовании, работе, здоровье, интересах, покупках, финансовых транзакциях, ипотеке, страховании, путешествиях, поисковых запросах, активности в социальных сетях и т.д. Вплоть до недавнего времени подобные данные сохранялись автоматически, без вашего ведома и учета мнения. Общий регламент по защите данных Евросоюза (GDPR) изменил ситуацию — теперь, как вы наверняка заметили, сайты просят вас поставить галочки, подтверждающие, что вы осознанно даете разрешение на использование персональных данных. Встречаются и другие способы давать или не давать свое согласие, например в США, где конфиденциальность персональных данных регулируется как федеральными законами, так и законами штатов, в зависимости от сектора экономики.

В 2013 г. Национальная служба здравоохранения Великобритании (NHS) запустила программу, предполагающую ежемесячное копирование медицинских данных из отчетов семейных врачей и объединение их с учетными записями больниц в Национальном информационном центре здравоохранения и социальной защиты (HSCIC). Потенциальная ценность таких объединенных наборов данных огромна. Собрав информацию о состоянии здоровья и методах лечения миллионов людей, мы сможем извлекать данные, чтобы лучше не только изучать сами заболевания и пути повышения качества их профилактики, мониторинга и эффективности лечения, но и понимать, насколько эффективна система медицинской помощи в целом и где ее необходимо усовершенствовать. Конфиденциальность при этом обеспечивается системой псевдонимизации, в которой имена, номер медицинской страховки и другие идентификаторы заменяются кодом, а коды сохраняются в файле, никак не связанном с фактическими данными.

К сожалению, эта система — и ее потенциальные выгоды для здоровья и медицины — была плохо представлена общественности. Многих беспокоила возможность продажи их данных третьим сторонам (например, фармацевтическим и страховым компаниям), которые будут использовать информацию для получения прибыли. Другие опасались потери и взлома данных, а также того, что их данные могут быть декодированы, что нарушило бы конфиденциальность в сфере медицинских вопросов. В результате был получен негативный общественный резонанс, усиленный отдельными СМИ. И это даже несмотря на то, что система позволяла людям отказаться от передачи их данных куда бы то ни было.

В феврале 2014 г. программа была приостановлена. После ряда неудачных попыток перезапуска в июле 2016 г. был опубликован ее расширенный пересмотренный вариант, в котором рекомендовалась модель согласия пациента на использование персональных данных, включавшая восемь пунктов. Одна из особенностей нового варианта заключалась в том, что она давала людям возможность запретить использование их данных для целей, выходящих за рамки медицинской помощи, например для проведения исследований.

Если до этого момента вы читали внимательно, то, вероятно, заметите скрывающуюся здесь опасность. Из-за разрешения отказывать в использовании информации для исследований базы данных перестают быть всеобъемлющими. В них будет содержаться информация только о части пациентов. Хуже того, поскольку люди сами выбирают, давать или не давать свои данные (DD-тип 4: самоотбор), велик риск того, что базы данных покажут искаженную картину всей совокупности.

В 2009 г. Мишель Хо и ее коллеги из Университета Макмастера в Канаде изучили эту проблему. Они провели метаанализ исследований влияния информированного согласия на использование данных с точки зрения того, какие именно люди дают такое согласие. Сравнив согласных и несогласных по возрасту, полу, расовой принадлежности, образованию, доходу и состоянию здоровья, они обнаружили, что две группы действительно отличались друг от друга. Но еще большую тревогу вызвал тот факт, что «направленность и масштаб этого эффекта оказались непостоянными». Это означает, что согласные и несогласные не просто отличаются друг от друга, а отличаются непредсказуемым образом, что делает крайне затруднительной корректировку отличий.

Отказ от участия — иначе говоря, предоставление людям права не быть включенными в базу данных — требует от них по меньшей мере некоторых усилий. В такой ситуации многие просто ленятся что-то делать, принимают установки по умолчанию и потому попадают в базы данных. Потенциально более строгая альтернатива отбора подразумевает приложение усилий уже для включения в базу данных. В этом случае врожденная лень, наоборот, может сделать только хуже: требовать от людей каких-то действий — верный способ уменьшить число откликов.

В примере с медицинскими картами фигурируют четко оформленные административные данные, но иногда мы имеем дело с вещами менее очевидными. С такими, например, как сброшенные звонки в службу экстренной помощи.

Сброшенным считается такой вызов, когда кто-то производит набор номера экстренной службы, но вешает трубку или как-то иначе прерывает звонок, прежде чем ответит оператор. В сентябре 2017 г. BBC на своем сайте сообщила, что за год, начиная с июня 2016 г., количество сброшенных вызовов в диспетчерские британской полиции выросло вдвое: с 8000 до 16 300. Существуют разные теории о том, почему это происходит. Например, одна из них утверждает, что полиция перегружена звонками и поэтому операторам требуется слишком много времени, чтобы принять очередной вызов. Другая теория гласит, что причина заключается в случайном нажатии телефонных кнопок в кармане или сумочке, что автоматически генерирует такие вызовы.

Если бы эта последняя теория действительно все объясняла, можно было бы ожидать, что проблема не возникнет или по крайней мере не будет столь острой в Соединенных Штатах, где для набора номера экстренного вызова 911 используются две разные цифры, в отличие от 999 в Великобритании. Однако частота таких звонков увеличивается и в Америке. Данные Центра экстренной связи Линкольна за три месяца показывают, что число сброшенных звонков с апреля по июнь 2013 г. увеличилось с 0,92 до 3,47%.

Сброшенные звонки — яркий пример темных данных DD-тип 1: данные, о которых мы знаем, что они отсутствуют. Не менее яркий пример темных данных DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, был приведен Майком Джонстоном, редактором сайта The Online Photographer. В своей редакторской колонке он пишет: «Всякий раз, когда я читаю описание бревенчатых хижин времен освоения Дикого Запада как хорошо сработанных, добротных и красивых построек, я тихонько посмеиваюсь. Ведь, скорее всего, 99,9% срубов того времени были построены просто ужасно — поэтому они все и развалились. Те немногие, что сохранились в первозданном виде, были действительно сделаны неплохо. Но это не значит, что все хижины были такими». Поскольку не осталось никаких документальных свидетельств об этих развалившихся бревенчатых хижинах, мы имеем дело с темными данными.

DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, особенно обманчив, потому что у нас, как правило, нет оснований подозревать существование таких данных. Допустим, вы читаете лондонскую The Times от 29 декабря 2017 г. и, так же как и я, узнаете, что, «по данным полиции, число сексуальных домогательств, предположительно совершенных водителями такси по отношению к пассажирам, возросло на одну пятую за три года». Объяснение, лежащее на поверхности, состоит в том, что совершается все больше подобных правонарушений. Но есть и другое объяснение, вытекающее из темных данных: число совершенных преступлений не меняется, зато растет число сообщений о них. Темные данные, которые были до этого скрыты, становятся видимыми в результате изменения нравов и общественных норм. Отсюда следует важный вывод общего характера: если мы видим внезапное изменение шага во временном ряду значений, это может быть связано не только с тем, что поменялись параметры наблюдаемой реальности, но и с тем, что изменилась сама процедура сбора данных. Это также проявление темных данных DD-тип 7: данные, меняющиеся со временем.

Более сложный пример того, как работают в тандеме DD-тип 2: данные, о которых мы не знаем, что они отсутствуют и DD-тип 7: данные, меняющиеся со временем, дают нам показатели инвестиционных фондов. Рынок таких фондов в целом отличается высокой динамикой — постоянно создаются новые фонды, а старые умирают. Понятно, что, как правило, умирают неэффективные предприятия, а преуспевающие остаются. И если мы не примем во внимание эти исчезнувшие фонды, то средние результаты оставшихся на плаву покажутся нам весьма неплохими.

Хотя фонды, прекратившие свое существование из-за низкой доходности, исключаются из индекса, который показывает общую или среднюю результативность по рынку, можно попытаться самим заглянуть в прошлое и получить нужные данные по этим фондам. Это изменило бы их статус с DD-типа 2: данные, о которых мы не знаем, что они отсутствуют на DD-тип 1: данные, о которых мы знаем, что они отсутствуют, и позволило оценить, как их отсутствие влияет на расчеты. Исследование, проведенное в 2006 г. Эми Барретт и Брентом Бродески, показало, что «очистки базы данных Morningstar от самых слабых фондов повышали видимую доходность в среднем на 1,6% в год в течение 10-летнего периода [1995–2004 гг.]». В другом исследовании, опубликованном в 2013 г., Тодд Шлангер и Кристофер Филипс из инвестиционной компании Vanguard изучили результативность фондов, исключая, а затем включая выбывшие из игры фонды в расчет доходности за последние 5, 10 и 15 лет. Различия оказались поразительными: доходность тех инвесткомпаний, которые на протяжении 15 лет исключали из расчетов подобные фонды, почти вдвое превышала показатели тех, кто их учитывал. Это исследование выявило также и масштаб темных данных в сфере инвестиционных фондов: только 54% из них просуществовали в течение всего 15-летнего периода.

Этот феномен оказывает влияние и на такие знакомые финансовые индексы, как Dow Jones и S&P 500. Компании, которые плохо работают, выпадают из расчета этих индексов, так что только те, которые справляются относительно неплохо, вносят свой вклад в их значение. Это хорошо, если вы инвестировали именно в те компании, которые преуспели, но обратная ситуация совсем не радует. А поскольку крайне сложно (некоторые скажут, что невозможно) определить, какие компании будут продолжать работать хорошо, а какие нет, то индексы обманчивы.

Предостерегая от так называемой ошибки выжившего в отношении индексов, стоит отметить, что все может быть еще сложнее. Если говорить о хедж-фондах, то не только фонды с низкими результатами могут закрываться и не включаться в расчет — самые результативные из них тоже нередко закрываются для новых инвесторов. По аналогии сильные компании могут провести дробление акций, находящихся в обращении, чтобы стать доступнее для новых инвесторов, и как результат выпасть из расчета фондового индекса. Темные данные могут воздействовать непостижимым образом.

Кроме того, по причинам, которые мы рассмотрим в главе 3, есть большая вероятность, что фонды, которые работали исключительно хорошо в прошлом, пойдут на спад в будущем по причине «возврата к среднему значению». Это означает, что инвесторам нужно очень внимательно следить за тем, как оценивается прошлая результативность фондов. Так же, как и в любых других сферах жизни, они должны спрашивать себя: «Не сокрыта ли истина под покровом темных данных?»

Ошибка выжившего является потенциальной проблемой для всех ситуаций, когда со временем что-то меняется. В мире стартапов мы больше слышим об успехах, чем о неудачах, хотя большинство таких компаний терпит именно неудачу. Одни исследователи считают, что их доля составляет всего 50%, другие — что 99%. Конечно, многое зависит от того, какой период времени вы рассматриваете (год или 50 лет?) и что понимаете под «неудачей». Возьмем, к примеру, социальную сеть Bebo. Запущенная в 2005 г., она была одной из самых популярных соцсетей в Великобритании с почти 11 млн пользователей. В 2008 г. Bebo была куплена AOL за $850 млн. Так вот, на трехлетнем горизонте компания была невероятно успешной. Но затем число пользователей начало сокращаться, в том числе из-за того, что они переходили в Facebook, и в 2010 г. AOL продала Bebo Criterion Capital Partners, после чего компьютерный сбой окончательно подорвал ее репутацию, и в 2013 г. компания подала заявление о банкротстве в соответствии со статьей 11 Закона о банкротстве США. Позже, в 2013 г. ее основатели Майкл и Сочи Берч выкупили компанию за $1 млн. Так что это, успех или неудача? А как насчет Lehman Brothers? Эта фирма, основанная в 1850 г., была четвертым по величине инвестиционным банком в Соединенных Штатах, пока не объявила о банкротстве в 2008 г. Как и Bebo, компания потерпела крах, хотя и просуществовала намного дольше. Но была ли ее история историей успеха или же провалом?

В мире стартапов люди по естественным причинам хотят слышать истории успехов, а не провалов — ведь они стремятся подражать именно успехам. Но на самом деле им требуются другие данные, остающиеся для них темными. Предприниматели должны искать такие характеристики, которые отличают успехи от неудач, а не просто те, которые сопровождают успех, поскольку они точно так же могут быть связаны и с ошибками в действиях. Более того, даже если характеристики связаны с успехами больше, чем с неудачами, нет никакой гарантии, что эта связь причинно-следственная.

На сайте веб-комиксов xkcd.com есть забавный комикс на тему ошибки выжившего. Персонаж советует нам никогда не прекращать покупать лотерейные билеты, рассказывая, как он проигрывал и терял деньги раз за разом, но все равно продолжал покупать билеты — даже устроился на дополнительную работу, чтобы больше зарабатывать и покупать их еще больше. И вот в конце концов он преуспел (если слово «преуспел» тут уместно). При этом за кадром громоздятся горы трупов азартных игроков, которые точно так же вкладывались в лотерейные билеты, но умерли, ничего не выиграв.

В целом административные данные имеют огромный потенциал, если мы принимаем во внимание риски, связанные с темными данными. Однако есть один аспект, который не выглядит столь радужным и вызывает озабоченность.

С точки зрения отдельного человека, выхлопные данные, хранящиеся в базах административных данных, являются не чем иным, как тенями данных. По сути это цифровые следы, которые мы оставляем каждый раз, отправляя электронные письма, текстовые сообщения, твиты, публикуя комментарии на YouTube, расплачиваясь кредитными картами, используя проездные, совершая телефонные звонки, обновляя приложения для социальных сетей, включая компьютер или iPad, получая наличные в банкомате, проезжая мимо камеры распознавания номерного знака — список можно продолжать бесконечно, причем порой следы наших действий считываются весьма неожиданными способами. Хотя такие данные действительно могут использоваться в интересах общества, но правдой является и то, что они неизбежно раскрывают большое количество личной информации о каждом из нас: наши симпатии и антипатии, наши привычки и поведение. Цифровая тень может быть использована для нашей выгоды — на ее основе происходит отбор действительно интересных нам товаров и событий, она помогает в путешествиях и в целом облегчает жизнь. Но эта тень может быть использована и для манипулирования нашим поведением. Авторитарные режимы получают возможность контролировать нас, если имеют доступ к подробностям нашей жизни. В некотором смысле это неизбежно: недостатком предоставления информации для получения ответной помощи является… само предоставление информации.

На фоне растущей озабоченности этой проблемой появляются сервисы, которые минимизируют нашу цифровую тень. Они как бы гасят свет, погружая данные во тьму. Основные шаги в этом направлении включают в себя деактивацию всех учетных записей социальных сетей, удаление старых учетных записей почтовых сервисов, удаление результатов поиска, использование ложной информации для учетных записей, которые мы не можем удалить (например, фиктивные даты рождения или инициалы), удаление из списков рассылок и оповещений и пр. Понятно, что такое сокрытие данных негативно сказывается на потенциальных выгодах. Государство, например, может определить, предоставлять или не предоставлять человеку налоговые льготы, только если располагает данными о его доходах и налоговых платежах.

От нескольких ко многим

Сбор данных обо всех интересующих нас людях или объектах, например административных данных, генерируемых во время похода в супермаркеты, — это действенный метод получения информации, способной улучшить понимание ситуации и повысить качество принимаемых решений. Но такие данные не всегда могут пролить свет на волнующие нас вопросы. Простейшим примером являются ситуации, в которых соответствующие наборы административных данных просто не могут быть собраны автоматически. Одно из решений — использовать максимально близкий к искомому набор данных, но это имеет свои риски. Вторым решением будет разовый сбор данных, например в масштабе всего населения, для получения ответа на конкретный вопрос. По сути, это перепись. Но, к сожалению, перепись — дорогостоящий и небыстрый процесс, и нет смысла тратить огромные суммы на то, чтобы получить идеальный ответ уже после того, как он перестал быть актуальным.

Третья стратегия заключается в проведении опросов.

Опросы — это один из основных инструментов, используемых для изучения современного общества. Их особенность и преимущество состоит в том, что они позволяют понять происходящее в той или иной группе людей, не спрашивая каждого члена этой группы. Опросы основаны на таком мощном статистическом феномене, как закон больших чисел, который гласит, что среднее значение произвольной выборки из некоей генеральной совокупности с высокой вероятностью будет очень близко к реальному среднему значению совокупности, если размер выборки достаточно велик.

Предположим, мы хотим определить средний возраст людей в стране. Это значимая информация, позволяющая понять, например, достаточно ли в стране людей трудоспособного возраста (и будет ли их достаточно по мере старения населения), чтобы собранные с них налоги могли обеспечить пенсию старшему поколению. Важность и потенциальное влияние среднего возраста становится очевидным, если взглянуть на два государства, занимающих крайние противоположные позиции на этой шкале: западноафриканский Нигер, где 40% населения не достигло возраста 15 лет, и Японию, в которой всего 13% населения приходится на эту возрастную группу.

Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести перепись и узнать возраст каждого, а базы данных, собранные различными службами и сервисами, которые просят указать при регистрации дату рождения, не внушают доверия из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку, задавая лишь некоторым людям вопрос об их возрасте. Вы, должно быть, сразу сообразили, что существует очевидный риск возникновения темных данных, поскольку мы не узнаем возраст всех тех, кто не попал в наш опрос. Но закон больших чисел говорит о том, что узнать это вполне возможно при условии репрезентативности выборки. Более того, математика, лежащая в основе этого закона, утверждает, что выборка необязательно должна быть огромной — тысячи человек для средних размеров страны может оказаться достаточно. Согласитесь, это совсем не то, что опрашивать миллионы.

Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как сформированную либо «случайно», либо «должным образом». Если мы включим в выборку только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли сможем точно определить средний возраст населения. Нам нужно быть уверенными, насколько это возможно, в том, что выборка должным образом представляет исследуемое население. Лучший способ достичь этого — начать с составления списка всех интересующих нас представителей населения (такой список называется рамкой выборки), затем случайным образом выбрать людей из этого списка и спросить их о возрасте. Такие детальные списки часто создают на основе административных данных, например списков избирателей или результатов последней переписи.

Поначалу случайный выбор тех, кого спрашивать о возрасте, может показаться странным. Конечно, каждый такой опрос может давать разный результат. Однако, хотя он не гарантирует того, что выборка свободна от негативного влияния темных данных (например, что доля молодых людей в ней не выше, чем в популяции), вероятность таких искажений поддается контролю. Это означает, что мы можем утверждать, например, следующее: «Почти для всех (то есть для 95%) сформированных выборок среднее значение может отклоняться не более чем на два года от среднего возраста населения». Увеличивая размер выборки, мы можем увеличить и уверенность с 95%, скажем, до 99%, и уменьшить диапазон отклонений на год или любую другую величину. А если вас беспокоит отсутствие абсолютной достоверности выводов, сделанных по результатам такого процесса, напомним, что ничто в этой жизни не является абсолютно достоверным (разве что смерть и налоги).

Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки существенно не зависит от того, насколько большую долю населения составляет выборка, во всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни странно, зависит просто от численности выборки. При прочих равных условиях выборка численностью тысячу человек для населения в миллион обычно дает такую же точность, как и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к совокупности в первом случае будет один к тысяче, а во втором — один к миллиону.

К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона, а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в принципе. И тут мы входим в область темных данных DD-тип 4: самоотбор.

Пример такого отсутствия ответа приведен в табл. 1, где показаны данные с некоторыми отсутствующими значениями. Они обозначены вопросительным знаком (часто для этого используется аббревиатура NA, что означает not available или «нет данных»). В таблице приведены 10 записей с маркетинговыми данными, взятых с сайта данных для машинного обучения. Данные были собраны из анкет, выданных посетителям торгового центра в районе залива Сан-Франциско. Цель исследования заключалась в построении модели прогнозирования доходов в зависимости от переменных. Вот эти переменные: A — пол, B — семейное положение, C — возраст, D — образование, E — род занятий, F — сколько лет проживает в Сан-Франциско, G — число работающих в семье, H — численность семьи, I — число членов семьи младше 18 лет, J — статус домохозяйства, K — тип жилой недвижимости, L — этническая группа, M — язык и, наконец, последняя переменная, которая должна была быть спрогнозирована, N — доход (на сайте дается более подробная информация о значении и диапазоне каждой из переменных, я же для удобства обозначил их буквами). Весь набор данных содержит 8993 строки, подобных тем, что показаны в таблице, но в 2117 из них есть отсутствующие значения — так же, как и в трех строках приведенного фрагмента. При этом в одной из этих трех строк отсутствует два значения. Эти отсутствующие значения явно относятся к DD-типу 1: данные, о которых мы знаем, что они отсутствуют, поскольку мы отчетливо видим, что в ячейках не хватает чисел.

Столбец таблицы, обозначенный буквой «М», показывает ответы на вопрос «На каком языке чаще всего говорят в вашем доме?». Есть три варианта ответов: 1 — на английском, 2 — на испанском и 3 — на любом другом языке. Поскольку только одна из этих категорий может быть верной для каждого домохозяйства, а вместе они включают в себя все возможные языки, то мы знаем, что для каждой строки существует только один из трех предложенных вариантов ответа. Но по какой-то причине два человека в нашей выборке просто не стали отвечать.

Иногда, впрочем, записи являются неполными по причине того, что подходящих значений просто нет — ответа не существует. Например, поле, в котором указывается возраст супруга респондента, должно остаться пустым, если респондент не состоит в браке. Это порождает интересный вопрос о том, как мы должны относиться к таким недостающим значениям. Ситуация явно отличается от того, если бы кто-то, состоящий в браке, просто не заполнил это поле. Но имеет ли это различие значение? Если два типа отсутствия ответа будут рассматриваться нами одинаково, приведет ли это к ошибочным выводам?

Запись с пробелами сразу показывает, что чего-то не хватает (DD-тип 1: данные, о которых мы знаем, что они отсутствуют). Однако, когда люди вообще отказываются отвечать на вопросы, мы имеем иной результат — DD-тип 4: самоотбор. Люди могут быть слишком заняты, могут воспринять опрос как вторжение в частную жизнь или просто не выходить на контакт (например, если их нет в городе на момент проведения исследования). Это тоже известные неизвестные в том смысле, что мы знаем, кто эти люди, поскольку они есть в списке выборки, а также знаем, что они могли бы дать ответы, если бы были готовы и имели возможность. Но, поскольку у нас нет их ответов, мы вынуждены находиться в неведении.

Один из ярких примеров такого рода проблем дают президентские выборы 1936 г. в США. На основе опросов популярный журнал The Literary Digest много раз успешно определял победителей выборов, и в 1936 г. он предсказал, что победит кандидат от республиканцев Альфред Лэндон, а голоса разделятся в соотношении 3∕2. Тем не менее Франклин Рузвельт, кандидат от демократов, одержал уверенную победу, набрав 523 из 531 голоса коллегии выборщиков, 62% голосов избирателей и получив большинство в 46 из 48 штатов.

Результаты этих выборов и ошибочный прогноз The Literary Digest часто связывают с темными данными, полученными в ходе опроса. На этот счет есть разные теории, но все они сводятся к одной мысли: не стоило в качестве рамки выборки использовать телефонные справочники. В то время телефоны были чем-то вроде предметов роскоши и в основном принадлежали состоятельным людям, среди которых было больше сторонников республиканцев. Таким образом, в выборке была завышена доля людей, которые планировали голосовать против Рузвельта.

Подобно попытке оценить средний возраст населения страны на основе выборок, сделанных в ночных клубах или домах престарелых, это объяснение ошибочного прогноза предполагает, что причина появления темных данных кроется вовсе не в отказе людей отвечать на вопросы, а в неправильном определении первоначального списка респондентов.

Однако подробный анализ статистика Мориса Брайсона показывает, что этот упрощенческий подход является в корне неверным. С одной стороны, он недооценивает те меры, которые предпринимали опросчики The Literary Digest, чтобы обеспечить репрезентативность выборки потенциальных избирателей. Они хорошо понимали факторы, которые могли привести к искажению этой выборки. С другой стороны, хотя в то время лишь около 40% домохозяев имели телефоны, эти же 40% представляли наиболее активную часть избирателей. Сей факт означает, что, несмотря на возможность появления темных данных в масштабе всего населения, их влияние было куда менее серьезным, если рассматривать владельцев телефонов как долю голосующего населения, что, конечно, имеет значение для выборов. Значение, которое может оказаться решающим: на референдуме 2016 г. о том, следует ли Великобритании покинуть Евросоюз, проголосовало 43% тех, кто до этого заявлял, что «не интересуется политикой», в то время как на всеобщих британских выборах 2015 г. проголосовало лишь 30% таких людей. Тот, кто утверждает, что будет голосовать за Х, должен реально проголосовать за Х, чтобы его утверждение стало верным.

Что касается опроса избирателей на выборах Лэндон/Рузвельт, похоже, что популярная «телефонная» теория неверна. Тогда чем же объяснить провал опроса?

Ответ по-прежнему лежит в области темных данных, но данных другого типа — куда более знакомых и понятных нам, живущим в эпоху сетевых опросов. Дело в том, что, хотя было разослано 10 млн анкет, лишь около четверти тех, кто их получил, то есть около 2,3 млн человек, потрудились ответить. Более трех четвертей опрошенных просто проигнорировали анкеты — их политические взгляды стали темными данными. Последствия очевидны. Если республиканские избиратели были более заинтересованы в выборах, чем сторонники Рузвельта (а все указывает на то, что это именно так), то они с большей вероятностью откликались на опрос. Это и создало впечатление большинства в пользу Лэндона — искаженное представление, которое обмануло The Literary Digest. Искажение самоотбора было устранено, когда состоялись настоящие выборы.

Таким образом, это неожиданное расхождение прогноза и результатов выборов было следствием темных данных, но не из-за ошибок при составлении выборки, а по причине разной вероятности того, что республиканские и демократические избиратели вообще откликнутся на опрос. Причиной стала добровольность ответа (DD-тип 4: самоотбор).

Поскольку рамка выборки на основе сложного анализа была определена правильно (то есть опросчики точно знали, кто имеет право голосовать), то можно было бы настроить ее, как это описано в главе 9. Но там, где рамка выборки определена неверно, такая настройка будет куда сложнее или даже попросту невозможна. В этом случае мы покидаем область DD-типа 1: данные, о которых мы знаем, что они отсутствуют, и перемещаемся в область DD-типа 2: данные, о которых мы не знаем, что они отсутствуют. Веб-опросы (о них мы поговорим чуть позже) особенно уязвимы для этого сценария.

Надо признать, что ситуации, когда часть людей не отвечает на вопросы, как в примере с Лэндоном/Рузвельтом, бывают довольно сложными. Те, кто отказывается отвечать, могут существенно отличаться от тех, кто решил ответить: сам факт их неучастия в опросе уже показывает, что они в чем-то отличаются. Возможно, более склонными пройти опрос будут люди, проявляющие особый интерес к его теме, как в случае с Лэндоном/Рузвельтом. А может быть, это будут те, кто просто лучше информирован по данной теме. В Нидерландах проводилось исследование жилищных условий, которое показало, что более нуждающиеся люди чаще откликаются на опрос, поэтому может сложиться ложная общая картина. В опросах на тему виктимизации так называемые серийные события, например домашнее насилие, которое не имеет конкретного начала и конца, могут не выявляться в ходе опросов, посвященных отдельным инцидентам. Кроме того, люди зачастую отказываются от участия, если им кажется, что на опрос уйдет слишком много времени. В целом, что касается опросов и не только, самоотбор служит наиболее опасным источником темных данных.

Электоральные опросы, конечно, полезны, но, поскольку и государство, и бизнес все шире используют опросы как инструмент сбора информации, все больше становится и неадекватных ответов. Да и показатель отклика во всем мире падает. Проиллюстрируем это на примере обследования трудовых ресурсов Великобритании. На рис. 2 показана доля тех, кто соглашался пройти опрос, по отношению ко всем, кому это было предложено, за каждый квартал с марта 2003 г. по сентябрь 2017 г. Эта доля снизилась за указанный период с более чем 65% до 45% и даже ниже. Такая однозначно нисходящая тенденция не способствует большой уверенности в выводах, которые будут сделаны на основе опросов в дальнейшем, если, конечно, не принять соответствующих мер.

Это явление не ограничивается обследованием трудовых ресурсов Великобритании, оно затрагивает все виды опросов во всем мире. Общенациональные опросы потребителей в США — это телефонные опросы на тему расходов и экономии. Уровень участия в них снизился с 79% в 1979 г. до 60% в 1996 г. и до 48% в 2003 г. Множество других примеров приведено в отчете Национальной академии США за 2013 г. под редакцией Роджера Туранжо и Томаса Пльюиса, в котором говорится: «Уровень отклика домохозяйств на опросы государственных организаций и частных компаний, которые являются ценными источниками данных для исследований в области социальных наук, падают во всех наиболее богатых странах мира». На рис. 3 показан уровень отклика в период 1997–2011 гг. для домохозяйств в рамках Национальной программы анкетирования по вопросам здоровья США. Хотя, возможно, и не такая яркая, как в предыдущем примере, но тенденция к снижению существует.

Снижение уровня отклика ясно прослеживается и в медицинских эпидемиологических исследованиях. Опрос Национальной системы надзора за поведенческими факторами риска проводится в Соединенных Штатах для изучения собственно факторов риска, скрининга (массового профилактического обследования населения с целью выявления болезней на ранней стадии) и доступа к медицинскому обслуживанию. Средний показатель участия в этом опросе снизился с 71% в 1993 г. до 51% в 2005 г.

Ключевой вопрос заключается в том, в какой момент уровень отклика становится слишком низким для того, чтобы можно было считать опрос полезным? В какой момент доля темных данных становится слишком высокой для того, чтобы результаты опроса можно было экстраполировать на все население? Достаточно ли 90%-ного уровня отклика для получения надежных результатов? А 80%-, 50%-, 20%-ного? И насколько эффективны методы корректировки результатов (подобные тем, которые описаны в главе 8), если отсутствуют ответы?

К сожалению, общего решения этой проблемы не существует. Все зависит от темы опроса, отдельных заданных вопросов, а также от того, как и почему появились отсутствующие данные. В некоторых случаях даже небольшая их доля может означать, что имеющиеся данные не являются репрезентативными для всего населения. Опрос всего населения для выяснения отношения к операциям по смене пола, в котором какой-нибудь вопрос покажется трансгендерам настолько оскорбительным, что все они откажутся на него отвечать, в то время как другие группы ответят, может привести к искажению результатов, даже если у опроса будет высокий уровень отклика. В других случаях, напротив, даже большой процент отсутствующих записей может оказать лишь незначительное влияние на выводы. Фактически из нашего предыдущего обсуждения важности размера выборки и случайности отбора следует, что если те, кто не откликнулся, не объединены каким-то важным общим свойством, то высокий уровень отклика может вообще не иметь значения.

В любом случае, как показывают примеры, объем темных данных в форме отсутствия ответа все возрастает, и, хотя они не всегда оказывают негативное влияние на выводы, когда это все-таки происходит, такое влияние может быть очень серьезным. Если бы вы управляли страной или крупной корпорацией, хотели бы вы полагаться на пустые поля опросов?

Одно из замечательных свойств интернета заключается в том, что он дает возможность проводить недорогие опросы, способные охватывать широкую аудиторию и, следовательно, формировать выборки огромных размеров. Но есть и ограничения. В частности, вы не можете контролировать, кто именно отвечает на ваши вопросы. В основном респонденты сами решают, принять им участие в опросе или скрыться за пологом темных данных. Очевидно, что это может пагубно влиять на любой опрос, поскольку означает, что выводы будут напрямую зависеть от того, кто на него откликнется, а кто нет. (Вспомните гипотетический опрос из главы 1, в котором был единственный вопрос: «Отвечаете ли вы на журнальные опросы?») И основная неопределенность возникает в отношении того, кто в принципе видит вашу веб-страницу с анкетой.

В то же время люди зачастую имеют возможность пройти веб-опрос несколько раз. Или еще хуже: недавно я встретил человека, который сказал, что всякий раз, когда ему предлагают пройти опрос по мобильному телефону, он передает его для ответов своему пятилетнему сыну. К тому же фундаментальная проблема заключается в том, что не у всех есть доступ к интернету — сравните это с ролью телефонов на выборах Лэндон/Рузвельт. В отчете 2013 г. из Нидерландов, опубликованном в International Journal of Internet Science, сообщалось, что «пожилые люди, незападные иммигранты и домохозяйства, состоящие из одного человека, часто не имеют доступа к интернету». Впрочем, эта проблема, вероятно, будет решена с течением времени по мере развития технологий.

Почему же люди все меньше склонны отвечать на опросы? Туранжо и Пльюис изучили эту проблему и выяснили, что сами причины отсутствия отклика не сильно изменились с течением времени. Прежде всего потенциальный респондент просто недостаточно заинтересован в участии, слишком занят или не хочет тратить на опрос много времени. Среди других причин можно выделить проблемы конфиденциальности, непонимание вопросов, а также негативные эмоциональные реакции — раздражение, «хлопанье дверью», недружелюбное или даже угрожающее поведение. Рискованное это дело, быть интервьюером! На основе исследования было высказано предположение, что люди просто пресыщены опросами — их слишком много, а бесконечными вопросами можно вывести из себя кого угодно. Ситуация усугубляется рекламными кампаниями, маскирующимися под опросы. Но главной причиной всего этого является самоотбор, когда респонденты сами решают, принимать им участие или нет.

Однако отсутствие отклика необязательно связано с респондентом. Бывает, что сам интервьюер не прикладывает достаточных усилий, чтобы выйти на связь с людьми. Действительно, для нечестных интервьюеров есть даже отдельный тип темных данных (DD-тип 14: фальшивые и синтетические данные). Именно такой случай показывает известная карикатура, где вместо того, чтобы задавать вопросы людям, переписчик сидит на бордюре и вписывает цифры «от фонаря». Однако, если вы переписчик, имейте в виду, что сложные статистические методы могут обнаружить этот обман, как и другие виды мошенничества с данными. Стоит также упомянуть языковые барьеры и простую потерю данных, которые также могут привести к отсутствию значений.

Опросы, затрагивающие чувствительные темы, — как правило, связанные с сексуальной активностью, финансовыми или медицинскими аспектами — особенно страдают от отсутствия и неполноты данных. Для таких случаев были разработаны довольно хитрые методы сбора данных, которые позволяют людям отвечать, сохраняя анонимность, или дают возможность получать агрегированные показатели, не раскрывая индивидуальных значений. К этим методам мы еще вернемся в главе 9.

Экспериментальные данные

Итак, мы рассмотрели два способа сбора данных, описанных в начале этой главы: сбор данных обо всех интересующих нас объектах и выборочный сбор данных. Мы также узнали, какие типы темных данных могут возникать в каждом из этих случаев.

Теперь перейдем к третьему способу сбора данных — экспериментальному, когда условия, методы лечения или иные воздействия на объекты и людей изменяются тщательно контролируемым образом.

Предположим, мы хотим узнать, какой из двух видов лечения является более эффективным: А или Б. Казалось бы, проще всего последовательно провести лечение обоими методами и посмотреть, какой из них работает лучше. Например, исследуя эффективность лекарств для облегчения симптомов сенной лихорадки, мы могли бы первый год лечить пациента по методу А, а второй — по методу Б (полагаясь на то, что количество пыльцы в оба года будет одинаковым). Но в большинстве случаев невозможно применить к одному пациенту оба вида лечения. Например, в исследовании эффективности методов, увеличивающих продолжительность жизни, мы вряд ли сможем попробовать больше одного метода — эксперимент в данном случае заканчивается со смертью пациента.

Единственная альтернатива этому — лечение одного пациента по методу А, а другого по методу Б. Проблема, однако, в том, что не все пациенты одинаково реагируют на одно и то же лечение: то, что лечение помогло одному пациенту, не означает, что оно поможет и всем остальным. Более того, даже отдельно взятый пациент может по-разному реагировать на одно и то же лечение в разные периоды времени.

Далее мы переключаем внимание с отдельных пациентов на средние ответы в группах пациентов, получающих каждое лечение: насколько хорошо в среднем они реагируют на лечение в группе А, по сравнению с группой Б? При этом необходимо обеспечить такое распределение пациентов по группам, чтобы никакие другие факторы, кроме самого лечения, не могли объяснить различия результатов. Например, не стоит испытывать один метод лечения исключительно на мужчинах, а другой — на женщинах, поскольку в этом случае мы не будем знать, лечение или пол объясняют наблюдаемые различия. Точно так же не стоит проводить одно лечение на пациентах с более запущенной болезнью, а другое — на пациентах с менее запущенной.

Что нам действительно нужно, так это сбалансировать распределение, например, одной половине мужчин назначить лечение А, а другой — лечение Б и то же самое сделать для женщин. Затем попытаться так же распределить по группам более больных пациентов и менее больных. Эта задача решаема, если мы хотим контролировать лишь небольшое количество факторов, например пол, возраст и тяжесть заболевания. Но как только их число возрастает, мы обнаруживаем, что решения нет: просто не существует тяжелобольного курящего 25-летнего мужчины с высоким кровяным давлением, индексом массы тела, равным 26, и хронической астмой, эквивалентного тяжелобольной 25-летней женщине с точно такими же данными. Хуже того, несомненно, будут появляться все новые и новые факторы, о которых мы даже и не думали.

Чтобы преодолеть эту проблему, людей случайным образом распределяют по двум группам — отсюда и название: рандомизированные контролируемые исследования (РКИ). Таким образом можно свести вероятность дисбаланса, которого мы хотим избежать, до минимального уровня. Помните теоретическое обоснование для случайной выборки, которое мы рассматривали, когда изучали опросы? Точно такой же принцип действует и здесь, разница лишь в том, что теперь мы назначаем пациентам лечение, а не выбираем людей для опроса.

В наиболее простом варианте такого исследования сравнивают две группы людей. Иногда его еще называют A/Б-исследованием или исследованием типа «победитель/претендент», в котором новый метод лечения (претендент) сравнивается со стандартным методом (победитель). Такая структура широко используется, например, в медицине, веб-экспериментах и на производстве. Преимуществом подобных исследований является возможность сравнить результат с тем, что произошло бы при других условиях. Это позволяет избежать контрфактуальных темных данных.

Контролировать темные данные таким способом люди научились уже довольно давно. В качестве примера авторитетного РКИ прошлого века можно привести исследование лечения туберкулеза стрептомицином, проводившееся в 1948 г. Вот что сказал о нем британский историк здравоохранения сэр Иэн Чалмерс: «Подробный и исключительно четкий отчет о рандомизированном исследовании применения стрептомицина при лечении туберкулеза легких, проведенном Британским медицинским научным советом в 1948 г., по праву считается вехой в истории клинических испытаний».

Однако, как это часто бывает, идеи этого метода или по крайней мере его корни, прослеживаются и дальше вглубь времен. Наиболее раннее описание рандомизации распределения групп мы находим у фламандского врача Жана-Батиста Ван Гельмонта, который в 1648 г. предложил для оценки эффективности кровопусканий и больших доз слабительного следующее: «Давайте наберем по больницам… 200 или 500 несчастных с лихорадкой и воспалением плевры. Давайте поделим их пополам и бросим жребий, чтобы одна их половина выпала на мою долю, а другая на вашу. Я вылечу своих без кровопусканий и опорожняя в разумных пределах; а вы делайте как сами знаете… Посмотрим, сколько будет похорон у каждого». В те времена в английском для обозначения жребия использовалось слово «lot», и это его значение сохранилось до наших дней в слове «лотерея».

Пока все выглядит неплохо. В отличие от двух других методов сбора данных, где просто собирают данные, ни во что не вмешиваясь (данные наблюдений), этот новый подход предполагает управление тем, кто какое лечение будет проходить. И все было бы замечательно, если бы пациенты придерживались протоколов лечения, принимая лекарства строго по графику вплоть до самого конца исследования. Но, к сожалению, темные данные часто встречаются и в такого рода исследованиях, проникая в них в форме выбывших.

Выбывшие — это те, кто выбыл из исследования по тем или иным причинам. К ним относятся смерть пациента, негативные побочные эффекты лечения, переезд, исчезновение мотивации на фоне отсутствия улучшений и пр. Проблема здесь кроется в том, что измерения проводятся в течение какого-то времени или по истечении определенных периодов и существует риск того, что темные данные по-разному скажутся на разных группах испытуемых. Эти данные классифицируются как DD-тип 7: данные, меняющиеся со временем, и DD-тип 1: данные, о которых мы знаем, что они отсутствуют.

Например, в исследовании, в котором реальное лечение сравнивается с плацебо (как бы лечением), побочные эффекты более вероятны при реальном лечении, поскольку плацебо по определению не имеет активного терапевтического компонента. Это может означать, что выбывшие будут чаще появляться в группе лечения. И что еще хуже, после выбывания людей, которые не ощущают пользы от лечения или даже замечают ухудшения, в исследовании наметится перекос в сторону тех, кто эту пользу ощущает. Если мы каким-либо образом не помешаем выбыванию, то можем получить весьма искаженное представление об эффективности лечения. Это еще один пример ошибки выжившего — те, кто «выживают» или продолжают лечение до конца исследования, не являются репрезентативной выборкой для всей группы.

Все усугубляется необходимостью этичного поведения при клинических испытаниях (на благо пациентов!). Пункт 9 Нюрнбергского кодекса, принятого после Второй мировой войны, требует, чтобы участники клинических исследований имели возможность в любой момент выйти из них: вы не можете заставить людей остаться.

Реальные исследования часто бывают куда сложнее, чем наш пример с двумя группами. Они могут проходить на базе нескольких клиник, включать в себя более двух групп и при этом сравнивать несколько видов лечения. На рис. 4 приведены данные клинического испытания будесонида на пациентах с астмой. В этом исследовании участвовали пять групп пациентов, одна из которых получала плацебо (нулевая доза), а другие по 200, 400, 800 или 1600 мкг будесонида соответственно. Измерения функций легких проводились в самом начале, а затем через 2, 4, 8 и 12 недель после начала исследования. Кривые на графике показывают количество пациентов, остававшихся в исследовании на момент очередного измерения. Тенденция выбывания участников прослеживается четко, а ее уровень впечатляет — лишь 75% пациентов, начавших исследование, дошли до конца. Еще более тревожным является то, что показатели выбывания различаются для разных групп. В частности, выбыло только 10 из 98 человек, получавших самую высокую дозу препарата, тогда как среди принимавших плацебо выбыло 58 человек, что составляет почти две трети этой группы. На основании этого, конечно, можно предположить, что препарат эффективен, но мы видим, что со временем в исследовании остаются только те, кто ощущает пользу лечения, поэтому это только предположение. Безусловно, отсутствующие данные усложняют анализ и интерпретацию происходящего, что может привести к ошибкам, если выводы будут основаны исключительно на имеющихся данных.

Я проиллюстрировал рандомизированные исследования на примерах из сферы медицины, но они также широко используются и в других областях, в том числе в социальной и государственной политике, образовании и в сфере профилактики преступности. Проведение рандомизированных исследований в социальной и государственной политике тоже имеет свою историю, хотя и не столь давнюю, как в медицине. Например, в 1968–1982 гг. исследователи в Соединенных Штатах использовали такие методы, чтобы выяснить, как скажется на отношении к работе тот факт, что людям будет гарантирован некий минимальный доход, равный прожиточному минимуму. (Оказалось, что этот доход сокращает время, в течение которого люди работают, но очень незначительно.)

Интересным примером рандомизированного исследования в сфере образования была оценка влияния телевизионного шоу «Улица Сезам» на словарный запас и когнитивные навыки детей. Это исследование выявило проблему, присущую социологическим рандомизированным исследованиям: если не брать в расчет прямой запрет некоторым детям смотреть шоу, то невозможно гарантировать, что они его не посмотрят. Исследователи наконец-то обошли эту проблему, найдя города, где шоу было доступно только по кабелю, и предоставив кабельное телевидение случайно выбранной группе домохозяйств. В результате было установлено, что просмотр «Улицы Сезам» расширяет словарный запас детской аудитории. Эндрю Лэй описывает это и многие другие рандомизированные исследования для двух групп в своей превосходной книге «Рандомисты: Как радикальные исследователи меняют наш мир» (Randomistas: How radical researchers are changing our world). В ней он также рассказывает, как организовал рандомизированное исследование, чтобы найти наиболее удачное название для книги. До того, как книга была опубликована, 12 вариантов названия представили группе из 4000 человек, причем каждый из ее представителей видел лишь одно случайно выбранное название. Их отклик измерялся как доля перешедших по ссылке на сайт издателя для получения дополнительной информации.

Что касается преступности, хорошо известно, что общественное восприятие рисков совершения преступлений часто бывает гипертрофированным: из-за незнания ситуация может казаться хуже, чем на самом деле (еще один аспект темных данных). Национальное агентство по совершенствованию работы полиции в Великобритании провело исследование реакции общественности на открытие информации о правонарушениях и охране правопорядка: усилит ли это страх в обществе или, напротив, будет воспринято позитивно. Четыре группы участников исследования были ознакомлены с разной информацией о преступлениях и охране правопорядка, которая отличалась насыщенностью темными данными. Одна группа получила карты, показывающие уровень преступности в районах проживания ее участников, другая — информацию о полицейских участках в районах проживания, третья группа — и то и другое, а четвертая не получила вообще никакой информации. Эта последняя группа была полностью погружена в область темных данных. Выводы, опубликованные в отчете, оказались весьма позитивными: «Исследование смогло опровергнуть миф о том, что информирование общественности увеличивает страх перед преступностью. Фактически было установлено, что информация улучшает восприятие людьми своего окружения и местной полиции».

Конечно, результаты не всегда бывают столь позитивными. Среди прочего рандомизированные исследования играют очень важную роль в развенчании популярных мифов или «самоочевидных» истин, которые на деле являются заблуждениями. И порой требуется значительное мужество, чтобы провести такое рандомизированное исследование наперекор распространенному убеждению в истинности чего бы то ни было.

Например, хотя тюремное заключение в краткосрочной перспективе и снижает уровень преступности, это происходит не потому, что злоумышленники перевоспитываются, а потому, что они на какое-то время исчезают с улиц. Кроме того, тюремное заключение не способствует интеграции в общество и поиску регулярной работы после освобождения, поэтому короткие сроки могут не только быть бесполезными, но и увеличивать преступность в долгосрочной перспективе. Чтобы выработать эффективную стратегию по данному вопросу, необходим надлежащий эксперимент. Однако надо понимать, что он отягощен существенной проблемой: немногие судьи — и, возможно, еще меньшая часть общества — смогут принять тот факт, что приговоры должны выноситься случайным образом. Тем не менее эксперименты с рандомным смягчением приговора преступникам уже проводились.

Даже когда результаты исследования не являются положительными, тщательное изучение вопроса само по себе может выявить нечто большее, чем было заметно на первый взгляд. Эндрю Лэй описывает четыре рандомизированных исследования, посвященных изучению того, улучшает ли результаты экзаменов бесплатная раздача учебников в школе. Ни одно из четырех исследований не показало, что такой подход повышает результаты, но в каждом из четырех случаев причины были разными. В одном из них учебники были отправлены на склад вместо раздачи; в другом — родители просто сократили общие расходы на образование на стоимость предоставленных учебников; в третьем случае не были мотивированы учителя, а в четвертом — учебники просто не могли помочь большинству учащихся, поскольку те еще не умели читать. Если бы эти объяснения не были найдены и продолжали оставаться темными данными, то выводы могли бы ввести в заблуждение.

Рандомизированные исследования являются прекрасным инструментом познания, но они не всегда уместны. Например, вряд ли кто стал бы проводить такое сравнительное исследование, чтобы понять, насколько эффективнее иметь парашют, прыгая с самолета, чем не иметь его. Кроме того, существуют нюансы. Рассмотрим исследование, направленное на изучение возможных способов снижения безработицы. Вмешательство может увеличить шансы конкретного человека найти работу, но если это означает, что он просто займет место другого человека, который, не будь вмешательства, получил бы эту работу, то никакого снижения безработицы не произойдет. Аналогичным образом вмешательство, которое заменяет нескольких штатных сотрудников бо́льшим числом работников с неполным рабочим днем, может считаться успешным методом борьбы с безработицей, а может, и нет — в зависимости от того, как вы определяете безработицу.

Еще больше сложностей связано с так называемым эффектом Хоторна. Это склонность людей вести себя по-разному, если они знают, что за ними наблюдают, и если они этого не знают. Похоже, что идеальные исследования, проводимые в обществе, должны быть тайными, но это, очевидным образом, порождает этическую проблему информированного согласия. Первый пункт Нюрнбергского кодекса клинических исследований гласит: «Добровольное согласие испытуемого абсолютно необходимо».

Общим термином направления статистики, которая занимается оптимальным распределением испытуемых в процессе лечения, чтобы наилучшим образом проанализировать эффективность этого лечения, является экспериментальный дизайн. Рандомизированное исследование с двумя группами — самый простой из возможных и широко используемых дизайнов изучения эффективности лечения, политики или иных видов вмешательства. Прямым обобщением стратегии с двумя группами являются исследования с несколькими группами, как это было показано выше, каждая из которых получает отличное от других групп лечение, а также к более сложным, тщательно сбалансированным дизайнам, в которых учитываются многочисленные факторы, способные повлиять на результаты. В главе 8 вы найдете описание такого эксперимента по литью пластмассовых деталей для автомобилей. Сложные дизайны порой носят экзотические названия, такие как «дробный факториал» или «греко-латинский квадрат».

Принципы экспериментального дизайна были разработаны ведущим британским статистиком сэром Рональдом Фишером, который ставил сельскохозяйственные эксперименты на Ротамстедской опытной станции в Хартфордшире, старейшем сельскохозяйственном исследовательском институте в мире. В 1935 г. он опубликовал свой основополагающий труд «Дизайн экспериментов» (The Design of Experiments), в котором описал методы определения «экспериментальных единиц» на примере различных видов удобрений, типов почвы, ирригационных систем, температуры и т.д., а также лучшие способы изучения их комбинаций в процессе эксперимента. На сегодняшний день экспериментальный дизайн является передовой математической дисциплиной. Он включает в себя такие стратегии, как адаптивное распределение, когда на выбор воздействия влияют результаты, полученные в ходе самого эксперимента. По мере проведения исследования начинают накапливаться результаты, и мы видим, что они указывают на эффективность какого-то одного воздействия. Это приводит к вопросу о том, следует ли нам назначить большему количеству пациентов (если речь идет о клинических испытаниях) это лечение на том основании, что в настоящий момент оно представляется наилучшим, или, наоборот, распределить пациентов по другим методам лечения, чтобы быть более уверенными в своих выводах.

Интернет существенно упростил проведение социальных рандомизированных исследований определенных видов, поскольку мы можем легко организовать случайное распределение среди получателей разной информации и пользователей разных версий сайта — вспомните эксперимент Эндрю Лэя, который искал лучшее название для своей книги. Для интернет-компаний это обычная повседневная работа: выполняя тысячи экспериментов автоматически каждый день, они определяют наиболее успешную стратегию. Но использование темных данных таким образом может вызвать и обратную реакцию. Такой подход означает, что клиентов держат в неведении, и, если они узнают о нем, им это может не понравиться. Например, если к ценам на товары или услуги применяется рандомизация, то их изменение будет выглядеть странным и может вызывать тревогу и возмущение. В октябре 2000 г. The Washington Post сообщила о реакции клиентов, узнавших, что Amazon исследовала их чувствительность к ценам путем случайного манипулирования этими ценами. Оценка действий компании сводилась к следующему: «Я всегда считал, что клиентов сначала привлекают, а затем стараются удержать их. А это определенно не способствует лояльности клиентов». И что еще хуже: «Я никогда ничего не куплю больше у этих парней!»

Рандомное изменение цен для выяснения того, сколько клиент готов заплатить, — не самый сомнительный веб-эксперимент в смысле нарушения этики. В 2014 г. Facebook сильно пострадала от реакции пользователей на проведенный компанией эксперимент, целью которого было установить, как «эмоциональное состояние влияет на поведение людей при размещении постов». В ходе исследования соцсеть манипулировала информацией, размещенной на домашних страницах почти 700 000 пользователей, уменьшая и увеличивая объем позитивного или негативного контента, чтобы выяснить, может ли это заставить людей испытывать позитивные или негативные эмоции. Когда исследование стало достоянием общественности, его охарактеризовали как скандальное, пугающее, возмутительное, неэтичное, а возможно, даже и незаконное. Очевидно, что оно как минимум противоречило статье 1 Нюрнбергского кодекса, согласно которой испытуемые должны дать согласие на участие в эксперименте.

Остерегайтесь человеческих слабостей

В этой главе мы рассматриваем три основных способа сбора данных. Полученные данные рассеивают мрак вокруг и освещают нам новые миры. Но стратегии их сбора разрабатываем и воплощаем мы сами, и мы же впоследствии интерпретируем и анализируем собранные данные. При этом наши решения о том, какие данные собирать и что означают результаты анализа, основываются на предыдущем опыте, который может не отражать того, что ждет нас в будущем. Если копнуть еще глубже, наши решения обусловлены нашим эволюционным развитием. Эти факторы становятся причиной того, что мы совершаем ошибки, не в состоянии должным образом сбалансировать данные, и часто выбираем не самый рациональный путь. Короче говоря, мы уязвимы для всевозможных подсознательных когнитивных искажений.

Эвристика доступности — одно из таких искажений. В ее основе лежит склонность судить о вероятности события, исходя из того, насколько легко мы можем вспомнить соответствующий пример. Если недавно в новостях сообщалось о крушении самолета, то мы склонны думать о крушениях самолетов как о более вероятных событиях. Реклама использует этот эффект, делая так, чтобы при возникновении потребности в определенном продукте вы вспомнили о конкретном бренде, а воспоминания о конкурирующих с ним брендах оказались подавлены. Этот же эффект объясняет, по крайней мере отчасти, внезапные скачки выявления отдельных медицинских состояний или видов социального насилия после того, как общество сосредотачивается на них. Например, в главе 3 мы рассмотрим пример с ростом уровня диагностирования аутизма в Соединенных Штатах после 2000 г. Во многом это объясняется как раз эвристикой доступности. Если на людей со всех сторон сыпется информация о такого рода состояниях, неудивительно, что они начинают везде видеть его признаки. Действительно, исследования показали, что в семьях, живущих по соседству с аутичными детьми, родители чаще выискивают проявления такого диагноза у собственного ребенка.

Эвристика доступности связана с другим когнитивным искажением — ошибкой базового процента. Предположим, что вы проходите тестирование на редкое заболевание и знаете, что этот тест на 100% точен, когда выявляет заболевание у тех, у кого оно есть, и на 99% — когда показывает его отсутствие у тех, у кого его нет. Какой вывод вы сделаете, если ваш тест окажется положительным? На первый взгляд кажется, что вы почти наверняка больны. Но это заблуждение, поскольку правильный ответ зависит от базового процента, то есть от того, у скольких людей в популяции есть заболевание. Например, если заболевание настолько редкое, что его имеет только 1 из 10 000 человек, то из каждых 101 человека, получивших положительный результат теста, на самом деле болен только 1 (в среднем!). Несмотря на то, что тест вроде бы редко дает ошибку с теми, у кого болезни нет, их число намного больше, чем число больных, поэтому почти все, у кого диагностировано заболевание, получат неправильные диагнозы. Если мы игнорируем или не осознаем тот факт, что подавляющая часть населения не имеет этой болезни, мы допускаем ошибку. В Гарварде более 56% студентов-медиков, проходя тест, описывающий эту ситуацию, дали неправильные ответы. К сожалению, были и другие исследования, которые показали аналогичные результаты уже с практикующими врачами. Базовый процент, по крайней мере для этих студентов и врачей, был темными данными.

Ошибка базового процента возникает потому, что люди не осознают или игнорируют соответствующие данные. Та же причина лежит в основе ошибки конъюнкции. Это тенденция считать конкретные условия более вероятными, чем общие. Вот классическая иллюстрация этого когнитивного искажения.

Мой друг Фред — университетский профессор, который ведет курс по истории викторианской Англии, Америки XIX в. и мировой торговли в том же XIX в. В свободное время он увлекается чтением толстенных жизнеописаний и проводит свой отпуск исключительно в местах, представляющих археологический или исторический интерес. Теперь скажите, что, по вашему мнению, более вероятно: то, что у Фреда есть борода (вариант А), или то, что у Фреда есть борода и он является попечителем местного исторического музея (вариант Б)?

Многие люди выбирают вариант Б, но, если задуматься хотя бы на секунду, становится ясно, что это полный абсурд. Вариант Б является лишь подмножеством варианта А, поэтому вариант А более вероятен. Причина, по которой люди совершают эту ошибку, заключается в том, что, как и в случае с эвристикой доступности, они делают вывод на основании соответствия предложенных вариантов описанию Фреда. Кто-то с его характеристиками вполне мог бы оказаться попечителем местного исторического музея, так почему бы не отдать это место Фреду?

Предвзятость подтверждения — еще один риск, которому подвержено наше восприятие. Тогда как ошибка базового процента и эвристика доступности возникают, если игнорируются данные некоторой совокупности, предвзятость подтверждения связана с тем, что зачастую люди активно, хотя и подсознательно, ищут данные, которые неадекватно представляют эту совокупность. В частности, мы склонны выискивать информацию, которая поддерживает нашу точку зрения, и игнорировать данные, противоречащие ей. Возьмите, к примеру, Джин Диксон. Госпожа Диксон, настоящее имя которой Лидия Эмма Пинкерт, была одним из самых известных экстрасенсов Америки. Вплоть до своей смерти в 1997 г. она вела газетную колонку, цитируемую многими изданиями, а ее биография «Пророческий дар: Феноменальная Джин Диксон» (A Gift of Prophecy: The Phenomenal Jeane Dixon) разошлась тиражом более 3 млн экземпляров. Фактически из огромного количества предсказаний, которые она сделала, большинство оказались неверными. Кто знает, может, она и сама верила в свою способность предсказывать будущее, вспоминая лишь сбывшиеся предсказания и начисто игнорируя все прочие. Но многие точно не сомневались в ее сверхъестественной силе, основываясь на сбывшихся пророчествах и забывая о несбывшихся, эффективно загоняя их в область темных данных DD-тип 3: выборочные факты. Психологические эксперименты, в которых людям показывают ряд примеров, отчетливо демонстрируют, что то, во что мы верим, может влиять на то, что мы помним.

Дополнительным проявлением предвзятости подтверждения является также то, что люди склонны забывать опровергающие доказательства, если они противоречат их первоначальным убеждениям.

Существуют и другие причины, по которым люди делают неправильные выводы, подсознательно игнорируя часть данных. Среди них можно выделить феномен негативного восприятия — тенденцию легче вспоминать неприятные события, чем приятные; эффект уступчивости, из-за которого респонденты говорят то, что, по их мнению, интервьюер желает услышать; эффект повального увлечения, когда люди склонны примыкать к большинству; ошибку правдоподобия, при которой ответ зависит от того, насколько правдоподобным считает его респондент; и эффект причудливости, из-за которого все необыкновенное запоминается лучше, чем привычное. На фоне всего этого кажется просто поразительным, что мы хоть что-то умудряемся делать правильно!

Явления, описанные в этом разделе, закономерно ведут к излишней самонадеянности: если большинство доказательств, которые вы можете вспомнить, говорят в пользу определенной позиции, то у вас есть все основания полагать, что эта позиция верна. И проблема усугубляется так называемыми эхо-камерами, которые мы обсудим в главе 5.

Знание о когнитивных искажениях в какой-то степени помогает избегать их в исследованиях, но они все равно могут подкрасться к нам с неожиданной стороны. Это хорошо показывают исследования влияния формулировок опроса, когда по-разному заданный вопрос приводит к противоречивым ответам. Например, когда одной и той же группе задают и положительную, и отрицательную версии вопроса («Вам понравился фильм?» и «Вам не понравился фильм?»), число людей, отвечающих «нет» на первый и «да» на второй вопрос по идее должно быть одинаковым (при условии, что есть только два варианта ответа без опции «не знаю»). Но часто это не так. Ошибка измерения, которая скрывает истинные значения, может находиться в сознании самих респондентов.

Показать оглавление

Комментариев: 0

Оставить комментарий