Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных

Глава 5

Стратегические темные данные

Уловки, обратная связь и информационная асимметрия

Уловки

Так называемая Директива по гендерным вопросам, действующая на территории Евросоюза, запрещает страховым компаниям использовать параметр половой принадлежности в процессе принятия решений о размере страхового взноса. Иначе говоря, она требует, чтобы пол рассматривался в качестве темных данных. Это означает, что при прочих равных условиях мужчины и женщины должны платить одинаковые взносы. Иначе дела обстоят в Канаде, где в 1992 г. Верховный суд разрешил учитывать пол в моделях оценки рисков. Это решение привело к тому, что один мужчина из Альберты, ошарашенный суммой, которую ему придется выкладывать за страховку своего Chevrolet Cruze, официально получил новое свидетельство о рождении, подтверждающее, что он женщина. При этом он публично заявил следующее: «Я мужчина на 100%, но по закону теперь я — женщина». Такое легальное сокрытие своего настоящего пола позволило ему экономить $1100 в год.

Мошенничество, о котором пойдет речь далее, представляет собой попытку сознательно ввести в заблуждение и путем сокрытия фактов заставить людей поверить в то, что происходящее имеет иной смысл, чем на самом деле. В отличие от этого уловки, когда человек переигрывает систему, основаны на использовании в своих интересах неоднозначных и непреднамеренных аспектов. Темные данные в этом случае возникают не из-за умышленного сокрытия, а в результате существования лазеек в устройстве самой системы, которые можно использовать в своих интересах. Это означает, что уловки обычно не являются незаконными: их цель состоит в том, чтобы, оставаясь в рамках правил и манипулируя ими, получить преимущество. Уловки — это темные данные DD-тип 11: искажения обратной связи и уловки.

В математике есть очень глубокая и мудрая теорема, названная в честь ее первооткрывателя Курта Геделя, которая, если упростить формулировку, гласит следующее: любая достаточно сложная система аксиом содержит утверждения, которые нельзя ни доказать, ни опровергнуть в рамках этой системы. В жизни это означает, что даже тщательно разработанные системы неизбежно содержат прорехи. В частности, одной из сфер, где мы регулярно наблюдаем такие прорехи, является налоговое право. Легальные схемы минимизации налогов возникают как следствие неопределенностей или упущений в самом налоговом законодательстве. Очевидно, что в разных юрисдикциях детали будут выглядеть по-разному, да и законы со временем меняются, но для примера я приведу несколько налоговых уловок, стандартных для Великобритании:

  • получение займа под залог облагаемого налогом актива (например, дома) и инвестирование его в необлагаемую налогом недвижимость, такую как лесной участок или ферма, чтобы избежать налога на недвижимое имущество;
  • покупка недвижимости через офшорную компанию, поскольку нерезиденты и небританские компании не платят британские налоги;
  • перенос штаб-квартиры компании в страну с низкой ставкой налога на прибыль, возможно, путем слияния или приобретения фирмы в другой стране, поскольку не существует глобального налогового органа.

Когда обнаруженные лазейки в налоговой системе начинают широко использоваться, их, конечно, закрывают, но зачастую это приводит к усложнению системы и появлению новых лазеек.

Так называемая агентская проблема — еще одна иллюстрация темных данных, тесно связанных с уловками. Она возникает, когда одно лицо (агент) может принимать решения от имени другого лица (принципала). Очевидно, что эта широко распространенная ситуация, когда сотрудники принимают решения от имени своего работодателя, а политики действуют от лица своих избирателей, становится проблемой, если агент заинтересован в выборе в свою пользу, не отвечающим интересам принципала. Сотрудники начинают использовать знания и информированность для своей выгоды в ущерб работодателю; политики отворачиваются от избравшего их народа и начинают действовать в собственных интересах, тем самым вставая на скользкий путь, ведущий к диктатуре.

Уловки также принимают вид регулятивного арбитража, когда в конкретных ситуациях организация сравнивает несколько режимов регулирования (например, финансового) и выбирает оптимальный для себя (например, путем переноса головного офиса в другую страну). Очевидно, что организации выбирают то, что им выгодно, и даже порой изменяют вид деятельности, чтобы иметь возможность менять регуляторов.

Закон Кэмпбелла доступно и кратко излагает, почему уловки так опасны в контексте государственной политики. Он гласит: «Чем шире какой-либо количественный показатель используется для принятия социальных решений, тем больше он подвержен злоупотреблениям и тем больше искажаются социальные процессы, которые контролируются с его помощью». Закон Гудхарта говорит нечто подобное, хотя и в более мягкой форме: «Когда показатель становится целью экономической политики, он перестает быть хорошим измерителем».

Возьмите, к примеру, школьные оценки — показатель академической успеваемости, широко используемый обществом для принятия решений. Исследования ясно показывают, что с течением времени средние оценки, выставляемые учащимся, имеют тенденцию возрастать — происходит так называемая инфляция оценок. Исследование, проведенное в 2018 г. в школах США Майклом Гурвицом и Джейсоном Ли, показало, что в среднем число получивших высший балл среди тех, кто прошел SAT (стандартизированный тест для приема в высшие учебные заведения), за последние 20 лет выросло с 39 до 47%. Сайт подробно отслеживает инфляцию оценок в колледжах и университетах США. На этом сайте, например, вы можете узнать, что с 1983 по 2013 г. средний балл увеличился с 2,83 до 3,15 и этот рост отличается удивительной устойчивостью. Такая тенденция имеет несколько возможных объяснений: люди становятся в целом умнее, они начинают лучше справляться с тестами или же каким-то образом портится система и людям становится проще получать более высокие оценки.

Эта тенденция находит отражение и в сфере высшего образования Великобритании, хотя ситуация здесь несколько усложняется тем, что в последние годы значительно увеличилось число студентов: процент людей в возрасте от 25 до 29 лет, имеющих диплом, вырос с 13% в 1993 г. до 41% в 2015 г., а всего в 2017 г. в британских университетах обучалось 2,3 млн студентов.

Иначе говоря, чтобы понять, изменились ли стандарты, мы должны, во-первых, обратить внимание на пропорции, а не на абсолютное число студентов, получивших тот или иной класс, а во-вторых, следует ожидать, что число студентов, получивших более высокий класс, будет сокращаться. Это ожидание основано на том, что раньше в университетах был довольно жесткий отбор и поступали туда только самые способные студенты, которые могли извлечь наибольшую пользу из университетского образования, поэтому резко выросшее их число означает увеличение доли менее способных студентов, у которых меньше шансов получить высший класс. Однако цифры говорят об обратном. В книге «Университетское образование» (A University Education) бывший министр высшего образования Великобритании Дэвид Уиллеттс отмечает, что в 2000 г. около 55% студентов получили высшее образование класса 1 и 2:1, а к 2015 г. это число возросло до 74%. По сути, мы имеем дело не просто с увеличением вопреки ожиданиям, а с поразительно большим увеличением.

Но что же лежит в основе инфляции оценок?

Доход университета напрямую зависит от количества обучающихся студентов, поэтому чем больше абитуриентов, тем лучше. И каждый университет старается заинтересовать молодых людей, чтобы они подавали заявления именно в него. Одним из таких стимулов являются высокие шансы на рынке труда после получения диплома, что, в свою очередь, обеспечивается высокими оценками. Поскольку британские университеты сами присуждают степени и классы, это означает, что существует естественная причина для завышения оценок. Именно конкуренция между организациями, оценивающими самих себя, стимулирует инфляцию. Ситуация была бы иной, если бы в университетах ввели стандартный набор экзаменов, а студентов оценивал единый орган: при существующей системе такие стандарты являются темными данными. Это явление усугубляется системой рейтингов, то есть системой оценки университетов, где учитывается количество выданных дипломов разных классов, что позволяет абитуриентам обращаться преимущественно к тем, кто ставит более высокие оценки.

Справедливости ради я должен добавить, что мое описание ситуации несколько упрощено и на деле все обстоит не так мрачно. Например, существует система «внешнего экзаменатора», с помощью которой качество обучения и уровень степеней контролируются представителями других университетов. Более того, университет, который последовательно завышает оценки, может какое-то время занимать высокие места в рейтингах, но ровно до тех пор, пока не станет общеизвестным, что многие его студенты с «хорошей» степенью фактически имеют скудные знания. Тогда работодатели начнут искать выпускников в других местах, а число студентов университета будет сокращаться, когда станет известно, что его выпускники не могут найти работу.

Ситуация в школах Великобритании несколько иная. По окончании средней школы проводятся общенациональные государственные экзамены, которые определяют, кто перейдет в старшую школу и сможет готовиться к университетскому образованию. Однако существует несколько конкурирующих экзаменационных советов, каждый из которых проводит свои общенациональные экзамены. Чем больше учеников сдают экзамен по программе конкретного совета, тем больше денег он зарабатывает. И чем более высокие оценки получает школа, тем лучше она выглядит в рейтингах. Как вы понимаете, это тоже может стимулировать несоответствие с точки зрения завышения оценок, хотя некоторые утверждают, что нет никаких подтверждений тому, что экзаменационные советы предлагают экзамены разного уровня сложности.

Вдобавок школы имеют право голоса при определении того, какие экзамены будут сдавать их ученики. Действительно, как только ученики получают допуск к государственным экзаменам, школы могут сами определять, кто из них будет сдавать какие экзамены. Очевидно, что, распределив по предметам наиболее способных к ним учеников, школы могут создать искаженное представление о своей эффективности. Здесь мы имеем дело с темными данными DD-тип 2: данные, о которых мы не знаем, что они отсутствуют. Если эффективность организации измеряется уровнем ее успешности, то возможность выбора условий, в которых она с наибольшей вероятностью будет выглядеть успешной, легко приводит к формированию ложного представления. В августе 2018 г. лондонская The Times опубликовала статью известной политической журналистки Рэйчел Сильвестр, в которой утверждалось следующее: «Все больше школ пытаются обмануть экзаменационную систему, чтобы повысить свой рейтинг в ущерб ученикам… В частных школах поощряют детей отказываться от тех предметов, по которым у них не предвидятся высшие оценки, — так школы поддерживают свой средний балл». Ученикам, у которых недостаточная успеваемость, вместо того чтобы оказать помощь, могут предложить покинуть школу, чтобы не портить статистику. Сильвестр приводит данные британского Управления по стандартам образования, которое обнаружило, что 19 000 учеников были просто исключены из списков учащихся незадолго до сдачи государственного экзамена GCSE, который проводится по достижении 16 лет. Потенциальное пагубное влияние этих действий как на эффективность самих школ, так и на судьбы учеников очевидно.

Примеры подобных уловок можно найти практически в любой сфере, где оценивается эффективность:

  • Хирурги могут достичь более высоких индивидуальных показателей, избегая сложных случаев, в которых вероятность благоприятного исхода операций ниже. В более общем плане, даже если исключить такой отбор, кого оперировать, а кого нет, сами совокупности пациентов будут различаться у разных хирургов. Это означает, что даже хирурги с одинаковыми навыками и способностями должны иметь разные индивидуальные показатели.
  • Среднее время отклика экстренных служб может быть изменено путем пересмотра категории экстренного случая. Лондонская The Telegraph от 28 февраля 2003 г. сообщает, что «согласно [Комиссии по вопросам укрепления здоровья] Служба скорой медицинской помощи Западного Йоркшира NHS Trust понижала категорию некоторых вызовов, если бригада скорой помощи, прибыв на место происшествия, решала, что вызов не был достаточно серьезным, чтобы отнести его к категории А… В этих случаях было также зафиксировано существенное увеличение времени, прошедшего с момента получения звонка до момента, когда служба запустила таймер реагирования».
  • Как уже говорилось в главе 3, определение безработицы можно изменить, чтобы приукрасить цифры: должен ли тот, кто выполняет разовые заказы или работает неполный рабочий день, но ищет постоянную работу, считаться безработным? Экстремальным примером подобных манипуляций является разница между оценкой безработицы в конце февраля 2017 г., представленной Бюро трудовой статистики США, которая составила 4,7%, и оценкой президента Дональда Трампа, заявившего о 42%. Последняя величина была получена путем включения в число безработных всех лиц старше 16 лет, которые не вошли в состав трудовых ресурсов: домохозяйки, студенты дневных отделений, пенсионеры и т.д. Прямо скажем, это не то определение, которое обычно используют экономисты. Однако в таких случаях не стоит говорить, что одно определение «правильное», а другое «неправильное». Они просто разные (DD-тип 8: неверно определяемые данные) и каждое может быть полезным для конкретных целей.
  • Полиция может казаться лучше, чем она есть, переводя преступления в категорию менее серьезных. Согласно шотландской The Herald за февраль 2014 г., «полицейские склонны приукрашивать цифры путем занижения уровня преступности. Система классификации противоправных действий имеет два уровня: “преступления”, количество которых снизилось в прошлом году на 13%, и “правонарушения”, число которых, наоборот, выросло. Всего в 2012–2013 гг. было зарегистрировано 273 053 преступления и почти вдвое больше правонарушений».

А еще можно искусственно повышать релевантность веб-страниц и, соответственно, продвигать их вверх в поисковых системах — так компании увеличивают продажи, а блоги привлекают новых читателей.

Все это примеры манипуляций с определениями, целью которых является сокрытие чего-либо или представление в ином свете. Сюда относится замалчивание одних фактов, которые могут негативно повлиять на организацию, если станут известны, и выпячивание других, привлекательных, чтобы они не остались незамеченными.

Обратная связь

Хорошие результаты тестирования вдохновляют на приложение дополнительных усилий, которые могут привести к увеличению масштабов успеха и возникновению желания еще больше нарастить усилия. Окончательные данные вполне реальны, но они не были бы такими, если бы их не измеряли. Хотя они и не абсолютно темные, эти данные скрывают то, что было до того, как мы вмешались. Я говорю «вмешались», но наше вмешательство не было попыткой изменить цифры. Мы просто старались получить истинные значения. Но именно эта попытка и изменила цифры, дав нам значения, отличные от тех, которые мы изначально планировали получить.

Выше приведен пример механизма обратной связи, в котором измеряемые данные возвращаются назад, чтобы влиять и изменять свои значения. Такие механизмы встречаются повсеместно. Вы можете обнаружить их в физических системах, например, когда микрофон ловит звук из динамика, к которому он подключен, передает его обратно в динамик, откуда он снова попадает в микрофон, и так по кругу, все громче и громче, пока звук не превращается в жуткий вой. Они встречаются в биологических системах, когда, например, при свертывании крови клетки поврежденной ткани выделяют вещество, которое активирует тромбоциты, а они, в свою очередь, способствуют еще большему выделению стимулирующего вещества, что приводит к активации все новых и новых тромбоцитов. Эти механизмы встречаются и в психологии: знание того, что за вами наблюдают, может побудить вас старательнее выполнять задание (эффект Хоторна, упомянутый в главе 2). Особенно ярко механизмы обратной связи проявляют себя при образовании финансовых пузырей.

Пузырем на финансовых рынках называют необоснованное значительное повышение цен на акции (или другие виды активов), за которым следует резкое падение. Изменения цен вызваны не повышением фундаментальной стоимости активов, а скорее жадностью и отсутствием критического подхода к их оценке, когда ошибочно полагают, что фундаментальная стоимость действительно увеличилась. Важнейший момент заключается в том, что, хотя фундаментальная стоимость компании и является одним из факторов, влияющих на рыночную цену ее акций, определяет эту цену нечто совсем другое — готовы или не готовы ее платить участники рынка. На этот счет есть прекрасная аналогия с конкурсом красоты, приведенная выдающимся экономистом Джоном Мейнардом Кейнсом: «…Это не тот случай, когда выбирают самых хорошеньких, полагаясь на свой вкус, и даже не тот, когда полагаются на мнение большинства о красоте. Здесь мы встаем на третью ступень, которая заставляет нас предвидеть мнение большинства в отношении того, каким будет мнение большинства. А некоторые, как мне думается, применяют на практике четвертую, пятую и более высокие ступени».

История изобилует примерами финансовых пузырей.

Пожалуй, самый большой из них был надут в начале XVIII в., когда французы попытались ввести бумажные банкноты — до этого деньги чеканились из драгоценных металлов. Выпуск банкнот сопровождался финансовым пузырем, последствия которого были настолько драматичными, что разрушили французскую экономику и задержали введение бумажных купюр еще на 80 лет.

Все началось в 1716 г., когда шотландский экономист Джон Ло убедил французское правительство разрешить ему создать новый банк, Banque Générale, для выпуска бумажных денег, обеспеченных резервами банка в золоте и серебре. Это соглашение могло оказаться успешным, если бы не грандиозные планы Ло. На следующий год он убедил французское правительство передать ему контроль над торговлей между Францией и ее колонией в Северной Америке. Обширная колония протянулась на 4800 км от устья реки Миссисипи через Арканзас, Миссури, Иллинойс, Айову, Висконсин и Миннесоту, включая части Канады. Для финансирования своей Миссисипской компании Ло продал ее акции за наличные и государственные облигации. Поскольку считалось, что колония богата золотом и серебром, акции привлекли множество покупателей. Но Ло этого было недостаточно. Следом он приобрел монополию на торговлю табаком между Францией и Африкой и скупил компании, торгующие с Китаем и Ост-Индией. Далее Миссисипская компания купила право чеканить французские монеты, а также право собирать большинство французских налогов на этих территориях. Все эти мероприятия финансировались путем дополнительных выпусков акций компании.

Рост Миссисипской компании сопровождался ростом ее акций, стоимость которых увеличилась в 20 раз по сравнению с 1719 г. Быстрорастущие акции привлекали покупателей — дело порой доходило до того, что для сдерживания разгоряченной толпы желающих вложить свои деньги приходилось привлекать солдат. И, как это всегда бывает со спекулятивными пузырями, инвестированием стали заниматься люди, которые не могут позволить себе потерять деньги.

Для всех пузырей, буквальных и метафорических, характерно одно — рано или поздно они лопаются.

Поворотный момент для Миссисипской компании наступил в январе 1720 г., когда некоторые крупные инвесторы начали продавать акции, чтобы зафиксировать свою прибыль. В таких случаях начинается все с нескольких человек, но их оказывается достаточно, чтобы цены перестали расти или даже начали падать. Это, в свою очередь, заставляет продавать других, которые полагают, что пик достигнут, и надеются заработать до того, как цена упадет слишком сильно. А это, в свою очередь, приводит к еще большим продажам. В результате цены падают, как правило, еще быстрее, чем росли.

Ло приложил немалые усилия для восстановления, среди прочего ограничив размер выплат в золоте и проведя девальвацию бумаг компании. Но к декабрю 1720 г. цена акций упала до одной десятой от их пиковой стоимости. Ло стала преследовать толпа, и он в конце концов бежал из Франции в Венецию, где прожил до самой смерти.

История Джона Ло и его Миссисипской компании действительно впечатляет, но, возможно, еще более известный исторический пример — пузырь на рынке тюльпанов в Голландии.

В конце XVI в. тюльпаны были завезены в Голландию из Турции. Будучи новым видом цветов, они и так были недешевы, но, когда появился сорт необычных разноцветных тюльпанов (что фактически стало следствием болезни растений), цены просто взлетели. Ограничения на поставки луковиц тюльпанов стимулировали конкуренцию, и цены на будущие поставки начали расти. Восходящий рынок стимулировал новых участников покупать луковицы, полагавших, что позже они смогут продать их дороже. И тогда началась гонка. Люди доставали последние сбережения, продавали дома и поместья, чтобы купить луковицы тюльпанов. Понятно, что эти сильно завышенные цены не отражали реальной фундаментальной стоимости актива, а это закономерно привело к тому, что люди в какой-то момент начали продавать подорожавший актив, стараясь заработать. Последовало катастрофическое падение цен на луковицы тюльпанов. Многие лишились своих состояний, а кто-то даже оказался на улице.

Эти истории похожи друг на друга — сначала ценовой бум, затем резкое падение, — и вы, вероятно, думаете, что только очень наивный человек может влипнуть в одну из них. Но изнутри пузыри выглядят совсем не так, как снаружи, что подтверждает история Исаака Ньютона и пузыря Южных морей. В то самое время, когда процветала Миссисипская компания, английское правительство предоставило Компании Южных морей монополию на торговлю в этом регионе. Оценив преимущества монополии, инвесторы начали активно вкладывать в акционерный капитал компании. Цены на акции резко подскочили. Исаак Ньютон тоже купил несколько акций и продал их в начале 1720 г., получив приличную прибыль. Но цены продолжали расти. Тогда он решил, что вышел из бумаг слишком рано, и вернулся в ряды акционеров, вложив весь свой капитал. На этот раз цены росли недолго — в том же 1720 г. они достигли пика и обрушились. В результате Ньютон потерял почти все сбережения. И, как вы понимаете, если это случилось с самим Исааком Ньютоном, то может случиться с каждым.

Звук лопающихся финансовых пузырей доносится не только из далекого прошлого. Так называемый пузырь доткомов возник на волне интереса к высокотехнологичным компаниям и был поддержан развитием интернета. Многие стартапы, выпуская акции в обращение, быстро довели свою рыночную стоимость до миллиардов долларов. Как следствие этого, акции индекса NASDAQ Composite — индикатора биржи, где торгуются эти компании, — также выросли в 10 раз с 1990 по 2000 г. (несколько меньше, чем Миссисипская компания, но все-таки впечатляюще). Затем, когда люди начали осознавать, что акции переоценены, что их цена иллюзорна и не отражает действительности с точки зрения экономики, случился крах. К октябрю 2002 г. индекс NASDAQ упал почти до одной пятой своего максимального значения. Как и в случае с Миссисипской компанией, последствия были весьма ощутимы — в Соединенных Штатах наступил экономический спад.

Следом за пузырем NASDAQ вскоре появился другой пузырь, обернувшийся ипотечным кризисом в США. Одной из его причин стал интерес к недвижимости со стороны инвесторов, успевших заработать на доткомах. В результате цены на жилье начали резко расти. Предоставление низкокачественных кредитов, развернутое банками, и прочие подобные вещи, однозначно свидетельствовали о пузыре, но, несмотря на это, он продолжал надуваться до 2006 г., когда дела пошли скверно. В течение трех последующих лет средняя цена на жилье упала на треть. Этот крах, в свою очередь, привел к глобальной рецессии, крупнейшей с 1930-х гг.

А вот самый свежий пример того, как данные искажаются обратной связью (здесь она недвусмысленно послужила их сокрытию). В 2011 г. Англия и Уэльс запустили онлайн-карты преступности, позволяющие пользователям видеть, какие преступления были совершены в непосредственной близости от того или иного места. Тогдашний британский министр внутренних дел (а затем и премьер-министр) Тереза Мэй сказала: «Я думаю, что люди по достоинству оценят возможность увидеть, что происходит с преступностью в их районе — не только на их улице, но и в ее окрестностях». В 2013 г. Департамент полиции Нью-Йорка выпустил аналогичную интерактивную карту, и в настоящее время такие системы стали обычным явлением. Их польза очевидна: людям дается возможность принимать осознанные решения, где лучше купить или арендовать жилье, по какой улице безопаснее пройти ночью и т.д. Конечно, как и в случае с любыми большими базами данных, эти карты не идеальны, и порой в них закрадываются ошибки. Например, одна из таких карт сообщает нам, что на Суррей-стрит в Портсмуте (Гемпшир, Великобритания) совершено 136 преступлений, включая квартирные кражи со взломом, изнасилования и антиобщественные выступления. Однако ее протяженность меньше 100 м, а все, что там можно увидеть, — один паб, одна автостоянка и один многоквартирный дом. Одно из двух: или эта улица ведет в ад и ее нужно сторониться любой ценой, или есть какие-то искажения на уровне данных.

Но, помимо ошибок с данными, идея карт преступности чревата и менее очевидными проблемами, связанными с темными данными и обратной связью. Это всплыло, когда британская страховая компания Direct Line Group провела опрос и сообщила, что «10% взрослых британцев однозначно либо с высокой вероятностью не сообщат о преступлении в полицию, поскольку оно появится на карте преступности и может негативно повлиять на цену сдаваемого ими в аренду жилья и его рыночную стоимость». Вместо того чтобы показывать, где действительно произошли инциденты, карты показывают, в каких районах люди готовы сообщать о них. Это совсем не одно и то же, и любой, кто принимает решения на основе таких данных, может легко попасть в сети заблуждения.

Наконец, что касается обратной связи, одним из ключевых психологических факторов, способствующих надуванию пузырей, является предвзятость подтверждения, с которой мы уже сталкивались. Это когнитивное искажение заставляет нас подсознательно искать информацию, которая доказывает нашу точку зрения, и игнорировать данные, которые ей противоречат. В мире финансов, как и везде, людям приятно, когда они видят подтверждение собственных выводов и решений, как планируемых, так и уже принятых.

Термин «эхо-камера» пришел из мира акустики и теперь применяется для описания ситуаций, в которых убеждения, позиции и мнения подтверждают и усиливают сами себя в виде петель обратной связи. В контексте социальных сетей такая обратная связь может, например, искусственно раздувать маргинальные взгляды, что ведет к расколу и экстремизму. Принцип прост: кто-то высказывает свое мнение, оно принимается и повторяется другими и в конце концов возвращается к своему автору. Этот человек, не подозревая, что имеет дело с собственным утверждением, говорит: «Вот видите, я знал это! Другие тоже так думают!»

Процессы такого типа являются мощным фактором распространения ложных сведений, фальшивых новостей и абсурдных теорий заговора. Часто подобный цикл бывает случайным, когда слухи начинают множиться сами собой, но известно также, что люди используют такой механизм и для преднамеренного распространения ложной информации. Даже правительства вбрасывают дезинформацию, пользуясь этой схемой, чтобы дестабилизировать политические режимы других государств или создать путаницу с целью предотвращения скоординированных действий. Такое распространение заведомо ложной информации потенциально даже более опасно, чем сокрытие правды под пологом темных данных.

Информационная асимметрия

Информационная асимметрия — это общий термин для ситуаций, в которых одна сторона располагает большей информацией, чем другая (DD-тип 12: информационная асимметрия). Иными словами, для одной из сторон какие-то данные являются темными, и это ставит ее в невыгодное положение в переговорах или конфликтах. Давайте посмотрим на некоторые примеры.

В статье 1970 г. с замечательным названием «Рынок “лимонов”: неопределенность качества и рыночный механизм» лауреат Нобелевской премии экономист Джордж Акерлоф иносказательно описал, какие тяжелые последствия может иметь информационная асимметрия. На сленге продавцов подержанных машин «лимонами» называют автомобили низкого качества или с дефектами. В противоположность «лимонам» качественные автомобили именуют «персиками».

Покупатели подержанных машин не могут быть уверены в исправности выбранного автомобиля. При прочих равных условиях их покупка может с одинаковой вероятностью оказаться и «лимоном», и «персиком». Поэтому покупатели готовы платить только некую среднюю цену. Но у продавцов есть преимущество — они точно знают, где «лимоны», а где «персики», и, конечно, не хотят продавать последние за такую среднюю цену. Поэтому «персики» они придерживают, толкая покупателям одни «лимоны». Покупатели быстро обнаруживают подвох, и, соответственно, еще ниже опускают цены, по которым готовы покупать, что, в свою очередь, становится для продавцов еще большим аргументом против продажи «персиков». Возникает обратная связь, которая заставляет уйти с рынка владельцев «персиков» и в результате снижает как цены, так и качество продаваемых автомобилей.

В худшем случае это может привести к тому, что цены пробьют дно экономической целесообразности и рынок прекратит свое существование.

Асимметричная информация часто имеет существенное значение в военных конфликтах. Например, если одна сторона знает о расположении чужих войск больше, чем другая, она может получить подавляющее преимущество. Эта концепция лежит в основе стратегии сбора данных, охватывающей широкий диапазон мер, начиная от стандартной засылки разведчиков в тыл врага до использования дронов, спутниковых фотографий и взлома телекоммуникаций.

То же самое относится к шпионажу, когда каждая из сторон пытается получить данные, которые другая сторона старается сохранить в темноте, поскольку их раскрытие может нанести огромный ущерб. В 2010 г. аналитик военной разведки США Челси (урожденная Брэдли) Мэннинг раскрыла через WikiLeaks большое количество секретных документов, в результате чего жизни политических диссидентов и других людей оказались под угрозой.

В некоторых сферах человеческой деятельности были введены правила, способствующие решению проблемы информационной асимметрии, например в мире финансов. По словам экономиста Арджана Реуринка, «чтобы упростить предоставление информации рынку и снять проблему информационной асимметрии, финансовые регуляторы ввели требования по раскрытию информации в качестве центрального столпа регулирования на всех развитых финансовых рынках. Такие требования предписывают эмитентам финансовых инструментов и поставщикам финансовых услуг раскрывать рынку и своим контрагентам всю релевантную информацию, делать это своевременно и так, чтобы все участники рынка имели к ней равный доступ». Другими словами, эти правила направлены на обеспечение прозрачности, чтобы можно было увидеть данные, которые в противном случае оставались бы темными.

В целом урок, который можно извлечь из этого раздела, сводится к следующему: постоянно ищите информационную асимметрию и почаще задавайтесь вопросом: что он, она или они могут знать такого, чего не знаете вы?

Неблагоприятный отбор и алгоритмы

Рич Каруана и его коллеги описали созданную ими систему на основе машинного обучения для прогнозирования вероятности смерти пациентов, больных пневмонией. В основном прогнозы оказывались точными, если только у пациентов вдобавок не было астмы. В таких случаях система предсказывала, что риск смерти от пневмонии намного ниже, чем если бы астмы не было. Казалось, это полностью противоречит здравому смыслу: каким образом осложнения, мешающие дыханию, могут улучшить ситуацию? За этим стояло либо крупное научное открытие некоего биологического механизма, помогающего астме противостоять пневмонии, либо непредвиденные темные данные, которые вводили в заблуждение и делали выводы недостоверными.

Тщательный анализ показал, что система машинного обучения действительно имела слабые места, а ее прогнозы были следствием темных данных. На деле пациенты с астмой в анамнезе были подвержены особенно высокому риску, и их сразу направляли в отделение интенсивной терапии, где они получали первоклассное лечение. И лечение это было настолько эффективным, что снижало риск смерти от пневмонии. Система, не зная об особом подходе к таким пациентам, видела только то, что астматики имели пониженный риск смерти от пневмонии. Вполне естественно, что она рекомендовала сразу отправлять их домой.

Фундаментальная проблема здесь кроется в том, что алгоритм машинного обучения не видит всех значимых данных. И это весьма распространенная проблема, имеющая пагубные последствия. Порой к ее возникновению приводят самые благие намерения, как это произошло в следующих примерах.

Многие страны принимают законы против дискриминации или несправедливого обращения с конкретными группами населения, как в случае со страхованием, который мы рассматривали в начале этой главы. Например, в Великобритании Закон о равенстве, принятый в 2010 г., призван «предусмотреть требования к министрам Короны и другим лицам, принимающим стратегические решения, чтобы они при выполнении своих функций уделяли внимание сокращению социально-экономического неравенства; противодействовали виктимизации в конкретных обстоятельствах; требовали выполнения определенных должностных обязанностей в рамках борьбы с дискриминацией и иными запрещенными формами поведения; способствовали равенству возможностей…».

В законе дается определение прямой дискриминации: «Один человек (A) дискриминирует другого человека (B), если A в силу наличия у В защищаемого законом признака относится к B менее благосклонно, чем он относится или относился бы к другим людям». Далее закон описывает особенности ряда признаков, запрещая относиться к конкретному человеку менее благосклонно на основании его групповой классификации, — например, потому что он мужчина или принадлежит к определенной расе. Затем в законе дается определение косвенной дискриминации, которая имеет место, «если А применяет к В правила, критерии или процедуры, являющиеся дискриминационными по отношению к защищаемому законом признаку, присущему В».

В Соединенных Штатах действует аналогичный закон, в котором термин «неравноправие» означает, что кого-то преднамеренно ущемляют в правах на основании имеющегося у него признака из числа приведенных в законе. В то же время понятие «неравное воздействие» подразумевает внешне одинаковое отношение к группам носителей признаков, но при этом разное влияние, оказываемое на разные группы.

Дискриминационные признаки могут различаться в разных странах, но незначительно и обычно включают в себя возраст, трансгендерность, гражданский брак, беременность, нахождение в декретном отпуске, инвалидность, изменение пола, расу (включая цвет кожи, национальность, этническое происхождение), религию, убеждения или их отсутствие, пол и сексуальную ориентацию. По сути, закон говорит о том, что защищаемые им признаки должны рассматриваться как темные данные и не влиять на принимаемые решения. Давайте разберем несколько примеров того, как именно этот закон проявляет себя в разных областях.

Мы уже видели, что кредитные скоринги в банках строятся на основе статистических моделей, которые показывают вероятность дефолта потенциального заемщика. Эти модели используют исторические данные, описывающие выборки клиентов и истории их платежей. Можно ожидать, что люди, имеющие признаки, присущие проблемным клиентам, тоже представляют для банка повышенный риск. Очевидно, что, создавая кредитные скоринги, банки хотят видеть их максимально точными и быть уверенными в том, что если система оценивает, например, 10% заявителей как потенциальных неплательщиков, то их фактическое число уйдет недалеко от этих 10%. В противном случае последствия для коммерческой деятельности могут быть катастрофическими.

Чтобы сделать систему максимально точной, разумно использовать всю доступную информацию и не игнорировать какую-то ее часть, которая могла бы быть полезной. Здесь, как вы уже догадались, и кроется проблема. Для повышения точности прогноза нужно включить в расчет дискриминационные признаки, но по веским причинам закон запрещает нам это делать — он четко говорит, что включать эти признаки в процесс принятия решений нельзя.

Очевидно, должны быть какие-то способы обойти это ограничение. Казалось бы, если мы не можем включить возраст в число показателей для оценки, то что мешает нам взять другой, коррелирующий с ним показатель? Однако законодатели тоже увидели эту лазейку. В отчете конгресса США по кредитному скорингу сказано: «Результаты, полученные с помощью модели, созданной специально для этого исследования, позволяют предположить, что некоторые кредитные характеристики работают в том числе как возрастной ограничитель». Также в отчете делается акцент на то, что «в результате ограниченного числа доверенных лиц у пожилых людей их кредитные баллы несколько ниже, чем у тех, кто моложе, и чем было бы, не указывай эти кредитные характеристики на возраст».

Чтобы предотвратить скрытое использование защищенных законом признаков, регуляторы могли бы просто запретить переменные, которые коррелируют с ними. Однако на пути у этого решения стоят две проблемы.

Во-первых, как отмечается в отчете конгресса, «анализ показывает, что смягчение воздействия путем исключения этих кредитных характеристик [коррелированных с возрастом] из модели обойдется слишком дорого, поскольку кроме функции возрастного ограничителя они играют важную прогностическую роль». Это означает, что удаление обсуждаемых признаков из системы показателей означает принесение в жертву и абсолютно законной полезной информации.

Во-вторых, что касается людей, существует множество признаков, так или иначе коррелирующих друг с другом. Отказаться от прогнозной информации несложно, но в результате мы получим систему показателей, в которой все будут классифицированы одинаково: либо как «приемлемый» риск, либо как «неприемлемый».

Есть и другой, еще более важный момент. Если бы мы смогли отказаться, скажем, от показателя половой принадлежности, а также от всех характеристик в модели, которые коррелируют с ним, то прогнозы для мужчин и женщин были бы справедливы в том смысле, что мужчины и женщины получили бы одинаковые баллы по тем характеристикам, которые были использованы до того. Однако факт заключается в том, что в целом женщины отличаются меньшими кредитными рисками, чем мужчины: при прочих равных условиях вероятность их дефолта ниже. Вынужденное равенство мужчин и женщин с точки зрения данных приведет к тому, что вероятность дефолта для женщин будет беспричинно завышена, а для мужчин, наоборот, занижена. Такое искажение отразится на размере страховых взносов, а это уже вряд ли можно назвать справедливым.

Таким образом, все сводится к тому, что именно вы подразумеваете под словом «справедливость».

Исследование, проведенное в США, показало, что для мужчин средний кредитный скоринг составляет 630 из 850, тогда как для женщин он равняется 621. Такое расхождение можно хотя бы частично объяснить различиями между группами, поскольку мужчины имеют в среднем более высокую заработную плату, а доход — это один из факторов, включенных в расчет оценки. Комментируя это исследование, Стью Лэнгилле, директор по стратегии Credit Sesame, сказал: «В некотором смысле это хорошая новость, ведь исследование показывает, что между кредитными скорингами мужчин и женщин нет большого разрыва. Но все-таки оценка не настолько справедлива, как хотелось бы».

Кредитный скоринг не единственный случай, где возникает эта форма темных данных. В страховании есть схожие структуры, цель которых состоит в том, чтобы построить статистическую модель для прогнозирования вероятности событий — смерти, болезней, автомобильных аварий и т.д. В отличие от кредитного скоринга, страховое прогнозирование в Евросоюзе до недавнего времени могло основываться на любых данных без ограничения. Но, как мы упоминали в начале этой главы, в 2004 г. была принята Директива ЕС по гендерным вопросам для борьбы с дискриминацией по половому признаку. В этой директиве говорится, что страховщики ЕС не должны включать пол в число факторов, определяющих размеры взносов и выплат. Благодаря ей половая принадлежность оказалась вытесненной в область темных данных, что поставило страховое прогнозирование на одну ступень с кредитным скорингом.

Однако Директива ЕС по гендерным вопросам включала пункт о возможном отказе. Он допускал «различия в размере надбавок и выгод отдельных лиц, когда пол является определяющим фактором оценки риска на основе соответствующих и точных актуарных и статистических данных». Иначе говоря, мужчинам и женщинам, идентичным по всем другим характеристикам в статистической модели, разрешалось платить разные страховые взносы, если данные показывали, что они имеют разные риски.

Такова одна из точек зрения на понятие «справедливость», и все было бы хорошо, если бы в 2008 г. в Конституционный суд Бельгии не был подан иск, в котором утверждалось, что данный отказ несовместим с принципом равенства между мужчинами и женщинами. Судебный процесс растянулся на три года, в марте 2011 г. Европейский суд постановил, что отказ должен рассматриваться как недействительный начиная с 21 декабря 2012 г. С этого момента требовать различные страховые взносы от мужчин и от женщин с идентичными остальными показателями стало незаконным, даже если данные показывают, что их риски неравноценны. Половая идентичность в этой сфере окончательно перешла в темную зону.

Например, в случае автострахования размер взноса для женщин раньше был ниже, поскольку данные показывали, что они реже попадают в аварии. Но после внесения в закон поправок такие различия стали неприемлемы. Это влияние хорошо иллюстрируется таблицей, опубликованной в лондонской The Telegraph от 21 января 2013 г. Средний страховой взнос для мужчин (с более высоким риском) до внесения поправки составлял £658, а после — £619. В отличие от этого, средний взнос для женщин составлял £488, а после принятия поправки увеличился до £529. В самой рискованной возрастной группе 17–18 лет размер взноса для мужчин сократился с £2298 до £2191, а для женщин увеличился с £1307 до £1965.

Но это еще не все. Новые страховые взносы означают, что более рискованной группе, мужчинам, будет проще покупать страховку, и поэтому они с большей вероятностью это сделают, в то время как менее рискованная группа, женщины, будет страховаться реже. А это вряд ли выгодно обществу! Как мы видим, все опять зависит от конкретной интерпретации «справедливости».

Как правило, размеры страховых взносов основаны на оценке риска наступления страхового события, когда человек попадает в автомобильную аварию или заболевает и может предъявить страховое требование. Прогнозирование таких рисков строится на анализе исторических данных. Например, в случае медицинской страховки людей можно разделить на группы на основе индивидуальных признаков (возраст, пол, индекс массы тела, история болезни и т.д.), и данные покажут, какой сегмент каждой группы с одинаковыми характеристиками составляют люди, имеющие конкретное заболевание. Эти данные могут быть использованы для оценки того, с какой вероятностью человек с характеристиками, аналогичными характеристикам каждой из групп, заболеет в будущем. А эта вероятность, в свою очередь, будет использована при определении размера взноса для каждого в группе, поскольку считается, что внутри группы вероятность заболеваемости у всех одинаковая. Производить подобные расчеты — обязанность актуария.

Но давайте посмотрим, что происходит в такой группе людей с течением времени. Члены группы будут меняться, и при этом меняться по-разному. Некоторые прибавят в весе, другие бросят курить, третьи перестанут платить страховые взносы, четвертые просто исчезнут из поля зрения и т.д. Риск заключается именно в том, что каждый меняется по-своему, а вместе с этим меняется и вероятность заболеваемости: кто-то станет менее восприимчив к болезни, а кто-то наоборот. Соответственно изменятся и вероятности предъявления страховых требований.

Те, у кого меньше шансов заболеть, поймут, что вполне могут снизить свои страховые взносы, заключив договор с другим страховщиком. Благодаря этому в страховом портфеле компании начнет расти доля людей с более высоким риском. Через некоторое время страховая компания увидит, что взносы оставшихся людей с высоким риском вряд ли покроют стоимость их требований. Поэтому она увеличит премии. Затем цикл повторится, образуя так называемую страховую спираль смерти, которая с каждым витком увеличивает затраты. Помните рынок «лимонов» Джорджа Акерлофа?

Фундаментальная проблема здесь состоит в том, что расчет страховщика основывается на среднем значении. Всем в начальной группе был присвоен одинаковый риск, хотя на деле риски разные. При таком усредняющем подходе любые отклонения от среднего значения можно рассматривать как темные данные (DD-тип 9: обобщение данных).

Агрегируя и обобщая данные, заменяя их средними значениями, мы сами создаем область тьмы, и это, увы, происходит не только в теории. Давайте рассмотрим Закон о доступном медицинском обслуживании, подписанный в 2010 г. президентом США и вошедший в историю как Obamacare.

Один из параграфов закона предусматривал так называемый индивидуальный мандат — требование к американцам покупать медицинскую страховку или же быть подвергнутыми штрафу, за исключением особых обстоятельств. Это означало, что в план были включены как здоровые люди с низким риском заболеваемости, так и те, кто нуждался в дорогостоящем медицинском лечении. В свою очередь, это означало, что в целом пул застрахованных людей имел меньший риск, поэтому размер взносов мог быть снижен. Однако в 2017 г. сенат США проголосовал за отмену этого мандата, иначе говоря, за то, чтобы медицинская страховка не являлась обязательной (эти законодательные изменения вступили в силу в 2019 г.). Как следствие, мы можем ожидать, что из программы страхования выпадет непропорционально больше людей с низким риском, чем с высоким, так что в среднем потребуется больше медицинских услуг и большие расходы. А это, в свою очередь, будет означать более высокие взносы. Бюджетное управление конгресса предсказало, что отмена индивидуального мандата заставит 13 млн человек отказаться от страхования здоровья до 2027 г., что приведет к увеличению размера взносов на 10% в год. Оценки разнятся, например, Standard & Poor’s называет более низкую цифру, от 3 до 5 млн человек в течение 10-летнего периода, но в любом случае перспективы не самые радужные.

Существует и целый ряд других осложнений. Одним из них является тот факт, что страховщики США могут отказаться от участия в программе. Это еще один возможный источник неблагоприятного отбора, влияющий на качество данных и всю систему страхования в целом. На момент написания книги ситуация продолжает развиваться, и во что она выльется, пока не ясно, хотя и весьма любопытно.

В этой главе мы познакомились с тем, какие возможности дают неопределенности и упущения в правилах, как наблюдение может влиять на процесс генерации данных, как информационная асимметрия дает одним преимущества перед другими и как все эти аспекты темных данных воздействуют на алгоритмы. Проблема осложняется тем, что эти аспекты могут проявляться одновременно, как в случае со «спиралью смерти» в страховании. Но все-таки манипулирование правилами — это одно, а намеренная подделка данных — нечто совсем другое. И это именно то, что мы исследуем в следующей главе.

Показать оглавление

Комментариев: 0

Оставить комментарий