Скверная поведенческая наука: ошибки, искажения, небылицы

Типичный семинар по вопросам поведенческой науки или поведенческой экономики проходит под девизом «Кукушка хвалит Петуха за то, что хвалит он Кукушку». Мы встречаемся, чтобы посмеяться над присущей людям — другим людям, не нам — иррациональностью, и твердим, что спроектируй мы мир более разумным образом, люди бы принимали лучшие решения.

Мы ссылаемся на обширную литературную базу — такие книги, как «Предсказуемая иррациональность» Дэна Ариэли, «Думай медленно… Решай быстро» Даниэля Канемана и «Подталкивание» Ричарда Тейлера и Касса Санстейна, — которая описывает нашу подверженность ошибкам, широкий спектр заблуждений, в которые мы впадаем при принятии бытовых решений, и то, как мы можем поучаствовать в борьбе с этими проблемами.

Сегодня я собираюсь взбаламутить эти мирные воды. Подобный настрой а-ля TED — «Мы можем спасти мир!», — который частенько сопровождает разговоры о поведенческой науке, мало того что наскучил, так ещё и обходит вниманием проблемные и спорные моменты в этой области.

Я расскажу вам четыре истории — истории, которые многие из вас уже слышали прежде. А затем мы рассмотрим каждую из них поближе, и я покажу, что выводы, которые стоит сделать, не столь очевидны, как могло бы показаться.

И прежде чем начать, скажу, что суть этого доклада не в том, что поведенческая наука — вздор, а скорее в том, что нужно критически относиться к тому, что вы слышите.

Также стоит подчеркнуть, что я буду разбирать только один из возможных подходов к анализу этого вопроса. Есть и много других.

История первая: «эффект Флориды»

Джон Барф и его коллеги попросили две группы из 30 студентов, изучающих психологию, восстановить связное предложение из перемешанных слов. Между участниками из обеих групп были случайным образом распределены задания двух типов. Часть студентов получила предложения со словами, связанными со стереотипами о старости: Флорида, одинокий, старый, седой, морщины и так далее. Остальным достались предложения со словами, не вызывающими ассоциаций с возрастом.

Когда участники справились с задачей, их спросили о полученных впечатлениях и поблагодарили. Затем они покинули лабораторию, пройдя через коридор.

Среднее время (в секундах), затраченное на прохождение коридора после завершения эксперимента, в зависимости от наличия формирующих установку факторов, отдельно для участников групп в экспериментах 2а и 2б.

Барф с соавт. (1996)

Здесь-то и начиналось самое интересное. Экспериментаторы измеряли время, за которое участники преодолевали коридор. Студенты, которым достались предложения с нейтральными словами, проходили по коридору чуть более чем за семь секунд. Те же, кто восстанавливал предложения со словами, формирующими связанную с возрастом установку, шли медленнее — им требовалось более восьми секунд. Это был очень красивый результат, получивший известность под названием «эффект Флориды».

Вот только… похоже, воспроизвести его невозможно. В 2012 году в PLOS One была опубликована работа, в которой Стивен Дойен (Stephen Doyen) с коллегами использовал лазерный секундомер, чтобы измерить время, за которое восстанавливавшие предложения люди проходили по коридору. Наличие слов, ассоциируемых с возрастом, не влияло на скорость перемещения (если только экспериментаторы не знали, какое задание досталось испытуемому, — но это уже другая история). В PsychFileDrawer описана ещё одна неудавшаяся попытка воспроизведения.

Самым примечательным последствием этой неудачной попытки воспроизведения — не считая того, что она поставила под сомнение полученный ранее результат, — было то, как ведущий исследователь Джон Барф раскритиковал работу в PLOS One в своём блоге «Психология сегодня» (эта запись, видимо, была удалена, но её описание сохранилось в статье Эда Йонга). Он не только озаглавил запись «Пустоголовые» и назвал исследователей некомпетентными, но ещё и отчаянно пытался разграничить полученные в обоих случаях результаты — в частности, доказывая, что в методологии были различия (которых в некоторых случаях на самом деле не было), и предполагая, что вторая группа исследователей использовала слишком много факторов, формирующих установку.

Не хочу придираться к этому конкретному исследованию (хотя к подобной реакции — хочу). В конце концов, когда повторный эксперимент проваливается, это не доказывает, что эффекта не существует. Но невоспроизводимость результатов — это систематическая проблема в науке о поведении (да и во многих других). Брайан Носек (Brian Nosek) и его коллеги в своём исследовании изучили 100 работ по когнитивной и социальной психологии, опубликованных в ведущих профильных журналах. Субъективно они оценили количество воспроизводимых экспериментов в 39% от числа всех тех, что они пытались повторить. Только 25% работ в области социальной психологии из тех, что рассматривались в рамках данного исследования, прошли это испытание. А величина наблюдаемого в них эффекта составила около половины от заявленного изначально — см. график ниже. «Эффект Флориды» — лишь верхушка айсберга.

Наклонная линия представляет реплицируемый эффект, равный оригинальному. Линия из точек соответствует нулевому уровню эффекта при повторном эксперименте. Точки ниже неё — эффекты, противоположные полученным в оригинальном исследовании. График плотности представлен синими точками для значимых эффектов, красными — для не обладающих статистической значимостью.

Исследования эффектов предшествующей установки, похоже, вообще довольно проблематичны. Ещё одной неоднозначной областью является «денежный прайминг» — в ряде экспериментов люди, которым предъявляли изображения денег или связанные с деньгами концепции, были менее склонны помогать окружающим или относились более одобрительно к идее экономики свободного рынка. Но, к примеру, серия повторных экспериментов, посвящённых влиянию эффекта денежного прайминга на политические взгляды, которую провёл Рорер с соавторами, — как показано на этих четырёх графиках — не обнаружила заявленного эффекта (см. PDF-документ). Более обширный анализ литературы по теме денежного прайминга указывает в числе прочего ещё и на выборочную публикацию исследований с положительным результатом.

Эффекты предшествующей установки наблюдались во всех оригинальных исследованиях, но ни в одном из повторных. На полосе погрешности отложена величина одного стандартного отклонения.

Рорер с соавт.

Рассмотрим пример, не связанный с предустановкой. Те из вас, кто читал «Думай медленно… Решай быстро» Даниэля Канемана или «Давид и Голиаф» Малкольма Гладуэлла, могут припомнить исследование Адама Альтера и его коллег. В этом исследовании 40 студентам предложили задачу из области когнитивной рефлексии в двух версиях. Типичный пример подобной задачи — классическое:

Бейсбольный мяч и бита вместе стоят 1 доллар и 10 центов. При этом бита стоит на 1 доллар дороже мяча. Сколько стоит мяч?

Различие между двумя версиями заключалось в том, что в одной использовался мелкий серый шрифт, из-за чего вопросы было трудно прочесть. Испытуемые, которым была предложена эта версия, набирали больше баллов.

Отдельные исследования.

Вывод звучит очень круто — надо сбавить темп, чтобы добиться лучших результатов. Но хотя в оригинальном исследовании с 40 испытуемыми был обнаружен существенный эффект, повторные эксперименты с тысячами участников не показали ничего (Терри Бернхем подробно разбирает эту работу здесь). По графику видно, что положительный результат является следствием малой выборки.

А ещё можно упомянуть истощение эго — представление о том, что мы обладаем силой воли в ограниченном объёме, который истощается при использовании. Если мы вынуждены прибегнуть к ней в одной ситуации, то с большей вероятностью спасуем позднее, когда ресурс нашего эго будет исчерпан.

И эта теория базируется уже не на одном исследовании — в рамках метаанализа 2010 года было рассмотрено 83 исследования со 198 экспериментами, подтверждающими наличие эффекта истощения эго. Но в этом метаанализе было немало слабых мест — к примеру, в нём рассматривались только опубликованные работы.

Вскоре после этого в Psychological Science публикуются результаты предварительно заявленного повторного исследования с участием 23 организаций и более 2000 участников. Каков же результат? Если эффект истощения эго и существует, то он — по крайней мере, как показывает это исследование, — близок к нулю.

Так что вообще происходит? Откуда все эти ошибки? Во-первых, свою роль явно отыгрывает выборочная публикация. Только исследования с положительными результатами попадают в печать. Малые размеры выборки во многих исследованиях увеличивают вероятность того, что любые полученные положительные результаты — на самом деле ложноположительные.

А ещё есть апостериорный анализ. Люди играются с данными и гипотезами, подгоняя их друг под друга, пока не получат желаемый результат.

А ещё есть сад расходящихся тропок — более деликатный процесс, в ходе которого люди выбирают, какой метод анализа использовать, или то, какие данные исключить, исходя из причин, которые впоследствии кажутся вполне резонными. Всё это увеличивает вероятность появления положительных результатов, и именно об этих результатах мы в конце концов и читаем.

Когда рассыпаются в прах свидетельства, предоставленные многочисленными экспериментами, попытки скрыть это выглядят довольно жалко. Заинтересованность Джона Барфа в «эффекте Флориды» — один из наиболее ярких примеров. У оригинальных исследований есть свои сторонники, которые активно защищают их и говорят о техническом несовершенстве повторных экспериментов или о том, что в последних не учтены какие-либо тонкие нюансы. Лично я был бы рад чаще видеть признания в духе «эх, ну ладно, не получилось».

Но вот что удивляет, так это степень уверенности некоторых людей в достоверности результатов. Вот выдержка из «Думай медленно… Решай быстро» Даниэля Канемана, прямо из главы об эффекте предшествования:

Когда я описываю аудитории эффект предшествования, мне часто не верят. Это неудивительно: Система 2 считает, что она — главная и что она знает причины своего выбора. Вероятно, вы уже задаётесь вопросом, как вообще возможно, чтобы такое примитивное манипулирование контекстом имело такие значительные последствия.

Вам следует сосредоточиться на том, что не доверять этим данным нельзя. Они не выдумки и не статистические отклонения. Вам придется принять основные выводы исследований за истину.

Мм… нет. Так что не доверяйте безоглядно каждому исследованию, о котором читаете. Сохраняйте определённый уровень скептицизма по отношению даже к многочисленным опубликованным работам. Ищите исследования, авторы которых заранее объявляли, какие цели преследуют, ещё до получения результатов.

И нужно сказать, что эта рекомендация относится не только к академической работе. Сейчас существует куча правительственных учреждений и частных консультантов, направо и налево рекламирующих результаты своих исследований в области поведенческой науки, которые, весьма вероятно, страдают от тех же проблем.

История вторая — исследование с джемами

Исследователи Марк Леппер и Шина Айенгар (pdf) на две субботы установили в одном из калифорнийских супермаркетов стенды с шестью или 24 банками джема. Покупателям предлагалось попробовать любое количество джемов, и если они подходили к дегустационному столу, им вручали скидочный купон в один доллар на покупку джема.

Большой стенд с 24 банками лучше справился с задачей начального привлечения интереса — рядом с ним остановилось 60% людей, и только 40% — рядом со стендом, на котором было шесть банок. Но только 3% из тех, кто остановился у большого стенда, в итоге купили какой-то из джемов, а среди остановившихся у малого стенда покупку совершили почти 30%.

Этот результат приводился в качестве одного из ключевых аргументов в пользу утверждения, что широкий выбор не всегда хорош. Казалось, что больший стенд уменьшает готовность потребителя купить товар. Для описания теорий, построенных вокруг этой концепции и связанной с ней идеи, что широкий выбор не делает нас счастливее, часто используют термин «гипотеза перегрузки выбором», или «парадокс выбора». У Барри Шварца есть целая книга на эту тему.

Перескочим через 10 лет к другой работе, написанной Беньямином Шайбехенне и его коллегами (pdf). Они изучали посвящённую гипотезе перегрузки выбором литературу, каковой существует немало. И свидетельства в пользу существования эффекта, взятые из разных работ, не складывались в единую картину, что можно увидеть на графике. В одних случаях наличие широкого ассортимента увеличивало продажи. В других — уменьшало. Шайбехенне и его коллеги подсчитали, что средняя величина эффекта от изменения ширины ассортимента, взятая по всем исследованиям, стремилась к нулю.

В число рассмотренных работ попали и несколько попыток повторить исследование с джемами. Эксперимент с джемом, проведённый в престижном немецком супермаркете, эффекта не обнаружил. В других экспериментах джем заменяли шоколадками или драже — с тем же результатом. Эти исследования проводились по несколько иной схеме, чем изначальное (на что часто тут же указывают авторы последнего, когда повторные эксперименты проваливаются), но если исследование столь чувствительно к изменению его плана и сложно для воспроизведения, то слишком смелая экстраполяция его результатов — шаг, вероятно, не самый разумный.

В одной из моих любимых книг, Uncontrolled Джима Мэнзи, автор подмечает эту опасность и пишет:

Популяризаторы пошагово увеличивают масштаб выводов, сделанных на основании одной акции с купонами и стендом, проведённой в одном магазине и длившейся две субботы: они сперва говорят о последствиях изменения ассортимента джемов в этом магазине, потом — ассортимента джемов во всех продуктовых магазинах Америки, потом — ассортимента всех товаров любого вида в любом магазине, а под конец уверенно переходят к серьёзным заявлениям о влиянии ассортимента товаров на целое общество.

Хотя результаты этих исследований часто экстраполируют до невероятных масштабов, та аргументация, к которой прибегают их защитники при обсуждении неудавшихся повторных экспериментов или неоднозначных данных, зачастую сама ставит под сомнение возможность такой экстраполяции. Утверждение, что повторный эксперимент неточно воспроизвёл оригинальный, предполагает, что изначально обнаруженный эффект наблюдается только в узком спектре случаев. И это уже не тянет на материал для доклада на TED о явлении мирового масштаба.

Нельзя сказать, что посвящённые выбору исследования не обнаруживают ничего интересного. Шайбехенне и его коллеги предполагают, что может существовать такой набор ограничений, при котором проявляется эффект перегрузки выбором. Эти условия могут включать в себя сложность выбора (но не за счёт большого числа вариантов), отсутствие явно выигрышных вариантов, разнообразие ассортимента, ограничение по времени или разброс в области качества товаров (как предполагает другой метаанализ). И так как воспроизвести эксперимент с джемом непросто, эти ограничения могут быть довольно жёсткими. Они предполагают, что решать проблему перегрузки выбором нужно более деликатным способом, чем простое сокращение ассортимента. Не стоит рекомендовать супермаркетам избавиться от 75% продуктовых линий, чтобы повысить продажи на 900%.

Итак, даже если исследование предполагает, что происходит нечто интересное, не стоит безоглядно верить всем докладам на TED и делать ставки на то, как это нечто кардинально изменит наше понимание мира. Даже если результаты представляют интерес, за кадром наверняка осталось множество нюансов.

История третья — донорство органов

Говоря о феномене безусловного выбора, люди часто поднимают тему донорства органов. Я зачитаю вам отрывок из доклада Дэна Ариэли, в котором тот объясняет, как безусловный выбор влияет на этот процент. Он ссылается на график из исследования Джонсона и Гольдштейна (2003) (pdf):

Один из моих любимых графиков, относящихся к общественным наукам, взят из вдохновляющей статьи Эрика Джонсона и Дэниела Гольдштейна. На графике показан процент людей из разных европейских стран, которые согласны стать посмертными донорами органов. Когда люди видят эту диаграмму и пытаются делать предположения о причине различий между странами, где согласных стать донорами много (голубой цвет), и странами, где их мало (жёлтый цвет), они обычно упоминают всякие серьёзные факторы вроде религии, культуры и так далее.

Но вы не можете не заметить, что в парах очень схожих между собой стран процент потенциальных доноров сильно различается. Например, рассмотрим следующие пары: Дания и Швеция, Нидерланды и Бельгия, Австрия и Германия, Франция и Великобритания. Мы обычно думаем об этих странах как о весьма схожих по части культуры, религии и так далее, но процент людей, согласных на донорство, в них совершенно разный.

Так чем же можно объяснить эти различия? Оказывается, всё дело во внешнем виде формы, которую заполняют водители, в которой среди прочих присутствует и пункт об их согласии стать посмертными донорами в случае гибели в автокатастрофе. В странах, где этот пункт имеет формулировку «Поставьте галочку, если вы хотите принять участие в программе донорства органов» (т.н. opt-in), люди не ставят отметку и в результате не становятся участниками программы. В странах, где формулировка противоположная — «Поставьте галочку, если вы не хотите принимать участия в программе донорства органов» (т.н. opt-out) — люди также не ставят отметку, тем самым автоматически давая своё согласие на донорство. В обоих случаях большинство людей просто совершает безусловный выбор, принимая предлагаемый по умолчанию ответ.

Процент согласия по странам.

Но соответствует ли графику рассказанная история? Только двое из каждых 10 000 людей отказываются от варианта по умолчанию в Австрии? Только трое — в Венгрии? Не маловато ли? И в случае с историей Дэна Ариэли — действительно маловато, потому что реальный процесс отличается от описанного.

Ключ к разгадке — толкование термина «неявное согласие» в подписи к диаграмме. Нет такой ситуации, в которой австрийцам или венграм предлагают форму, где они могут попросту выбрать вариант, отличный от изначального. Вместо этого предполагается, что они по умолчанию согласны принять участие в программе донорства. Чтобы отказаться от этого, нужно предпринять ряд шагов — к примеру, запросить в государственном учреждении форму и заполнить её, чтобы заявить о нежелании делиться собственными органами. Большинство людей об этом, вероятно, даже не задумывается. Это всё равно что назвать моё австралийское гражданство — следствие того, что я родился в Австралии — безусловным выбором и хвалить австралийское правительство за мудрую организацию процедуры выбора.

А теперь насчёт последствий, которые нас интересуют, — фактической доли случаев донорства органов. Помните, что числа на диаграмме Джонсона и Гольдштейна не обозначают реальный процент людей, чьи органы были извлечены из их тел. Оказывается, эта взаимосвязь куда более слаба.

Вот второй график с фактической долей случаев донорства — те же страны в том же порядке. Здесь взаимосвязь уже далеко не столь прозрачна. Германия с её 15,3 посмертного донора на миллион людей близка к Австрии с её 18,8 и обогнала Швецию с 15,1. На диаграмме отсутствуют две страны — Испания с вариантом «неявное согласие» обгоняет большинство стран с 33,8 посмертного донора на миллион, но Соединённые Штаты с вариантом «явное согласие» также опережают большинство стран с вариантом «неявное согласие» — в США доля фактических случаев донорства составляет 26,0.

Количество посмертных доноров на миллион людей.

Количество посмертных доноров на миллион людей (Wikipedia, 2016)

(Внесу ясность: я не намекаю ни на то, что Джонсон и Гольдштейн не анализировали фактические уровни донорства, ни на то, что разницы не существует — в их работе приводится оценка величины эффекта неявного согласия, а попытки оценить его встречаются и в других работах. Все эти работы в целом обнаруживают положительный эффект. Но когда эту историю рассказывают, почти всегда приводят только первую диаграмму. Разница между 16,4 и 14,1 донора на миллион (по оценке Джонсона и Гольдштейна) далеко не так ошеломляюща, как 99,98% для Австрии против 12% для Германии. Даже мой (?ненормированный график?), как можно заметить, слегка преувеличивает эту разницу: усреднённые значения на нём равны 13,1 на миллион для явного согласия и 19,3 — для неявного. См. комментарии Джонсона и Гольдштейна в конце записи.)

Так что, если это возможно, прочтите оригинальную работу, а не популяризованную её версию — и я должен сказать, что хоть я и придрался именно к тому, как её изложил Дэн Ариэли, он отнюдь не одинок в своём взгляде на историю о донорстве органов. Я уже и счёт потерял тому, сколько раз при чтении оригинальной версии обнаруживал, что она полностью перечёркивает всё, что казалось основным посылом работы.

На самом деле порой вы можете обнаружить, что история вообще не подкреплена никакими доказательствами — предположение Ричарда Титмусса о том, что сдача донорской крови за деньги может привести к уменьшению её запасов за счёт вытеснения чистосердечного желания помочь на второй план, было лишь умственным экспериментом, а не наблюдаемым эффектом. Результаты недавнего исследования показывают, что, как и для большинства товаров, введение платы за сдачу крови может увеличить её запасы.

А эта история про донорство органов даёт ещё один, более тонкий урок: если это возможно, обращайте внимание на конечный результат, на который мы хотим повлиять, а не на некие промежуточные этапы, которые могут и не привести к желаемому.

История четвёртая — «горячая рука»

Последняя история более сложна с технической точки зрения. Я сознательно выбрал её, чтобы посмотреть, справлюсь ли я с тем, чтобы донести свою мысль до группы интеллектуалов, которые не являются специалистами в этом вопросе. Это весьма занятная история, в основу которой положена работа Джошуа Миллера и Адама Саньюро. Я не ожидаю, что когда доклад закончится, вы сразу сможете подробно объяснить кому-нибудь суть вопроса, но я надеюсь, что вы увидите, почему эта история интересна.

Итак, когда люди смотрят баскетбол или подобные спортивные игры, они часто подмечают так называемую «горячую руку», когда игрок забрасывает мячи один за другим без промахов. В таких случаях ещё говорят: «Он в ударе», «Он в хорошей форме». Мы верим, что у игрока, который только что выполнил удачный бросок или серию бросков, следующая попытка с большой вероятностью тоже окажется удачной.

Но является ли эта вера в «горячую руку» обоснованной? Или, может, дело в том, что люди видят то, чего не существует? Может, «горячая рука» — не более чем иллюзия?

Чтобы ответить на этот вопрос, Томас Гилович, Роберт Валлоне и Эмос Тверски собрали большой массив данных о бросках из разных источников, включая информацию об играх команд «Филадельфия-76» и «Бостон Селтикс», и изучили его в поисках проявления феномена «горячей руки». Рассматривались броски в ходе игры, свободные броски и контролируемые эксперименты по забрасыванию мячей.

И что же они обнаружили? «Горячая рука» оказалась иллюзией.

Давайте поговорим о том, как это можно выявить. В таблице приводится последовательность из четырёх бросков одного игрока в каждой из десяти игр. Первая колонка содержит результаты бросков. Х — попадание, О — промах. Этот конкретный игрок сделал 40 бросков, попал в 20 случаях — имеем 50% попаданий.

Что можно счесть признаком «горячей руки»? Мы можем сравнить процент удачных бросков, следующих сразу за предыдущим попаданием (1), со средним процентом попаданий (2). Если процент попаданий после предыдущего удачного броска выше среднего значения, можно говорить о «горячей руке».

Вторая колонка таблицы показывает процент мячей, заброшенных игроком после предыдущего удачного броска. В первой последовательности первый мяч был заброшен, и за ним ещё один. За вторым броском, удачным, следует промах. Итак, для первой последовательности процент попаданий после удачного броска — 50%. За последним броском, третьим попаданием, не последовало других бросков, так что на подсчёты он не влияет. Остальная часть колонки показывает процент заброшенных мячей, за которыми следуют другие удачные броски, для остальных последовательностей. Если первые три броска были неудачными, последовательность не учитывается при расчётах.

Таблица 1. Последовательности бросков в баскетболе (Х — попадание, О — промах).

Броски Вероятность (Х|Х)
XXOX 50%
OXOX 0%
OOXX 100%
OXOX 0%
XXXX 100%
XOOX 0%
XXOO 50%
OOOO
OOOX
OOXX 100%
Среднее значение 50%


Средняя вероятность попадания в этих последовательностях — 50%. (Это среднее является одновременно и ожидаемым значением, которое мы бы получили, случайным образом взяв одну из последовательностей.) А так как вероятность повторного удачного броска такая же, как и вероятность совершить удачный бросок вообще, можно утверждать, что «горячая рука» тут ни при чём.

Сейчас я сделаю небольшое отступление, а затем мы вернёмся к этому примеру. Перед началом доклада я просил слушателей подбросить монетку, и сейчас это нам пригодится.

34 человека четырежды подбрасывали монетки, и я просил постараться каждый раз выкинуть орла. (Здесь можно посмотреть данные по всем броскам.) Результаты эксперимента приведены ниже. Во второй колонке — процент выпавших орлов, что для всей аудитории составило 49% (весьма близко к 50%). Очевидно, что бросающий монетку человек не в состоянии повлиять на то, какой стороной она упадёт. Но наибольший интерес представляет третья колонка. В среднем процент орлов, выпавших сразу после предыдущего, оказывается, ближе к 48%.

Таблица 2. Результаты эксперимента на конференции — четыре броска монетки.

Количество игроков p(О) p(О|О)
34 49% 48%


Итак, интуиция подсказывает, что вероятность второго подряд выпадения орла составит 50% (если вы не подвержены ошибке игрока, она же — ложный вывод Монте-Карло). Так что результат кажется верным. Но давайте взглянем на него поближе. В следующей таблице приведены 16 возможных комбинаций орла и решки, которые могли выпасть с равной вероятностью. Какова средняя вероятность выпадения двух подряд орлов? Оказывается, 40,5%. Кажется, здесь что-то не так. Но давайте заглянем ещё глубже. В третьей колонке указано, сколько орлов выпадает вслед за орлом, а в четвёртой — сколько решек выпадает вслед за орлом. Если мы проведём подсчёты по всем последовательностям, то получим 12 орлов и 12 решек на 24 предшествующих броска, в результате которых выпал орёл, — вот те самые ожидаемые 50%.

Таблица 3. 16 возможных комбинаций орлов и решек после четырёх бросков.

Броски p(О|О) n(О|О) n(Р|О)
ОООО 100% 3 0
ОООР 67% 2 1
ООРО 50% 1 1
ООРР 50% 1 1
ОРОО 50% 1 1
ОРОР 0% 0 2
ОРРО 0% 0 1
ОРРР 0% 0 1
РООО 100% 2 0
РООР 50% 1 1
РОРО 0% 0 1
РОРР 0% 0 1
РРОО 100% 1 0
РРОР 0% 0 1
РРРО
РРРР
Среднее значение 40.5% 12 12


Что мы имеем во второй колонке? Рассматривая эти короткие последовательности, мы впадаем в заблуждение. Большая часть орлов образует группы — как в первой последовательности, в которой есть три случая, когда орёл выпал дважды. Но в среднем у неё такой же вес, как и у последовательности РРОР с одним лишь броском после орла. Причина, по которой кажется, что решка скорее выпадет после орла, — то самое заблуждение. Реальная вероятность выпадения орла во второй раз подряд — 50%.

Если проделать те же операции над данными реальных бросков, результат выглядит несколько иначе: участники выбросили 28 орлов и 22 решки на 50 бросков, следующих сразу после того, как выпал орёл. 56% орлов, 44% решек. Кажется, здесь наблюдается «горячая рука», хотя при изначальном анализе это не проявлялось. (Очевидно, на самом деле у участников нет «горячей руки» — это совпадение. Вероятность выпадения 28 или более орлов — 24%. В идеале нужна выборка побольше.)

Таблица 4. Результаты эксперимента на конференции — четыре броска монетки.

Число игроков p(О) p(О|О) n(О|О) n(Р|О)
34 49% 48% 28 22


Возвращаемся к примеру с баскетболом, с которого я начинал. Я предположил, что шанс второго удачного броска сразу после предыдущего — 50% для игрока со статистикой попаданий 50% (см. первые две колонки в таблице ниже). Но давайте посчитаем броски, следующие сразу за попаданиями. После попаданий было совершено 12 бросков, и оказывается, что из них 7 — удачные. Наши игроки попадают в 58% случаев при следующем после попадания броске. Только в 42% случаев они промахиваются. У них «горячая рука» (да-да, надо учесть маленький размер выборки, но… суть вы уловили).

Таблица 5. Последовательности бросков в баскетболе (Х = попадание, О — промах).

Броски p(X|X) n(X|X) n(O|X)
XXOX 50% 1 1
OXOX 0% 0 1
OOXX 100% 1 0
OXOX 0% 0 1
XXXX 100% 3 0
XOOX 0% 0 1
XXOO 50% 1 1
OOOO
OOOX
OOXX 100% 1 0
Среднее значение 50% 7 5


Зачем я тратил время на эту лекцию по статистике? Выбрав короткие последовательности бросков и подсчитав вероятность двух удачных бросков подряд, я ввёл в игру ошибку, влияющую на расчёты. Почему это важно? Потому что работы, доказывающие, что «горячей руки» не существует, использовали методологию с изьяном — этой самой ошибкой. Если сделать поправку на ошибку, обнаруживается «горячая рука».

Том Гилович и его коллеги в своей знаменитой работе, о которой я упоминал вначале, не подсчитывали среднее значение по всем последовательностям, как это сделал я. Вместо этого, изучая короткие последовательности бросков, выбирая каждое попадание (или их последовательность) и рассматривая результат последующего броска, они поддались вышеупомянутому заблуждению. Ошибка работает в противоположную эффекту «горячей руки» сторону, фактически отменяя его — а это приводит к заключению, что каждый бросок не зависит от предыдущего.

Миллер и Саньюро обработали данные одного исследования из работы Гиловича и его коллег и обнаружили, что вероятность удачного трёхочкового броска после трёх идущих подряд попаданий на 13% выше, чем после трёх промахов. «Горячая рука» действительно существует. Оцените масштаб: Миллер и Саньюро отметили, что разница между средним и лучшим игроком НБА, выполняющим бросок из-за трёхочковой линии, составляет всего 10%.

Не считая того, что эта статистическая ошибка ускользала от всеобщего внимания почти 30 лет, я нахожу этот результат чрезвычайно интересным ещё по одной причине. У нас есть большой массив исследований, который предполагает, что даже незначительные факторы могут повлиять на наши действия. От слов, ассоциирующихся со старостью, мы замедляемся. От картинок с деньгами — становимся эгоистами. И так далее, и тому подобное. Так почему эти же исследователи даже и не подумали, что на игрока в баскетбол могут повлиять результаты его предыдущих бросков — а это фактор явно куда более значимый, чем слово «Флорида»? Желая развеять одно заблуждение, они проглядели другое.

Так что помните: специалисты в области поведенческой науки тоже могут заблуждаться, как обычные люди.

Перевела Дарина Чернышёва. Редактура — Надежда Верещагина. Адаптация графиков — Радмир Абильев, иллюстрация Евгении Пилат.

Джейсон Коллинз (Jason Collins). «Bad behavioural science: failures, bias and fairy tales».

Если вы хотите узнать больше…

Под конец я дам вам наводку на некоторые источники, к которым вы можете обратиться, если этот доклад вас заинтересовал. Во-первых, великолепный блог Эндрю Гельмана «Статистическое моделирование, причинная зависимость и социальная наука». Пусть название вас не отпугнёт: вы сможете что-то оттуда почерпнуть, даже если слабо разбираетесь в статистике. Лично я узнал о статистике из этого блога больше, чем из полудюжины трудов по статистике и математической экономики, с которыми я ознакомился в университете. Именно там развенчивают некачественные работы и обсуждают, почему у нас так много плохих исследований. Введите «Эндрю Гельман» в Google, и его блог окажется в числе первых ссылок.

Во-вторых, прочтите книгу «Uncontrolled» Джима Мэнзи. Она даст вам новую точку зрения, с которой можно рассматривать причинные связи в мире вокруг нас. Мэнзи призывает беспристрастно посмотреть на вещи, важность которых нам кажется неоспоримой.

В-третьих, почитайте Герда Гигеренцера. Сегодня я рассмотрел только пару вопросов к науке о поведении, а ведь можно задать и много других — например, а насколько мы в самом деле иррациональны? Работы Гигеренцера находятся в числе интереснейших трудов, связанных с этой темой. Я бы порекомендовал начать с «Простая эвристика, которая делает нас умнее» Гигеренцера, Питера Тодда и исследовательской группы «АВС».

Вот и всё на сегодня.

Получить ссылку на материал

Спасибо!

Также вы можете подписаться на обновления сайта:

2 Комментария

    Четвертый снизу абзац повторяется два раза.
    Таблицы с монетками не локализованы (HT так и остались Head/Tails, а в тексте пишется ОР - Орел Решка)

Добавить комментарий