Заключенного парадокс: Парадокс заключенного — это… Что такое Парадокс заключенного?

Содержание

Парадокс заключенного — это… Что такое Парадокс заключенного?

Парадокс неожиданной казни — логический парадокс, также известный как парадокс узника.

Первым (в июле 1948) опубликовал статью об этом парадоксе Д.Дж.О’Коннор, философ из Эксетерского университета.

В формулировке О’Коннора фигурировал офицер, объявляющий своим подчиненным о том, что «на следующей неделе должна состояться тревога, о которой никто не должен знать заранее вплоть до 18.00 того дня, на который она назначена».

Другая формулировка парадокса

Однажды в воскресенье начальник тюрьмы вызвал преступника, приговорённого к казни, и сообщил ему:

  • Вас казнят на следующей неделе в полдень.
  • День казни станет для вас сюрпризом, вы узнаете о нем только когда палач в полдень войдет к вам в камеру.

Начальник тюрьмы был честнейшим человеком и никогда не врал.
Заключённый подумал над его словами и улыбнулся: «В воскресенье меня казнить не могут! Ведь тогда уже в полдень субботы я буду знать об этом.

А по словам начальника я не буду знать день своей казни. Следовательно последний возможный день моей казни — суббота. Но если меня не казнят в пятницу, то я буду заранее знать что меня казнят в субботу, значит и ее можно исключить.» Последовательно исключив пятницу, четверг, среду, вторник и понедельник преступник пришел к выводу, что начальник не сможет его казнить выполнив все свои слова.

На следующей неделе, палач постучал в его дверь в полдень в среду — это было для него полной неожиданностью. Все, что начальник тюрьмы сказал, осуществилось. Где недостаток в рассуждении заключенного?

Более простая форма парадокса

Чтобы разобраться в этом парадоксе, имеет смысл рассмотреть его более простую форму, где число дней уменьшено до одного. В этой версии, начальник тюрьмы сообщает, что:

1.Вы будете казнены в полдень на следующей неделе в пятницу;

2.Это будет неожиданностью для вас.

Заключённый восклицает,что оба условия не могут быть выполнены, так как казнь не может быть неожиданной, если уже сообщено, что она произойдёт в пятницу, и полагает, что казнь не состоится. В следующую пятницу заключённого казнят. Это становится неожиданностью для него, так как он убедил себя, что казнить его не смогут. Что было неправильно в его рассуждениях? Или, возможно, условие «это будет неожиданностью для вас» ложно. Если заключённый является настолько уверенным в нем, что до последних секунд своей жизни считает, что казнь будет остановлена, чтобы выполнить условие начальника.

Ссылки

Wikimedia Foundation. 2010.

Парадокс заключённых — это… Что такое Парадокс заключённых?

Будут ли заключенные друг друга предавать, следуя своим эгоистическим интересам, или будут молчать, тем самым минимизируя общий срок?

В теории игр дилемма заключённого (реже употребляется название «дилемма бандита») — некооперативная игра, в которой игроки стремятся получить выгоду, сотрудничая друг с другом или предавая. Как во всей теории игр, предполагается, что игрок («заключённый») максимизирует свой собственный выигрыш, не заботясь о выгоде других.

В дилемме заключённого предательство строго доминирует над сотрудничеством, поэтому единственное возможное равновесие — предательство обоих участников. Проще говоря, неважно, что сделает другой игрок, каждый выиграет больше, если предаст. Поскольку в любой ситуации предать выгоднее, чем сотрудничать, все рациональные игроки выберут предательство.

Ведя себя по отдельности рационально, вместе участники приходят к нерациональному решению: если оба предадут, они получат в сумме меньший выигрыш, чем если бы сотрудничали (единственное равновесие в этой игре не ведёт к

Парето-оптимальному решению). В этом и заключается дилемма.

В повторяющейся дилемме заключённого игра происходит периодически, и каждый игрок может «наказать» другого за несотрудничество ранее. В такой игре сотрудничество может стать равновесием, а стимул предать может перевешиваться угрозой наказания (с ростом числа итераций равновесие Нэша стремится к Парето-оптимуму).

Классическая дилемма заключённого

Во всех судебных системах кара за бандитизм (совершение преступлений в составе организованной группы) намного тяжелее, чем за те же преступления, совершённые в одиночку (отсюда альтернативное название — «дилемма бандита»).

Классическая формулировка дилеммы заключённого такова:

Двое преступников, А и Б, попались примерно в одно и то же время на сходных преступлениях. Есть основания полагать, что они действовали по сговору, и полиция, изолировав их друг от друга, предлагает им одну и ту же сделку: если один свидетельствует против другого, а тот хранит молчание, то первый освобождается за помощь следствию, а второй получает максимальный срок (10 лет). Если оба молчат, дело проходит по другой статье, и они приговариваются к 6 месяцам. Если оба свидетельствуют против друг друга, они получают минимальный срок (по 2 года). Каждый заключённый выбирает, молчать или свидетельствовать против другого. Однако ни один из них не знает точно, что сделает другой. Что произойдёт?

Игру можно представить в виде следующей таблицы:

Заключённый Б хранит молчание Заключённый Б даёт показания
Заключённый А хранит молчание Оба получают полгода. А получает 10 лет,
Б освобождается
Заключённый А даёт показания А освобождается,
Б получает 10 лет тюрьмы
Оба получают 2 года тюрьмы
«Дилемма заключённого» в нормальной форме.

Дилемма появляется, если предположить, что оба заботятся только о минимизации собственного срока заключения.

Представим рассуждения одного из заключённых. Если партнёр молчит, то лучше его предать и выйти на свободу (иначе — полгода тюрьмы). Если партнёр свидетельствует, то лучше тоже свидетельствовать против него, чтобы получить 2 года (иначе — 10 лет). Стратегия «свидетельствовать» строго доминирует над стратегией «молчать». Аналогично другой заключённый приходит к тому же выводу.

С точки зрения группы (этих двух заключённых) лучше всего сотрудничать друг с другом, хранить молчание и получить по полгода, так как это уменьшит суммарный срок заключения. Любое другое решение будет менее выгодным.

Это очень наглядно демонстрирует, что в игре с ненулевой суммой Парето-оптимум может быть противоположным равновесию Нэша.

Обобщённая форма

Сотрудничать Предать
Сотрудничать C, C c, D
Предать D, c d, d
Каноническая матрица выигрышей ДЗ

Можно раскрыть скелет игры далее, абстрагировавшись от подтекста заключённых. Обобщённая форма игры часто используется в экспериментальной экономике. Следующие правила дают типичную реализацию игры.

  1. В игре — два игрока и банкир. Каждый игрок держит 2 карты: на одной написано «сотрудничать», на другой — «предать» (это стандартная терминология игры). Каждый игрок кладёт одну карту перед банкиром лицом вниз (то есть никто не знает чужого решения, хотя знание чужого решения не влияет на анализ доминирования[1]). Банкир открывает карты и выдаёт выигрыш.
  2. Если оба выбрали «сотрудничать», оба получают C. Если один выбрал «предать», другой «сотрудничать» — первый получает
    D
    , второй с. Если оба выбрали «предать» — оба получают d.
  3. Значения переменных C, D, c, d могут быть любого знака (в примере выше все меньше либо равны 0). Обязательно должно соблюдаться неравенство D > C > d > c, чтобы игра представляла собой ДЗ.
  4. Если игра повторяется, то есть играется больше 1 раза подряд, общий выигрыш от сотрудничества должен быть больше суммарного выигрыша в ситуации, когда один предаёт, а другой — нет, то есть 2C > D + c (объяснение см. ниже).

Эти правила были установлены Дугласом Хофштадтером и образуют каноническое описание типичной дилеммы заключённого.

Похожая, но другая игра

Хофштадтер[2] предположил, что люди проще понимают задачи, как задача ДЗ, если она представлена в виде отдельной игры или процесса торговли.

Один из примеров — «обмен закрытыми сумками»:

Два человека встречаются и обмениваются закрытыми сумками, понимая, что одна из них содержит деньги, другая — товар. Каждый игрок может уважать сделку и положить в сумку то, о чём договорились, либо обмануть партнёра, дав пустую сумку.

В этой игре обман всегда будет наилучшим решением, означая также, что рациональные игроки никогда не будут играть в неё, и что рынок обмена закрытыми сумками будет отсутствовать.

В вариации, популярной у программистов и хакеров, каждый агент этой игры помнит предыдущие результаты (или имеет доступ к общественному мнению, «коллективной памяти»), и множество обменов повторяются длительное время.

Как отмечено выше, без памяти эта игра имеет мало смысла, она мало что объясняет в поведении систем и групп людей, кроме описания взаимодействий, которые не будут происходить. Сложностей вводится больше, чем можно ожидать. Программист (особенно специализирующийся на функциональном программировании) сразу поймёт значимость времени и состояния (памяти). Но и без написания программ можно предположить, как поведут себя агенты. Насколько велика память каждого агента? Какова стратегия каждого из них? Как агенты с разными стратегиями распределены и что определяет, кто с кем взаимодействует и в каком порядке?

Сложность создания какой-то многозначной модели может обескураживать, но она поднимает некоторые интересные и ценные технические и философские вопросы.

Проделана некоторая работа по моделированию этого. Разные программисты и математики утверждают, что стратегия «око за око» (см. ниже) — наилучшая общая стратегия, однако не было сделано серьёзных академических усилий, чтобы классифицировать разные типы и распределения обучающихся агентов с разными стратегиями.

О потенциале этой задачи свидетельствует тот факт, что в этой дискуссии ещё не упоминались возможность формировать коалиции и рядиться коллективно. А как насчёт агентов, которые бы за плату организовывали переговоры? Или агентов, которые бы накапливали информацию о самих сделках?

Примеры из реальной жизни

Примеры с заключёнными, карточной игрой и обменом закрытыми сумками могут показаться надуманными, но на самом деле есть множество примеров взаимодействия людей и животных, имеющие такую же матрицу выигрышей. Поэтому ДЗ представляет интерес социальным наукам, таким как экономика, политика и социология, а также разделам биологии — этологии и эволюционной биологии. Многие природные процессы были обобщены в модели, в которых живые существа участвуют в бесконечных играх типа дилеммы заключённого. Такая широкая применимость ДЗ придаёт этой игре значительную важность.

В политологии, к примеру, сценарий ДЗ часто используется для иллюстрации проблемы двух стран, вовлечённых в гонку вооружений. Обе будут заявлять, что у них есть две возможности: либо увеличить расходы на военные нужды, либо сокращать вооружения. Ни одна из сторон не может быть уверена, что другая будет соблюдать договорённость, следовательно, обе будут стремиться к военной экспансии. Это можно считать теоретическим объяснением политики устрашения. Похожие явления наблюдаются и в автоспорте — «Формула-1», где последние 20 лет происходит гонка бюджетов команд. Из-за этого число машин-участников сократилось с 36 в 1990 году до 20 в 2003.

В велогонках дилемма заключённого возникает, когда два сильных гонщика оторвались от общей группы. Каждый из них может либо предоставить соседу слипстрим («сотрудничать»), либо ехать сзади («предать»). Для обоих идеалом будет, когда они по очереди «висят» друг у друга на хвосте — но всегда есть желание не дать соседу слипстрима (тогда тот постепенно устаёт и «скатывается» в пелотон, а ты финишируешь с большим отрывом).

Случай дилеммы заключённого может быть найден в бизнесе. Две конкурирующие фирмы должны определиться, сколько средств тратить на рекламу. Эффективность рекламы и прибыль каждой фирмы уменьшается с ростом расходов на рекламу у конкурента. Обе фирмы принимают решение увеличить расходы на рекламу, при этом их доли рынка и, возможно, объёмы продаж остаются неизменными, а прибыль сокращается. Предел гонки рекламных бюджетов — прибыль, впрочем, они могут пытаться некоторое время работать и в убыток. Фирмы могут пойти на соглашение о сокращении расходов на рекламу, но всегда есть стимул его нарушить.

В олигополистических рынках ценовая политика — это повторяющаяся ДЗ. Обычно олигополисты сотрудничают друг с другом и не доводят ситуацию до «ценовой войны».

Уильям Паундстоун в книге о дилемме заключённого описывает ситуацию в Новой Зеландии, где газетные ящики оставляют открытыми. Газету можно взять, не заплатив за неё, но мало кто так делает, потому что большинство осознаёт вред, который был бы, если бы все воровали газеты. Поскольку ДЗ в чистом виде одновременна для всех игроков (никто не может повлиять на решения других), эта распространённая линия рассуждений называется «магическое мышление»[3].

Теоретическое заключение ДЗ — одна из причин, почему во многих странах сделка о признании вины запрещена. Часто сценарий ДЗ повторяется очень точно: в интересах обоих подозреваемых сознаться и свидетельствовать против другого подозреваемого, даже если оба невиновны. Возможно, наихудший случай — когда только один виноват, в этом случае невиновный вряд ли сознаётся в чём либо, а виновный пойдёт на это и даст показания против невиновного.

Многие дилеммы в реальной жизни включают множество игроков. Хотя и метафорическую, «трагедию общин» Ардена можно рассматривать как обобщение ДЗ для множества игроков. Каждый житель общины выбирает — пасти ли скот на общем пастбище и получить выгоду, истощая его ресурсы, либо ограничить свой доход. Коллективный результат от всеобщего (или частого) максимального использования пастбища — низкий доход (ведущий к разрушению общины). Однако такая игра не является формальной, поскольку может быть разбита на последовательность классических игр с 2 участниками.

Повторяющаяся дилемма заключённого

В книге «Эволюция кооперации» (1984) Роберт Аксельрод en:Robert Axelrod исследовал расширение сценария ДЗ, которое он назвал повторяющаяся дилемма заключённого (ПДЗ). В ней участники делают выбор снова раз за разом и помнят предыдущие результаты. Аксельрод пригласил академических коллег со всего мира, чтобы разработать компьютерные стратегии, чтобы соревноваться в чемпионате по ПДЗ. Программы, вошедшие в него различались по алгоритмической сложности, начальной враждебности, способности к прощению и так далее.

Аксельрод открыл, что если игра повторялась долго среди множества игроков, каждый с разными стратегиями, «жадные» стратегии давали плохие результаты в долгосрочном периоде, тогда как более «альтруистические» стратегии работали лучше, с точки зрения собственного интереса. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально чисто эгоистические, через естественный отбор.

Лучшей детерминистской стратегией оказалась «Око за око» (англ. Tit for Tat), которую разработал и выставил на чемпионат Анатолий Рапопорт. Она была простейшей из всех участвовавших программ, состояла всего из 4 строк кода на языке Бейсик. Стратегия проста: сотрудничать на первой итерации игры, после этого игрок делает то же самое, что делал оппонент на предыдущем шаге. Чуть лучше работает стратегия «Око за око с прощением». Когда оппонент предаёт, на следующем шаге игрок иногда в любом случае сотрудничает с небольшой вероятностью (1-5 %). Это позволяет случайным образом выйти из цикла взаимного предательства. Она лучше всего работает, когда в игру вводится недопонимание — когда решение одного игрока сообщается другому с ошибкой.

Анализируя стратегии, набравшие лучшие результаты, Аксельрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:

Добрая
важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми. Поэтому чисто эгоистичная стратегия по чисто эгоистическим причинам не будет первой «бить» соперника.
Мстительная
успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример немстительной стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
Прощающая
другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
Не завистливая
последнее качество — не быть завистливым, то есть не пытаться набрать больше очков, чем оппонент (что в принципе невозможно для «доброй» стратегии, то есть добрая стратегия никогда не может набрать больше очков, чем оппонент).

Таким образом, Аксельрод пришёл к утопично звучащему выводу, что эгоистичные индивиды во имя их же эгоистического блага будут стремиться быть добрыми и прощающими и не завистливыми.

Рассмотрим снова модель гонки вооружений. Был дан вывод, что единственная рациональная стратегия — вооружаться, даже если обе страны хотели бы тратить ВВП на масло, а не пушки[4] Интересно, что попытки продемонстрировать, что вывод ДЗ работает на практике (делая анализ «высоких» и «низких» военных расходов между периодами, на основе предположений ПДЗ), часто показывают, что такого поведения не происходит (например, греческие и турецкие военные расходы меняются не в соответствии со стратегией «око за око», а вероятнее всего следуют внутренней политике). Это может быть примером рационального поведения, отличающегося от одноразовой и многоходовой игр.

Если в одноходовой игре в любом случае доминирует стратегия предать, то в многоходовой оптимальная стратегия зависит от поведения других участников. К примеру, если среди населения все друг друга обманывают, а один ведёт себя по принципу «око за око», он оказывается в небольшом проигрыше из-за потери на первом ходе. В такой популяции оптимальная стратегия — всегда предавать. Если же число исповедующих принцип «око за око» больше, то результат уже зависит от их доли в обществе.

Определить оптимальную стратегию можно двумя путями:

  • Равновесие Байеса-Нэша: если определено статистическое распределение встречаемого поведения (например, 33 % «око за око», 33 % всегда обманывают и 33 % всегда сотрудничают), то стратегию можно вычислить математически[5]. Этим детально занимается теория эволюционной динамики.
  • По методу Монте-Карло делались симуляции популяций, где индивиды с низкими результатами вымирали, а с высокими воспроизводились (использовался генетический алгоритм поиска оптимальной эволюционно стабильной стратегии). Структура поведения в конечной популяции зависит от структуры в начале.

Хотя стратегия «око за око» считалась самой удачной простой стратегией, команда Университета Саутгемптона из Англии (под руководством профессора Николаса Дженнингса [1]) представила новую стратегию на 20-ю годовщину Чемпионата по ПДЗ. Эта стратегия оказалась более успешной, чем «око за око». Она основывалась на взаимодействии между программами, чтобы получить максимальный счёт для одной из них. Университет выставил на чемпионат 60 программ, которые распознавали друг друга по ряду действий на первых 5-10 ходах. Узнав другую, одна программа всегда сотрудничала, а другая предавала, что давало максимум очков предателю. Если программа понимала, что оппонент — не саутгемптонский, она дальше всё время предавала его, чтобы минимизировать результат соперника. В результате [6] эта стратегия заняла первые три места в соревновании, как и несколько мест подряд ниже.

Хотя эта эволюционно стабильная стратегия оказалась более эффективной в соревновании, это было достигнуто за счёт того, что в этом конкретном соревновании команда могла участвовать несколькими агентами. Если игрок может контролировать только одного агента, «око за око» оказывается лучшей. Она также соблюдает правило запрета на коммуникации между игроками. То, что саутгемптонские программы исполняли «ритуальный танец» в первые 10 ходов, чтобы узнать друг друга, только подтверждает, насколько важна коммуникация в сдвиге баланса игры.

Если ПДЗ играется ровно N раз (некая известная константа N), есть ещё один интересный факт. Равновесие Нэша — всегда предавать. Доказываем по индукции: если оба сотрудничают, на последнем ходу выгодно предать, тогда у соперника не будет возможности отомстить. Поэтому оба предадут друг друга на последнем ходу. Раз соперник предаст на последнем ходу в любом случае, любой игрок захочет предать на предпоследнем ходу, и так далее. Чтобы сотрудничество оставалось выгодным, необходимо, чтобы будущее было неопределённым для обоих игроков. Одно из решений — делать число N случайным и подсчитывать результаты по среднему выигрышу за ход.

Дилемма заключённого — фундаментальная для некоторых теорий о взаимодействии людей и доверии. Из предположения модели ДЗ, что транзакция между двумя людьми требует доверия, доверительное поведение в популяциях может быть смоделировано при помощи многоигроковой повторяющейся версии игры. Это годами вдохновляло многих учёных. В 1975 году Грофман и Пул оценивали число работ, посвящённых этой теме, в количестве около 2000.

Психология обучения и теория игр

Если игроки могут оценивать возможность предательства со стороны других игроков, на их поведение влияет опыт. Простая статистика показывает, что неопытные игроки обычно ведут себя чрезмерно хорошо или плохо. Если они всё время будут действовать так, то проиграют из-за своей излишней агрессивности или излишней доброты. С получением большего опыта они реальнее оценивают вероятность предательства и добиваются лучших результатов. Ранние розыгрыши сильнее влияют на неопытных игроков, чем более поздние на опытных. Это пример, почему ранний опыт имеет такое влияние на молодых, и почему они особенно уязвимы к немотивированной агрессии, иногда сами становясь такими же.

Можно уменьшить вероятность предательства в популяции при помощи сотрудничества в ранних играх, позволив укрепить доверие[7]. Следовательно самопожертвование может в некоторых ситуациях усилить моральный дух группы. Если группа маленькая, на позитивное поведение с большей вероятностью ответят взаимностью, что поощрит индивидов на дальнейшее сотрудничество. Это связано с ещё одной дилеммой, что хорошее отношение без причины — это потакание, которое может ухудшить моральные качества.

Эти процессы — главное поле интереса взаимного альтруизма, группового отбора, семейного отбора и этики.

Восточная философия

В боевых искусствах изучается даосская пословица, которая говорит, что:

  • Отвечать добром на добро — даёт добро
  • Отвечать злом на зло — даёт добро
  • Отвечать злом на добро — даёт зло
  • Отвечать добром на зло — даёт зло

Второе и четвёртое утверждения кажутся спорными, особенно с позиций христианства, но дилемма заключённого объясняет их. В древнем Китае «добро» и «зло» считались непреложными истинами (например, их нельзя поменять местами), таким образом, эту пословицу можно прочитать ещё и как «плюс на минус даёт минус». Есть усиленный вариант этой пословицы, где в двух последних строках получается «двойное зло».

Генетика

Теория естественного отбора долго не публиковалась, так как в неё не укладывался генетический альтруизм, то есть генетически вложенная в организм программа заботиться о себе подобных даже в ущерб себе[2]. Так называемый ген любви.

Примечания

  1. Подсказка, что, например, красный игрок собирается играть картой «сотрудничать» не меняет того факта, что «предать» является строго доминирующей стратегией. Если рассматривать только игру, возможность коммуникации не играет какой-либо роли. Однако если игра играется в реальной жизни, рассуждения, лежащие вне самой игры, могут привести к тому, что сотрудничество произойдёт. Это очень важный момент в выводах игры, что если нам не нужно принимать во внимание посторонние факторы, одноразовая ДЗ не меняется от коммуникации.
  2. Хофштадтер, Дуглас Глава 29 // Метамагические вопросы: в поиске сущности сознания и шаблона = Metamagical Themas: questing for the essence of mind and pattern. — Bantam Dell Pub Group, 1985. — ISBN 0-465-04566-9
  3. Будучи объяснением отсутствия мелкого воровства, магическое мышление объясняет добровольное голосование на выборах (когда неголосующий считается зайцем. В качестве альтернативы, это поведение может объясняться ожиданием будущих действий (и не требовать связи с «магическим мышлением»). Моделирование будущих действий требует добавление измерения времени, что делается в повторяющейся ДЗ (см. соответствующий подраздел этой статьи).
  4. В экономических учебниках кривая производственных возможностей иллюстрируется выбором между всего двумя товарами: маслом и пушками.
  5. Например см. исследование 2003 года «Равновесие Байеса-Нэша; статистический тест гипотезы»
  6. Результаты турнира по Дилемме заключённого 2004 (англ. ) показывают, что команда Университета Саутгемптона заняла первые три места, хотя имела меньше выигрышей, чем стратегия GRIM (обратите внимание, в турнире нужно было выигрывать не отдельные матчи. Это достижимо и простым частым предательством). Следует заметить, что и без подразумеваемого сговора между стратегиями, которым злоупотребила саутгемптонская команда, «око за око» не всегда является абсолютным победителем любого соревнования. Точнее сказать, в долгосрочном периоде в ряде разных чемпионатов она покажет лучшие результаты, чем соперники. А в отдельно взятом чемпионате стратегию можно немного лучше подстроить к соревнованию, чем «око за око». То же самое относится и к ОЗО с прощением: в отдельно взятом соревновании она может проиграть специально заточенным стратегиям. Альтернативой является использование симуляции эволюции. В ней ОЗО придёт к доминированию, а злые стратегии будут от случая к случаю появляться и исчезать из популяции. Ричард Докинз показал, что нет статической комбинации стратегий, которая была бы стабильным равновесием, и система будет колебаться между границами.
  7. Аргумент о развитии сотрудничества через доверие приводится в книге «Мудрость толп» Джеймса Суровецки, где утверждается, что в долгосрочном периоде капитализм смог организоваться вокруг ядра квакеров, которые всегда работали честно со своими партнёрами (вместо того, чтобы обманывать и нарушать обещания — явление, которое останавливало более ранние долгосрочные добровольных международных контактов). Утверждается, что сделки с надёжными купцами позволили культуре честного поведения (сотрудничества) распространиться среди других торговцев, которые распространяли её дальше, пока не стало выгодно вообще быть честным.

См. также

Ссылки

Литература

(источники, названные в английской статье)

  • Axelrod, Robert and Hamilton, William D. (1981). «The Evolution of Cooperation». Science, 211 : 1390—1396.
  • Эволюция сотрудничества, Роберт Акселрод, Basic Books, ISBN 0-465-02121-2
  • Axelrod, Robert (1997). The Complexity of Cooperation. Princeton University Press. ISBN 0-691-01567-8.
  • Эгоистичный ген, Ричард Докинз (1990), второе издание — включает две главы об эволюции сотрудничества, ISBN 0-19-286092-5
  • Grofman and Pool (1975). «Bayesian Models for Iterated Prisoner’s Dilemma Games». General Systems 20 : 185—94.
  • Hardin, Garrett (1968). «The Tragedy of the Commons». Science, 162 : 1243—1248.
  • Kreps, David, Robert Wilson, Paul Milgrom, and John Roberts (1982). «Rational Cooperation in the Finitely Repeated Prisoners’ Dilemma.» Journal of Economic Theory 27(2) : 245—52.
  • Milgrom, Paul (1984). «Axelrod’s The Evolution of Cooperation.» Rand Journal of Economics 15(2) : 30—59.
  • Poundstone, William (1992). Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb. Doubleday. ISBN 0-385-41567-2. Обширное популярное введение, как отмечено в заголовке.
  • Rapoport, Anatol and Chammah, Albert M. (1965). Prisoner’s Dilemma. University of Michigan Press. Расчёт множества экспериментов, в которых игралась ДЗ.
  • Verhoeff, Tom (1998). «The Trader’s Dilemma: A Continuous Version of the Prisoner’s Dilemma». Computing Science Notes 93/02, Кафедра математики и вычислительных систем, Технический Университет Эйндховена, Нидерланды.
  • New Tack Wins Prisoner’s Dilemma (из Wired.com)

Wikimedia Foundation. 2010.

Парадокс заключённых — это… Что такое Парадокс заключённых?

Будут ли заключенные друг друга предавать, следуя своим эгоистическим интересам, или будут молчать, тем самым минимизируя общий срок?

В теории игр дилемма заключённого (реже употребляется название «дилемма бандита») — некооперативная игра, в которой игроки стремятся получить выгоду, сотрудничая друг с другом или предавая. Как во всей теории игр, предполагается, что игрок («заключённый») максимизирует свой собственный выигрыш, не заботясь о выгоде других.

В дилемме заключённого предательство строго доминирует над сотрудничеством, поэтому единственное возможное равновесие — предательство обоих участников. Проще говоря, неважно, что сделает другой игрок, каждый выиграет больше, если предаст. Поскольку в любой ситуации предать выгоднее, чем сотрудничать, все рациональные игроки выберут предательство.

Ведя себя по отдельности рационально, вместе участники приходят к нерациональному решению: если оба предадут, они получат в сумме меньший выигрыш, чем если бы сотрудничали (единственное равновесие в этой игре не ведёт к Парето-оптимальному решению). В этом и заключается дилемма.

В повторяющейся дилемме заключённого игра происходит периодически, и каждый игрок может «наказать» другого за несотрудничество ранее. В такой игре сотрудничество может стать равновесием, а стимул предать может перевешиваться угрозой наказания (с ростом числа итераций равновесие Нэша стремится к Парето-оптимуму).

Классическая дилемма заключённого

Во всех судебных системах кара за бандитизм (совершение преступлений в составе организованной группы) намного тяжелее, чем за те же преступления, совершённые в одиночку (отсюда альтернативное название — «дилемма бандита»).

Классическая формулировка дилеммы заключённого такова:

Двое преступников, А и Б, попались примерно в одно и то же время на сходных преступлениях. Есть основания полагать, что они действовали по сговору, и полиция, изолировав их друг от друга, предлагает им одну и ту же сделку: если один свидетельствует против другого, а тот хранит молчание, то первый освобождается за помощь следствию, а второй получает максимальный срок (10 лет). Если оба молчат, дело проходит по другой статье, и они приговариваются к 6 месяцам. Если оба свидетельствуют против друг друга, они получают минимальный срок (по 2 года). Каждый заключённый выбирает, молчать или свидетельствовать против другого. Однако ни один из них не знает точно, что сделает другой. Что произойдёт?

Игру можно представить в виде следующей таблицы:

Заключённый Б хранит молчание Заключённый Б даёт показания
Заключённый А хранит молчание Оба получают полгода. А получает 10 лет,
Б освобождается
Заключённый А даёт показания А освобождается,
Б получает 10 лет тюрьмы
Оба получают 2 года тюрьмы
«Дилемма заключённого» в нормальной форме.

Дилемма появляется, если предположить, что оба заботятся только о минимизации собственного срока заключения.

Представим рассуждения одного из заключённых. Если партнёр молчит, то лучше его предать и выйти на свободу (иначе — полгода тюрьмы). Если партнёр свидетельствует, то лучше тоже свидетельствовать против него, чтобы получить 2 года (иначе — 10 лет). Стратегия «свидетельствовать» строго доминирует над стратегией «молчать». Аналогично другой заключённый приходит к тому же выводу.

С точки зрения группы (этих двух заключённых) лучше всего сотрудничать друг с другом, хранить молчание и получить по полгода, так как это уменьшит суммарный срок заключения. Любое другое решение будет менее выгодным. Это очень наглядно демонстрирует, что в игре с ненулевой суммой Парето-оптимум может быть противоположным равновесию Нэша.

Обобщённая форма

Сотрудничать Предать
Сотрудничать C, C c, D
Предать D, c d, d
Каноническая матрица выигрышей ДЗ

Можно раскрыть скелет игры далее, абстрагировавшись от подтекста заключённых. Обобщённая форма игры часто используется в экспериментальной экономике. Следующие правила дают типичную реализацию игры.

  1. В игре — два игрока и банкир. Каждый игрок держит 2 карты: на одной написано «сотрудничать», на другой — «предать» (это стандартная терминология игры). Каждый игрок кладёт одну карту перед банкиром лицом вниз (то есть никто не знает чужого решения, хотя знание чужого решения не влияет на анализ доминирования[1]). Банкир открывает карты и выдаёт выигрыш.
  2. Если оба выбрали «сотрудничать», оба получают C. Если один выбрал «предать», другой «сотрудничать» — первый получает D, второй с. Если оба выбрали «предать» — оба получают d.
  3. Значения переменных C, D, c, d могут быть любого знака (в примере выше все меньше либо равны 0). Обязательно должно соблюдаться неравенство D > C > d > c, чтобы игра представляла собой ДЗ.
  4. Если игра повторяется, то есть играется больше 1 раза подряд, общий выигрыш от сотрудничества должен быть больше суммарного выигрыша в ситуации, когда один предаёт, а другой — нет, то есть 2C > D + c (объяснение см. ниже).

Эти правила были установлены Дугласом Хофштадтером и образуют каноническое описание типичной дилеммы заключённого.

Похожая, но другая игра

Хофштадтер[2] предположил, что люди проще понимают задачи, как задача ДЗ, если она представлена в виде отдельной игры или процесса торговли. Один из примеров — «обмен закрытыми сумками»:

Два человека встречаются и обмениваются закрытыми сумками, понимая, что одна из них содержит деньги, другая — товар. Каждый игрок может уважать сделку и положить в сумку то, о чём договорились, либо обмануть партнёра, дав пустую сумку.

В этой игре обман всегда будет наилучшим решением, означая также, что рациональные игроки никогда не будут играть в неё, и что рынок обмена закрытыми сумками будет отсутствовать.

В вариации, популярной у программистов и хакеров, каждый агент этой игры помнит предыдущие результаты (или имеет доступ к общественному мнению, «коллективной памяти»), и множество обменов повторяются длительное время.

Как отмечено выше, без памяти эта игра имеет мало смысла, она мало что объясняет в поведении систем и групп людей, кроме описания взаимодействий, которые не будут происходить. Сложностей вводится больше, чем можно ожидать. Программист (особенно специализирующийся на функциональном программировании) сразу поймёт значимость времени и состояния (памяти). Но и без написания программ можно предположить, как поведут себя агенты. Насколько велика память каждого агента? Какова стратегия каждого из них? Как агенты с разными стратегиями распределены и что определяет, кто с кем взаимодействует и в каком порядке?

Сложность создания какой-то многозначной модели может обескураживать, но она поднимает некоторые интересные и ценные технические и философские вопросы.

Проделана некоторая работа по моделированию этого. Разные программисты и математики утверждают, что стратегия «око за око» (см. ниже) — наилучшая общая стратегия, однако не было сделано серьёзных академических усилий, чтобы классифицировать разные типы и распределения обучающихся агентов с разными стратегиями.

О потенциале этой задачи свидетельствует тот факт, что в этой дискуссии ещё не упоминались возможность формировать коалиции и рядиться коллективно. А как насчёт агентов, которые бы за плату организовывали переговоры? Или агентов, которые бы накапливали информацию о самих сделках?

Примеры из реальной жизни

Примеры с заключёнными, карточной игрой и обменом закрытыми сумками могут показаться надуманными, но на самом деле есть множество примеров взаимодействия людей и животных, имеющие такую же матрицу выигрышей. Поэтому ДЗ представляет интерес социальным наукам, таким как экономика, политика и социология, а также разделам биологии — этологии и эволюционной биологии. Многие природные процессы были обобщены в модели, в которых живые существа участвуют в бесконечных играх типа дилеммы заключённого. Такая широкая применимость ДЗ придаёт этой игре значительную важность.

В политологии, к примеру, сценарий ДЗ часто используется для иллюстрации проблемы двух стран, вовлечённых в гонку вооружений. Обе будут заявлять, что у них есть две возможности: либо увеличить расходы на военные нужды, либо сокращать вооружения. Ни одна из сторон не может быть уверена, что другая будет соблюдать договорённость, следовательно, обе будут стремиться к военной экспансии. Это можно считать теоретическим объяснением политики устрашения. Похожие явления наблюдаются и в автоспорте — «Формула-1», где последние 20 лет происходит гонка бюджетов команд. Из-за этого число машин-участников сократилось с 36 в 1990 году до 20 в 2003.

В велогонках дилемма заключённого возникает, когда два сильных гонщика оторвались от общей группы. Каждый из них может либо предоставить соседу слипстрим («сотрудничать»), либо ехать сзади («предать»). Для обоих идеалом будет, когда они по очереди «висят» друг у друга на хвосте — но всегда есть желание не дать соседу слипстрима (тогда тот постепенно устаёт и «скатывается» в пелотон, а ты финишируешь с большим отрывом).

Случай дилеммы заключённого может быть найден в бизнесе. Две конкурирующие фирмы должны определиться, сколько средств тратить на рекламу. Эффективность рекламы и прибыль каждой фирмы уменьшается с ростом расходов на рекламу у конкурента. Обе фирмы принимают решение увеличить расходы на рекламу, при этом их доли рынка и, возможно, объёмы продаж остаются неизменными, а прибыль сокращается. Предел гонки рекламных бюджетов — прибыль, впрочем, они могут пытаться некоторое время работать и в убыток. Фирмы могут пойти на соглашение о сокращении расходов на рекламу, но всегда есть стимул его нарушить.

В олигополистических рынках ценовая политика — это повторяющаяся ДЗ. Обычно олигополисты сотрудничают друг с другом и не доводят ситуацию до «ценовой войны».

Уильям Паундстоун в книге о дилемме заключённого описывает ситуацию в Новой Зеландии, где газетные ящики оставляют открытыми. Газету можно взять, не заплатив за неё, но мало кто так делает, потому что большинство осознаёт вред, который был бы, если бы все воровали газеты. Поскольку ДЗ в чистом виде одновременна для всех игроков (никто не может повлиять на решения других), эта распространённая линия рассуждений называется «магическое мышление»[3].

Теоретическое заключение ДЗ — одна из причин, почему во многих странах сделка о признании вины запрещена. Часто сценарий ДЗ повторяется очень точно: в интересах обоих подозреваемых сознаться и свидетельствовать против другого подозреваемого, даже если оба невиновны. Возможно, наихудший случай — когда только один виноват, в этом случае невиновный вряд ли сознаётся в чём либо, а виновный пойдёт на это и даст показания против невиновного.

Многие дилеммы в реальной жизни включают множество игроков. Хотя и метафорическую, «трагедию общин» Ардена можно рассматривать как обобщение ДЗ для множества игроков. Каждый житель общины выбирает — пасти ли скот на общем пастбище и получить выгоду, истощая его ресурсы, либо ограничить свой доход. Коллективный результат от всеобщего (или частого) максимального использования пастбища — низкий доход (ведущий к разрушению общины). Однако такая игра не является формальной, поскольку может быть разбита на последовательность классических игр с 2 участниками.

Повторяющаяся дилемма заключённого

В книге «Эволюция кооперации» (1984) Роберт Аксельрод en:Robert Axelrod исследовал расширение сценария ДЗ, которое он назвал повторяющаяся дилемма заключённого (ПДЗ). В ней участники делают выбор снова раз за разом и помнят предыдущие результаты. Аксельрод пригласил академических коллег со всего мира, чтобы разработать компьютерные стратегии, чтобы соревноваться в чемпионате по ПДЗ. Программы, вошедшие в него различались по алгоритмической сложности, начальной враждебности, способности к прощению и так далее.

Аксельрод открыл, что если игра повторялась долго среди множества игроков, каждый с разными стратегиями, «жадные» стратегии давали плохие результаты в долгосрочном периоде, тогда как более «альтруистические» стратегии работали лучше, с точки зрения собственного интереса. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально чисто эгоистические, через естественный отбор.

Лучшей детерминистской стратегией оказалась «Око за око» (англ. Tit for Tat), которую разработал и выставил на чемпионат Анатолий Рапопорт. Она была простейшей из всех участвовавших программ, состояла всего из 4 строк кода на языке Бейсик. Стратегия проста: сотрудничать на первой итерации игры, после этого игрок делает то же самое, что делал оппонент на предыдущем шаге. Чуть лучше работает стратегия «Око за око с прощением». Когда оппонент предаёт, на следующем шаге игрок иногда в любом случае сотрудничает с небольшой вероятностью (1-5 %). Это позволяет случайным образом выйти из цикла взаимного предательства. Она лучше всего работает, когда в игру вводится недопонимание — когда решение одного игрока сообщается другому с ошибкой.

Анализируя стратегии, набравшие лучшие результаты, Аксельрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:

Добрая
важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми. Поэтому чисто эгоистичная стратегия по чисто эгоистическим причинам не будет первой «бить» соперника.
Мстительная
успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример немстительной стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
Прощающая
другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
Не завистливая
последнее качество — не быть завистливым, то есть не пытаться набрать больше очков, чем оппонент (что в принципе невозможно для «доброй» стратегии, то есть добрая стратегия никогда не может набрать больше очков, чем оппонент).

Таким образом, Аксельрод пришёл к утопично звучащему выводу, что эгоистичные индивиды во имя их же эгоистического блага будут стремиться быть добрыми и прощающими и не завистливыми.

Рассмотрим снова модель гонки вооружений. Был дан вывод, что единственная рациональная стратегия — вооружаться, даже если обе страны хотели бы тратить ВВП на масло, а не пушки[4] Интересно, что попытки продемонстрировать, что вывод ДЗ работает на практике (делая анализ «высоких» и «низких» военных расходов между периодами, на основе предположений ПДЗ), часто показывают, что такого поведения не происходит (например, греческие и турецкие военные расходы меняются не в соответствии со стратегией «око за око», а вероятнее всего следуют внутренней политике). Это может быть примером рационального поведения, отличающегося от одноразовой и многоходовой игр.

Если в одноходовой игре в любом случае доминирует стратегия предать, то в многоходовой оптимальная стратегия зависит от поведения других участников. К примеру, если среди населения все друг друга обманывают, а один ведёт себя по принципу «око за око», он оказывается в небольшом проигрыше из-за потери на первом ходе. В такой популяции оптимальная стратегия — всегда предавать. Если же число исповедующих принцип «око за око» больше, то результат уже зависит от их доли в обществе.

Определить оптимальную стратегию можно двумя путями:

  • Равновесие Байеса-Нэша: если определено статистическое распределение встречаемого поведения (например, 33 % «око за око», 33 % всегда обманывают и 33 % всегда сотрудничают), то стратегию можно вычислить математически[5]. Этим детально занимается теория эволюционной динамики.
  • По методу Монте-Карло делались симуляции популяций, где индивиды с низкими результатами вымирали, а с высокими воспроизводились (использовался генетический алгоритм поиска оптимальной эволюционно стабильной стратегии). Структура поведения в конечной популяции зависит от структуры в начале.

Хотя стратегия «око за око» считалась самой удачной простой стратегией, команда Университета Саутгемптона из Англии (под руководством профессора Николаса Дженнингса [1]) представила новую стратегию на 20-ю годовщину Чемпионата по ПДЗ. Эта стратегия оказалась более успешной, чем «око за око». Она основывалась на взаимодействии между программами, чтобы получить максимальный счёт для одной из них. Университет выставил на чемпионат 60 программ, которые распознавали друг друга по ряду действий на первых 5-10 ходах. Узнав другую, одна программа всегда сотрудничала, а другая предавала, что давало максимум очков предателю. Если программа понимала, что оппонент — не саутгемптонский, она дальше всё время предавала его, чтобы минимизировать результат соперника. В результате [6] эта стратегия заняла первые три места в соревновании, как и несколько мест подряд ниже.

Хотя эта эволюционно стабильная стратегия оказалась более эффективной в соревновании, это было достигнуто за счёт того, что в этом конкретном соревновании команда могла участвовать несколькими агентами. Если игрок может контролировать только одного агента, «око за око» оказывается лучшей. Она также соблюдает правило запрета на коммуникации между игроками. То, что саутгемптонские программы исполняли «ритуальный танец» в первые 10 ходов, чтобы узнать друг друга, только подтверждает, насколько важна коммуникация в сдвиге баланса игры.

Если ПДЗ играется ровно N раз (некая известная константа N), есть ещё один интересный факт. Равновесие Нэша — всегда предавать. Доказываем по индукции: если оба сотрудничают, на последнем ходу выгодно предать, тогда у соперника не будет возможности отомстить. Поэтому оба предадут друг друга на последнем ходу. Раз соперник предаст на последнем ходу в любом случае, любой игрок захочет предать на предпоследнем ходу, и так далее. Чтобы сотрудничество оставалось выгодным, необходимо, чтобы будущее было неопределённым для обоих игроков. Одно из решений — делать число N случайным и подсчитывать результаты по среднему выигрышу за ход.

Дилемма заключённого — фундаментальная для некоторых теорий о взаимодействии людей и доверии. Из предположения модели ДЗ, что транзакция между двумя людьми требует доверия, доверительное поведение в популяциях может быть смоделировано при помощи многоигроковой повторяющейся версии игры. Это годами вдохновляло многих учёных. В 1975 году Грофман и Пул оценивали число работ, посвящённых этой теме, в количестве около 2000.

Психология обучения и теория игр

Если игроки могут оценивать возможность предательства со стороны других игроков, на их поведение влияет опыт. Простая статистика показывает, что неопытные игроки обычно ведут себя чрезмерно хорошо или плохо. Если они всё время будут действовать так, то проиграют из-за своей излишней агрессивности или излишней доброты. С получением большего опыта они реальнее оценивают вероятность предательства и добиваются лучших результатов. Ранние розыгрыши сильнее влияют на неопытных игроков, чем более поздние на опытных. Это пример, почему ранний опыт имеет такое влияние на молодых, и почему они особенно уязвимы к немотивированной агрессии, иногда сами становясь такими же.

Можно уменьшить вероятность предательства в популяции при помощи сотрудничества в ранних играх, позволив укрепить доверие[7]. Следовательно самопожертвование может в некоторых ситуациях усилить моральный дух группы. Если группа маленькая, на позитивное поведение с большей вероятностью ответят взаимностью, что поощрит индивидов на дальнейшее сотрудничество. Это связано с ещё одной дилеммой, что хорошее отношение без причины — это потакание, которое может ухудшить моральные качества.

Эти процессы — главное поле интереса взаимного альтруизма, группового отбора, семейного отбора и этики.

Восточная философия

В боевых искусствах изучается даосская пословица, которая говорит, что:

  • Отвечать добром на добро — даёт добро
  • Отвечать злом на зло — даёт добро
  • Отвечать злом на добро — даёт зло
  • Отвечать добром на зло — даёт зло

Второе и четвёртое утверждения кажутся спорными, особенно с позиций христианства, но дилемма заключённого объясняет их. В древнем Китае «добро» и «зло» считались непреложными истинами (например, их нельзя поменять местами), таким образом, эту пословицу можно прочитать ещё и как «плюс на минус даёт минус». Есть усиленный вариант этой пословицы, где в двух последних строках получается «двойное зло».

Генетика

Теория естественного отбора долго не публиковалась, так как в неё не укладывался генетический альтруизм, то есть генетически вложенная в организм программа заботиться о себе подобных даже в ущерб себе[2]. Так называемый ген любви.

Примечания

  1. Подсказка, что, например, красный игрок собирается играть картой «сотрудничать» не меняет того факта, что «предать» является строго доминирующей стратегией. Если рассматривать только игру, возможность коммуникации не играет какой-либо роли. Однако если игра играется в реальной жизни, рассуждения, лежащие вне самой игры, могут привести к тому, что сотрудничество произойдёт. Это очень важный момент в выводах игры, что если нам не нужно принимать во внимание посторонние факторы, одноразовая ДЗ не меняется от коммуникации.
  2. Хофштадтер, Дуглас Глава 29 // Метамагические вопросы: в поиске сущности сознания и шаблона = Metamagical Themas: questing for the essence of mind and pattern. — Bantam Dell Pub Group, 1985. — ISBN 0-465-04566-9
  3. Будучи объяснением отсутствия мелкого воровства, магическое мышление объясняет добровольное голосование на выборах (когда неголосующий считается зайцем. В качестве альтернативы, это поведение может объясняться ожиданием будущих действий (и не требовать связи с «магическим мышлением»). Моделирование будущих действий требует добавление измерения времени, что делается в повторяющейся ДЗ (см. соответствующий подраздел этой статьи).
  4. В экономических учебниках кривая производственных возможностей иллюстрируется выбором между всего двумя товарами: маслом и пушками.
  5. Например см. исследование 2003 года «Равновесие Байеса-Нэша; статистический тест гипотезы»
  6. Результаты турнира по Дилемме заключённого 2004 (англ.) показывают, что команда Университета Саутгемптона заняла первые три места, хотя имела меньше выигрышей, чем стратегия GRIM (обратите внимание, в турнире нужно было выигрывать не отдельные матчи. Это достижимо и простым частым предательством). Следует заметить, что и без подразумеваемого сговора между стратегиями, которым злоупотребила саутгемптонская команда, «око за око» не всегда является абсолютным победителем любого соревнования. Точнее сказать, в долгосрочном периоде в ряде разных чемпионатов она покажет лучшие результаты, чем соперники. А в отдельно взятом чемпионате стратегию можно немного лучше подстроить к соревнованию, чем «око за око». То же самое относится и к ОЗО с прощением: в отдельно взятом соревновании она может проиграть специально заточенным стратегиям. Альтернативой является использование симуляции эволюции. В ней ОЗО придёт к доминированию, а злые стратегии будут от случая к случаю появляться и исчезать из популяции. Ричард Докинз показал, что нет статической комбинации стратегий, которая была бы стабильным равновесием, и система будет колебаться между границами.
  7. Аргумент о развитии сотрудничества через доверие приводится в книге «Мудрость толп» Джеймса Суровецки, где утверждается, что в долгосрочном периоде капитализм смог организоваться вокруг ядра квакеров, которые всегда работали честно со своими партнёрами (вместо того, чтобы обманывать и нарушать обещания — явление, которое останавливало более ранние долгосрочные добровольных международных контактов). Утверждается, что сделки с надёжными купцами позволили культуре честного поведения (сотрудничества) распространиться среди других торговцев, которые распространяли её дальше, пока не стало выгодно вообще быть честным.

См. также

Ссылки

Литература

(источники, названные в английской статье)

  • Axelrod, Robert and Hamilton, William D. (1981). «The Evolution of Cooperation». Science, 211 : 1390—1396.
  • Эволюция сотрудничества, Роберт Акселрод, Basic Books, ISBN 0-465-02121-2
  • Axelrod, Robert (1997). The Complexity of Cooperation. Princeton University Press. ISBN 0-691-01567-8.
  • Эгоистичный ген, Ричард Докинз (1990), второе издание — включает две главы об эволюции сотрудничества, ISBN 0-19-286092-5
  • Grofman and Pool (1975). «Bayesian Models for Iterated Prisoner’s Dilemma Games». General Systems 20 : 185—94.
  • Hardin, Garrett (1968). «The Tragedy of the Commons». Science, 162 : 1243—1248.
  • Kreps, David, Robert Wilson, Paul Milgrom, and John Roberts (1982). «Rational Cooperation in the Finitely Repeated Prisoners’ Dilemma.» Journal of Economic Theory 27(2) : 245—52.
  • Milgrom, Paul (1984). «Axelrod’s The Evolution of Cooperation.» Rand Journal of Economics 15(2) : 30—59.
  • Poundstone, William (1992). Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb. Doubleday. ISBN 0-385-41567-2. Обширное популярное введение, как отмечено в заголовке.
  • Rapoport, Anatol and Chammah, Albert M. (1965). Prisoner’s Dilemma. University of Michigan Press. Расчёт множества экспериментов, в которых игралась ДЗ.
  • Verhoeff, Tom (1998). «The Trader’s Dilemma: A Continuous Version of the Prisoner’s Dilemma». Computing Science Notes 93/02, Кафедра математики и вычислительных систем, Технический Университет Эйндховена, Нидерланды.
  • New Tack Wins Prisoner’s Dilemma (из Wired.com)

Wikimedia Foundation. 2010.

Парадокс заключённых — это… Что такое Парадокс заключённых?

Будут ли заключенные друг друга предавать, следуя своим эгоистическим интересам, или будут молчать, тем самым минимизируя общий срок?

В теории игр дилемма заключённого (реже употребляется название «дилемма бандита») — некооперативная игра, в которой игроки стремятся получить выгоду, сотрудничая друг с другом или предавая. Как во всей теории игр, предполагается, что игрок («заключённый») максимизирует свой собственный выигрыш, не заботясь о выгоде других.

В дилемме заключённого предательство строго доминирует над сотрудничеством, поэтому единственное возможное равновесие — предательство обоих участников. Проще говоря, неважно, что сделает другой игрок, каждый выиграет больше, если предаст. Поскольку в любой ситуации предать выгоднее, чем сотрудничать, все рациональные игроки выберут предательство.

Ведя себя по отдельности рационально, вместе участники приходят к нерациональному решению: если оба предадут, они получат в сумме меньший выигрыш, чем если бы сотрудничали (единственное равновесие в этой игре не ведёт к Парето-оптимальному решению). В этом и заключается дилемма.

В повторяющейся дилемме заключённого игра происходит периодически, и каждый игрок может «наказать» другого за несотрудничество ранее. В такой игре сотрудничество может стать равновесием, а стимул предать может перевешиваться угрозой наказания (с ростом числа итераций равновесие Нэша стремится к Парето-оптимуму).

Классическая дилемма заключённого

Во всех судебных системах кара за бандитизм (совершение преступлений в составе организованной группы) намного тяжелее, чем за те же преступления, совершённые в одиночку (отсюда альтернативное название — «дилемма бандита»).

Классическая формулировка дилеммы заключённого такова:

Двое преступников, А и Б, попались примерно в одно и то же время на сходных преступлениях. Есть основания полагать, что они действовали по сговору, и полиция, изолировав их друг от друга, предлагает им одну и ту же сделку: если один свидетельствует против другого, а тот хранит молчание, то первый освобождается за помощь следствию, а второй получает максимальный срок (10 лет). Если оба молчат, дело проходит по другой статье, и они приговариваются к 6 месяцам. Если оба свидетельствуют против друг друга, они получают минимальный срок (по 2 года). Каждый заключённый выбирает, молчать или свидетельствовать против другого. Однако ни один из них не знает точно, что сделает другой. Что произойдёт?

Игру можно представить в виде следующей таблицы:

Заключённый Б хранит молчание Заключённый Б даёт показания
Заключённый А хранит молчание Оба получают полгода. А получает 10 лет,
Б освобождается
Заключённый А даёт показания А освобождается,
Б получает 10 лет тюрьмы
Оба получают 2 года тюрьмы
«Дилемма заключённого» в нормальной форме.

Дилемма появляется, если предположить, что оба заботятся только о минимизации собственного срока заключения.

Представим рассуждения одного из заключённых. Если партнёр молчит, то лучше его предать и выйти на свободу (иначе — полгода тюрьмы). Если партнёр свидетельствует, то лучше тоже свидетельствовать против него, чтобы получить 2 года (иначе — 10 лет). Стратегия «свидетельствовать» строго доминирует над стратегией «молчать». Аналогично другой заключённый приходит к тому же выводу.

С точки зрения группы (этих двух заключённых) лучше всего сотрудничать друг с другом, хранить молчание и получить по полгода, так как это уменьшит суммарный срок заключения. Любое другое решение будет менее выгодным. Это очень наглядно демонстрирует, что в игре с ненулевой суммой Парето-оптимум может быть противоположным равновесию Нэша.

Обобщённая форма

Сотрудничать Предать
Сотрудничать C, C c, D
Предать D, c d, d
Каноническая матрица выигрышей ДЗ

Можно раскрыть скелет игры далее, абстрагировавшись от подтекста заключённых. Обобщённая форма игры часто используется в экспериментальной экономике. Следующие правила дают типичную реализацию игры.

  1. В игре — два игрока и банкир. Каждый игрок держит 2 карты: на одной написано «сотрудничать», на другой — «предать» (это стандартная терминология игры). Каждый игрок кладёт одну карту перед банкиром лицом вниз (то есть никто не знает чужого решения, хотя знание чужого решения не влияет на анализ доминирования[1]). Банкир открывает карты и выдаёт выигрыш.
  2. Если оба выбрали «сотрудничать», оба получают C. Если один выбрал «предать», другой «сотрудничать» — первый получает D, второй с. Если оба выбрали «предать» — оба получают d.
  3. Значения переменных C, D, c, d могут быть любого знака (в примере выше все меньше либо равны 0). Обязательно должно соблюдаться неравенство D > C > d > c, чтобы игра представляла собой ДЗ.
  4. Если игра повторяется, то есть играется больше 1 раза подряд, общий выигрыш от сотрудничества должен быть больше суммарного выигрыша в ситуации, когда один предаёт, а другой — нет, то есть 2C > D + c (объяснение см. ниже).

Эти правила были установлены Дугласом Хофштадтером и образуют каноническое описание типичной дилеммы заключённого.

Похожая, но другая игра

Хофштадтер[2] предположил, что люди проще понимают задачи, как задача ДЗ, если она представлена в виде отдельной игры или процесса торговли. Один из примеров — «обмен закрытыми сумками»:

Два человека встречаются и обмениваются закрытыми сумками, понимая, что одна из них содержит деньги, другая — товар. Каждый игрок может уважать сделку и положить в сумку то, о чём договорились, либо обмануть партнёра, дав пустую сумку.

В этой игре обман всегда будет наилучшим решением, означая также, что рациональные игроки никогда не будут играть в неё, и что рынок обмена закрытыми сумками будет отсутствовать.

В вариации, популярной у программистов и хакеров, каждый агент этой игры помнит предыдущие результаты (или имеет доступ к общественному мнению, «коллективной памяти»), и множество обменов повторяются длительное время.

Как отмечено выше, без памяти эта игра имеет мало смысла, она мало что объясняет в поведении систем и групп людей, кроме описания взаимодействий, которые не будут происходить. Сложностей вводится больше, чем можно ожидать. Программист (особенно специализирующийся на функциональном программировании) сразу поймёт значимость времени и состояния (памяти). Но и без написания программ можно предположить, как поведут себя агенты. Насколько велика память каждого агента? Какова стратегия каждого из них? Как агенты с разными стратегиями распределены и что определяет, кто с кем взаимодействует и в каком порядке?

Сложность создания какой-то многозначной модели может обескураживать, но она поднимает некоторые интересные и ценные технические и философские вопросы.

Проделана некоторая работа по моделированию этого. Разные программисты и математики утверждают, что стратегия «око за око» (см. ниже) — наилучшая общая стратегия, однако не было сделано серьёзных академических усилий, чтобы классифицировать разные типы и распределения обучающихся агентов с разными стратегиями.

О потенциале этой задачи свидетельствует тот факт, что в этой дискуссии ещё не упоминались возможность формировать коалиции и рядиться коллективно. А как насчёт агентов, которые бы за плату организовывали переговоры? Или агентов, которые бы накапливали информацию о самих сделках?

Примеры из реальной жизни

Примеры с заключёнными, карточной игрой и обменом закрытыми сумками могут показаться надуманными, но на самом деле есть множество примеров взаимодействия людей и животных, имеющие такую же матрицу выигрышей. Поэтому ДЗ представляет интерес социальным наукам, таким как экономика, политика и социология, а также разделам биологии — этологии и эволюционной биологии. Многие природные процессы были обобщены в модели, в которых живые существа участвуют в бесконечных играх типа дилеммы заключённого. Такая широкая применимость ДЗ придаёт этой игре значительную важность.

В политологии, к примеру, сценарий ДЗ часто используется для иллюстрации проблемы двух стран, вовлечённых в гонку вооружений. Обе будут заявлять, что у них есть две возможности: либо увеличить расходы на военные нужды, либо сокращать вооружения. Ни одна из сторон не может быть уверена, что другая будет соблюдать договорённость, следовательно, обе будут стремиться к военной экспансии. Это можно считать теоретическим объяснением политики устрашения. Похожие явления наблюдаются и в автоспорте — «Формула-1», где последние 20 лет происходит гонка бюджетов команд. Из-за этого число машин-участников сократилось с 36 в 1990 году до 20 в 2003.

В велогонках дилемма заключённого возникает, когда два сильных гонщика оторвались от общей группы. Каждый из них может либо предоставить соседу слипстрим («сотрудничать»), либо ехать сзади («предать»). Для обоих идеалом будет, когда они по очереди «висят» друг у друга на хвосте — но всегда есть желание не дать соседу слипстрима (тогда тот постепенно устаёт и «скатывается» в пелотон, а ты финишируешь с большим отрывом).

Случай дилеммы заключённого может быть найден в бизнесе. Две конкурирующие фирмы должны определиться, сколько средств тратить на рекламу. Эффективность рекламы и прибыль каждой фирмы уменьшается с ростом расходов на рекламу у конкурента. Обе фирмы принимают решение увеличить расходы на рекламу, при этом их доли рынка и, возможно, объёмы продаж остаются неизменными, а прибыль сокращается. Предел гонки рекламных бюджетов — прибыль, впрочем, они могут пытаться некоторое время работать и в убыток. Фирмы могут пойти на соглашение о сокращении расходов на рекламу, но всегда есть стимул его нарушить.

В олигополистических рынках ценовая политика — это повторяющаяся ДЗ. Обычно олигополисты сотрудничают друг с другом и не доводят ситуацию до «ценовой войны».

Уильям Паундстоун в книге о дилемме заключённого описывает ситуацию в Новой Зеландии, где газетные ящики оставляют открытыми. Газету можно взять, не заплатив за неё, но мало кто так делает, потому что большинство осознаёт вред, который был бы, если бы все воровали газеты. Поскольку ДЗ в чистом виде одновременна для всех игроков (никто не может повлиять на решения других), эта распространённая линия рассуждений называется «магическое мышление»[3].

Теоретическое заключение ДЗ — одна из причин, почему во многих странах сделка о признании вины запрещена. Часто сценарий ДЗ повторяется очень точно: в интересах обоих подозреваемых сознаться и свидетельствовать против другого подозреваемого, даже если оба невиновны. Возможно, наихудший случай — когда только один виноват, в этом случае невиновный вряд ли сознаётся в чём либо, а виновный пойдёт на это и даст показания против невиновного.

Многие дилеммы в реальной жизни включают множество игроков. Хотя и метафорическую, «трагедию общин» Ардена можно рассматривать как обобщение ДЗ для множества игроков. Каждый житель общины выбирает — пасти ли скот на общем пастбище и получить выгоду, истощая его ресурсы, либо ограничить свой доход. Коллективный результат от всеобщего (или частого) максимального использования пастбища — низкий доход (ведущий к разрушению общины). Однако такая игра не является формальной, поскольку может быть разбита на последовательность классических игр с 2 участниками.

Повторяющаяся дилемма заключённого

В книге «Эволюция кооперации» (1984) Роберт Аксельрод en:Robert Axelrod исследовал расширение сценария ДЗ, которое он назвал повторяющаяся дилемма заключённого (ПДЗ). В ней участники делают выбор снова раз за разом и помнят предыдущие результаты. Аксельрод пригласил академических коллег со всего мира, чтобы разработать компьютерные стратегии, чтобы соревноваться в чемпионате по ПДЗ. Программы, вошедшие в него различались по алгоритмической сложности, начальной враждебности, способности к прощению и так далее.

Аксельрод открыл, что если игра повторялась долго среди множества игроков, каждый с разными стратегиями, «жадные» стратегии давали плохие результаты в долгосрочном периоде, тогда как более «альтруистические» стратегии работали лучше, с точки зрения собственного интереса. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально чисто эгоистические, через естественный отбор.

Лучшей детерминистской стратегией оказалась «Око за око» (англ. Tit for Tat), которую разработал и выставил на чемпионат Анатолий Рапопорт. Она была простейшей из всех участвовавших программ, состояла всего из 4 строк кода на языке Бейсик. Стратегия проста: сотрудничать на первой итерации игры, после этого игрок делает то же самое, что делал оппонент на предыдущем шаге. Чуть лучше работает стратегия «Око за око с прощением». Когда оппонент предаёт, на следующем шаге игрок иногда в любом случае сотрудничает с небольшой вероятностью (1-5 %). Это позволяет случайным образом выйти из цикла взаимного предательства. Она лучше всего работает, когда в игру вводится недопонимание — когда решение одного игрока сообщается другому с ошибкой.

Анализируя стратегии, набравшие лучшие результаты, Аксельрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:

Добрая
важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми. Поэтому чисто эгоистичная стратегия по чисто эгоистическим причинам не будет первой «бить» соперника.
Мстительная
успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример немстительной стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
Прощающая
другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
Не завистливая
последнее качество — не быть завистливым, то есть не пытаться набрать больше очков, чем оппонент (что в принципе невозможно для «доброй» стратегии, то есть добрая стратегия никогда не может набрать больше очков, чем оппонент).

Таким образом, Аксельрод пришёл к утопично звучащему выводу, что эгоистичные индивиды во имя их же эгоистического блага будут стремиться быть добрыми и прощающими и не завистливыми.

Рассмотрим снова модель гонки вооружений. Был дан вывод, что единственная рациональная стратегия — вооружаться, даже если обе страны хотели бы тратить ВВП на масло, а не пушки[4] Интересно, что попытки продемонстрировать, что вывод ДЗ работает на практике (делая анализ «высоких» и «низких» военных расходов между периодами, на основе предположений ПДЗ), часто показывают, что такого поведения не происходит (например, греческие и турецкие военные расходы меняются не в соответствии со стратегией «око за око», а вероятнее всего следуют внутренней политике). Это может быть примером рационального поведения, отличающегося от одноразовой и многоходовой игр.

Если в одноходовой игре в любом случае доминирует стратегия предать, то в многоходовой оптимальная стратегия зависит от поведения других участников. К примеру, если среди населения все друг друга обманывают, а один ведёт себя по принципу «око за око», он оказывается в небольшом проигрыше из-за потери на первом ходе. В такой популяции оптимальная стратегия — всегда предавать. Если же число исповедующих принцип «око за око» больше, то результат уже зависит от их доли в обществе.

Определить оптимальную стратегию можно двумя путями:

  • Равновесие Байеса-Нэша: если определено статистическое распределение встречаемого поведения (например, 33 % «око за око», 33 % всегда обманывают и 33 % всегда сотрудничают), то стратегию можно вычислить математически[5]. Этим детально занимается теория эволюционной динамики.
  • По методу Монте-Карло делались симуляции популяций, где индивиды с низкими результатами вымирали, а с высокими воспроизводились (использовался генетический алгоритм поиска оптимальной эволюционно стабильной стратегии). Структура поведения в конечной популяции зависит от структуры в начале.

Хотя стратегия «око за око» считалась самой удачной простой стратегией, команда Университета Саутгемптона из Англии (под руководством профессора Николаса Дженнингса [1]) представила новую стратегию на 20-ю годовщину Чемпионата по ПДЗ. Эта стратегия оказалась более успешной, чем «око за око». Она основывалась на взаимодействии между программами, чтобы получить максимальный счёт для одной из них. Университет выставил на чемпионат 60 программ, которые распознавали друг друга по ряду действий на первых 5-10 ходах. Узнав другую, одна программа всегда сотрудничала, а другая предавала, что давало максимум очков предателю. Если программа понимала, что оппонент — не саутгемптонский, она дальше всё время предавала его, чтобы минимизировать результат соперника. В результате [6] эта стратегия заняла первые три места в соревновании, как и несколько мест подряд ниже.

Хотя эта эволюционно стабильная стратегия оказалась более эффективной в соревновании, это было достигнуто за счёт того, что в этом конкретном соревновании команда могла участвовать несколькими агентами. Если игрок может контролировать только одного агента, «око за око» оказывается лучшей. Она также соблюдает правило запрета на коммуникации между игроками. То, что саутгемптонские программы исполняли «ритуальный танец» в первые 10 ходов, чтобы узнать друг друга, только подтверждает, насколько важна коммуникация в сдвиге баланса игры.

Если ПДЗ играется ровно N раз (некая известная константа N), есть ещё один интересный факт. Равновесие Нэша — всегда предавать. Доказываем по индукции: если оба сотрудничают, на последнем ходу выгодно предать, тогда у соперника не будет возможности отомстить. Поэтому оба предадут друг друга на последнем ходу. Раз соперник предаст на последнем ходу в любом случае, любой игрок захочет предать на предпоследнем ходу, и так далее. Чтобы сотрудничество оставалось выгодным, необходимо, чтобы будущее было неопределённым для обоих игроков. Одно из решений — делать число N случайным и подсчитывать результаты по среднему выигрышу за ход.

Дилемма заключённого — фундаментальная для некоторых теорий о взаимодействии людей и доверии. Из предположения модели ДЗ, что транзакция между двумя людьми требует доверия, доверительное поведение в популяциях может быть смоделировано при помощи многоигроковой повторяющейся версии игры. Это годами вдохновляло многих учёных. В 1975 году Грофман и Пул оценивали число работ, посвящённых этой теме, в количестве около 2000.

Психология обучения и теория игр

Если игроки могут оценивать возможность предательства со стороны других игроков, на их поведение влияет опыт. Простая статистика показывает, что неопытные игроки обычно ведут себя чрезмерно хорошо или плохо. Если они всё время будут действовать так, то проиграют из-за своей излишней агрессивности или излишней доброты. С получением большего опыта они реальнее оценивают вероятность предательства и добиваются лучших результатов. Ранние розыгрыши сильнее влияют на неопытных игроков, чем более поздние на опытных. Это пример, почему ранний опыт имеет такое влияние на молодых, и почему они особенно уязвимы к немотивированной агрессии, иногда сами становясь такими же.

Можно уменьшить вероятность предательства в популяции при помощи сотрудничества в ранних играх, позволив укрепить доверие[7]. Следовательно самопожертвование может в некоторых ситуациях усилить моральный дух группы. Если группа маленькая, на позитивное поведение с большей вероятностью ответят взаимностью, что поощрит индивидов на дальнейшее сотрудничество. Это связано с ещё одной дилеммой, что хорошее отношение без причины — это потакание, которое может ухудшить моральные качества.

Эти процессы — главное поле интереса взаимного альтруизма, группового отбора, семейного отбора и этики.

Восточная философия

В боевых искусствах изучается даосская пословица, которая говорит, что:

  • Отвечать добром на добро — даёт добро
  • Отвечать злом на зло — даёт добро
  • Отвечать злом на добро — даёт зло
  • Отвечать добром на зло — даёт зло

Второе и четвёртое утверждения кажутся спорными, особенно с позиций христианства, но дилемма заключённого объясняет их. В древнем Китае «добро» и «зло» считались непреложными истинами (например, их нельзя поменять местами), таким образом, эту пословицу можно прочитать ещё и как «плюс на минус даёт минус». Есть усиленный вариант этой пословицы, где в двух последних строках получается «двойное зло».

Генетика

Теория естественного отбора долго не публиковалась, так как в неё не укладывался генетический альтруизм, то есть генетически вложенная в организм программа заботиться о себе подобных даже в ущерб себе[2]. Так называемый ген любви.

Примечания

  1. Подсказка, что, например, красный игрок собирается играть картой «сотрудничать» не меняет того факта, что «предать» является строго доминирующей стратегией. Если рассматривать только игру, возможность коммуникации не играет какой-либо роли. Однако если игра играется в реальной жизни, рассуждения, лежащие вне самой игры, могут привести к тому, что сотрудничество произойдёт. Это очень важный момент в выводах игры, что если нам не нужно принимать во внимание посторонние факторы, одноразовая ДЗ не меняется от коммуникации.
  2. Хофштадтер, Дуглас Глава 29 // Метамагические вопросы: в поиске сущности сознания и шаблона = Metamagical Themas: questing for the essence of mind and pattern. — Bantam Dell Pub Group, 1985. — ISBN 0-465-04566-9
  3. Будучи объяснением отсутствия мелкого воровства, магическое мышление объясняет добровольное голосование на выборах (когда неголосующий считается зайцем. В качестве альтернативы, это поведение может объясняться ожиданием будущих действий (и не требовать связи с «магическим мышлением»). Моделирование будущих действий требует добавление измерения времени, что делается в повторяющейся ДЗ (см. соответствующий подраздел этой статьи).
  4. В экономических учебниках кривая производственных возможностей иллюстрируется выбором между всего двумя товарами: маслом и пушками.
  5. Например см. исследование 2003 года «Равновесие Байеса-Нэша; статистический тест гипотезы»
  6. Результаты турнира по Дилемме заключённого 2004 (англ.) показывают, что команда Университета Саутгемптона заняла первые три места, хотя имела меньше выигрышей, чем стратегия GRIM (обратите внимание, в турнире нужно было выигрывать не отдельные матчи. Это достижимо и простым частым предательством). Следует заметить, что и без подразумеваемого сговора между стратегиями, которым злоупотребила саутгемптонская команда, «око за око» не всегда является абсолютным победителем любого соревнования. Точнее сказать, в долгосрочном периоде в ряде разных чемпионатов она покажет лучшие результаты, чем соперники. А в отдельно взятом чемпионате стратегию можно немного лучше подстроить к соревнованию, чем «око за око». То же самое относится и к ОЗО с прощением: в отдельно взятом соревновании она может проиграть специально заточенным стратегиям. Альтернативой является использование симуляции эволюции. В ней ОЗО придёт к доминированию, а злые стратегии будут от случая к случаю появляться и исчезать из популяции. Ричард Докинз показал, что нет статической комбинации стратегий, которая была бы стабильным равновесием, и система будет колебаться между границами.
  7. Аргумент о развитии сотрудничества через доверие приводится в книге «Мудрость толп» Джеймса Суровецки, где утверждается, что в долгосрочном периоде капитализм смог организоваться вокруг ядра квакеров, которые всегда работали честно со своими партнёрами (вместо того, чтобы обманывать и нарушать обещания — явление, которое останавливало более ранние долгосрочные добровольных международных контактов). Утверждается, что сделки с надёжными купцами позволили культуре честного поведения (сотрудничества) распространиться среди других торговцев, которые распространяли её дальше, пока не стало выгодно вообще быть честным.

См. также

Ссылки

Литература

(источники, названные в английской статье)

  • Axelrod, Robert and Hamilton, William D. (1981). «The Evolution of Cooperation». Science, 211 : 1390—1396.
  • Эволюция сотрудничества, Роберт Акселрод, Basic Books, ISBN 0-465-02121-2
  • Axelrod, Robert (1997). The Complexity of Cooperation. Princeton University Press. ISBN 0-691-01567-8.
  • Эгоистичный ген, Ричард Докинз (1990), второе издание — включает две главы об эволюции сотрудничества, ISBN 0-19-286092-5
  • Grofman and Pool (1975). «Bayesian Models for Iterated Prisoner’s Dilemma Games». General Systems 20 : 185—94.
  • Hardin, Garrett (1968). «The Tragedy of the Commons». Science, 162 : 1243—1248.
  • Kreps, David, Robert Wilson, Paul Milgrom, and John Roberts (1982). «Rational Cooperation in the Finitely Repeated Prisoners’ Dilemma.» Journal of Economic Theory 27(2) : 245—52.
  • Milgrom, Paul (1984). «Axelrod’s The Evolution of Cooperation.» Rand Journal of Economics 15(2) : 30—59.
  • Poundstone, William (1992). Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb. Doubleday. ISBN 0-385-41567-2. Обширное популярное введение, как отмечено в заголовке.
  • Rapoport, Anatol and Chammah, Albert M. (1965). Prisoner’s Dilemma. University of Michigan Press. Расчёт множества экспериментов, в которых игралась ДЗ.
  • Verhoeff, Tom (1998). «The Trader’s Dilemma: A Continuous Version of the Prisoner’s Dilemma». Computing Science Notes 93/02, Кафедра математики и вычислительных систем, Технический Университет Эйндховена, Нидерланды.
  • New Tack Wins Prisoner’s Dilemma (из Wired.com)

Wikimedia Foundation. 2010.

Парадокс заключённых — это… Что такое Парадокс заключённых?

Будут ли заключенные друг друга предавать, следуя своим эгоистическим интересам, или будут молчать, тем самым минимизируя общий срок?

В теории игр дилемма заключённого (реже употребляется название «дилемма бандита») — некооперативная игра, в которой игроки стремятся получить выгоду, сотрудничая друг с другом или предавая. Как во всей теории игр, предполагается, что игрок («заключённый») максимизирует свой собственный выигрыш, не заботясь о выгоде других.

В дилемме заключённого предательство строго доминирует над сотрудничеством, поэтому единственное возможное равновесие — предательство обоих участников. Проще говоря, неважно, что сделает другой игрок, каждый выиграет больше, если предаст. Поскольку в любой ситуации предать выгоднее, чем сотрудничать, все рациональные игроки выберут предательство.

Ведя себя по отдельности рационально, вместе участники приходят к нерациональному решению: если оба предадут, они получат в сумме меньший выигрыш, чем если бы сотрудничали (единственное равновесие в этой игре не ведёт к Парето-оптимальному решению). В этом и заключается дилемма.

В повторяющейся дилемме заключённого игра происходит периодически, и каждый игрок может «наказать» другого за несотрудничество ранее. В такой игре сотрудничество может стать равновесием, а стимул предать может перевешиваться угрозой наказания (с ростом числа итераций равновесие Нэша стремится к Парето-оптимуму).

Классическая дилемма заключённого

Во всех судебных системах кара за бандитизм (совершение преступлений в составе организованной группы) намного тяжелее, чем за те же преступления, совершённые в одиночку (отсюда альтернативное название — «дилемма бандита»).

Классическая формулировка дилеммы заключённого такова:

Двое преступников, А и Б, попались примерно в одно и то же время на сходных преступлениях. Есть основания полагать, что они действовали по сговору, и полиция, изолировав их друг от друга, предлагает им одну и ту же сделку: если один свидетельствует против другого, а тот хранит молчание, то первый освобождается за помощь следствию, а второй получает максимальный срок (10 лет). Если оба молчат, дело проходит по другой статье, и они приговариваются к 6 месяцам. Если оба свидетельствуют против друг друга, они получают минимальный срок (по 2 года). Каждый заключённый выбирает, молчать или свидетельствовать против другого. Однако ни один из них не знает точно, что сделает другой. Что произойдёт?

Игру можно представить в виде следующей таблицы:

Заключённый Б хранит молчание Заключённый Б даёт показания
Заключённый А хранит молчание Оба получают полгода. А получает 10 лет,
Б освобождается
Заключённый А даёт показания А освобождается,
Б получает 10 лет тюрьмы
Оба получают 2 года тюрьмы
«Дилемма заключённого» в нормальной форме.

Дилемма появляется, если предположить, что оба заботятся только о минимизации собственного срока заключения.

Представим рассуждения одного из заключённых. Если партнёр молчит, то лучше его предать и выйти на свободу (иначе — полгода тюрьмы). Если партнёр свидетельствует, то лучше тоже свидетельствовать против него, чтобы получить 2 года (иначе — 10 лет). Стратегия «свидетельствовать» строго доминирует над стратегией «молчать». Аналогично другой заключённый приходит к тому же выводу.

С точки зрения группы (этих двух заключённых) лучше всего сотрудничать друг с другом, хранить молчание и получить по полгода, так как это уменьшит суммарный срок заключения. Любое другое решение будет менее выгодным. Это очень наглядно демонстрирует, что в игре с ненулевой суммой Парето-оптимум может быть противоположным равновесию Нэша.

Обобщённая форма

Сотрудничать Предать
Сотрудничать C, C c, D
Предать D, c d, d
Каноническая матрица выигрышей ДЗ

Можно раскрыть скелет игры далее, абстрагировавшись от подтекста заключённых. Обобщённая форма игры часто используется в экспериментальной экономике. Следующие правила дают типичную реализацию игры.

  1. В игре — два игрока и банкир. Каждый игрок держит 2 карты: на одной написано «сотрудничать», на другой — «предать» (это стандартная терминология игры). Каждый игрок кладёт одну карту перед банкиром лицом вниз (то есть никто не знает чужого решения, хотя знание чужого решения не влияет на анализ доминирования[1]). Банкир открывает карты и выдаёт выигрыш.
  2. Если оба выбрали «сотрудничать», оба получают C. Если один выбрал «предать», другой «сотрудничать» — первый получает D, второй с. Если оба выбрали «предать» — оба получают d.
  3. Значения переменных C, D, c, d могут быть любого знака (в примере выше все меньше либо равны 0). Обязательно должно соблюдаться неравенство D > C > d > c, чтобы игра представляла собой ДЗ.
  4. Если игра повторяется, то есть играется больше 1 раза подряд, общий выигрыш от сотрудничества должен быть больше суммарного выигрыша в ситуации, когда один предаёт, а другой — нет, то есть 2C > D + c (объяснение см. ниже).

Эти правила были установлены Дугласом Хофштадтером и образуют каноническое описание типичной дилеммы заключённого.

Похожая, но другая игра

Хофштадтер[2] предположил, что люди проще понимают задачи, как задача ДЗ, если она представлена в виде отдельной игры или процесса торговли. Один из примеров — «обмен закрытыми сумками»:

Два человека встречаются и обмениваются закрытыми сумками, понимая, что одна из них содержит деньги, другая — товар. Каждый игрок может уважать сделку и положить в сумку то, о чём договорились, либо обмануть партнёра, дав пустую сумку.

В этой игре обман всегда будет наилучшим решением, означая также, что рациональные игроки никогда не будут играть в неё, и что рынок обмена закрытыми сумками будет отсутствовать.

В вариации, популярной у программистов и хакеров, каждый агент этой игры помнит предыдущие результаты (или имеет доступ к общественному мнению, «коллективной памяти»), и множество обменов повторяются длительное время.

Как отмечено выше, без памяти эта игра имеет мало смысла, она мало что объясняет в поведении систем и групп людей, кроме описания взаимодействий, которые не будут происходить. Сложностей вводится больше, чем можно ожидать. Программист (особенно специализирующийся на функциональном программировании) сразу поймёт значимость времени и состояния (памяти). Но и без написания программ можно предположить, как поведут себя агенты. Насколько велика память каждого агента? Какова стратегия каждого из них? Как агенты с разными стратегиями распределены и что определяет, кто с кем взаимодействует и в каком порядке?

Сложность создания какой-то многозначной модели может обескураживать, но она поднимает некоторые интересные и ценные технические и философские вопросы.

Проделана некоторая работа по моделированию этого. Разные программисты и математики утверждают, что стратегия «око за око» (см. ниже) — наилучшая общая стратегия, однако не было сделано серьёзных академических усилий, чтобы классифицировать разные типы и распределения обучающихся агентов с разными стратегиями.

О потенциале этой задачи свидетельствует тот факт, что в этой дискуссии ещё не упоминались возможность формировать коалиции и рядиться коллективно. А как насчёт агентов, которые бы за плату организовывали переговоры? Или агентов, которые бы накапливали информацию о самих сделках?

Примеры из реальной жизни

Примеры с заключёнными, карточной игрой и обменом закрытыми сумками могут показаться надуманными, но на самом деле есть множество примеров взаимодействия людей и животных, имеющие такую же матрицу выигрышей. Поэтому ДЗ представляет интерес социальным наукам, таким как экономика, политика и социология, а также разделам биологии — этологии и эволюционной биологии. Многие природные процессы были обобщены в модели, в которых живые существа участвуют в бесконечных играх типа дилеммы заключённого. Такая широкая применимость ДЗ придаёт этой игре значительную важность.

В политологии, к примеру, сценарий ДЗ часто используется для иллюстрации проблемы двух стран, вовлечённых в гонку вооружений. Обе будут заявлять, что у них есть две возможности: либо увеличить расходы на военные нужды, либо сокращать вооружения. Ни одна из сторон не может быть уверена, что другая будет соблюдать договорённость, следовательно, обе будут стремиться к военной экспансии. Это можно считать теоретическим объяснением политики устрашения. Похожие явления наблюдаются и в автоспорте — «Формула-1», где последние 20 лет происходит гонка бюджетов команд. Из-за этого число машин-участников сократилось с 36 в 1990 году до 20 в 2003.

В велогонках дилемма заключённого возникает, когда два сильных гонщика оторвались от общей группы. Каждый из них может либо предоставить соседу слипстрим («сотрудничать»), либо ехать сзади («предать»). Для обоих идеалом будет, когда они по очереди «висят» друг у друга на хвосте — но всегда есть желание не дать соседу слипстрима (тогда тот постепенно устаёт и «скатывается» в пелотон, а ты финишируешь с большим отрывом).

Случай дилеммы заключённого может быть найден в бизнесе. Две конкурирующие фирмы должны определиться, сколько средств тратить на рекламу. Эффективность рекламы и прибыль каждой фирмы уменьшается с ростом расходов на рекламу у конкурента. Обе фирмы принимают решение увеличить расходы на рекламу, при этом их доли рынка и, возможно, объёмы продаж остаются неизменными, а прибыль сокращается. Предел гонки рекламных бюджетов — прибыль, впрочем, они могут пытаться некоторое время работать и в убыток. Фирмы могут пойти на соглашение о сокращении расходов на рекламу, но всегда есть стимул его нарушить.

В олигополистических рынках ценовая политика — это повторяющаяся ДЗ. Обычно олигополисты сотрудничают друг с другом и не доводят ситуацию до «ценовой войны».

Уильям Паундстоун в книге о дилемме заключённого описывает ситуацию в Новой Зеландии, где газетные ящики оставляют открытыми. Газету можно взять, не заплатив за неё, но мало кто так делает, потому что большинство осознаёт вред, который был бы, если бы все воровали газеты. Поскольку ДЗ в чистом виде одновременна для всех игроков (никто не может повлиять на решения других), эта распространённая линия рассуждений называется «магическое мышление»[3].

Теоретическое заключение ДЗ — одна из причин, почему во многих странах сделка о признании вины запрещена. Часто сценарий ДЗ повторяется очень точно: в интересах обоих подозреваемых сознаться и свидетельствовать против другого подозреваемого, даже если оба невиновны. Возможно, наихудший случай — когда только один виноват, в этом случае невиновный вряд ли сознаётся в чём либо, а виновный пойдёт на это и даст показания против невиновного.

Многие дилеммы в реальной жизни включают множество игроков. Хотя и метафорическую, «трагедию общин» Ардена можно рассматривать как обобщение ДЗ для множества игроков. Каждый житель общины выбирает — пасти ли скот на общем пастбище и получить выгоду, истощая его ресурсы, либо ограничить свой доход. Коллективный результат от всеобщего (или частого) максимального использования пастбища — низкий доход (ведущий к разрушению общины). Однако такая игра не является формальной, поскольку может быть разбита на последовательность классических игр с 2 участниками.

Повторяющаяся дилемма заключённого

В книге «Эволюция кооперации» (1984) Роберт Аксельрод en:Robert Axelrod исследовал расширение сценария ДЗ, которое он назвал повторяющаяся дилемма заключённого (ПДЗ). В ней участники делают выбор снова раз за разом и помнят предыдущие результаты. Аксельрод пригласил академических коллег со всего мира, чтобы разработать компьютерные стратегии, чтобы соревноваться в чемпионате по ПДЗ. Программы, вошедшие в него различались по алгоритмической сложности, начальной враждебности, способности к прощению и так далее.

Аксельрод открыл, что если игра повторялась долго среди множества игроков, каждый с разными стратегиями, «жадные» стратегии давали плохие результаты в долгосрочном периоде, тогда как более «альтруистические» стратегии работали лучше, с точки зрения собственного интереса. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально чисто эгоистические, через естественный отбор.

Лучшей детерминистской стратегией оказалась «Око за око» (англ. Tit for Tat), которую разработал и выставил на чемпионат Анатолий Рапопорт. Она была простейшей из всех участвовавших программ, состояла всего из 4 строк кода на языке Бейсик. Стратегия проста: сотрудничать на первой итерации игры, после этого игрок делает то же самое, что делал оппонент на предыдущем шаге. Чуть лучше работает стратегия «Око за око с прощением». Когда оппонент предаёт, на следующем шаге игрок иногда в любом случае сотрудничает с небольшой вероятностью (1-5 %). Это позволяет случайным образом выйти из цикла взаимного предательства. Она лучше всего работает, когда в игру вводится недопонимание — когда решение одного игрока сообщается другому с ошибкой.

Анализируя стратегии, набравшие лучшие результаты, Аксельрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:

Добрая
важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми. Поэтому чисто эгоистичная стратегия по чисто эгоистическим причинам не будет первой «бить» соперника.
Мстительная
успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример немстительной стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
Прощающая
другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
Не завистливая
последнее качество — не быть завистливым, то есть не пытаться набрать больше очков, чем оппонент (что в принципе невозможно для «доброй» стратегии, то есть добрая стратегия никогда не может набрать больше очков, чем оппонент).

Таким образом, Аксельрод пришёл к утопично звучащему выводу, что эгоистичные индивиды во имя их же эгоистического блага будут стремиться быть добрыми и прощающими и не завистливыми.

Рассмотрим снова модель гонки вооружений. Был дан вывод, что единственная рациональная стратегия — вооружаться, даже если обе страны хотели бы тратить ВВП на масло, а не пушки[4] Интересно, что попытки продемонстрировать, что вывод ДЗ работает на практике (делая анализ «высоких» и «низких» военных расходов между периодами, на основе предположений ПДЗ), часто показывают, что такого поведения не происходит (например, греческие и турецкие военные расходы меняются не в соответствии со стратегией «око за око», а вероятнее всего следуют внутренней политике). Это может быть примером рационального поведения, отличающегося от одноразовой и многоходовой игр.

Если в одноходовой игре в любом случае доминирует стратегия предать, то в многоходовой оптимальная стратегия зависит от поведения других участников. К примеру, если среди населения все друг друга обманывают, а один ведёт себя по принципу «око за око», он оказывается в небольшом проигрыше из-за потери на первом ходе. В такой популяции оптимальная стратегия — всегда предавать. Если же число исповедующих принцип «око за око» больше, то результат уже зависит от их доли в обществе.

Определить оптимальную стратегию можно двумя путями:

  • Равновесие Байеса-Нэша: если определено статистическое распределение встречаемого поведения (например, 33 % «око за око», 33 % всегда обманывают и 33 % всегда сотрудничают), то стратегию можно вычислить математически[5]. Этим детально занимается теория эволюционной динамики.
  • По методу Монте-Карло делались симуляции популяций, где индивиды с низкими результатами вымирали, а с высокими воспроизводились (использовался генетический алгоритм поиска оптимальной эволюционно стабильной стратегии). Структура поведения в конечной популяции зависит от структуры в начале.

Хотя стратегия «око за око» считалась самой удачной простой стратегией, команда Университета Саутгемптона из Англии (под руководством профессора Николаса Дженнингса [1]) представила новую стратегию на 20-ю годовщину Чемпионата по ПДЗ. Эта стратегия оказалась более успешной, чем «око за око». Она основывалась на взаимодействии между программами, чтобы получить максимальный счёт для одной из них. Университет выставил на чемпионат 60 программ, которые распознавали друг друга по ряду действий на первых 5-10 ходах. Узнав другую, одна программа всегда сотрудничала, а другая предавала, что давало максимум очков предателю. Если программа понимала, что оппонент — не саутгемптонский, она дальше всё время предавала его, чтобы минимизировать результат соперника. В результате [6] эта стратегия заняла первые три места в соревновании, как и несколько мест подряд ниже.

Хотя эта эволюционно стабильная стратегия оказалась более эффективной в соревновании, это было достигнуто за счёт того, что в этом конкретном соревновании команда могла участвовать несколькими агентами. Если игрок может контролировать только одного агента, «око за око» оказывается лучшей. Она также соблюдает правило запрета на коммуникации между игроками. То, что саутгемптонские программы исполняли «ритуальный танец» в первые 10 ходов, чтобы узнать друг друга, только подтверждает, насколько важна коммуникация в сдвиге баланса игры.

Если ПДЗ играется ровно N раз (некая известная константа N), есть ещё один интересный факт. Равновесие Нэша — всегда предавать. Доказываем по индукции: если оба сотрудничают, на последнем ходу выгодно предать, тогда у соперника не будет возможности отомстить. Поэтому оба предадут друг друга на последнем ходу. Раз соперник предаст на последнем ходу в любом случае, любой игрок захочет предать на предпоследнем ходу, и так далее. Чтобы сотрудничество оставалось выгодным, необходимо, чтобы будущее было неопределённым для обоих игроков. Одно из решений — делать число N случайным и подсчитывать результаты по среднему выигрышу за ход.

Дилемма заключённого — фундаментальная для некоторых теорий о взаимодействии людей и доверии. Из предположения модели ДЗ, что транзакция между двумя людьми требует доверия, доверительное поведение в популяциях может быть смоделировано при помощи многоигроковой повторяющейся версии игры. Это годами вдохновляло многих учёных. В 1975 году Грофман и Пул оценивали число работ, посвящённых этой теме, в количестве около 2000.

Психология обучения и теория игр

Если игроки могут оценивать возможность предательства со стороны других игроков, на их поведение влияет опыт. Простая статистика показывает, что неопытные игроки обычно ведут себя чрезмерно хорошо или плохо. Если они всё время будут действовать так, то проиграют из-за своей излишней агрессивности или излишней доброты. С получением большего опыта они реальнее оценивают вероятность предательства и добиваются лучших результатов. Ранние розыгрыши сильнее влияют на неопытных игроков, чем более поздние на опытных. Это пример, почему ранний опыт имеет такое влияние на молодых, и почему они особенно уязвимы к немотивированной агрессии, иногда сами становясь такими же.

Можно уменьшить вероятность предательства в популяции при помощи сотрудничества в ранних играх, позволив укрепить доверие[7]. Следовательно самопожертвование может в некоторых ситуациях усилить моральный дух группы. Если группа маленькая, на позитивное поведение с большей вероятностью ответят взаимностью, что поощрит индивидов на дальнейшее сотрудничество. Это связано с ещё одной дилеммой, что хорошее отношение без причины — это потакание, которое может ухудшить моральные качества.

Эти процессы — главное поле интереса взаимного альтруизма, группового отбора, семейного отбора и этики.

Восточная философия

В боевых искусствах изучается даосская пословица, которая говорит, что:

  • Отвечать добром на добро — даёт добро
  • Отвечать злом на зло — даёт добро
  • Отвечать злом на добро — даёт зло
  • Отвечать добром на зло — даёт зло

Второе и четвёртое утверждения кажутся спорными, особенно с позиций христианства, но дилемма заключённого объясняет их. В древнем Китае «добро» и «зло» считались непреложными истинами (например, их нельзя поменять местами), таким образом, эту пословицу можно прочитать ещё и как «плюс на минус даёт минус». Есть усиленный вариант этой пословицы, где в двух последних строках получается «двойное зло».

Генетика

Теория естественного отбора долго не публиковалась, так как в неё не укладывался генетический альтруизм, то есть генетически вложенная в организм программа заботиться о себе подобных даже в ущерб себе[2]. Так называемый ген любви.

Примечания

  1. Подсказка, что, например, красный игрок собирается играть картой «сотрудничать» не меняет того факта, что «предать» является строго доминирующей стратегией. Если рассматривать только игру, возможность коммуникации не играет какой-либо роли. Однако если игра играется в реальной жизни, рассуждения, лежащие вне самой игры, могут привести к тому, что сотрудничество произойдёт. Это очень важный момент в выводах игры, что если нам не нужно принимать во внимание посторонние факторы, одноразовая ДЗ не меняется от коммуникации.
  2. Хофштадтер, Дуглас Глава 29 // Метамагические вопросы: в поиске сущности сознания и шаблона = Metamagical Themas: questing for the essence of mind and pattern. — Bantam Dell Pub Group, 1985. — ISBN 0-465-04566-9
  3. Будучи объяснением отсутствия мелкого воровства, магическое мышление объясняет добровольное голосование на выборах (когда неголосующий считается зайцем. В качестве альтернативы, это поведение может объясняться ожиданием будущих действий (и не требовать связи с «магическим мышлением»). Моделирование будущих действий требует добавление измерения времени, что делается в повторяющейся ДЗ (см. соответствующий подраздел этой статьи).
  4. В экономических учебниках кривая производственных возможностей иллюстрируется выбором между всего двумя товарами: маслом и пушками.
  5. Например см. исследование 2003 года «Равновесие Байеса-Нэша; статистический тест гипотезы»
  6. Результаты турнира по Дилемме заключённого 2004 (англ.) показывают, что команда Университета Саутгемптона заняла первые три места, хотя имела меньше выигрышей, чем стратегия GRIM (обратите внимание, в турнире нужно было выигрывать не отдельные матчи. Это достижимо и простым частым предательством). Следует заметить, что и без подразумеваемого сговора между стратегиями, которым злоупотребила саутгемптонская команда, «око за око» не всегда является абсолютным победителем любого соревнования. Точнее сказать, в долгосрочном периоде в ряде разных чемпионатов она покажет лучшие результаты, чем соперники. А в отдельно взятом чемпионате стратегию можно немного лучше подстроить к соревнованию, чем «око за око». То же самое относится и к ОЗО с прощением: в отдельно взятом соревновании она может проиграть специально заточенным стратегиям. Альтернативой является использование симуляции эволюции. В ней ОЗО придёт к доминированию, а злые стратегии будут от случая к случаю появляться и исчезать из популяции. Ричард Докинз показал, что нет статической комбинации стратегий, которая была бы стабильным равновесием, и система будет колебаться между границами.
  7. Аргумент о развитии сотрудничества через доверие приводится в книге «Мудрость толп» Джеймса Суровецки, где утверждается, что в долгосрочном периоде капитализм смог организоваться вокруг ядра квакеров, которые всегда работали честно со своими партнёрами (вместо того, чтобы обманывать и нарушать обещания — явление, которое останавливало более ранние долгосрочные добровольных международных контактов). Утверждается, что сделки с надёжными купцами позволили культуре честного поведения (сотрудничества) распространиться среди других торговцев, которые распространяли её дальше, пока не стало выгодно вообще быть честным.

См. также

Ссылки

Литература

(источники, названные в английской статье)

  • Axelrod, Robert and Hamilton, William D. (1981). «The Evolution of Cooperation». Science, 211 : 1390—1396.
  • Эволюция сотрудничества, Роберт Акселрод, Basic Books, ISBN 0-465-02121-2
  • Axelrod, Robert (1997). The Complexity of Cooperation. Princeton University Press. ISBN 0-691-01567-8.
  • Эгоистичный ген, Ричард Докинз (1990), второе издание — включает две главы об эволюции сотрудничества, ISBN 0-19-286092-5
  • Grofman and Pool (1975). «Bayesian Models for Iterated Prisoner’s Dilemma Games». General Systems 20 : 185—94.
  • Hardin, Garrett (1968). «The Tragedy of the Commons». Science, 162 : 1243—1248.
  • Kreps, David, Robert Wilson, Paul Milgrom, and John Roberts (1982). «Rational Cooperation in the Finitely Repeated Prisoners’ Dilemma.» Journal of Economic Theory 27(2) : 245—52.
  • Milgrom, Paul (1984). «Axelrod’s The Evolution of Cooperation.» Rand Journal of Economics 15(2) : 30—59.
  • Poundstone, William (1992). Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb. Doubleday. ISBN 0-385-41567-2. Обширное популярное введение, как отмечено в заголовке.
  • Rapoport, Anatol and Chammah, Albert M. (1965). Prisoner’s Dilemma. University of Michigan Press. Расчёт множества экспериментов, в которых игралась ДЗ.
  • Verhoeff, Tom (1998). «The Trader’s Dilemma: A Continuous Version of the Prisoner’s Dilemma». Computing Science Notes 93/02, Кафедра математики и вычислительных систем, Технический Университет Эйндховена, Нидерланды.
  • New Tack Wins Prisoner’s Dilemma (из Wired.com)

Wikimedia Foundation. 2010.

Парадокс заключенного — … — LiveJournal

Это парадокс также называется «парадокс узника», «парадокс неожиданной казни». Есть еще «дилемма бандита» или «дилема заключенного» — совсем другой парадокс, где фигурируют два заключенных, которым надо как-то кооперироваться или нет.

Автор парадокса мне неизвестен. Постараюсь пересказать его покороче:

В воскресенье судья вынес преступнику такой приговор:
— Тебя казнят в один из семи дней следующей недели (с понедельника по воскресенье), но когда именно это случится, ты узнаешь только утром в день казни.
На что преступник ответил:
— Если бы мне объявили о казни утром в воскресенье, тогда я бы знал о казни уже в субботу днем — после того, как не дождался бы уведомления в субботу утром. Таким образом, казнь не может быть исполнена в воскресенье, и суббота — последний возможный день. Но, если бы мне объявили о казни утром в субботу, тогда я бы знал о казни уже в пятницу днем — после того, как не дождался бы уведомления в пятницу утром. Таким образом, казнь не может быть исполнена и в субботу, и последним возможным днем оказывается пятница. Рассуждая далее, я исключаю четверг, среду, вторник. Но тогда получается, что казнь состоится завтра, в понедельник, но я о ней узнал уже сейчас, в воскресенье. Выходит, вы меня не казните.

Как обычно для парадоксов, выраженных в форме текста, есть много вариантов. Например, в финале преступник может потребовать освобождения. Или же он только заявляет, что приговор невозможно исполнить. Или же он делает вывод, что его не казнят, а в среду утром является палач, что для заключенного становится полной неожиданностью. В результате приговор оказывается исполненным, ведь до утра среды он был уверен, что его не казнят.

Здесь есть большая опасность погрязнуть в обсуждении вариантов и деталей. Чтобы этого не произошло, я нарушу традиционную последовательность рассмотрения этого парадокса и начну сразу с решения, затем поясню, чем это решение интересно, и только затем рассмотрю «вариации на тему» в свете этого решения.

Схема казни такова. В понедельник утром палач бросает жребий, выпадает один из семи дней: от понедельника до воскресенья включительно. В этот день утром он приходит к преступнику и заявляет, что сейчас же его и казнит. После чего в самом деле казнит. А до того утра никто не говорит преступнику о дне казни и не дает никаких дополнительных намеков.

Знает ли преступник описанную выше схему казни? Предположим, что знает. Тогда, если выпадет воскресенье, то уже в субботу днем он будет знать, когда его казнят. Таким образом, приговор будет исполнен лишь частично: обещание «Тебя казнят в один из семи дней следующей недели (с понедельника по воскресенье)» будет исполнено, а обещание «когда именно это случится, ты узнаешь только утром в день казни» — не будет. Если же жребий выпадет на другой день, то оба обещания будут исполнены.

Таким образом, приговор будет исполнен в 6 случаях из 7, а в 1 случае из 7 будет исполнен лишь отчасти. Другими словами, шанс точного исполнения приговора равен 6/7.

Это не истина и не ложь, а нечто среднее — тот самый случай, когда двузначная логика подходит плохо.

Кое-какие дополнительные моменты рассмотрены на сайте (Полный текст здесь)

Повод — очередное обсуждение парадокса у Кактуса77.

Математики построили модель сотрудничества «заключённых»


Иллюстрация. Модель сотрудничества заключённых. Дизайнер — Елена Хавина, пресс-служба МФТИ

Международной группе исследователей из МФТИ, Сколтеха, ТГУ и Орегонского университета удалось теоретически описать сильные отклонения участников от рационального поведения в «Дилемме Заключённого» — известной стратегической игре из теории игр. После знакомства и недолгого общения участников лабораторных экспериментов уровень их кооперации повысился со стандартных 20% до более чем 50%. Результат был опубликован в журнале PLOS ONE.

Теория игр — это наука о принятии решений, математический метод изучения оптимальных стратегий в играх, где игроки обладают разными интересами и могут действовать нерационально. Её методики активно используются в экономике, политологии, психологии и многих других социальных сферах жизни.

В исследовании применялись методы экспериментальной экономики. Она позволяет выявлять модели поведения людей в определённых социально-экономических ситуациях, понимать влияние одних событий и факторов на другие, прослеживать логику принятия решения в различных экономических областях.

Чтобы проанализировать социальные характеристики поведения людей во время игрового взаимодействия в группах от 4 до 12 человек, учёные в течение трёх лет проводили эксперименты в лаборатории экспериментальной экономики МФТИ совместно со Сколтехом. Исследователи изучали индивидуальные процессы принятия решения при различных условиях, а также влияние социальных факторов, психологии и физиологии. В опубликованной работе представлены результаты восьми экспериментов, в каждом из которых принимало участие 12 игроков. Всего было задействовано 96 человек: 59 мужчин и 37 женщин.

Студенты МФТИ, которые принимали участие в экспериментах, изначально были незнакомы и вначале действовали по стандартной схеме выбора стратегий в игре «Дилемма Заключённого». Её суть заключалась в том, что участникам предлагалось анонимно взаимодействовать друг с другом посредством двух действий: кооперировать (К) или предавать (П). По правилам игры, если один игрок выбирает «К», а другой «П», предатель получает 10 очков, а кооператор — 0 очков. Если оба игрока выбирают «К», каждому достается по 5 очков, если «П» — каждый получает всего по 1 очку. Зная правила, можно понять, что кооперироваться выгодно, хотя с точки зрения математики рациональнее выбирать предательство. Именно эта ситуация является в данной игре равновесием по Нэшу, то есть математически верной стратегией, названной именем автора, — знаменитого нобелевского лауреата Джона Форбса Нэша. Отклонение от равновесия Нэша не приводит к увеличению выигрыша, если другие участники игры своих стратегий не меняют. В начале игры уровень кооперации в группах составил в среднем 21%, то есть участники скорее выбирали рациональную стратегию предательства. Но после знакомства и «социализации» средний уровень кооперации увеличился до 53% и выше, то есть в среднем участники скорее отклонялись от равновесия Нэша, чем придерживались рациональной стратегии.

Расчёты учёных показали, что поведение участников до социализации может быть описано с помощью модели Quantal Response Equilibrium (QRE). Концепция QRE возникла на стыке теории игр и экспериментальной экономики для объяснения наблюдаемого поведения участников лабораторных экспериментов в тех случаях, когда оно отличается от равновесия Нэша. Эта модель хорошо соответствовала практике для порядка 20% процентов отклонений. Но оказалось, что стандартный подход QRE не может применяться для описания поведения участников после социализации, потому что отклонений участников от равновесия Нэша в этом случае становится слишком много — больше половины, то есть их уже нельзя считать случайными ошибками, как это делается в традиционной модели.

Поэтому математики решили применить марковские стратегии для теоретического обоснования полученных экспериментальных данных. Учёные построили и проанализировали модель повторяющейся игры «Дилемма Заключённого». Каждый участник мог реагировать только на то, какую стратегию (кооперировать или предавать) реализовал его случайный анонимный партнёр ход назад. Анализируя эту информацию, он делал выбор стратегии на текущем ходе. Такой подход, названный в честь автора, — русского математика Андрея Маркова — в итоге позволил получить игру в нормальной форме: то есть состоящей из множества игроков, множества чистых стратегий и множества действий каждого игрока. Также удалось показать, что выигрыши нелинейно зависят от вероятностей поведения игроков. Учёные нашли в явном виде семейство внутренних симметричных равновесий Нэша: набор оптимальных стратегий, одинаковый для обоих партнёров и зависящий только от вероятностей поведения игроков.

Таким образом, учёным удалось построить теоретическую модель, позволяющую описывать преобладание выбора кооперативных стратегий в повторяющейся игре «Дилемма Заключенного» и соответствующую экспериментальным данным.

Иван Меньшиков, доцент кафедры анализа систем и решений МФТИ, поясняет: «Парадокс индивидуальной рациональности разбирается на примере „Дилеммы Заключённого“ уже на первой лекции практически любого курса по теории игр. Тем не менее, эта игра в чём-то сложнее шахмат: применение каждым участником своей наилучшей стратегии приводит к плохому исходу для всех. Нам удалось полностью исследовать повторяющуюся „Дилемму Заключённого“ в марковских стратегиях. Более того, нам повезло ещё раз. Оказалась, что поведение участников экспериментов приближается к теоретическим равновесным положениям, найденных нами, причём при разных уровнях социализации. Ещё один удивительный пример того, как математическая модель рождается из анализа поведения людей».

По словам учёных, остаются открытыми вопросы теоретического обоснования результатов таких игр, как «Игра на доверие» и «Игра-ультиматум», экспериментальные данные которых не соответствуют известным теоретическим игровым моделям в рамках исследования влияния социального взаимодействия.

Исследование было поддержано Программой повышения конкурентоспособности Томского государственного университета.

Парадокс заключенных — The New York Times

Задача этой недели была предложена Грегом Россом, создателем и куратором Futility Closet, онлайн-сборника разнообразных развлечений. Головоломка взята из первого из двух его одноименных книжных сборников секретных мелочей, которые мне довелось недавно снять с книжной полки и полностью пустить под откос вечером. Попробуем —

Парадокс заключенных

Трое осужденных делят одну камеру. Приходит охранник и сообщает им, что один из них помилован.

«Что это?» они спрашивают.

«Я не могу вам этого сказать», — говорит охранник. «Я не могу предсказать заключенному его судьбу».

Заключенный А отводит охранника в сторону. «Смотрите, — говорит он. «Из нас троих помилован только один. Это значит, что один из моих сокамерников все равно обязательно умрет. Назови мне его имя. Таким образом, вы не рассказываете мне о моей судьбе и не опознаете помилованного».

Охранник думает об этом и говорит ему: «Заключенный Б обязательно умрет».

Заключенный А радуется тому, что его собственные шансы на выживание увеличились с 1/3 до 1/2.Но как это возможно? Охранник не дал ему никакой новой информации. Или он?

На этом испытание этой недели завершено. Я также попросил Грега немного рассказать о том, где он нашел головоломку, и рассказать нам о состоянии The Closet с тех пор, как он в последний раз делился с нами задачей еще в 2014 году (на случай, если вы пропустили: Making Way ) . Вот Грег:

Кажется, я впервые увидел Парадокс заключенных в книге Фредерика Мостеллера «Пятьдесят сложных задач на вероятность », хотя позже я обнаружил, что Мартин Гарднер писал об этом еще в 1959 году.Это двоюродный брат нескольких других математических парадоксов; Что мне нравится в этом сеттинге, так это то, что он мягко сбивает читателя с толку, а не сбивает его с толку триумфально нелогичным решением. Последнее, на мой взгляд, на самом деле контрпродуктивно: оно заставляет людей копаться в себе и защищать свои (ошибочные) интуиции, вместо того чтобы держать свой разум открытым и следовать разуму, куда он ведет. А сделать это уже достаточно сложно!

Шкаф бесполезности продолжает нестись. Я не нашел времени сделать третью книгу, хотя подумывал издать сборник непонятных слов («супплозия» — «топанье ногами»).Больше всего в эти дни мы заняты подкастом о причудливой истории — мы выпускаем новую серию каждый понедельник. Это невероятно весело, но исследование может занять невероятно много времени. Одной из историй, которая может понравиться читателям Numberplay, является Эпизод 103 о так называемом счете Индианы на число «пи» — в 1897 году эксцентричный врач представил в законодательный орган Индианы законопроект, в котором утверждалось, что он возвел круг в квадрат. Я просмотрел исходные записи и все комментарии, сделанные к ним различными историками математики, и это было увлекательно.Хорошо, что они не приняли законопроект — я полагаю, он мог бы уничтожить вселенную!

Спасибо, Грег!

Мы завершаем математическую эстетику Хамида Надери Йегане, иранского художника и периодического автора Numberplay. Я спросил Хамида о том, что его вдохновило на переплетенный дизайн, и он сказал, что это «красота цветущих цветов». Объясняя свой процесс, он добавил, что «должен перепробовать множество уравнений, чтобы получить много хороших результатов. Я должен определить три параметра для каждого круга: (1) центр, (2) радиус и (3) цвет.Обычно я использую функции синуса и косинуса, чтобы определить эти параметры».

Credit…Hamid Naderi Yeganeh

Решение

Вернитесь в пятницу, чтобы найти решение и резюме от Грега Росса.

Дилемма заключенного — Обзор, сценарии, стратегии

Что такое дилемма заключенного?

Дилемма заключенного — это парадокс теории игр и принятия решений, показывающий, что два рациональных человека, принимающих решения в собственных интересах, не могут привести к оптимальному решению.Парадокс был разработан математиками М. Фладом и М. Дрешером в 1950 году, а современная интерпретация была сформулирована канадским математиком А.В. Такер.

Дилемма заключенного может быть выражена как подход, при котором отдельные стороны добиваются своего благополучия за счет другой стороны. Как правило, поскольку оба участника избегают сотрудничества в процессе принятия решений, они оказываются в гораздо худшем положении.

 

 

В теории дилеммы заключенного ответственность за выбор сотрудничества или отказа лежит на обеих сторонах.Любая из сторон имеет возможность отказаться, несмотря на выбор другой стороны. Исходы дилеммы заключенного либо полезны, либо вредны для общества. Чтобы сделать лучший экономический выбор, необходимо сотрудничество между людьми.

 

Резюме
  • Дилемма заключенного представляет собой сценарий, в котором лица, принимающие решения, применяют стимул, который приводит к менее чем оптимальному результату.
  • Люди могут выбирать между различными способами преодоления дилеммы заключенного и добиваться превосходных комбинированных результатов, несмотря на неблагоприятные стимулы.
  • Оптимальное вознаграждение для каждого человека достигается, когда обе стороны соглашаются работать вместе.

 

Сценарий «Дилемма заключенного»

Представьте, что полиция арестовала двух подозреваемых в совершении преступления. Оба подозреваемых содержатся в разных камерах и не могут общаться друг с другом. Полицейский предлагает обоим подозреваемым возможность либо промолчать, либо обвинить другого подозреваемого. Если оба подозреваемых будут хранить молчание, они оба отсидят всего по одному году тюрьмы.Если они оба будут обвинять друг друга, то оба получат по три года тюрьмы.

Если один из подозреваемых обвиняет другого, а другой хранит молчание, то подозреваемый, который промолчал, будет приговорен к пяти годам тюрьмы, а другой подозреваемый будет освобожден. В таблице ниже показаны возможные выплаты:

 

 

Узнайте больше из курса CFI «Основы поведенческих финансов»!

 

Объяснение дилеммы заключенного

В такой обстановке оба подозреваемых не знают решения, выбранного другим подозреваемым.Поэтому наиболее рациональным решением с точки зрения личных интересов является обвинение другого подозреваемого.

Например, подозреваемый А боится молчать, потому что в таком случае он может получить пять лет тюрьмы, если подозреваемый Б обвинит его. Если подозреваемый А решит обвинить подозреваемого Б, он может быть освобожден, если подозреваемый Б будет хранить молчание. Однако это маловероятно, потому что подозреваемый Б использует то же обоснование, и он также собирается обвинить подозреваемого А. стороны действуют в своих интересах.С другой стороны, решение обвинить другого подозреваемого является рациональным решением с этой точки зрения и обеспечивает равновесие Нэша, несмотря на худший выигрыш. Узнайте, как подобные сценарии влияют на поведение рынка, на курсе CFI по основам поведенческих финансов.

 

Как избежать дилеммы заключенного

Люди могут использовать различные формальные подходы для изменения стимулов, с которыми сталкиваются лица, принимающие решения. Такие стратегии, как совместные усилия по обеспечению соблюдения совместных мер с помощью законов, демократического принятия решений, правил и четких карательных мер за дезертирство, могут помочь превратить многочисленные дилеммы заключенных в положительные результаты.

Благоприятный исход возможен, потому что сотрудничество дает лучшие результаты, чем предательство. Однако это не может быть рациональным результатом, поскольку решение о сотрудничестве с индивидуальной точки зрения иррационально.

Однако некоторые стороны с течением времени пользуются преимуществами как поведенческой, так и психологической пристрастности, например, долгосрочных взаимодействий под влиянием повторяющихся обязательств, высокого уровня доверия между людьми и аналогичного кооперативного поведения либо в направлении отрицательной взаимности отказа, либо положительной взаимности сотрудничества .

Вышеупомянутые идеологии могут развиваться со временем в группе конкурирующих участников. Как правило, они иррационально влияют на людей, заставляя их выбирать результаты, которые в совокупности приносят максимальную пользу обществу.

 

Дополнительные ресурсы

Благодарим вас за то, что вы прочитали объяснение дилеммы заключенного от CFI. Чтобы продолжать учиться и развивать свою базу знаний, пожалуйста, изучите дополнительные соответствующие ресурсы CFI ниже:

  • Групповое мышлениеГрупповое мышлениеГрупповое мышление — это термин, разработанный социальным психологом Ирвингом Дженисом в 1972 году для описания ошибочных решений, принятых группой из-за группового давления.Групповое мышление — это явление, при котором способы решения проблем или вопросов определяются консенсусом группы, а не отдельными лицами, действующими независимо.
  • Межличностный интеллектМежличностный интеллектМежличностный интеллект относится к способности человека хорошо взаимодействовать с людьми и управлять отношениями. Это позволяет людям понять потребности
  • Теория игрТеория игрТеория игр представляет собой математическую основу, разработанную для решения проблем с конфликтующими или сотрудничающими сторонами, которые способны принимать рациональные решения.
  • Личный брендПерсональный брендНаш личный бренд — это то, что люди считают нашей личностью, кем они видят нас и какие качества и вещи они ассоциируют с нами. Он показывает

Всегда ли сотрудничество является правильным ответом?

В этом классическом эксперименте по теории игр вы должны решить: сдать другого ради личной выгоды или сотрудничать? Ответ может быть сложнее, чем вы думаете.

***

Что нужно, чтобы заставить людей сотрудничать друг с другом, когда стимулы действовать в первую очередь из личных интересов часто так сильны?

Дилемма заключенного — это мысленный эксперимент, основанный на теории игр.Разработанный для анализа того, как мы сотрудничаем, он устраняет различия между конкретными ситуациями, в которых люди призваны преодолевать стремление быть эгоистичными. Политолог Роберт Аксельрод излагает свои основы в книге «Эволюция сотрудничества:

».

При каких условиях возникнет кооперация в мире эгоистов без центральной власти? Этот вопрос давно интересовал людей. И не зря. Все мы знаем, что люди не ангелы и что они склонны в первую очередь заботиться о себе и о себе.Но мы также знаем, что сотрудничество имеет место и что наша цивилизация основана на нем. Но в ситуациях, когда у каждого человека есть стимул быть эгоистичным, как вообще может развиваться сотрудничество?

…Чтобы продвинуться вперед в понимании огромного множества конкретных ситуаций, обладающих этим свойством, необходим способ представить то, что является общим для этих ситуаций, не увязая в деталях, уникальных для каждой…известной игры «Дилемма заключенного».

Мысленный эксперимент выглядит так: двое преступников находятся в разных камерах, не могут общаться, обвиняются в преступлении, в котором оба участвовали.У полиции недостаточно улик, чтобы приговорить обоих без дополнительных доказательств, хотя они достаточно уверены, что желают, чтобы они оба провели время в тюрьме. Поэтому они предлагают заключенным сделку. Они могут обвинять друг друга в преступлении при следующих условиях:

  • Если оба заключенных заявят, что это сделал другой, каждый получит по два года тюрьмы.
  • Если один заключенный говорит, что это сделал другой, а другой молчит, обвиняемый будет отбывать три года, а обвинитель — ноль.
  • Если оба заключенных промолчат, каждый будет отбывать по одному году тюрьмы.

В теории игр альтруистическое поведение (молчание) называется «сотрудничеством», а обвинение другого — «дезертирством».

Что им делать?

Если бы они могли общаться и доверяли друг другу, рациональным выбором было бы хранить молчание; таким образом, каждый отбывает в тюрьме меньше времени, чем в противном случае. Но как каждый может знать, что другой не будет обвинять их? В конце концов, люди склонны действовать из личных интересов.Цена молчания слишком высока. Ожидаемый результат игры состоит в том, что оба обвиняют друг друга и отбывают два года. (В реальном мире мы сомневаемся, что это было бы так. После того, как они отбыли свой срок, нетрудно представить, что каждый из них все еще расстроен. Два года — это много времени, чтобы пружина скрутилась в негативную сторону. всю оставшуюся жизнь саботируют друг друга.)

Повторяющаяся дилемма заключенного

Более сложная форма мысленного эксперимента — повторяющаяся дилемма заключенного, в которой мы представляем одних и тех же двух заключенных несколько раз в одной и той же ситуации.В этой версии эксперимента они могут скорректировать свою стратегию на основе предыдущего результата.

Если повторить сценарий, может показаться, что заключенные начнут сотрудничать. Но это не имеет смысла с точки зрения теории игр. Когда они знают, сколько раз игра будет повторяться, у обоих появляется стимул обвинить в последнем раунде, поскольку возмездия быть не может. Зная, что другой обязательно обвинит в последнем раунде, у обоих есть стимул обвинить в предпоследнем раунде — и так далее, до самого начала.

Грегори Мэнкью резюмирует, насколько сложно моделировать сотрудничество в экономике бизнеса, следующим образом:

Чтобы увидеть, как трудно поддерживать сотрудничество, представьте, что до того, как полиция схватила . . . два преступника, [они] заключили договор не сознаваться. Ясно, что это соглашение сделало бы их обоих лучше, если бы они оба соответствовали ему, потому что каждый из них провел бы только один год в тюрьме. Но неужели два преступника на самом деле будут молчать только потому, что договорились? Как только их допрашивают по отдельности, логика личного интереса берет верх и заставляет их признаться.Сотрудничество между двумя заключенными трудно поддерживать, потому что сотрудничество по отдельности иррационально.

Однако кооперативные стратегии могут развиваться, если мы моделируем игру со случайными или бесконечными итерациями. Если каждый заключенный знает, что они, вероятно, будут взаимодействовать друг с другом в будущем, не зная и не ожидая, что их отношения будут иметь определенный конец, сотрудничество становится значительно более вероятным. Если мы представим, что заключенные попадут в одну и ту же тюрьму или будут бегать по одним и тем же кругам после освобождения, мы сможем понять, как может увеличиться стимул к сотрудничеству.Если вы перебежчик, столкновение с человеком, от которого вы сбежали, в лучшем случае неловко, а в худшем оставляет вас спать с рыбами.

Реальные дилеммы заключенного

Мы можем использовать дилемму заключенного как средство понимания многих реальных ситуаций, основанных на сотрудничестве и доверии. Как личности, эгоизм приносит нам пользу, по крайней мере, в краткосрочной перспективе. Но когда все эгоистичны, страдают все.

В «Дилемме заключенного» Мартин Петерсон просит читателей представить себе двух производителей автомобилей, Row Cars и Col Motors.Так как это единственные два участника на своем рынке, цена, по которой каждый из них продает автомобили, напрямую связана с ценой, по которой продает автомобили другой. Если один решит продавать по более высокой цене, чем другой, он будет продавать меньше автомобилей по мере перехода клиентов. Если один продает по более низкой цене, он будет продавать больше автомобилей с более низкой прибылью, получая клиентов от другого. В примере Петерсона, если оба установят высокие цены, оба заработают 100 миллионов долларов в год. Если один решит снизить цены, он заработает 150 миллионов долларов, а другой ничего не заработает.Если оба установят низкие цены, оба заработают по 20 миллионов долларов. Петерсон пишет:

Представьте, что вы служите в правлении Row Cars. На заседании правления вы указываете, что независимо от того, что решит Col Motors, для вашей компании будет лучше выбрать низкие цены. Это связано с тем, что если Col Motors устанавливает низкую цену, то прибыль в 20 миллионов долларов лучше, чем 0 долларов, а если Col Motors устанавливает высокую цену, то прибыль в 150 миллионов долларов лучше, чем 100 миллионов долларов.

Грегори Мэнкью приводит еще один реальный пример в микроэкономике , подробно здесь:

Рассмотрим олигополию с двумя участниками, называемую Ираном и Саудовской Аравией.Обе страны продают сырую нефть. После длительных переговоров страны соглашаются поддерживать низкий уровень добычи нефти, чтобы поддерживать высокие мировые цены на нефть. После того, как они договорятся об уровне производства, каждая страна должна решить, сотрудничать ли и выполнять это соглашение или игнорировать его и производить на более высоком уровне. На следующем изображении показано, как прибыль двух стран зависит от выбранных ими стратегий.

Предположим, вы лидер Саудовской Аравии. Вы можете рассуждать следующим образом:

Я мог бы сохранить добычу на низком уровне, как мы договорились, или я мог бы увеличить добычу и продавать больше нефти на мировых рынках.Если Иран выполнит соглашение и сохранит низкое производство, моя страна получит прибыль в размере 60 миллиардов долларов при высокой добыче и 50 миллиардов долларов при низкой добыче. В этом случае Саудовской Аравии лучше с высокой добычей. Если Иран не выполнит соглашение и будет производить на высоком уровне, то моя страна заработает 40 миллиардов долларов при высокой добыче и 30 миллиардов долларов при низкой добыче. Опять же, Саудовской Аравии лучше с высоким производством. Так что, независимо от того, что решит сделать Иран, моей стране лучше отказаться от нашего соглашения и производить на высоком уровне.

Производство на высоком уровне является доминирующей стратегией Саудовской Аравии. Конечно, точно так же рассуждает и Иран, поэтому обе страны производят на высоком уровне. Результатом является худший результат (как с точки зрения Ирана, так и с точки зрения Саудовской Аравии) с низкой прибылью в каждой стране. Этот пример показывает, почему олигополиям трудно поддерживать монопольную прибыль. Результат монополии в совокупности рационален для олигополии, но у каждого олигополиста есть стимул к мошенничеству. Точно так же, как личные интересы заставляют заключенных в дилемме заключенных признаваться, личные интересы мешают олигополии поддерживать кооперативный результат с низким уровнем производства, высокими ценами и монопольными ценами.

Другие примеры дилемм заключенных включают гонку вооружений, рекламу и общие ресурсы (см. Трагедия общин). Понимание дилеммы заключенного — важный компонент динамики сотрудничества, чрезвычайно полезная ментальная модель.

Представление о жизни как об итерационной игре меняет то, как вы играете. Позиционирование себя на будущее имеет больший вес, чем «победа» в данный момент.

Дилемма заключенного — обзор

Переход на цифровые технологии и его коммерческие последствия

В начале 1980-х годов появился так называемый «персональный компьютер», который по существу познакомил первую волну пользователей с новой и несколько сложной технологией.В конце 1980-х и начале 1990-х Интернет стал известен общественности; это был также период, когда коммерческие издатели начали изучать возможности электронных публикаций. Проект Elsevier TULIP, начатый в 1991 году, является хорошим примером этой тенденции. Но потребуется еще несколько лет, прежде чем электронные журналы станут форматом публикации по умолчанию.

Причины, по которым коммерческие электронные журналы появились так долго, были не столько техническими, сколько экономическими: проще говоря, электронные журналы не могли продаваться так же, как печатные журналы, потому что копирование цифрового документа и его передача через Интернет требует существенных затрат. ничего.С электронными журналами, по мнению издателей, нужно было обращаться по-другому: вместо продажи бумажных кодексов, соответствующих выпускам журналов, издатели начали экспериментировать с лицензированием доступа к электронным файлам. В результате библиотека больше не была владельцем и организатором того, за что она платила; вместо этого он стал каналом, через который был получен доступ.

Преимуществ для издателей было много: поскольку они ничего не продавали, они никогда не теряли прав на материалы, которыми владели, как это было, например, с «доктриной первой продажи»; поскольку они имели дело с лицензиями, а не с продажами, они могли полагаться на договорное право для определения условий доступа, опираясь при этом на авторское право для утверждения права собственности.В частности, поскольку библиотеки больше не владели своими журналами, условия, при которых можно было осуществлять межбиблиотечный абонемент, должны были быть согласованы заново, и результаты не были благоприятными для «Великого разговора»: в некоторых случаях, например, цифровые файлы распечатать, а затем отправить по факсу в соответствии с условиями издателей — прямая цифровая передача просто слишком угрожала интересам издателей. Сохранение стало обязанностью издателей, а не библиотек. Что касается обязательного экземпляра, цифровая среда заставила многие национальные библиотеки коренным образом переосмыслить свою позицию.

Оцифровка также изменила правила, которым следовали библиотеки при закупке нужных наборов документов для своих клиентов. Когда издатели заметили почти нулевые предельные затраты на то, чтобы сделать дополнительное издание доступным для библиотеки, они также поняли, что могут частично отделить потоки доходов от количества книг, на которые подписаны. Библиотеки, давайте помнить, собирали коллекции; издатели увеличивали потоки доходов и размер прибыли.

До оцифровки издатели и библиотеки жестко торговались, название за названием: издатели, чтобы обеспечить основной поток доходов, и библиотеки, чтобы создавать согласованные коллекции и реагировать на местные потребности.В цифровом мире торг за названием за названием стал первой фазой более сложного переговорного процесса: как только издатель достигал желаемого уровня дохода, он мог перейти ко второй фазе, сбросив остальные названия за относительно небольшую сумму в то, что стало известно как «Большая сделка».

«Большая сделка» была чертовски умной выдумкой. Ассоциация исследовательских библиотек использовала соотношение цена/название, чтобы продемонстрировать реальность кризиса ценообразования серийных номеров и количественно исправить его.Впервые издатели смогли показать, что тенденция изменилась, радуясь увеличению потока доходов. Более того, они могли бы возразить, что этот результат будет очень хорошо смотреться в годовом отчете любой библиотеки. Конечно, многие из названий не были очень полезны для целевой аудитории, и «Большая сделка» зафиксировала большую часть бюджета приобретения с несколькими крупными издателями, тем самым вытеснив другие, более мелкие, независимые издатели, такие как общественные издатели. В результате последние увидели, что их поток доходов сократился.Постепенно их бизнес-план стал несостоятельным, и у них часто не было другого выхода, кроме как продавать себя крупным издателям. Движение концентрации среди издателей также является частью кризиса серийного ценообразования, и несложно понять некоторые из его основных причин.

Как показывает «Большая сделка», наиболее очевидными новшествами в издании электронных журналов были финансовые. С технической стороны издатели воссоздали эквивалент традиционных журналов и статей в цифровом формате.Довольно часто они рассматривали новый цифровой формат просто как новую систему упаковки, добавленную к бумажной версии. Мало что изменилось. Например, формат PDF, который остается таким популярным и по сей день, предназначен для облегчения печати. Выполнение полнотекстового поиска по нескольким десяткам PDF-документов мучительно медленно, если вообще возможно (а PDF-файлы, основанные на изображениях страниц, даже не позволяют выполнять полнотекстовый поиск). Тем не менее, форматы HTML или PDF, доступные читателю, часто создаются «на лету» из серверной части, основанной на гораздо лучшем формате, таком как некоторая разновидность XML.Но серверная часть XML остается недоступной, поскольку издатели выпускают свои электронные журналы способами, предназначенными исключительно для чтения глазами, оставляя за собой возможности, открываемые машинным чтением. Предоставление ссылок для цитирования в коллекциях издателей — таким образом направляя читателя к предвзятому фрагменту «Большой беседы» — является примером того, что можно сделать с более богатыми форматами файлов. Эта стратегия тем более эффективна, что она умело играет на экономии внимания работающих ученых или ученых.В экономике внимания доступное время становится основным фактором отбора. Если издателю удается направить читателя преимущественно к статьям из его собственного сборника, а не к лучшим статьям «Великой беседы», ему, по сути, удается манипулировать «Великой беседой» в своих интересах, поскольку эта тактика будет иметь тенденцию к созданию больше цитат; в мире, где доминирует IF, создание аттракторов внимания, которые оказывают большее влияние, является очень важной задачей.

То, как «Великий диалог» науки может извлечь выгоду из нового цифрового порядка, очевидно, не было самой острой заботой коммерческих издателей; не было этого и у общественных издателей, которые пошли по их стопам.Повышение рентабельности всегда превосходило улучшение системы коммуникации исследователей. Глобальный эффект состоял в том, чтобы заставить «Большой разговор» служить интересам издательской индустрии, а не наоборот.

Оказавшись перед своего рода дилеммой заключенных, многие библиотеки и даже консорциумы предпочли отдать предпочтение своим личным «отношениям с поставщиками», используя знакомую профессиональную фразу, а не коллективно играть за стратегическое перераспределение ролей, которое не оставил бы их в таком уязвимом положении.Например, некоторые консорциумы, такие как канадский, постоянно отказываются раскрывать характер своей «сделки» с издателем. 13 При этом доступ к научной литературе существенно не улучшился. В богатых странах богатые библиотеки могут получить доступ к большему количеству наименований от крупных издателей, но с меньшей заботой о создании коллекции и с трудностями в поддержании доступа к публикациям от более мелких издателей. В бедных странах или бедных учреждениях исследователям, преподавателям и студентам был закрыт доступ еще более радикально, чем прежде; например, передача старых выпусков журналов библиотекам развивающихся стран больше не была вариантом для богатых библиотек, поскольку они больше не владели своими материалами.

Короче говоря, двухуровневая система науки, открытая SCI, в значительной степени исключала публикации из развивающихся стран; с оцифровкой ситуация усугублялась так называемым цифровым разрывом и практикой лицензирования, которая серьезно ограничивала возможности межбиблиотечного абонемента. Кроме того, некоторые стратегии смягчения последствий, реализованные позже, такие как HINARI 14 , были в лучшем случае сомнительными. По сути, некоторые из важных основ «Великого разговора» о науке были переданы под контроль международных издателей, и это привело к беспрецедентной ситуации для научных журналов.

Дилемма заключенного – обзор

2.4 Архитектура теории игр

Структура теории игр интересна с точки зрения философии науки. Как и многие другие теории, она использует сильно стилизованные модели и пытается объяснить, предсказать и дать рекомендации относительно явлений реального мира с помощью теории, которая оперирует этими математическими моделями. Однако особенность теории игр заключается в том, что эта теория не предлагает общего и унифицированного способа обращения со всеми видами явлений, а скорее предлагает «набор инструментов», из которого необходимо выбрать правильные инструменты.

Кен Бинмор проводит различие между , моделирующим , и , анализирующим игру [1994, стр. 27,161-2, 169]. Моделирование означает построение игровой модели, соответствующей воображаемой или реальной ситуации. Анализ означает выбор и применение концепции решения к игровой модели, а также получение прогноза или предписания выбора игроков. 3 Grüne-Yanoff and Schweinzer [2008] выделяют три основных компонента теории игр. Собственно теория (в левой части рисунка 15) определяет концепцию игры, предоставляет математические элементы, необходимые для построения структуры игры, и предлагает концепции решения для построенных таким образом игр.Структура игры (левая половина центрального круга на рис. 15) представляет собой описание конкретной игры, построенной с использованием элементов собственно теории. Описание модели (правая половина центрального круга на рис. 15) дает описание реальной или гипотетической экономической ситуации. Его счет ситуации интерпретирует игру.

Рисунок 15. Архитектура теории игр

Игровая модель состоит из формальной игровой структуры и неформального нарратива модели.Структура игры, формально охарактеризованная как теоретико-множественный объект, определяет количество игроков, их стратегии, наборы информации и их выигрыши. 4 Функция собственно теории состоит в том, чтобы ограничить, какие теоретико-множественные структуры могут рассматриваться как игры, и предложить меню концепций решения для возможных игровых структур. Теоретики игр часто сосредотачиваются на разработке формального аппарата собственно теории. Их интерес заключается в предложении альтернативных концепций равновесия или доказательстве существующих результатов с меньшим количеством допущений, а не в представлении и решении конкретных интерактивных ситуаций.«Теория игр предназначена для доказательства теорем, а не для игр» (Reinhard Selten, цит. по [Goeree and Holt, 2001, p. 1419]).

Одна из причин проведения различия между собственно теорией и структурой игры (или между анализом и моделированием) состоит в том, чтобы заставить теоретика игр включить в выигрыши все возможные мотивирующие факторы. Если это предполагается, то введение новых психологических переменных в ходе анализа исключается. Бинмор утверждает [1994, стр. 161–162], например, что аргументы Сена о сочувствии и приверженности должны быть включены в выигрыши в игре, т.е.е. что их следует учитывать при моделировании. Таким образом, суть различия заключается в том, что критики теории игр не должны критиковать теоретико-игровой анализ, ссылаясь на вопросы, относящиеся к моделированию. Это, безусловно, разумное требование. Действительно, точка зрения Бинмора не нова в обсуждении. Теоретики игр и теоретики принятия решений всегда придерживались идеи, что выигрыши следует интерпретировать как полные описания всех возможных факторов, которые могут мотивировать игроков (см.г., [Kohlberg and Mertens, 1986]). Более того, было признано, что если выигрыши интерпретируются как полные описания, то собственно теория оказывается эмпирически пустой.

На наш взгляд, теорию игр… следует рассматривать как чисто формальную теорию, лишенную эмпирического содержания. Обе теории просто констатируют, что произойдет, если все участники будут иметь устойчивые предпочтения и последовательно следовать своим собственным предпочтениям — какими бы ни были эти предпочтения. Эмпирическое содержание появляется только тогда, когда мы делаем определенные предположения о природе этих предпочтений и о других фактических вещах [Harsanyi, 1966, с.413–4].

Однако эмпирического содержания лишена не только сама теория, но и игровая структура. Хотя теоретики игр обычно используют такие ярлыки, как «игроки», «стратегии» или «выигрыши», игровые структуры, которые теория определяет и помогает решать, на самом деле являются лишь абстрактными математическими объектами. Чтобы обрести смысл, эти абстрактные объекты должны быть интерпретированы как репрезентации конкретных ситуаций. Интерпретация осуществляется соответствующим повествованием модели (ср.Морган [2005] обсуждение историй в теории игр). Такие нарративы очень заметны в теории игр — многие модели, такие как игра с курицей или дилемма заключенных, названы в честь истории, которая идет со структурой модели. Вопрос в том, поддерживают ли эти нарративы только использование моделей или же они являются частью самой модели [Mäki, 2002, p. 14].

Как регулярно приводится в учебниках, эти нарративы могут быть чисто иллюстративными: они могут описывать чисто вымышленные ситуации, основные черты которых просто помогают проиллюстрировать, как можно интерпретировать конкретную модельную структуру.Однако в других случаях нарративы облегчают связь игровых структур с реальным миром. Повествование делает это, сначала концептуализируя ситуацию реального мира с помощью теоретико-игровых представлений. Он идентифицирует агентов как игроков, возможные планы как стратегии, а результаты как выигрыши. Это также делает явным то, чем обладают агенты знаний, и когнитивные способности, которыми они обладают. Во-вторых, нарратив интерпретирует данную игровую структуру с точки зрения этого переосмысленного описания реальной ситуации.Таким образом, модельные нарративы наполняют модельные структуры либо вымышленным, либо эмпирическим содержанием.

Повествование модели также играет третью ключевую роль в теории игр. Как обсуждалось в предыдущих разделах, определенная структура игры может быть решена с помощью различных концепций решения. Иногда, как в случае минимакса и равновесия по Нэшу для игр с нулевой суммой, аргументы в пользу концепций решения различны, но результат один и тот же. Однако в других случаях применение разных концепций решения к одной и той же игровой структуре дает разные результаты.Так было в случае с доминированием выигрыша по сравнению с доминированием риска, а также с обратной и прямой индукцией, которые мы обсуждали в разделе 2.3. Иногда одной информации, содержащейся в структуре игры, недостаточно для выбора между различными концепциями решения. Вместо этого необходимая информация содержится в соответствующем описании ситуации, т. е. в типовом нарративе. Таким образом, хотя истории (дилемма заключенного, битва полов, ястреб-голубь и т. д.) и правда иногда приводятся только для иллюстративных целей, в этих случаях они берут на себя гораздо более важную функцию.Вместе с ограничениями, заданными собственно теорией, они определяют выбор подходящей концепции решения для конкретной игры [Grüne-Yanoff and Schweinzer, 2008]. Поскольку модели моделей сами по себе не облегчают выбор концепций решения, они неполны. Таким образом, Грюне-Янофф и Швайнцер утверждают, что модельная структура и модельное повествование вместе образуют игровую модель и что модельные нарративы являются неотъемлемой частью игровых моделей. 5

Этот вывод поднимает вопрос об идентичности модели.Довольно часто можно услышать, как экономисты отождествляют реальную ситуацию с конкретной игровой моделью; например, сказать, что ситуация X «является дилеммой заключенных». Согласно приведенному выше анализу, такое утверждение не только подразумевает, что любое подходящее описание X может служить интерпретацией структуры модели. Это также подразумевает, что это описание X надлежащим образом похоже на модельное повествование о дилемме заключенных — например, с точки зрения знаний агентов, их когнитивных способностей и отсутствия у них сочувствия и альтруизма.Без этого дополнительного требования подобия неформальных фоновых историй отождествление игровой модели с конкретными ситуациями может привести к неоправданному применению определенных концепций решения к этой ситуации и, следовательно, к неверным результатам.

В более общем плане наблюдения об архитектуре теории игр и роли в ней неформальных модельных нарративов имеют два важных следствия. Во-первых, становится ясно, что теория игр не предлагает универсального понятия рациональности, а скорее предлагает набор инструментов для моделирования конкретных ситуаций с различной степенью и видами рациональности.В конечном счете, именно модельер решает на основе своей собственной интуиции, какой вид рациональности приписать взаимодействующим агентам в данной ситуации. Это открывает дискуссию о различных интуитивных представлениях, лежащих в основе концепций решения, о возможности противоречия интуитивным представлениям и о том, можно ли построить метатеорию, объединяющую все эти фрагментарные интуитивные представления. Некоторые из этих вопросов будут обсуждаться в разделе 3.

Второй вывод из этого наблюдения касается статуса теории игр как позитивной теории.Учитывая его многоуровневую архитектуру, любое несоответствие предсказания и наблюдения можно объяснить ошибкой либо в теории, либо в игровой форме, либо в повествовании модели. В связи с этим возникает вопрос, как проверять теорию игр и является ли теория игр в принципе опровержимой. Эти вопросы будут обсуждаться в разделе 4.

Грязный поворот в решении дилеммы заключенного

Майкл Маршалл

Не говори ни слова, верно?

(Изображение: Джон Вудворт/Getty Images)

ИЗОБРАЖЕНИЕ этого: вы и партнер совершили преступление.Полиция арестовала вас обоих, но у них недостаточно улик, чтобы запереть вас и выбросить ключ, если только один из вас не сдаст другого. Вас допрашивают в отдельных комнатах и ​​предлагают сделку. Стоит ли молчать или предать своего партнера?

Эта «дилемма заключенного» — классическая психологическая игра, используемая для изучения того, как сотрудничество развивается в обществах животных. Теперь пара математиков определила новый способ игры, который позволяет игроку добиться значительно большего успеха, чем его противник.В то время как большинство выигрышных стратегий предполагают хорошую игру, новый метод основан на грязной игре.

В дилемме заключенного, если оба игрока промолчат, каждый получит небольшой срок. Но если один предаст другого, стукач останется безнаказанным, а их напарник получит большой срок. Если оба игрока предают друг друга, каждый получает средний срок. Как единая пара, игроки добиваются большего успеха, если они оба сохраняют штум. Но что особенно важно, если преступник А думает, что Б не будет болтать, в интересах А донести, поскольку тогда он останется на свободе — за счет Б.

Эта дилемма преследует экономистов уже более 50 лет, потому что она помогает объяснить, почему люди иногда не сотрудничают, даже если это в их общих интересах. Даже переговоры об изменении климата можно рассматривать как дилемму заключенного: ни одна страна не захочет платить за сокращение выбросов (сохранить штум), если все остальные продолжат выбросы (стукач).

Игра становится интересной, когда одни и те же партнеры играют в нее снова и снова.Способ свести к минимуму тюремное заключение в таких условиях обычно состоит в том, чтобы «вести себя хорошо»: не стучите, при условии, что ваш партнер тоже не будет, а если он предаст вас, то стучите на него в следующем раунде, в качестве предупреждения. По сути, лучшая стратегия — сотрудничать.

Теперь Уильям Пресс из Техасского университета в Остине говорит, что он обнаружил стратегию победы, которая не требует сотрудничества. И игроки, которые применяют его стратегию, в конечном итоге проводят в тюрьме гораздо меньше времени, чем их противники — в совместных играх оба игрока проводят в тюрьме примерно одинаковое время.

Press доказала эту стратегию математически с Фриманом Дайсоном из Института перспективных исследований в Принстоне, штат Нью-Джерси. Они вывели уравнение, которое игроки должны использовать на каждом ходу, чтобы решить, что делать на основе предыдущего хода. Пара показывает, что жертва грязной игры добивается большего успеха, всегда сохраняя штум и соглашаясь с тем, что их обидчик получит меньше времени в тюрьме ( Proceedings of the National Academy of Sciences , DOI: 10.1073/pnas.1206569109).

Существует еще один вариант: они могут предать своего преследователя на каждом шагу, несмотря на большие затраты на это — гарантированное более длительное тюремное заключение. Если «жертва» будет продолжать в том же духе, умный мучитель поймет, что их забивают, говорит Пресс, и будет играть лучше. Чтобы изменить ситуацию, жертвы должны сначала осознать, что их эксплуатируют.

Press говорит, что он не знает примеров использования его стратегии в реальном мире. Но вполне вероятно, что это может привести к переговорам по климату, когда некоторые страны могут непреднамеренно предложить правильное сочетание сокращения выбросов и упорного бездействия, вынуждая другие страны брать на себя непропорциональную долю расходов.

Факторы влияния в задаче «дилемма заключенного»: обзор медицинской литературы

Параметры ПД

Состав противников

Состав противников относится к синтезу конкурирующих сторон ПД. Мы используем термин «партии» для обозначения экспериментов с ПД, в которых противниками являются как отдельные лица, так и группы лиц. Чаще всего ПД-игра используется как исследовательский аналог социальных взаимодействий.Такие взаимодействия в основном происходят между отдельными лицами или группами, которые составляют противоборствующие стороны. Основное различие между индивидуальными и групповыми взаимодействиями заключается в том, что в межгрупповых условиях члены каждой группы должны прийти к соглашению о выборе своего репрезентативного PD.

Подавляющее большинство литературы по ПД касается взаимодействия между людьми. Однако есть три дополнительных типа экспериментов с ПД, в которых взаимодействия нельзя строго классифицировать как групповые или индивидуальные взаимодействия.Первый из этих дополнительных типов PD помещает человека в сеть других, где каждый его выбор PD одновременно определяет результат множественных взаимодействий PD между ними и их соседями. Этот тип PD в основном используется для исследования динамики социальных сетей, например, как психопатические черты участников могут повлиять на группу или как динамическое обновление партнера повлияет на уровень сотрудничества (Wang, Suri & Watts, 2012). Во втором типе (IPD-MD: Intergroup Prisoner’s Dilemma-Maximum Difference) (Halevy, Bornstein & Sagiv, 2008) человек является членом группы, и его решение PD затрагивает как членов его, так и других конфликтующих групп.Этот тип PD использовался в исследованиях для изучения конкретных характеристик поведения игроков, таких как мотивы альтруизма, включая желание помочь своей группе или причинить вред другим группам (De Dreu, Dussel & Velden, 2015; Weisel & Böhm, 2015). ). Третий тип — многопользовательский PD, в котором вознаграждение отдельных лиц и групп зависит от комбинации решений участников без какого-либо прямого взаимодействия между отдельными лицами. Этот тип PD является инструментом для исследования альтруистического поведения и сотрудничества, поскольку он подчеркивает дилемму между личной и социальной выгодой (Sheldon, Sheldon & Osbaldiston, 2000; Locey, Safin & Rachlin, 2012).

Из исследовательских статей, включенных в этот обзор, в большинстве исследований использовались взаимодействия между людьми (207 экспериментов), а в меньшем количестве исследований рассматривались взаимодействия между группами (10 экспериментов).

Восприятие типа противника

Восприятие типа противника относится к представлениям игроков о характере их противников. Восприятие испытуемым характера своего противника имеет большое значение для методики игры с ПД. В основном это связано с контрастной природой ПД и современной методологии.Парадигма PD в основном используется для исследования характеристик социального поведения, которое по определению требует человеческого взаимодействия, однако современные методологические среды основаны на машинах и направлены на минимизацию участия человека.

Чтобы скомпрометировать эти два понятия, игроки должны либо (а) искренне верить, что машины могут точно имитировать или имитировать все аспекты человеческого поведения и приписывать им врожденные человеческие качества, такие как сострадание, либо (б) верить, что их противник — настоящий человек.Это становится еще более сложным, если принять во внимание тот факт, что машины часто используются в качестве прокси для индивидуальных взаимодействий. В результате, когда кто-то сталкивается с бездушным экраном, он никогда не может быть уверен в том, что он отражает/представляет. С этой целью общепринятой практикой является спрашивать участников в конце эксперимента, что они думали о характере своего оппонента.

Мы определили две категории параметра воспринимаемого типа противника: агенты-люди, играющие в качестве подопытных, и агенты с предопределенной стратегией или ответами.Первый тип противника, человек против . человек, является более удобной и реалистичной моделью, когда мы намерены изучать само взаимодействие, в то время как второй тип противника, человек против . агент с предопределенной стратегией, является более контролируемой настройкой и позволяет изучать индивидуальные характеристики субъектов, а также сравнивать их между собой. Последнюю категорию можно было бы дополнительно разделить, чтобы определить, был ли субъект ложно проинформирован о человеческой природе своего оппонента или ему манипулировали, чтобы он так думал.Это манипулирование обычно достигается за счет «предполагаемой» презентации (, т. , задержки). Вопрос о том, действительно ли это важно, остается спорным. С одной стороны, Miwa и Terai (2012) показали, что на поведение участника во время игры с PD влияют инструкции, данные о характере партнера, в то время как Knight и Kagan (1977) заявили, что игра против воображаемого противника сильно коррелирует с принятием решений, когда противник действительно присутствует.С другой стороны, было показано, что люди активируют области мозга, связанные с ментализацией, когда они осознанно сталкиваются с компьютерами как со-игроками (Rilling et al., 2004a; Krach et al., 2008; Kircher et al., 2009). Наконец, взаимодействие (кооперация) существенно меняется при сравнении противников-человеков и компьютеров только тогда, когда общение между противниками избегается (Kiesler, Sproull & Waters, 1996).

Другим фактором, который следует учитывать, когда речь идет о параметре «тип соперника», является соотношение полов игроков или противоборствующих сторон, которое может повлиять на игровые решения (Rapoport & Chammah, 1965).Мужчины-оппоненты обычно кажутся более склонными к сотрудничеству, чем женщины, в однополых отношениях, в то время как женщины сотрудничают больше, чем мужчины, в смешанных отношениях (Rapoport & Chammah, 1965; Balliet et al., 2011; Colman, Pulford & Krockow, 2018). Социальная близость – еще один важный фактор. Вознаграждения социально близким людям ценятся больше, чем эквивалентные и/или идентичные вознаграждения социально далеким, что, в свою очередь, изменяет поведение субъектов, поскольку стоимость сотрудничества сравнивается с его социально обесцененной выгодой (Locey & Rachlin, 2011; Locey, Safin & Rachlin). , 2012; Сафин, Лоси и Рахлин, 2013; Сафин, Арфер и Рахлин, 2015).Возможным объяснением этого является воспринимаемое сходство, которое сигнализирует о некоторой степени родства (Park & ​​Schaller, 2005), надежности (Koch et al., 2020), привлекательности (Alves, Koch & Unkelbach, 2017, 2018) и возможности сформировать группа (Hehman, Flake & Freeman, 2018) и, таким образом, может объяснить сотрудничество в решении социальных дилемм (Rand & Nowak, 2013).

Только 40% экспериментов по ЧР, включенных в этот обзор, включали взаимодействие между реальными людьми. Из них лишь немногие были связаны с обстановкой vis-a-vis (в основном эксперименты с ЭЭГ).В большинстве исследований для проведения взаимодействий использовались компьютеры (117 экспериментов). Из 123 экспериментов с PD, в которых использовались алгоритмы, по крайней мере 97 участников манипулировали, заставляя поверить, что они взаимодействуют с реальными людьми.

Поток взаимодействия

Поток взаимодействия описывает порядок, в котором игроки ходят по очереди в игре PD. По параметру потока взаимодействия эксперименты с ЧР можно разделить на «одновременные» и «последовательные». При одновременной ПД, которая является наиболее распространенным типом ПД, обе стороны выбирают свои действия, не зная текущего решения друг друга.В последовательном ДЗ одна сторона делает первый ход (Игрок А), а другая — последующий ход (Игрок Б). В этом случае игрок Б имеет то преимущество, что уже знает выбор игрока А, прежде чем принять решение о своем ходе, и, таким образом, игрок Б имеет стратегическое преимущество перед игроком А, который знает об этом. Kiyonari, Tanida & Yamagishi (2000) показали, что уровни сотрудничества при последовательном PD выше по сравнению с одновременным PD. Locey & Rachlin (2011) реализовали модифицированную версию последовательного типа, в которой каждый участник играет роль как игрока A, так и игрока B, поскольку каждое решение является ответом на последний выбор противника и в то же время первым ходом в новой игре. круглый.

Используя параметр потока взаимодействия, эксперименты с ЧР также можно различать по общему количеству (сумме) раундов. Когда задействован только один раунд, игра называется «однократной», в противном случае игра называется «повторяющейся». Между этими двумя типами есть большая разница, так как в «одноразовой» PD игрок не имеет никакой информации/знаний о стратегии своего противника, которая была бы основана на каком-либо предыдущем поведении, а также возможности действовать стратегически. В этом случае дезертирство представляется наиболее рациональным выбором.Однако эксперименты с участием людей показали, что это далеко не так, поскольку люди часто выбирают сотрудничество в «одноразовых» испытаниях (Shafir & Tversky, 1992; Wedekind & Milinski, 1996; Wong & Hong, 2005). Это оправдывает использование «однократной» PD как средства оценки альтруистической природы агентов. В отличие от «однократной» ДР, «повторяющаяся» ДР охватывает существенные временные рамки для оценки и реализации стратегии и, таким образом, больше подходит для изучения специфики эволюции сотрудничества ( i.e ., репутация, иерархия, стратегия). Другая форма «повторяющейся» PD — это игра, включающая несколько «одноразовых» игр (Yang & Yue, 2019). В этом случае возможность будущего матча-реванша с тем же противником может привести к более высокому уровню сотрудничества (Bó, 2005; Duffy & Ochs, 2009; Arechar, Kouchaki & Rand, 2018; Rand & Nowak, 2013).

Из статей, включенных в наш обзор, только 29 статей связаны с последовательным типом ПД, а 186 — с одновременным.

Количество раундов

Параметр «количество раундов» определяет продолжительность игры ПД и актуален только для «повторяющегося» типа ПД, поскольку «одноразовый» ПД состоит только из одного раунда.Наш литературный поиск выявил большую вариабельность количества раундов, используемых в исследованиях, при этом в большинстве исследований использовалось от 10 до 30 раундов. Общее количество раундов в эксперименте с частичным разрядом считается важным для достижения сотрудничества. Чем меньше раундов, тем больше риск неудачных переговоров и потерь. Lave (1965) предлагает минимальное количество 3 * (P — S)/(R — P) раундов, где R означает вознаграждение, P — наказание, а S — выигрыш неудачника (см. введение и раздел «Матрица вознаграждения и выигрыши»). ) для достижения взаимного сотрудничества на основе матрицы вознаграждения и Chang et al.(2010) показывают, что 12 раундов достаточно для достижения стабильного уровня сотрудничества.

По мере приближения к концу игры PD количество оставшихся раундов уменьшается, и это может повлиять на поведение участников; эффект конца игры. По мере того, как поле для возмездия становится все меньше, растет соблазн оппортунистического поведения, а также неуверенность относительно отношения противника к этому соблазну. Хотя смягчение эффекта эндшпиля не является общепринятой практикой в ​​литературе по ПД, есть две известные стратегии для решения этой проблемы.Вместо явного определения точного количества раундов для участников (тип конечного раунда) эта информация либо скрывается, либо количество раундов определяется стохастически. Первого можно достичь, просто не раскрывая участникам общее количество раундов игры (Wedekind & Milinski, 1996; Melamed, Simpson & Harrell, 2017; Grujić & Lenaerts, 2020), а второго — заранее определив конкретную вероятность. для завершения игры после каждого раунда (Shafir & Tversky, 1992; Wedekind & Milinski, 1996; Kiyonari, Tanida & Yamagishi, 2000; Hehman, Flake & Freeman, 2018).Сохранение расплывчатости завершения игры может помочь предотвратить обычную человеческую практику отказа в финальных раундах и, таким образом, избежать «равновесия Нэша» (Colman, Pulford & Krockow, 2018).

В литературе диапазон общего количества раундов, использованных в экспериментах, огромен: от 2 до 500 со средним значением 20 и средним значением около 45. Наиболее часто выбираемое количество раундов, которые использовались в более чем в половине экспериментов, колеблется от 10 до 30.Чтобы избежать эффектов конца игры, в 28 экспериментах исследователи решили либо не раскрывать участникам общее количество раундов, либо назначать для каждого раунда определенную вероятность завершения игры (стохастическое определение конца игры). игра).

Инструкции, описательная часть и варианты

Инструкции, описательная часть и варианты задачи относятся к способу и контексту, в котором игра ПД представляется участникам, и предоставляется участникам до начала задачи или на протяжении всей парадигмы.Доступные для игроков варианты и представление матрицы выигрышей, социальный контекст проведения эксперимента, определение цели игры, восприятие типа соперника и знание взаимозависимости исхода (Martin et al., 2013) аспекты задачи, которые могут повлиять на решения игрока.

Типичный нарратив PD (история преступника) реализует «сотрудничество», «отступничество» или «предательство» в качестве доступных вариантов. Однако это не относится к большинству исследований ПД, в которых буквы ( i.e ., A/B, X/Y), цифры и другие комбинации обычно используются как аналоги сотрудничества и предательства. Эти варианты достаточно нейтральны, чтобы не допустить стимулирования конкурентного поведения, а также избавить участников от социального морального груза «дезертирства» или «предательства», которые, как представляется, способствуют принятию совместных решений (Deutchman & Sullivan, 2018; Capraro et al., 2019), внедряют социальные предвзятость (Capraro & Cococcioni, 2015) и слишком разнообразны, чтобы представлять общие социальные взаимодействия. Кроме того, дополнительные опции ( i.e ., наказание, вознаграждение, изъятие, 1–7) могут быть доступны участникам либо явно, как в определении платежной матрицы, либо более динамично ( , т. е. ., «решить, сколько единиц передать другой стороне» ) в зависимости от конструкции ПД.

Исследователи, при первом знакомстве участников с игрой ПД, помимо простого объяснения рациональности игры и матрицы выигрышей, что является общепринятой практикой, могли использовать различные воображаемые сценарии () в соответствии со специфическими для дизайна ПД методами .В этих сценариях обычно отсутствует социальная предвзятость исходного повествования, но сохраняется их социальный контекст, который способствует пониманию задачи. Было показано, что задачи с социальной рамкой легче понять (Cosmides, 1989; Alekseev, Charness & Gneezy, 2017), а глубокое понимание структуры и правил задачи имеет решающее значение для надежности исследования. Однако существует вероятность неожиданных эффектов кадрирования. Например, непредсказуемые ассоциации между воображаемыми сценариями, представленными в эксперименте с ПД, и прошлым опытом игроков, а также интуитивными или знакомыми предпочтениями (Capraro, Jordan & Rand, 2014; Capraro & Cococcioni, 2015; Capraro et al., 2019). Кроме того, Capraro & Rand (2018) и Capraro et al. (2019), исследуя роль морали как влияния на выбор PD, показали, что просоциальные люди склонны выбирать вариант, который представлен как морально правильный в данной ситуации.

Таблица 1

В этой таблице приведены различные сценарии частичного разряда, которые используются в литературе.

Сценарий Описание
Инвестиционная история Участники — инвесторы, которым необходимо выбрать между двумя инвестиционными проектами, проектом X и проектом Y.
История чаевых официантке Игроки должны самостоятельно решать, давать ли чаевые официанту.
История нехватки воды В засушливом регионе, вода распределяется властями в равных долях для каждого гражданина. Игроки представляют двух разных граждан, которые, чтобы получить больше припасов, могут также притворяться, что представляют другого гражданина. Это удается только в том случае, если один из игроков подчиняется другому, если они также пытаются обмануть, власти наказывают обе стороны.
История босса-коллеги Игроки — коллеги, которые сотрудничали в рабочем проекте. Их босс недоволен качеством и вызывает их по отдельности в свой офис для объяснений. Там у игроков есть выбор: промолчать или обвинить друг друга.
Рассказ учащихся Игроки берут на себя роль учеников, которые списали на тесте. Их профессор замечает, что тесты идентичны, и созывается отдельно, и каждый говорит им, что если один из двух признается (дезертирство), игрок пройдет тест, иначе ему придется подождать несколько сеансов, прежде чем пройти его снова.
История предложения Игроки берут на себя роль владельцев конкурирующих магазинов. Они должны решить, какую цену назначить отдельным продуктам. Либо стандартная цена, либо цена продажи (дезертирства).
История обмена секретами Игроки по отдельности прячут секрет в одном из нескольких ящиков и имеют возможность совместно планировать свою стратегию для испытания. Они должны решить наедине с интервьюером, следует ли раскрывать интервьюеру (дезертирство) местонахождение секрета.Даже в последнем случае секрет может быть раскрыт из-за недостатка, поскольку интервьюер может сделать одно предположение.
Гонка вооружений Игроки играют роль лидера страны, принимающего решение о ресурсах своей страны. Они могут выбирать между военным (ракеты) или экономическим (заводы) развитием. Хьюстон и др. (2000) приложил дилемму к матрице вознаграждения 7 × 7, так что производство ракет получает наибольшее количество баллов, если другая страна строит в основном заводы, но не получает баллов, если обе стороны производят только ракеты.В каждом раунде игроки должны решить, сколько ракет, от нуля до шести, инвестировать, а остальные вложить в фабрики.
Ключи от дверей или Ключи от сундуков (Brown & Rachlin, 1999) Аппарат состоит из двух дверей (или сундуков) цвета X и двух цвета Y. Каждая открывается в комнату с наградой и одним ключ цвета X или Y, оба известны игрокам. Открывая дверь, игрок А получает награду, сбрасывает свой текущий ключ и передает раскрытый ключ игроку Б, чтобы сделать свой выбор двери.Раунд заканчивается после того, как оба игрока получают свою награду, а у игрока А есть ключ, который был в комнате, открытой игроком Б в предыдущем раунде. Приведенная выше настройка указывает на последовательный PD. Каждый игрок определяет возможные награды другого. Цвет ключей и награды расположены таким образом, что они образуют классическую матрицу наград PD.
Дайте удвоенное (или утроенное) Каждому игроку в каждом раунде вручается определенная сумма денег, и он должен решить, сколько дать другому.Выданная сумма удваивается (или утраивается). Формируемая матрица является динамической и зависит от комбинации решений. Награда для игрока А равна: n n A + 2 * n B (или n n A + 3 * n B). где n сумма, которую обработал каждый игрок в начале и n A, n B ( n n A, n n B). Суммы, данные игроками A и B соответственно. Если из доступных вариантов указать все или ничего, то формируется матрица: T:3 * n , R:3 * n , P:1 * n , S:0 (или T:4 * n , R:3 * n , P:1 * n , S:0) где n — сумма, выданная каждому игроку.
Оставить вдвое Каждому игроку вручается сумма в каждом раунде, и он должен решить, уйти или взять чужую. Оставшаяся сумма удваивается для противника. Логика и вознаграждения такие же, как и у «дай вдвойне».
Дайте вдвое — оставьте утроенным Каждому игроку вручается сумма в каждом раунде, и он должен решить, сколько дать другому. Выданная сумма удваивается для каждого, а сохраненная сумма утраивается индивидуально.Формируемая матрица является динамической и зависит от комбинации решений. Награда для игрока А равна: 3 * ( n n A) + 2 * ( n A + n B). где n сумма, розданная каждому игроку в начале и n A, n B ( n n A, n n B). суммы, указанные игроками A и B соответственно. Если доступные варианты — дать все или ничего, то формируется матрица T:5 * n , R:4 * n , T:3 * n , S:2 * n .
Мячи в корзинах Простое представление «Дайте двойное — оставьте тройное». Помещение мяча в корзину А дает два очка всем, а попадание мяча в корзину В — три очка себе.
Подносы и бобы Аппарат состоит из двух одинаковых, но независимых, параллельных и др. наклоняющихся поддонов с разноцветными сторонами. Каждый игрок имеет контроль над одним лотком и должен выбирать между тем, чтобы вытащить свой лоток и получить награду, хранящуюся на его стороне, или толкнуть ее, чтобы дать противнику награду, хранящуюся на противоположной стороне.
Совместное инвестирование Каждому игроку вручается определенная сумма для каждого раунда, и он должен решить, какую часть суммы или всей суммы внести в инвестиции вместе с другим игроком. Собранная сумма умножается на коэффициент и распределяется между ними поровну. Сформированная матрица из комбинации решений: T: n + f * n /2, R:f * n , P:( n n X) + f * n X/2 , S:f * n /2, где n , n X( n > n X).Доступны ли варианты инвестирования переданной суммы. В асимметричной PD фактор (f) различен для каждого игрока, что приводит к разным матрицам вознаграждения для каждого игрока.
Разделить или украсть Игроки взаимно собирают или получают сумму. Они должны решить, разделить ли его пополам или украсть всю сумму. Если они оба украдут, то ничего не получат. Сформированная матрица из комбинации решений имеет вид T:2 * n , R: n , P:0, S:0, где 2 * n — общая сумма.

В инструкциях ПД обычно указывается, что целью эксперимента является получение максимального количества баллов, в качестве альтернативы они устанавливают денежное вознаграждение в зависимости от результатов участников. Это делается для того, чтобы игроки были мотивированы, чтобы эксперимент точно отражал как реальную жизнь, так и человеческую природу, а также чтобы избежать стратегии «всегда ошибаться», которая является оптимальной для простого выигрыша, но не дает результата. максимальное денежное вознаграждение.Наконец, чтобы обеспечить адекватное понимание дизайна и правил задания, большинство исследователей требуют от участников ответить на вопросы понимания до испытаний ПД.

Экспериментаторы в основном предпочитают социально нейтральную (буквы) или позитивную (сотрудничать против . Не сотрудничать) лексику в своем повествовании, поскольку только в 47 экспериментах используются такие термины, как «дезертирство», «предать», «наказать», «украсть» или «сообщение» в качестве вариантов. В общей сложности в 19 экспериментах было реализовано более двух вариантов, а в 35 экспериментах использовался игровой дизайн, отличный от типичного простого PD, например, совместное инвестирование, ключи от сундуков и т. д.

Стратегия

Стратегия относится к процессу принятия решений, который разворачивается во время игры PD. Реализация стратегии необходима, когда испытуемый соревнуется с агентом, ответы которого контролируются экспериментатором (алгоритмами). В «одноразовой» ПД (см. раздел «количество раундов») реализация стратегии ограничена одним решением, поскольку существует только один раунд. Нет никаких предшествующих взаимодействий и никакого планирования, поскольку никакого будущего взаимодействия не произойдет. Это, однако, не относится к множеству «одноразовых» ПД, которые разыгрываются с одним и тем же противником.

Реализация стратегии в основном касается «повторяющейся» ПД, и, безусловно, наиболее распространенной стратегией является «око за око» (Axelrod, 1984) и ее варианты. Другие часто используемые стратегии включают «всегда сотрудничать», «всегда отказываться» и «случайно» (более подробное описание см.). «Tft» начинается с сотрудничества, а затем стратегия влечет за собой повторение предыдущего хода противника. В знаменитых соревнованиях Аксельлорда эта стратегия оказалась наиболее успешной, а также способствовала сотрудничеству (Kuhlman & Marshello, 1975; Axelrod & Dion, 1988).Однако у «Tft» есть две основные слабости: он не может обратить вспять установившееся взаимное отступничество, а это означает, что любая ошибка или шум окружающей среды будут иметь большое влияние на ход игры, и, во-вторых, он не может максимально использовать безоговорочного сотрудничества. Чтобы устранить первую слабость, были предложены два основных подтипа «tft». Первый подтип называется «прощающим» или «великодушным» (Nowak & Sigmund, 1992) и предполагает определенный процент сотрудничества после отступничества оппонента.Второй подтип называется «око за два (или более) прикосновения» (Boyd & Lorberbaum, 1987), когда дезертирство выбирается после постоянных дезертирств противника.

Таблица 2

В этой таблице приведены все доступные стратегии PD, используемые в литературе.

Название стратегии Описание
Всегда сотрудничайте Сотрудничает в каждом раунде.
Всегда дефект Дефект в каждом раунде.
Случайный выбор 50% сотрудничества или предательства.
Око за око Начинается с сотрудничества, а затем дизайн повторяет предыдущий ход противника.
N % Прощение или великодушие око за око «Tft» с N процент сотрудничества после предательства противника.
Tit for N tats «Tft» с сотрудничеством до N количества последовательных отказов противника.
Павлов или Выиграй-остайся-Проиграй-быстро Меняй выбор каждый раз, когда получаешь выплаты S или P.
Подозрительные око за око Подобно «tft», но так как «wsls» не дает быстрой выплаты T.
Риллинг и др. (2002) Сотрудничество в первом раунде, дезертирство в последних трех, иначе решение основано на выборе последних двух игроков.
Риллинг и др. (2004б) 50% возможность взаимного сотрудничества и всегда взаимное отступление.
Риллинг и др. (2012) Для игрока А: 90% ответят взаимностью на отказ, а 67% ответят взаимностью на сотрудничество. Для игрока B «tft» с 33% сотрудничества после взаимного предательства, 10% сотрудничества после одностороннего (собственного) предательства и всегда предательства после двух последовательных раундов одностороннего (собственного) предательства.
McClure et al. (2007) (на основе Rilling et al., 2002) Сотрудничество в первом раунде, дезертирство в последних двух, 50% вероятность дезертирства после четырех последовательных раундов взаимного сотрудничества.В противном случае решение основывается на двух последних вариантах выбора игрока.
Стратегии нулевого детерминанта (ZD) (Press & Dyson, 2012) Каждое решение определяется вероятностями сотрудничества на основе четырех возможных комбинаций выбора предыдущего раунда.

Другая стратегия, недостаточно представленная в литературе (Martin et al., 2013), — это «выиграл-остался-проиграл-сдвиг» (wsls) или «Павлов» (Nowak & Sigmund, 1993), когда игроки меняются местами. их выбор всякий раз, когда они получают плохой выигрыш, S или P.«Wsls» может использоваться безоговорочными перебежчиками, но преодолевает недостатки «tft». Чтобы способствовать сотрудничеству, матрица вознаграждения (см. следующий раздел) в этой стратегии должна удовлетворять условию 2 * R > T + P, где R означает вознаграждение, T — искушение, а P — наказание. В противном случае у игрока нет мотива сотрудничать (C), поскольку постоянное отступничество (D) (петля DD-DC) принесет по крайней мере такое же вознаграждение, что и сотрудничество (CC-CC или CD-CD).

Другими интересными стратегиями, упоминаемыми в литературе, являются нулевой детерминант (ZD) (Press & Dyson, 2012; Pansini, Shi & Wang, 2016), «pavlov-tft» (Juvina et al., 2012) и «Поднимите ставки» (Roberts & Sherratt, 1998). Считается, что «Павлов-tft» лучше соответствует человеческому поведению по сравнению с его стратегиями, в то время как «Поднимите ставки» может применяться к более динамичным проектам PD, подобным инвестициям. Эти схемы включают в себя «Дайте вдвое — сохраняйте втрое» и увеличивают инвестиции игроков, когда партнеры делают то же или лучше своего последнего хода (подробности о различных схемах PD см.). Другие более простые, широко применяемые стратегии включают предопределенные варианты выбора (Papageorgiou et al., 2013), дезертирство в нескольких раундах (Bitsch et al., 2018a) или решения, основанные на вероятностях (, т.е. ., 40% дезертирства) (Haruno & Kawato, 2009). Когда PD используется для экспериментов фМРТ, большинство стратегий основано на Rilling et al. (2004b) работа над собранными данными о людях и стратегии Риллинга (Rilling et al., 2004a, 2004b, 2012) и McClure (McClure et al., 2007) являются наиболее часто используемыми, см.

Как и ожидалось, львиная доля в медицинской литературе (40 экспериментов) принадлежит стратегиям, основанным на «tft», в то время как другие «известные» стратегии, в которых задействованы нечеловеческие участники, такие как «wsls», недостаточно представлены (1 эксперимент).Всего проведено 58 экспериментов с использованием нетипичных и смешанных стратегий.

обобщает стратегии, используемые в литературе.

Матрица вознаграждений и выигрыши

Матрица вознаграждений и выигрыши определяют выигрыши и проигрыши, которые могут принести игрокам различные варианты PD. Матрицу вознаграждения можно считать наиболее важной частью PD, поскольку она определяет мотив, а также плюсы и минусы решений агента, поскольку различные стратегические решения отражаются на ожидаемом вознаграждении.Нет смысла сотрудничать или отступать, если от этого нет никакой выгоды или нет наказания за иное. В результате сумма выплат за каждый возможный исход и степень разницы между этими выплатами сильно влияют на ход игры.

В игре PD матрица вознаграждения обычно состоит из четырех значений: «T» (искушение) — это вознаграждение за чье-то предательство вместо сотрудничества, «R» (награда) — это вознаграждение за взаимное сотрудничество, «P» (наказание). вознаграждение за взаимное предательство и «S» (присоска) вознаграждение за сотрудничество вместо предательства.Чтобы матрица вознаграждения точно отражала дилемму PD, должно быть выполнено как минимум следующее условие: T > R > P > S (Axelrod & Hamilton, 1981). Вышеупомянутого недостаточно для «итерированной» версии игры, где 2 * R > T + S является еще одним обязательным условием, которое дает взаимному сотрудничеству большую ценность вознаграждения, тем самым предотвращая чередование стратегий сотрудничества и отступничества (Axelrod & Hamilton, 1981). Более того, как указано в разделе «Стратегия», для того, чтобы стратегия «wsls» имела смысл, также должно выполняться условие 2 * R > T + P.Хотя приведенные выше условия являются стандартными для типичной PD-игры (Axelrod & Hamilton, 1981), во многих работах они отклоняются от них, в основном за счет реализации условия P < S, чтобы способствовать сотрудничеству (Bitsch et al., 2018b; Acosta, Straube). и Кирхер, 2019). Условие P < S, однако, превращает такие парадигмы в сугроб или игру ястреб-голубь, которые отклоняются от типичной задачи ДЗ, поскольку взаимный отказ имеет минимальную отдачу.

Но как различные комбинации этих четырех значений матрицы влияют на решения участников? Чтобы ответить на этот вопрос, необходимо рассмотреть один фактор — отношение индекса кооперации ((R — P)/(T — S)), используемое Rapoport & Chammah (1965) и Rapoport (1967).Более высокие значения коэффициента указывают на то, что дезертирство менее заманчиво, а сотрудничество менее рискованно, что определяет более благоприятную для сотрудничества среду. В дополнение к коэффициенту индекса сотрудничества Шерман (1967) предлагает два других коэффициента, полученных из значений параметров матрицы вознаграждения. Эти отношения представляют собой привлекательность сотрудничества ((R — P)/(P — S)) и привлекательность отказа от совместного решения ((T — R)/(R — P)). Более высокое значение первого отношения представляет собой относительно более высокую выгоду от сотрудничества, в то время как более низкие значения второго отношения представляют относительно низкую выгоду от предательства, что в обоих случаях приводит к более высокому уровню сотрудничества.Индекс рискованности ((R — S)/((R — S) + (T — P))), предложенный Au et al. (2011) представляет собой меру риска сотрудничества со значениями от 0 до 1. Наконец, Baas et al. (2019) и Huang et al. (2019) предполагают, что значения (T – R) и (P S) могут отражать жадность (получение максимума от использования кооперативности противников) и угрозу (страх быть эксплуатируемыми) соответственно, связывая их обоих (в основном жадность у пожилых людей). ) к некооперативному поведению.

Матричные выплаты — это не просто числа, они представляют собой единицы вознаграждения.Эти вознаграждения могут быть реальными или гипотетическими, и пока неясно, повлияет ли это на решения участников. Эксперименты с ПД, которые пытались это проверить (Locey, Jones & Rachlin, 2011), дали двойственные результаты, и в целом литература по исследованиям в области принятия решений, в которой рассматривалось гипотетическое вознаграждение, а не реальное, дала неубедительные результаты (Hertwig & Ortmann, 2001; Madden et al., 2003; Миет и др., 2021). Однако обычно считается, что реальные денежные вознаграждения предлагают большие стимулы по сравнению с эквивалентными по стоимости, но гипотетическими вознаграждениями (Hertwig & Ortmann, 2001; Bruner, Goodnow & Austin, 2017).Однако, как это повлияет на решения в условиях ПД, остается неизвестным. Тем не менее, Ферлонг и Оффер предполагают, что на сотрудничество влияет не реальная стоимость вознаграждений, а их числовое представление, означающее, например, что вознаграждение в размере 300 центов вызовет более активное сотрудничество по сравнению с вознаграждением в 3 доллара (Furlong & Opfer, 2009). .

На практике в литературе наиболее часто встречающиеся значения матрицы включают четверки T:3 R:2 P:1 S:0, T:5 R:3 P:1 S:0 и их кратные ( i.e ., T:30 R:20 P:10 S:0, T:15 R:9 P:3 S:0), а также добавление или вычитание значения из каждого из этих чисел выплат ( т.е. ., T:10 R:5 P:0 S:–5) (дополнительный материал).

Многие эксперименты в литературе используют отрицательные значения для P и S. Locey & Rachlin (2011) показали, что фактические потери в качестве наказания приводят к более высокому уровню сотрудничества, чем сокращение выигрыша, что согласуется с предыдущей литературой (Gray & Tallman, 1987). Кроме того, положительные выигрыши по сравнению с убытками ( i.e ., отрицательные значения для T, R, P и S), также благоприятствуют сотрудничеству (Sun et al., 2016; Deutchman & Sullivan, 2018).

Другим аспектом матрицы, который может повлиять на результат задачи, является то, как она представлена ​​(Evans & Crumbaugh, 1966), или, другими словами, контекст, в котором конфликтная ситуация представляется участникам. Это может быть либо представление в виде сетки результатов каждой комбинации решений, , т. е. ., T:3 R:2 P:1 S:0, либо представление без сетки, i.e ., «либо возьмите 1, либо отдайте противнику 2», что приводит к той же вышеупомянутой сетке. В Evans & Crumbaugh (1966) представление без сетки, которое участники лучше поняли, способствовало сотрудничеству.

Игра в «повторяющуюся» PD, состоящую из многих раундов, или в несколько «одноразовых» игр с неизменной матрицей вознаграждения может привести к скуке, потере концентрации или стратегическим решениям, которые принимаются без должного обдумывания. Это важный вопрос, особенно в психофизиологических экспериментах.Наш поиск литературы выявил два способа обойти эти проблемы и сохранить интерес участников к задаче. Оба способа подразумевают использование динамической матрицы, которая влечет за собой изменение выплат в каждом раунде либо за счет сохранения одинаковой разницы T − R (Emonds et al., 2013; Lambert et al., 2017), либо за счет небольшого изменения T, R и Однако значения P сохраняются, среднее значение каждого параметра остается постоянным (Zhang et al., 2019).

Другая причина разной суммы вознаграждения, связанного с каждым раундом, заключается в том, что доступная сумма может не быть фиксированной для каждого раунда.Это может иметь место в более динамичных схемах PD, когда игрок решает, сколько единиц дать противнику (, т. раунда зависит от решения других сторон. Наконец, в некоторых случаях выплаты могут меняться в результате решений, принимаемых между раундами, например, решения о наказании противника после каждого раунда. (Fehl et al., 2012; Bone et al., 2015, 2016; Mieth et al., 2021). Выигрыши также могут меняться в результате изменчивости среды, например, изменения ценности вознаграждения (Taheri, Rotshtein & Beierholm, 2018) или случайного переключения решений (Rodebaugh et al., 2011, 2013; Grujić et al., 2012). может имитировать неуверенность, что способствует прощению и сотрудничеству.

На основании асимметрии выплат PD подразделяют на «симметричную» и «асимметричную». В большинстве экспериментов реализуется симметричная ПД, однако есть несколько экспериментов с асимметричными играми ПД (Gerbasi & Prentice, 2013; Aksoy & Weesie, 2014; Antonioni et al., 2018), где асимметрия вознаграждения используется как средство реализации неравенства и иерархии, как и в большинстве социальных взаимодействий.

В некоторой литературе по ПД используются матрицы с более чем четырьмя исходами или, другими словами, с более крупной сеткой выплат, чем 2 × 2. Wang et al. (2018) включают, например, вариант вознаграждения, который играет роль более эксплуатируемого и выгодного для противника выбора, не связанного с большей отдачей по сравнению с сотрудничеством. Pansini, Shi & Wang (2016) добавляют вариант наказания, который аналогичен сотрудничеству в отношении выгоды, но является наиболее дорогостоящим для противника.Наконец, Инско и соавт. (2005) используют вариант отказа, который приводит к одинаковому выигрышу для обеих сторон, независимо от решения противников.

Post A Comment

Ваш адрес email не будет опубликован.