Принципы оптимальности в условиях обмена информацией
При анализе теоретико-игровой модели предполагается, что каждый игрок производит выбор своей стратегии независимо от других, не взаимодействуя с ними, и в частности, не имея никакой информации о принятых ими решениях. На первый взгляд может показаться, что это предположение сильно суживает возможности применения теоретико-игровых моделей, ибо в реальных конфликтах принимающие решения стороны имеют, как правило, некоторую информацию о решениях других сторон (даже на войне о планах противника доносит разведка). Однако область использования теоретико-игровых моделей можно расширить, введя искусственные стратегии, построенные с учетом возможностей обмена информацией между сторонами о принятых ими решениях. Имеет место следующее обстоятельство: если конфликт интересов сторон не носит антагонистического характера (для теоретико-игровых моделей с численный выражением исходов антагонистический характер конфликта сводится к тому, что для любого исхода сумма его числовых оценок всеми участниками конфликта равна нулю), то появляется возможность повышения гарантированного уровня за счет обмена информацией между сторонами о принимаемых ими решениям. Исследования, связанные с систематическим применением принципа максимина в условиях обмена информацией между принимающими решения сторонами, были начаты советским математиком Ю. Б. Гермейером. Проиллюстрируем применение принципа максимина в условиях обмена информацией между принимающими решения сторонами на примере. Пример (вывоз продукции). Предприятие для отправки своей продукции потребителю вывозит ее на перевалочный пункт, где продукция грузится на автомашины, принадлежащие транспортному управлению. Если не вся продукция может быть погружена, то ее остаток сдается на склад; в этом случае расходы за хранение продукции предприятие и транспортное управление несут поровну. Предприятие может отправить продукции в расчете на 5 или на 10 автомашин, транспортное управление может направить на перевозку продукции обычную автоколонну (4 автомашины), большую автоколонну (7), две обычных автоколонны (8) или обычную и большую автоколонну (11). От отправки одной автомашины продукции предприятие имеет доход а; стоимость хранения на складе продукции, перевозимой одной автомашиной, равна b, а затраты транспортного управления на посылку к перевалочному пункту одной автомашины – с. Табл. 5.6 показывает при всех вариантах совместных решений, принятых предприятием и транспортным управлением (П – альтернативы предприятия, Т – альтернативы транспортного управления), доходы предприятия (в верхней части каждой клетки) и расходы транспортного управления (в нижней части). Табл.5.6. Ситуации в задаче вывоза продукции
Пусть, например, a=10, b=6, с=2 (табл. 5.7). Какое бы Вы приняли решение, оказавшись на месте директора предприятия? Табл.5.6. Ситуации в задаче вывоза продукции
Руководствуясь принципом максимина, директор предприятия должен выбрать первую альтернативу (посылка продукции в расчете на 5 автомашин), так как эта альтернатива гарантирует доход, равный 37, а вторая – только 22. Однако, если директор предприятия выберет вторую альтернативу (посылка продукции в расчете на 10 автомашин) и сообщит начальнику транспортного управления о своем выборе, то последний, руководствуясь своими интересами, должен будет предпочесть альтернативы 8 и 11 остальным, так как они приводят к наименьшим потерям для транспортного управления (-22). В этом случае доход предприятия будет не менее 74 единиц; гарантированный уровень возрастает вдвое по сравнению с максимином в чистом виде. (Если директор предприятия выберет первую альтернативу и сообщит о своем выборе начальнику транспортного управления, то тогда наилучшей альтернативой последнего будет посылка 4 автомашин; в этом случае доход предприятия равен 37, т. е. максимину в чистом виде.) В задаче «о вывозе продукции» (пример 8) мы ввели следующий способ обмена информацией между принимающими решения сторонами: директор предприятия выбирает решение и сообщает о своем выборе начальнику транспортного управления, а последний производит свой выбор, зная решение, принятое директором предприятия. Однако, в приведенной схеме принятия решения ничего по существу не изменится, если считать, что начальник транспортного управления, не зная решения, принятого директором предприятия, принимает условное решение типа: «если директор предприятия выберет такой-то вариант, то я выберу такой-то». Если обозначить через X первоначальное множество стратегий директора предприятия, а через Y первоначальное множество стратегий начальника транспортного управления, то принятие таких условных решений означает, с формальной точки зрения, что в качестве стратегий начальника транспортного управления выступают не элементы множества Y, а отображения множества X в множество Y (множество всех таких отображений принято обозначать через ). В итоге получаем игру, в которой множествами стратегий игроков являются X и и выбор своих стратегий производится игроками уже независимо друг от друга. Сходный прием можно применить и при более сложных способах обмена информацией между принимающими решения сторонами; требуется лишь, чтобы схема обмена информацией была фиксирована. Еще одну особенность принципа оптимальности в форме равновесия, также связанную с возможностью обмена информацией между игроками, мы обсудим на следующем примере. Пример («дилемма заключенного», см. [14]). Полиция подозревает двух бандитов, находящихся в предварительном заключении, в совместном совершении преступления, но их вина не доказана. Каждый из бандитов имеет две стратегии: признаться в совершении преступления или не признаться. Если ни один из них не признается, то их вина не может быть доказана, и тогда им будет предъявлено обвинение в совершении менее серьезного преступления и они оба получат незначительное наказание – потери каждого оцениваются в этом случае отрицательным числом -1; если оба признаются, то оба получат серьезное наказание – потери каждого оцениваются -7; наконец, если один признается, а другой нет, то признавшийся получает свободу (потери равны нулю), а его сообщник – максимальное наказание (потери оцениваются -10). Получаем в итоге биматричную игру, представленную табл.5.7 (П – признание, Н – непризнание). Табл.5.7. Игра «дилемма заключенного»
В этой игре имеется единственная ситуация равновесия (П, П) – признание обоих, однако выбор ситуации (П, П) вызывает очевидное возражение, так как обоим выгоднее ситуация (Н, Н), в которой ни один не признается, тогда потери каждого равны -1 вместо -7. Но для такого выбора бандитам необходимо договориться друг с другом (что заведомо невозможно, если они не могут обмениваться информацией, например, заключены в разные камеры). В противном случае каждый из них будет опасаться выбора стратегии непризнания: если другой выберет стратегию признания, тогда он «спасет» себя и «погубит» избравшего стратегию непризнания. Таким образом, при невозможности обмена информацией выбор ситуации (П, П) все же следует признать обоснованным. Рассмотрим теперь вариант, при котором обмен информацией разрешен. Предположим, что бандиты совместно обсуждают свой выбор, тогда, скорее всего, они отбросят ситуацию (П, П) (поскольку эта ситуация может быть улучшена сразу для обоих) и сосредоточат свое внимание на не улучшаемых (сразу для обоих) ситуациях (Н, Н), (Н, П), (П, Н), т. е. именно эти ситуации естественно рассматривать как «предмет договора». Какая из этих трех ситуаций будет выбрана зависит от «соотношения сил» между договаривающимися сторонами: при равенстве сил будет, по-видимому, выбрана ситуация (Н, Н), при явном превосходстве первого – ситуация (П, Н), а при явном превосходстве второго – ситуация (Н, П). Подчеркнем еще раз, что эти ситуации характеризуются тем, что они не могут быть улучшены сразу для обоих, но так как ни одна из них не является равновесной по Нэшу, то договор о выборе любой из этих ситуаций будет неустойчивым: по крайней мере одной стороне выгодно одностороннее отклонение от него. Ситуации, которые являются не улучшаемыми сразу для всех игроков, называются оптимальными по Парето. Анализ «дилеммы заключенного» показывает, что между оптимальностью по Нэшу и оптимальностью по Парето имеется определенное противоречие: ситуация (П, П) оптимальна по Нэшу, но не оптимальна по Парето, а остальные три ситуации оптимальны по Парето, но не оптимальны по Нэшу. Всякая Парето-оптимальная ситуация, будучи неулучшаемой для всех игроков сразу, является, таким образом максимально выгодной для коалиции, содержащей всех игроков, однако она может оказаться невыгодной для одного (или нескольких) из этих игроков. Поэтому выбор игроками Парето-оптимальной ситуации предполагает их взаимодействие (в частности, обмен информацией между ними о принимаемых решениях), в результате которого «коллективный» интерес коалиции всех игроков ставится выше интересов отдельного игрока. Если же выбор своим стратегий игроками производится без взаимодействия, то игроки руководствуются только «личными» интересами; в этом случая можно рассчитывать лишь на выбор ими ситуации, оптимальном по Нэшу. Переведем теперь эти рассуждения на «язык систем». Будем считать систему децентрализованной, если информационные связи между ее подсистемами настолько слабы, чтя ими можно пренебречь в плане их влияния на выбор совместного решения этих подсистем. Для децентрализованной системы наиболее естественным принципом оптимальности является оптимальность в форме равновесия по Нэшу. На другом «полюсе» находятся централизованные системы, т. е. такие системы, подсистемы которых имеют неограниченные возможности обмена информацией о принимаемых решениях. Для централизованной системы кроме оптимальности в форме равновесия имеет смысл еще один тип оптимальности – оптимальность по Парето. Вспомним, что мы уже встречались с понятием оптимальности по Парето при рассмотрении многокритериальных задач принятие решений. Вообще, стоит отметить, что задача оптимизации централизованной системы, состоящей из преследующих свои цели подсистем, с содержательной точки зрения аналогична многокритериальной задаче принятия решения. Это положение можно проиллюстрировать таким примером. Предположим, что на совещании «за круглым столом» происходит обсуждение, какую модель автомобиля принять к производству. Если каждый участник совещания заинтересован в улучшении только одного показателя (один – в увеличении срока службы автомобиля, другой – в повышении его надежности, третий – в увеличении его максимальной скорости, четвертый – в улучшении внешнего вида и т. д.) то мы имеем задачу оптимизации системы, состоящей из целенаправленных подсистем. С другой стороны, эту ситуацию можно представить таким образом, что Некто (например, директор предприятия, выпускающего автомобили) имеет целью улучшение сразу всех этих показателей; получаем тогда многокритериальную задачу принятия решения. Для систем, состоящих из целенаправленных подсистем, указанное выше противоречие между оптимальностью по Нэшу и оптимальностью по Парето проявляется в том, что состояния системы, оптимальные по одному принципу, могут быть неоптимальными по другому. Скажем, у системы, находящейся в Парето-оптимальном состоянии, т. е. в состоянии, переход из которого в любое другое состояние не может улучшить показатели «полезности» сразу всех ее подсистем, может оказаться такая подсистема, для которой переход в некоторое новое состояние улучшает показатель «полезности» этой подсистемы. При этом, как следует из условия Парето-оптимальности, такой переход будет сопровождаться ухудшением показателя «полезности» хотя бы одной другой подсистемы. В существовании противоречия между оптимальностью по Парето и оптимальностью по Нэшу нет никакого парадокса, так как эти типы оптимальности имеют разные «идейные основания». Основой оптимальности по Парето является выгодность для системы в целом, понимаемая как выгодность сразу для всех ее подсистем, а основой оптимальности по Нэшу является устойчивость системы, обусловленная интересами и возможностями отдельных ее подсистем. Короче, противоречие между оптимальностью по Парето и оптимальностью по Нэшу есть противоречие между выгодностью и устойчивостью. Таким образом, для систем, состоящих из целенаправленных подсистем, нет единого понятия оптимальности, поэтому оптимизации таких систем должен предшествовать выбор принципа оптимальности.
|