Платёжная матрица
Рассмотрим игру m × n с матрицей и определим наилучшую среди стратегий A1, A2, …, Аm. Выбирая стратегию Аi игрок А должен рассчитывать, что игрок В ответит на нее той из стратегий Bj, для которой выигрыш для игрока А минимален (игрок В стремится «навредить» игроку А). Обозначим через α наименьший выигрыш игрока А при выборе им стратегии А; для всех возможных стратегий игрока В (наименьшее число в i-й строке платежной матрицы). Назовем α нижней ценой игры, или максимальным выигрышем (максимином). Это гарантированный выигрыш игрока А при любой стратегии игрока В. Следовательно,
. (5.1)
Стратегия, соответствующая максимину, называется максиминной стратегией. Игрок В заинтересован в том, чтобы уменьшить выигрыш игрока А; выбирая стратегию Bj, он учитывает максимально возможный при этом выигрыш для А. Назовем В верхней ценой игры, или минимаксным выигрышем (минимаксом). Это гарантированный проигрыш игрока В. Следовательно,
. (5.2)
Стратегия, соответствующая минимаксу, называется минимаксной стратегией. Принцип, диктующий игрокам выбор наиболее «осторожных» минимаксной и максиминной стратегий, называется принципом минимакса. Этот принцип следует из разумного предположения, что каждый игрок стремится достичь цели, противоположной цели противника. Если верхняя и нижняя цены игры совпадают, то общее значение верхней и нижней цены игры α = β = ν называется чистой ценой игры, или ценой игры. Минимаксные стратегии, соответствующие цене игры, являются оптимальными стратегиями, а их совокупность – оптимальным решением, или решением игры. В этом случае игрок А получает максимальный гарантированный (не зависящий от поведения игрока В) выигрыш ν, а игрок В добивается минимального гарантированного (вне зависимости от поведения игрока А) проигрыша ν. Говорят, что решение игры обладает устойчивостью, т. е. если один из игроков придерживается своей оптимальной стратегии, то для другого не может быть выгодным отклоняться от своей оптимальной стратегии. Пара чистых стратегий Ai и Bj дает оптимальное решение игры тогда и только тогда, когда соответствующий ей элемент аij является одновременно наибольшим в своем столбце и наименьшим в своей строке. Такая ситуация, если она существует, называется седловой точкой (по аналогии с поверхностью седла, которая искривляется вверх в одном направлении и вниз – в другом). Обозначим А* и В* – пару чистых стратегий, на которых достигается решение игры в задаче с седловой точкой. Введем функцию выигрыша первого игрока на каждой паре стратегий: P(Ai Bj) = аij. Тогда из условия оптимальности в седловой точке выполняется двойное неравенство: P(Ai, B*) ≤ Р(А*, В*) ≤ P(A*, Bj), которое справедливо для всех . Действительно, выбор стратегии А* первым игроком при оптимальной стратегии В* второго игрока максимизирует минимальный возможный выигрыш: Р(А*, В*) ≥ P(Ai, B*), а выбор стратегии В* вторым игроком при оптимальной стратегии первого минимизирует максимальный проигрыш: Р(А*, В*) ≤ P(A*, Bj).
5.3. Решение игр в смешанных стратегиях. Приведение матричной игры к задаче линейного программирования
Если игра не имеет седловой точки, то применение чистых стратегий не дает оптимального решения игры. В таком случае можно получить оптимальное решение, случайным образом чередуя чистые стратегии. Смешанной стратегией игрока А называется применение чистых стратегий A1, A2, …, Аm с вероятностями р1, р2, …, рm, причем сумма вероятностей равна: . Смешанные стратегии игрока А записываются в виде . Аналогично смешанные стратегии игрока В обозначаются как , где сумма вероятностей появления стратегий . Чистые стратегии можно считать частным случаем смешанных и задавать строкой, в которой 1 соответствует чистой стратегии. На основании принципа минимакса определяется оптимальное решение (или решение) игры: это пара оптимальных стратегий S*A, S*В, в общем случае смешанных, обладающих следующим свойством: если один из игроков придерживается своей оптимальной стратегии, то другому не может быть выгодно отступать от своей. Выигрыш, соответствующий оптимальному решению, называется ценой игры ν. Цена игры удовлетворяет неравенству α ≤ v ≤ β, где α и β – нижняя и верхняя цены игры. Пусть и – пара оптимальных стратегий. Решение задачи линейного программирования (ЛП) определяет оптимальную стратегию . При этом цена игры
. (5.3)
Очевидно, при определении оптимальных стратегий в конкретных задачах следует выбрать ту из взаимно-двойственных задач, решение которой менее трудоемко, а решение другой задачи найти с помощью теорем двойственности.
5.4. Примеры решения задач систем массового обслуживания Пример 1. Предприятие может выпускать три вида продукции (А1, A2 и А3), получая при этом прибыль, зависящую от спроса, который может быть в одном из трёх состояний (В1, В2 и В3). Дана матрица (табл. 5.2), ее элементы аij характеризуют прибыль, которую получит предприятие при выпуске i-й продукции с j-м состоянием спроса. Таблица 5.2
|