Метод вычисления оптимальных стратегий. Решение игр в чистых стратегиях
Решение матричной игры в чистых стратегиях
Рассмотрим простейшую математическую модель конечной конфликтной ситуации, в которой имеется два участника и выигрыш одного равен проигрышу другого. Такая модель называется антагонистической игрой двух лиц с нулевой суммой. Игра состоит из двух ходов: игрок А выбирает одну из возможных стратегий Аi, , а игрок В выбирает одну из возможных стратегий Вj, . Каждый выбор производится при полном незнании выбора соперника. В результате выигрыш игроков составит соответственно aij и –aij. Цель игрока А – максимизировать величину aij, а игрока В – минимизировать эту величину.
Определение 1. Матрица, составленная из величин aij, , ,
называется платежной матрицей, или матрицей игры. Каждый элемент платежной матрицы aij, , равен выигрышу А (проигрышу В), если он выбрал стратегию Аi, , а игрок В выбирал стратегию Вj, .
Пример. В игре участвуют первый и второй игроки, каждый из них может записать независимо от другого цифры 1, 2 и 3. Если разность между цифрами, записанная игроками, положительна, то первый игрок выигрывает количество очков, равное разности между цифрами, и, наоборот, если разность отрицательна, то выигрывает второй игрок. Если разность равна нулю, то игра заканчивается вничью.
У первого игрока три стратегии (варианта действия): А1 (записать 1), А2 (записать 2), А3 (записать 3); у второго игрока также три стратегии: В1, В2, В3 (см. таблицу).
Задача первого игрока – максимизировать свой выигрыш. Задача второго игрока – минимизировать свой проигрыш или минимизировать выигрыш первого игрока. Платежная матрица имеет вид
.
Задача каждого из игроков – найти наилучшую стратегию игры, при этом предполагается, что противники одинаково разумны и каждый из них делает все, чтобы получить наибольший доход.
Найдем наилучшую стратегию первого игрока. Если игрок А выбрал стратегию Аi, , то в худшем случае (например, если его ход известен В) он получит выигрыш . Предвидя такую возможность, игрок А должен выбрать такую стратегию, чтобы максимизировать свой минимальный выигрыш.
.
Определение 2. Величина a – гарантированный выигрыш игрока А называется нижней ценой игры. Стратегия Aiопт, обеспечивающая получение выигрыша a, называется максиминной.
Если первый игрок будет придерживаться своей максиминной стратегии, то у него есть гарантия, что он в любом случае выиграет не меньше a.
Аналогично определяется наилучшая стратегия второго игрока. Игрок В при выборе стратегии Вj, в худшем случае получит проигрыш . Он выбирает стратегию Bjопт, при которой его проигрыш будет минимальным и составит
.
Определение 3. Величина b – гарантированный проигрыш игрока В называется верхней ценой игры. Стратегия Bjопт, обеспечивающая получение проигрыша b, называется минимаксной.
Если второй игрок будет придерживаться своей минимаксной стратегии, то у него есть гарантия, что он в любом случае проиграет не больше b.
Фактический выигрыш игрока А (проигрыш игрока В) при разумных действиях партнеров ограничен верхней и нижней ценой игры. Для матричной игры справедливо неравенство a £ b.
Определение 4. Если a = b =v, т. е.
= ,
то выигрыш игрока А (проигрыш игрока В) оределяется числом v. Оно называется ценой игры.
Определение 5. Если a = b =v, то такая игра называется игрой с седловой точкой, элемент матрицы аiопт jопт = v, соответствующий паре оптимальных стратегий (Aiопт, Bjопт), называется седловой точкой матрицы. Этот элемент является ценой игры.
Седловой точке соответствуют оптимальные стратегии игроков. Их совокупность – решение игры, которое обладает свойством: если один из игроков придерживается оптимальной стратегии, то второму отклонение от своей оптимальной стратегии не может быть выгодным.
Определение 6. Если игра имеет седловую точку, то говорят, что она решается в чистых стратегиях.
Найдем решение игры рассмотренного выше примера:
,
a = a3 – нижняя цена игры.
,
b = b3 – верхняя цена игры.
Так как a = b = 0, матрица игры имеет седловую точку.
Оптимальная стратегия первого игрока – А3 , второго – B3. Из таблицы видно, что отклонение первого игрока от оптимальной стратегии уменьшает его выигрыш, а отклонение второго игрока от В3 увеличивает его проигрыш.
Наличие седловой точки в игре – это далеко не правило, скорее, исключение. Существует разновидность игр, которые всегда имеют седловую точку и, значит, решаются в чистых стратегиях. Это так называемые игры с полной информацией.
Определение 7. Игрой с полной информацией называется такая игра, в которой каждый игрок при каждом личном ходе знает всю предысторию ее развития, т.е. результаты всех предыдущих ходов.
Примерами игр с полной информацией могут служить шашки, шахматы, “крестики-нолики” и т.д.
Теорема 1. Каждая игра с полной информацией имеет седловую точку и, значит, имеет решение в чистых стратегиях.
В каждой игре с полной информацией существует пара оптимальных стратегий, дающая устойчивый выигрыш, равный цене игры v. Если решение игры известно, сама игра теряет смысл. Например, шахматная игра либо кончается выигрышем белых, либо выигрышем черных, либо ничьей, только чем именно – мы пока не знаем (к счастью для любителей шахмат). Прибавим еще: вряд ли будем знать в обозримом будущем, так как число стратегий так велико, что крайне трудно привести шахматную игру к матричной форме и найти в ней седловую точку.
Решение матричной игры в смешанных стратегиях
Если платежная матрица не имеет седловой точки, т.е. a должно обеспечить ему при любых действиях второго игрока выигрыш не меньше цены игры. Поэтому выполняется соотношение
, .
Аналогично для второго игрока оптимальная стратегия опт должна обеспечить при любых стратегиях первого игрока проигрыш, не превышающий цену игры, т.е. справедливо соотношение
, .
Если платежная матрица не содержит седловой точки, то задача определения смешанной стратегии тем сложнее, чем больше размерность матрицы. Поэтому матрицы большой размерности целесообразно упростить, уменьшив их размерность путем вычеркивания дублирующих (одинаковых) и не доминирующих стратегий.
Определение 2. Дублирующими называются стратегии, у которых соответствующие элементы платежной матрицы одинаковы.
Определение 3. Если все элементы i-й строки платежной матрицы больше соответствующих элементов k-й строки, то
i-я стратегия игрока А называется доминирующей над k-й стратегией. Если все элементы j-го столбца платежной матрицы меньше соответствующих элементов k-го столбца, то j-я стратегия игрока В называется доминирующей над k-й стратегией.
Пример.Рассмотрим игру, представленную платежной матрицей
.
a = max (2, 2, 3, 2) = 3, b = min (7, 6, 6, 4, 5) = 4, a ¹ b, .
Все элементы стратегии А2 меньше элементов стратегии А3, т.е. А2 заведомо невыгодна для первого игрока и ее можно исключить. Все элементы А4 меньше А3, исключаем А4.
.
Для второго игрока: сравнивая В1 и В4, исключаем В1; сравнивая В2 и В4, исключаем В2; сравнивая В3 и В4, исключаем В3. В результате преобразований получим матрицу
.
a = max (2, 3) = 3, b = min (4, 5) = 4, a ¹ b, .
Игра в чистых стратегиях
Математические методы и модели в экономике
Матричные игры
Введение
В экономической практике часто возникают ситуации, в которых различные стороны преследуют различные цели. Например, отношения между продавцом и покупателем, поставщиком и потребителем, банком и вкладчиком и т.д. Такие конфликтные ситуации возникают не только в экономике, но в других видах деятельности. Например, при игре в шахматы, шашки, домино, лото и т.д.
Игра– это математическая модель конфликтной ситуации с участием не менее двух лиц, использующих несколько различных способов для достижения своих целей. Игра называется парной,если в ней участвуют два игрока. Игра называется антагонистической,если выигрыш одного игрока равен проигрышу другого. Следовательно, для задания игры достаточно задать величины выигрышей одного игрока в различных ситуациях.
Любой способ действия игрока в зависимости от сложившейся ситуации называется стратегией.Каждый игрок располагает определенным набором стратегий. Если число стратегий конечно, то игра называется конечной,в противном случае – бесконечной. Стратегии называются чистыми,если каждый из игроков выбирает только одну стратегию определенным, а не случайным образом.
Решение игрызаключается в выборе такой стратегии, которая удовлетворяет условию оптимальности.Это условие состоит в том, что один игрок получает максимальный выигрыш,если второй придерживается своей стратегии. И наоборот, второй игрок получает минимальный проигрыш, если первый из игроков придерживается своей стратегии. Такие стратегии называются оптимальными. Таким образом, цель игры – это определение оптимальной стратегии для каждого игрока.
Игра в чистых стратегиях
Рассмотрим игру с двумя игроками А и В. Предположим, что игрок А имеет m стратегий А1, А2, …, Аm , а игрок В имеет n стратегий B1, B2, … ,Bn. Будем считать, что выбор игроком А стратегии Аi, а игроком В стратегии Bj однозначно определяет исход игры, т.е. выигрыш aij игрока А и выигрыш bij игрока В. Здесь i=1,2,…,m, j=1,2,…,n.
Простейшей игрой с двумя игроками является антагонистическая игра, т.е. игра, в которой интересы игроков прямо противоположны. В этом случае выигрыши игроков связаны равенством
Это равенство означает, что выигрыш одного из игроков равен проигрышу другого. В этом случае достаточно рассматривать лишь выигрыши одного из игроков, например, игрока А.
Каждой паре стратегий Аi и Bj соответствует выигрыш aij игрока А . Все эти выигрыши удобно записывать в виде так называемой платежной матрицы
Строки этой матрицы соответствуют стратегиям игрока А, а столбцы – стратегиям игрока В. В общем случае такая игра называется (m×n)-игрой.
Пример 1.Два игрока А и В бросают монету. Если стороны монеты совпадают, то выигрывает А, т.е. игрок В платит игроку А некоторую сумму, равную 1, а если не совпадают, то выигрывает игрок В, т.е. наоборот, игрок А платит игроку В эту же сумму, равную 1. Сформировать платежную матрицу.
Решение.По условию задачи
Решение игры в чистых стратегиях
Пусть дана матрица игры (игра в нормальной записи):
где A и B – участники игры. Участник A выбирает стратегию. а участник B выбирает стратегию Стратегии выбираются участниками независимо друг от друга. Выбору соответствует исход с платежом . Он равен сумме выигрыша, который получает участника A и сумме проигрыша, который платит частник B. Естественным образом возникает вопрос: как найти лучшую стратегию для игрока A и для игрока B?
Понятие наилучшего (оптимального) решения является сложным понятием. Для того, чтобы утверждать, что какое-то решение является оптимальным, нужно знать, что именно мы понимаем под словом «оптимальный». Например, фирма, при выборе своих управленческих решений, может руководствоваться следующими соображениями:
§ завоевать место на рынке;
§ стремиться к минимизации хозяйственных рисков;
Каждое из этих соображений приводит к определенному критерию оптимальности. Решения, которые оптимальны с точки зрения одного критерия, могут быть неоптимальными с точки зрения другого. Например, если фирма выбрала в качестве критерия оптимальности принцип достижения наибольшей прибыли, то может оказаться, что решение, которое обеспечивает наибольшую прибыль, приводит к появлению высоких хозяйственных рисков.
Одним из критериев оптимальности является критерий гарантированного результата. Этот критерий заключается в том, что наилучшим решением (оптимальной стратегией) будет такое решение, которое даёт игроку определённый (гарантированный) выигрыш (или проигрыш) независимо от действий других участников игры.
В соответствии с критерием гарантированного результата игрок A для каждой своей стратегии находит наихудший для себя, а значит наилучший для соперника исход, т.е. игрок . Следовательно – столбец самых плохих результатов. Далее игрок A выбирает такое значение i, которое соответствует . Иными словами, игрок A решает задачу или задачу максимина.
Игрок B для каждой стратегии находит наихудший результат, т.е. находит Следовательно получает строку Далее игрок B решает задачу нахождения минимума . Другими словами, игрок B решает задачу нахождения или задачу минимакса.
Значение называется нижним значением игры (нижняя цена игры); значение называется верхним значением игры (верхняя цена игры).
Теорема 1. Для любой матричной игры выполняется неравенство
(1.2)
То есть нижняя цена игры не больше чем верхняя цена игры.
Зафиксируем значение i=1,2…,m и найдем наименьший элемент строки i1, ai2, …, ain>, который обозначим ail(i). Таким образом
l(i) (1.3)
akl(k)= (1.4)
Зафиксируем значение j=1,2…,n и найдем наибольший элемент столбца 1j, a2j, …, amj>, который обозначим ap(j)j. Таким образом
ap(j)j = (1.5)
ap(q)q = (1.6)
Из (1.3) следует неравенство ail(i)≤aij, верное для всех i=1.2….,m и j=1.2…,n. Подставляя в него i=k, получим неравенство
Из (1.5) следует неравенство ap(j)j≥aij, верное для всех i=1.2….,m и j=1.2…,n. Подставляя в него i=k, получим неравенство ap(j)j≥akj. Итак получаем
Если первый игрок стремится получить гарантированный результат, то он выбирает из своего множества стратегий стратегию k, для которой наименьшее значение выигрыша равно нижнему значению игры α. Тогда при любом выборе вторым игроком стратегии j будет верно неравенство aij≥ α, то есть α является гарантированным выигрышем первого игрока.
Аналогично, если второй игрок стремится получит гарантированный результат, то он выберет стратегию q, для которой наибольшее значение проигрыша будет равно верхнему значению игры β. Тогда при любом выборе первым игроком стратегии i будет верно неравенство aij≤β, то есть β является гарантированным верхним значением проигрыша второго игрока.
Будет ли исход игры, реализующийся при стратегиях k и q, равновесным зависит от того, равны или нет числа α и β.
Если верхняя цена равна нижней цены игры, т.е. выполняется равенство:
(1.8)
то число называется чистой ценой игры.
Пусть платёжная матрица удовлетворяет уравнению (1.8). Это значит, что существует её элемент alk, для которого верно равенство
(1.9)
Исход достигается, когда игрок A выбирает стратегию l, а игрок B – стратегию k. В этом случае стратегия k называется оптимальной минимаксной стратегией игрока B, а элемент называется седловой точкой (седлом) платёжной матрицы. Совокупность (цена игры оптимальной стратегии) называется решением игры в чистых стратегиях.
Теорема 2. Если один участник игры выбирает свою оптимальную (максиминную/минимаксную) стратегию, то лучшим выбором для другого участника будет своя (минимаксная/максиминная) стратегия.
Доказательство. Пусть игрок A выбрал свою оптимальную стратегию , тогда для любых стратегий игрока B будет справедливо неравенство . Для оптимальной стратегии игрока B будет выполняться неравенство , следовательно для , а для . Из этого следует, что наилучшей стратегией для игрока B будет стратегия . Аналогично доказывается обратная зависимость.
Итак, если платёжная матрица имеет седловую точку, то ни одному участнику игры не выгодно в одностороннем порядке отказываться от своей оптимальной (максиминной/минимаксной) стратегии. Другими словами в cедловой точке наблюдается баланс интересов, поэтому эту точку называют точкой равновесия.
Если платёжная матрица имеет седловую точку, то:
1) Игрок A имеет оптимальную максиминную стратегию;
2) Игрок B имеет минимаксную стратегию;
3) Применение оптимальных стратегий даёт ситуацию равновесия, которая оказывается равновесием в чистых стратегиях.
4) Игра имеет решение , где . – оптимальные стратегии. .
Пример. Найти решение игры.
Источники:
https://megaobuchalka.ru/5/26393.html
https://studopedia.ru/12_144180_igra-v-chistih-strategiyah.html
https://megalektsii.ru/s151695t5.html