Тема 2. Простейшие методы решения задач теории игр.
Запись матричной игры в виде платёжной матрицы.
В общем виде матричная игра может быть записана следующей платёжной матрицей (рис. 1.1.),
| B1 | B2 | … | Bn |
A1 | A11 | A12 | ... | A1n |
A2 | A21 | A22 | ... | A2n |
… | ... | ... | ... | ... |
Am | am1 | am2 | ... | amn |
Рис. 1.1. Общий вид платёжной матрицы матричной игры
где Ai – названия стратегий игрока 1, Bj – названия стратегий игрока 2, aij – значения выигрышей игрока 1 при выборе им i – й стратегии, а игроком 2 – j – й стратегии. Поскольку данная игра является игрой с нулевой суммой, значение выигрыша для игрока 2 является величиной, противоположенной по знаку значению выигрыша игрока 1.
Понятие о нижней и верхней цене игры. Решение игры в чистых стратегиях.
Каждый из игроков стремится максимизировать свой выигрыш с учётом поведения противодействующего ему игрока. Поэтому для игрока 1 необходимо определить минимальные значения выигрышей в каждой из стратегий, а затем найти максимум из этих значений, то есть определить величину
Vн = maxi minj aij ,
или найти минимальные значения по каждой из строк платёжной матрицы, а затем определить максимальное из этих значений. Величина Vн называется максимином матрицы или нижней ценой игры.
Величина выигрыша игрока 1 равна, по определению матричной игры, величине проигрыша игрока 2. Поэтому для игрока 2 необходимо определить значение
Vв = minj maxi aij
Или найти максимальные значения по каждому из столбцов платёжной матрицы, а затем определить минимальное из этих значений. Величина Vв называется минимаксом матрицы или верхней ценой игры.
В случае, если значения Vн и Vв не совпадают, при сохранении правил игры (коэффициентов aij ) в длительной перспективе, выбор стратегий каждым из игроков оказывается неустойчивым. Устойчивость он приобретает лишь при равенстве Vн = Vв = V. В этом случае говорят, что игра имеет решение в чистых стратегиях, а стратегии, в которых достигается V - оптимальными чистыми стратегиями. Величина V называется чистой ценой игры.
Например, в матрице (рис. 1.2)
| B1 | B2 | B3 | B4 | Minj |
A1 | 7 | 6 | 5 | 4 | 4 |
A2 | 1 | 8 | 2 | 3 | 1 |
A3 | 8 | 1 | 3 | 2 | 1 |
Maxi | 8 | 8 | 5 | 4 |
|
Рис. 1.2. Платёжная матрица, в которой существует решение в чистых стратегиях
существует решение в чистых стратегиях. При этом для игрока 1 оптимальной чистой стратегией будет стратегия A1, а для игрока 2 – стратегия B4.
В матрице (рис. 1.3)
| B1 | B2 | B3 | B4 | Minj |
A1 | 7 | 6 | 5 | 2 | 2 |
A2 | 1 | 8 | 2 | 3 | 1 |
A3 | 8 | 1 | 3 | 2 | 1 |
Maxi | 8 | 8 | 5 | 3 |
|
Рис. 1.3. Платёжная матрица, в которой не существует решения в чистых стратегиях
решения в чистых стратегиях не существует, так как нижняя цена игры достигается в стратегии A1 и её значение равно 2, в то время как верхняя цена игры достигается в стратегии B4 и её значение равно 3.
Понятие о статистических играх
Принятие управленческих решений предполагает наличие ситуаций выбора наиболее выгодного варианта поведения из нескольких имеющихся вариантов в условиях неопределённости. Такие задачи могут быть описаны матричными играми особого типа, в которых игрок взаимодействует не со вторым игроком, а с окружающей средой. Объективно окружающая среда не заинтересована в проигрыше игрока. В процессе принятия решения о выборе варианта поведения игрок имеет информацию о том, что окружающая среда может принять одно из нескольких возможных состояний и сталкивается с неопределённостью относительно того конкретного состояния, которое примет окружающая среда в данный момент времени.
Матричная игра, в которой игрок взаимодействует с окружающей средой, не заинтересованной в его проигрыше, и решает задачу определения наиболее выгодного варианта поведения с учётом неопределённости состояния окружающей среды, называется статистической игрой или «игрой с природой». Игрок в этой игре называется лицом, принимающим решение (ЛПР).
В общем виде платёжная матрица статистической игры приведена на рисунке 3.1
| S1 | S2 | … | Sn |
A1 | A11 | A12 | ... | A1n |
A2 | A21 | A22 | ... | A2n |
… | ... | ... | ... | ... |
An | am1 | am2 | ... | amn |
Рис. 3.1. Общий вид платёжной матрицы статистической игры
В данной игре строки матрицы (Ai ) - стратегии ЛПР, а столбцы матрицы (Sj) – состояния окружающей среды.
Критерии принятия решения
ЛПР определяет наиболее выгодную стратегию в зависимости от целевой установки, которую он реализует в процессе решения задачи. Результат решения задачи ЛПР определяет по одному из критериев принятия решения. Для того, чтобы прийти к однозначному и по возможности наиболее выгодному варианту решению, необходимо ввести оценочную (целевую) функцию. При этом каждой стратегии ЛПР (Ai) приписывается некоторый результат Wi, характеризующий все последствия этого решения. Из массива результатов принятия решений ЛПР выбирает элемент W, который наилучшим образом отражает мотивацию его поведения.
Критерий максимального математического ожидания выигрыша.
Критерий максимального математического ожидания выигрыша применяется в тех случаях, когда ЛПР известны вероятности состояний окружающей среды. Платёжная матрица дополняется столбцом, каждый элемент которого представляет собой значение математического ожидания выигрыша при выборе соответствующей стратегии ЛПР:
где pj –вероятность j-го состояния окружающей среды.
Оптимальной по данному критерию считается та стратегия ЛПР, при выборе которой значение математического ожидания выигрыша максимально:
W = max Wi
Применение критерия максимального математического ожидания выигрыша, таким образом, оправдано, если ситуация, в которой принимается решение, следующая:
1. ЛПР известны вероятности всех состояний окружающей среды;
2. Минимизация риска проигрыша представляется ЛПР менее существенным фактором принятия решения, чем максимизация среднего выигрыша.
Необходимость иметь информацию о вероятностях состояний окружающей среды ограничивает область применения данного критерия.
Критерий недостаточного основания Лапласа
Данный критерий используется при наличии неполной информации о вероятностях состояний окружающей среды в задаче принятия решения. Вероятности состояний окружающей среды принимаются равными и по каждой стратегии ЛПР в платёжной матрице определяется, таким образом, среднее значение выигрыша:
Оптимальной по данному критерию считается та стратегия ЛПР, при выборе которой значение среднего выигрыша максимально:
W = max Wi
Использование данного критерия оправдано в следующей ситуации:
1. ЛПР не имеет информации, либо имеет неполную информацию о вероятностях состояний окружающей среды;
2. Вероятности состояний окружающей среды близки по своим значениям;
3. Минимизация риска проигрыша представляется ЛПР менее существенным фактором принятия решения, чем максимизация среднего выигрыша.
Максиминный критерий Вальда
Правило выбора решения в соответствии с максиминным критерием (ММ-критерием) можно интерпретировать следующим образом:
Платёжная матрица дополняется столбцом, каждый элемент которого представляет собой минимальное значение выигрыша в соответствующей стратегии ЛПР:
Wi = minj aij (4)
Оптимальной по данному критерию считается та стратегия ЛПР, при выборе которой минимальное значение выигрыша максимально:
W = max Wi
Выбранная таким образом стратегия полностью исключает риск. Это означает, что принимающий решение не может столкнуться с худшим результатом, чем тот, на который он ориентируется. Это свойство позволяет считать ММ-критерий одним из фундаментальных.
Применение ММ-критерия оправдано, если ситуация, в которой принимается решение следующая:
1. О возможности появления состояний окружающей среды ничего не известно;
2. Решение реализуется только один раз;
3. Необходимо исключить какой бы то ни было риск.
Критерий минимаксного риска Сэвиджа
Величина (amax j – aij ), где amax j - максимальный элемент j – го столбца, может быть интерпретирована как дополнительный выигрыш, получаемый в условиях состояния окружающей среды Sj при выборе ЛПР наиболее выгодной стратегии, по сравнению с выигрышем, получаемым ЛПР при выборе в тех же условиях любой другой стратегии. Эта же разность может быть интерпретирована как величина возможного проигрыша при выборе ЛПР I – й стратегии по сравнению с наиболее выгодной стратегией. На основе данной интерпретации разности выигрышей производится определение наиболее выгодной стратегии по критерию минимаксного риска.
Для определения оптимальной стратегии по данному критерию на основе платёжной матрицы рассчитывается матрица рисков, каждый коэффициент которой (rij) определяется по формуле:
rij = amax j – aij (5)
Матрица рисков дополняется столбцом, содержащим максимальные значения коэффициентов rij по каждой из стратегий ЛПР:
Ri = maxj rij
Оптимальной по данному критерию считается та стратегия, в которой значение Ri минимально:
W = min Ri
Ситуация, в которой оправдано применение критерия Сэвиджа, аналогична ситуации ММ-критерия, однако наиболее существенным в данном случае является учёт степени воздействия фактора риска на величину выигрыша.
Критерий пессимизма-оптимизма Гурвица
В практике принятия решений ЛПР руководствуется не только критериями, связанными с крайним пессимизмом или учётом максимального риска. Стараясь занять наиболее уравновешенную позицию, ЛПР может ввести оценочный коэффициент, называемый коэффициентом пессимизма, который находится в интервале [0, 1] и отражает ситуацию, промежуточную между точкой зрения крайнего оптимизма и крайнего пессимизма. Данный коэффициент определяется на основе статистических исследований результатов принятия решений или личного опыта принятия решений в схожих ситуациях.
Платёжная матрица дополняется столбцом, коэффициенты которого рассчитываются по формуле:
Wi = Cminj aij + (1-C) maxj aij (6)
Где C – коэффициент пессимизма.
Оптимальной по данному критерию считается стратегия, в которой значение Wi максимально:
W = max Wi
При С=1 критерий Гурвица превращается в ММ-критерий. При С = 0 он превращается в критерий “азартного игрока”, делающего ставку на то, что «выпадет» наилучший случай. Критерий Гурвица применяется в ситуации, когда :
1. Информация о состояниях окружающей среды отсутствует или недостоверна;
2. Необходимо считаться с появлением каждого состояния окружающей среды;
3. Реализуется только малое количество решений;
4. Допускается некоторый риск.
Критерий Ходжа-Лемана
Э тот критерий опирается одновременно на ММ-критерий и критерий максимального математического ожидания выигрыша. При определении оптимальной стратегии по этому критерию вводится параметр достоверности информации о распределении вероятностей состояний окружающей среды, значение которого находится в интервале [0, 1]. Если степень достоверности велика, то доминирует критерий максимального математического ожидания выигрыша, в противном случае – ММ-критерий
Платёжная матрица дополняется столбцом, коэффициенты которого определяются по формуле:
где u – параметр достоверности информации о вероятностях состояний окружающей среды.
Оптимальной по данному критерию считается та стратегия, в которой значение Wi максимально:
W = max Wi
Данный критерий применим в следующем случае:
1. Имеется информация о вероятностях состояний окружающей среды, однако эта информация получена на основе относительно небольшого числа наблюдений и может измениться;
2. Принятое решение теоретически допускает бесконечно много реализаций;
3. При малом числе реализации допускается некоторый риск.
- Тема 1. Классификация моделей.
- Тема 1. Классификация моделей.
- Основные признаки классификации моделей.
- Область использования.
- Учет в модели временного фактора.
- Способ представления модели.
- Тема 2. Классификация языков компьютерного моделирования.
- Тема 3. Этапы и цели компьютерного математического моделирования.
- Раздел 1. Задачи линейного программирования.
- Тема 1. Математическое программирование. Общий вид задач линейного программирования.
- Формулировка задачи.
- Геометрическая интерпретация задачи линейного программирования.
- Найти минимальное значение линейной функции
- Тема 2. Графический метод решения задач линейного программирования.
- Примеры задач, решаемых графическим методом.
- Обобщение графического метода решения задач линейного программирования.
- Тема 3. Симплекс - метод.
- Каноническая задача лп на максимум.
- Вспомогательная задача лп.
- Алгоритм метода искусственного базиса
- Вспомогательная задача лп.
- Алгоритм метода искусственного базиса.
- Тема 4. Транспортная задача.
- 4.2 Составление опорного плана.
- 4.3 Метод потенциалов.
- Раздел 2. Теория графов.
- Тема 1. Основные понятия теории графов.
- Элементы множества V называются вершинами графа g (или узлами), элементы множества u-его ребрами. Вершины и ребра графа называют также его элементами и вместо VV и u u пишут Vg и ug.
- 1.2 Операции над графами.
- 1.3.Связность графов.
- 1.4 Эйлеровы графы.
- 1.5 Гамильтоновы графы.
- Тема 2. Поиск пути в графе.
- 2.2 Путь минимальной суммарной длины во взвешенном графе с неотрицательными весами (алгоритм Дейкстры).
- 2.3 .Путь минимальной суммарной длины во взвешенном графе с произвольными весами для всех пар вершин (алгоритм Флойда).
- 2.4 Путь с минимальным количеством промежуточных вершин (волновой алгоритм).
- 2.5 Нахождение k путей минимальной суммарной длины во взвешенном графе с неотрицательными весами (алгоритм Йена).
- Тема 3. Задачи о минимальном остове.
- 3.1 Деревья.
- 3.1 Построение минимального остовного дерева (алгоритм Краскала).
- 3.1 Деревья.
- 3.1 .Построение минимального остовного дерева (алгоритм Краскала).
- Раздел 3. Динамическое программирование.
- Тема 1. Метод динамического программирования.
- 1.2 Идеи метода динамического программирования
- 1.3 Выбор состава оборудования для технологической линии.
- Исходные данные для примера
- Тема 2. Задача инвестирования.
- Тема 3. Замена оборудования.
- Тема 4. Задача о загрузке.
- 4.2 Рекуррентные соотношения для процедур прямой и обратной прогонки.
- 4.3 Решение задачи о загрузке.
- Раздел 4. Системы массового обслуживания (смо). (8 часов).
- Тема 1. Основные понятия теории массового обслуживания.
- Тема 2. Простейшие смо и нахождение их параметров.
- Перечень характеристик систем массового обслуживания можно представить следующим образом:
- 2. Одноканальная смо с неограниченной очередью
- 3. Одноканальная смо с неограниченной очередью, простейшим потоком заявок и произвольным распределением времени обслуживания
- 4. Одноканальная смо с произвольным потоком заявок и произвольным распределением времени обслуживания
- Раздел 5. Имитационное моделирование.
- Тема 1. Простейшие задачи, решаемые методом имитационного моделирования.
- Тема 2. Основные понятия теории Марковских процессов.
- Тема 3. Метод Монте – Карло.
- Раздел 6. Прогнозирование.
- Тема 1. Основная идея прогнозирования. Методы прогнозирования
- Тема 2.Теории экспертных оценок.
- Раздел 7. Теория игр.
- Тема 1. Основные понятия теории игр.
- 1. 1 Понятие об играх и стратегиях
- Тема 2. Простейшие методы решения задач теории игр.
- Раздел 8. Элементы теории принятия решений. (2 часа).
- Основные понятия.
- Принятие решений в условиях полной неопределенности
- Принятие решений при проведении эксперимента.
- 2. Принятие решений в условиях полной неопределенности
- 2.1 Максиминный критерий Вальда.
- Критерий равновозможных состояний.
- 3. Принятие решений при проведении эксперимента.
- 3.1. Принятие решений в условиях неопределенности.
- 3.2. Использование смешанной стратегии
- 3.3. Принятие решений в условиях риска