logo
Лекции!

3.1. Принятие решений в условиях неопределенности.

Человек, прежде чем принять решение, пытается получить некоторую информацию о состоянии природы экспериментальным путем. Предполагается, что проведение эксперимента не требует никаких затрат,

Пусть проведен эксперимент, имеющий t исходов – возможных прогнозов состояния природы,

Z=(z1, z2,…, zt), .

Известна условная вероятность Р(zβ/Qj) -го результата эксперимента при состоянии природы Qj,

Pj= Р(zβ/Qj), =1,2,…,t, j=1,2,…,n. (7)

Множество значений Pj можно представить в виде матрицы размера t·n, данной в табл. 5.

Для использования информации, полученной в результате эксперимента, введем понятие стратегии.

Таблица 5

Qj

Z

Q1

Q2

Qn

z1

P11

P12

P1n

z2

P21

P22

P2n

zt

Pt1

Pt2

Ptn

Стратегия - это соответствие последовательности t результатов эксперимента последовательности t операций,

(z1, z2,…, zt)→ (ai, aj,…, ak). (8)

Выражение (8) подразумевает, что

z1→ ai, ,

z2→ aj, ,

……………………

zt→ ak, .

Число возможных стратегий  определяется формулой

 = mt,

m – число операций, t - число результатов эксперимента. При m=2, t=3 всевозможные стратегии представлены в табл.6.

Таблица 6

Si

z

S1

S2

S3

S4

S5

S6

S7

S8

z1

a1

a1

a1

a1

а2

а2

а2

а2

z2

a1

a1

а2

а2

a1

a1

а2

а2

z3

a1

а2

a1

а2

a1

а2

a1

а2

Задача ПР формулируется так: какую одну из операций a1,a2,…, am следует выбрать в зависимости от одного из результатов эксперимента z1, z2,…, zt.

Для принятия решения находим усредненные полезности стратегий Si, i= 1,2, …, , при состояниях природы Qj, j=1, 2, …, n,

U(Si,Qj)=αi β j Pβ j , i= 1,2, …, , j=1, 2, …, n, (9)

где αiβj - полезность β-ой компоненты i-ой стратегии при состоянии природы Qj, Pβj – условная вероятность β-го результата эксперимента при состоянии природы Qj. Стратегия Si определена множеством операций, значения αi β j берутся из таблицы полезностей значения Pβj – из табл. 5. Полученные значения усредненных полезностей U(Si,Qj) можно записать в виде матрицы размера n·. Для принятия решения – выбора наилучшей стратегии можно воспользоваться уже рассмотренными критериями: максимина, минимакса сожалений и равновозможных состояний.

Рассмотрим конкретный пример. Предполагается лишь два состояния природы: Q1 - теплая погода, Q2 – холодная погода, и только две операции: a1 – одеться для теплой погоды, a2 – одеться для холодной погоды. Эта ситуация характерна для туристов. Матрица полезности дана в табл.7.

Таблица 7 Таблица 8

Qj

ai

Q1

Q2

Qj

z

Q1

Q2

a1

10

0

z1

0.6

0.3

z2

0.2

0.5

a2

4

7

z3

0.2

0.2

Критерий максимина гарантирует 4 ед. полезности и рекомендует выбирать операцию а2. Критерий минимакса дает этот же ответ.

Но есть возможность воспользоваться данными прогноза погоды (в этом и состоит эксперимент), которые могут быть трех видов:

z1 – ожидается теплая погода,

z2 – ожидается холодная погода,

z3 – прогноз неизвестен.

Из прошлого опыта известны условные вероятности этих трех видов прогноза для каждого состояния природы , =1,2,3, j =1,2, представленные в табл. 8.

Для каждой из 8–ми стратегий и каждого из 2–х состояний природы определим взвешенные суммы полезностей по формуле (9), используя данные таблиц 6 – 8,

U(S1,Q1) =100.6 + 100.2 +100.2 =10,

U(S2,Q1) =100.6 + 100.2 +40.2 = 8.8,

U(S3,Q1) =100.6 + 40.2 + 100.2 = 8.8,

........................................................

U(S8,Q1) = 40.6 + 40.2 + 40.2 = 4,

U(S1,Q2) = 00.3 + 00.5 +00.2 = 0,

.........................................................

U(S8,Q2) = 70.3 + 70.5 + 70.2 = 7.

Все вычисленные значения U(Si,Qj), i = 1,2,…8, j = 1, 2, помещены в табл.9.

Таблица 9

Si

Qj

S1

_

S2

S3

S4

_

S5

_

S6

S7

S8

Q1

10

8.8

8.8

7.6

6.4

5.2

5.2

4

Q2

0

1.4

5

4.9

2.1

5

5.6

7

Из табл. 9 предварительно следует исключить плохие стратегии –– те стратегии, обе компоненты которых не больше () соответствующих компонент какой–либо другой стратегии. Ввиду того, что , , S6 ≤ S7, то стратегии исключаются из рассмотрения (в табл. 9 они помечены знаком "–").

К оставшимся, допустимым стратегиям можно применить известные нам критерии. Используя критерий максимина, имеем:

, ,

, , ,

.

Следовательно, наилучшей стратегией является стратегия S7, гарантирующая 5.2 ед. полезности. Для сравнения максиминная операция гарантирует лишь 4 ед. полезности. Так как S7 = (a2, a2, a1), то в силу (8) имеем

.

Это значит, что при прогнозе z1 выбирается операция а2, при прогнозе z2 – a2, при прогнозе z3 – a1, т.е. максиминная стратегия S7 рекомендует одеваться тепло, если прогноз – теплая или холодная погода, и одеваться легко, если прогноз неизвестен. Последнее утверждение весьма непрактично.

Максиминная стратегия S7 при неблагоприятном стечении обстоятельств может привести и к худшему результату, чем максиминная операция . Например, имеет место холодная погода . Тогда согласно максиминной операции турист получит 7 ед. полезности (табл. 7). С другой стороны, если результат прогноза будет (прогноз неизвестен) и согласно стратегии S7 будет выбрана операция (одеться легко), то он получит 0 ед. полезности. Это явление –– типичное для теории игр и теории принятия решений. S7 гарантирует лишь среднюю полезность в 5.2 ед.