Антонов

Общие замечания

Рассмотренные ранее параметрические методы анализа статистической информации в последнее время подвергаются критике специалистов по математической статистике. Дело в том, что применение параметрических методов требует предположений о виде закона распределения наблюдаемых случайных величин. Как правило, нельзя указать какие-либо веские причины, по которым конкретное распределение результатов наблюдений должно входить в то или иное параметрическое семейство. Известны результаты, согласно которым сумма независимых случайных величин описывается нормальным законом распределения; произведение таких величин приближается логарифмически нормальным распределением. В теории надежности доказано, что наработки до отказа однотипных элементов подчиняются экспоненциальному закону распределения, при этом характер отказов предполагается внезапным. Далее известно, что сумма случайных величин, подчиняющихся экспоненциальному закону распределения, распределена по гамма-закону. Пожалуй, этими фактами и исчерпываются все обоснования в поддержку того или иного семейства законов распределения. В подавляющем большинстве реальных ситуаций подобных обоснований для использования конкретного вида закона распределения нет, и приближение реального распределения с помощью параметрических семейств становится чисто формальной процедурой.

Первые публикации, в которых развивался непараметрический подход, относятся к первой половине 20-го столетия. В это время появились работы Кендалла и Спирмена, в которых исследовались критерии проверки гипотез, основанные на коэффициентах ранговой корреляции. В настоящее время эти критерии носят название авторов, разработавших и исследовавших их (см. [35, с. 77-82]). В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, в которых были предло- 282 жены и изучены статистические критерии, основанные на использовании эмпирического процесса. Ho непараметрические методы, в которых не делается никаких нереалистических предположений о том, что функция распределения результатов наблюдений принадлежит тем или иным параметрическим семействам распределений, стали заметной частью статистического анализа только во второй трети XX в.

После Второй мировой войны развитие непараметрических статистических моделей пошло быстрыми темпами. Большую роль в развитии этих методов сыграли работы Вилкоксона и его школы. К настоящему времени с помощью непараметрических методов можно решать тот же круг задач, что и с помощью параметрических. Все большую роль играют непараметрические методы оценки плотности, непараметрические подходы в решении задач регрессионного анализа и теории распознавания образов. В настоящем разделе рассмотрим непараметрические методы оценки плотности распределения. Построив плотность распределения, можно далее переходить к определению широкого круга статистических показателей. Поэтому задача оценки плотности распределения наблюдаемой случайной величины является одной из ключевых задач статистического анализа.

Гистограммный метод восстановления плотности распределения

Для придания наглядности статистическому материалу его необходимо подвергнуть дополнительной обработке. С этой целью строится статистический ряд. Покажем, как осуществляется его построение.

Пусть имеются результаты наблюдения над непрерывной случайной величиной X, оформленные в виде простой статистической совокупности. Рассмотрим весь диапазон зафиксированных значений величины X и разделим его на интервалы. Диапазон зафиксированных значений случайной величины представляет собой область определения данной величины. Далее подсчитаем количество значений реализовавшейся случайной величины, попавших в каждый интервал, обозначим эти значения через т.. Каждое из полученных значений разделим на общее число наблюдений п и определим частоту попадания случайной величины в z-й интервал наблюдения:

Сумма частот всех интервалов должна быть равна единице. Представив полученные результаты расчетов в виде таблицы, получим статистический ряд (см. табл. 9.1).

Таблица 9.1

Il	Xi; *2	х₂; х_г		Xit Xl+1		xi;
Pt	Р\	Pt		Pi		Pt

Здесь I₁ - обозначение г-го интервала; X_i; х._+] - границы данного интервала; P_i - соответствующая частота; к - количество интервалов.

При построении статистического ряда возникает вопрос о рекомендуемом количестве интервалов разбиения области определения наблюдаемой случайной величины. С одной стороны, количество интервалов не должно быть слишком большим, в этом случае ряд распределения становится невыразительным и частоты в нем обнаруживают незакономерные колебания; с другой стороны, оно не должно быть слишком малым, при малом числе интервалов свойства распределения описываются статистически слишком грубо. Чем богаче и однороднее статистический материал, тем большее число интервалов можно выбирать при составлении статистического ряда. В математической статистике известна формула Стаджесса, с помощью которой вычисляется количество интервалов разбиения области определения случайной величины. Согласно этой формуле количество интервалов определяется следующим образом:

к =l+3,31gw.

При построении статистического ряда возможны различные способы выбора длины интервалов; они могут быть как равными, так и различными. Однако следует отметить, что в практике построения статистического ряда наибольшее применение нашли два: метод равных интервалов и равночастотный метод. В первом методе, естественно, длины интервалов выбираются одинаковыми. Во втором методе длины интервалов различные. Они выбираются таким образом, чтобы количество попаданий случайной величины в каждый из интервалов было одним и тем же.

Графическое представление статистического ряда называется гистограммой. Гистограмма строится следующим образом. По оси абсцисс откладываются интервалы и на каждом из них строится прямоугольник, площадь которого равна частоте данного интервала. Для построения гистограммы необходимо частоту каждого интервала разделить на его длину и полученное значение взять в качестве высоты прямоугольника. В случае равных интервалов высоты прямоугольников пропорциональны соответствующим частотам. Из правила построения гистограммы следует, что полная площадь под гистограммой равна единице. Формулу построения гистограммы можно представить в следующем виде:

" /ГX_i є А Л И I-1 MA_nj)

где / [я, є A_n- J — индикатор, равный единице, если условие в скобках выполняется, и нулю - в противном случае; A_n. - интервалы, на которые делится область определения наблюдаемой случайной величины; X(A_nj) - ширина интервала A_n..

Гистограмма является простейшей оценкой плотности распределения, не обладающей свойством несмещенности. Гистограммная оценка обладает рядом недостатков. В первую очередь, необходимо отметить значительную потерю информации, связанную с тем, что исследователю для построения гистограммы необходимо знать, сколько наблюдений попало в выбранный интервал разбиения и абсолютно не важны при этом значения наблюдений. Во-вторых, принцип разбиения (равных интервалов или равных частот), а также число разбиений, являются некоторыми «степенями свободы». Как исследователь выполнит разбиение, воспользовавшись такой свободой, зависит только от него. В-третьих, скорость сходимости гистограммной оценки к плотности крайне низкая.

Рассмотрим пример построения гистограммы по результатам наблюдения за случайной величиной, характеризующей наработки до отказа группы однотипных объектов. Пусть результаты функционирования группы однотипных объектов представлены в виде статистического ряда, приведенного в табл.9.2.

Таблица 9.2

/,	х,; X₂	*х>;з**	Xi, Xj+ J	Xk-U Xt	Xk', Xj_c+1
Ш/	2	1	N₁	0	1
Pi	2In	Un	Niln	0	1 In

На основании данной таблицы построим гистограмму (рис.9.1).

N_lIn

2/л

1/л

т/л

X₁ JC_j X₃ ... X., X, ... X_m X_t X_tfl

Рис. 9.1. Пример построения гистограммы

3/л 2 In Mn

Пользуясь результатами построения статистического ряда,можно построить также эмпирическую функцию распределения наблюдаемой случайной величины. Для этого необходимо определить значения функции распределения на границах интервалов, по которым построена гистограмма, тогда получим

F (Х|, X₂) — Pj»

Hx_2tX_i)=P₁+P₂;

F(X_k^x_k) = J P₁; *

1*1

F(X_k^) = Y_dP_i ⁼¹- 1*1

Эмпирическая функция распределения будет представлять собой ступенчатую функцию, изображенную на рис. 9.2. Построение эмпирической функции распределения решает задачу описания статистического материала. На основании данной функции можно производить оценивание вероятностных характеристик объектов, для которых ведется обработка статистического материала.

Рис. 9.2. Эмпирическая функция распределения

Построение эмпирической функции распределения по цензурированной выборке

Анализ работ по непараметрическим методам оценивания характеристик сложных систем на основании цензурированных данных показывает, что достаточно полно разработаны и исследованы методы получения точечных и интервальных оценок для случаев, когда у исследователя имеются большие объемы статистических данных.

В [38] изложены методы построения оценки функции F(t), исследованы свойства этой оценки, рассмотрены методы оценивания некоторых показателей надежности на основании цензурированных данных незначительного объема. При оценивании характеристик объектов на основании информации, полученной на этапе их эксплуатации в составе штатного оборудования сложных систем, возникают ситуации, аналогичные рассмотренным в [38], а именно, распространенной является ситуация, когда информация представлена в виде цензурированных данных весьма ограниченного объема. Поэтому методы, изложенные в [38], можно эффективно применять при проведении экспресс-анализа характеристик объектов сложных систем на этапе проведения системных исследований. Рассмотрим метод построения эмпирической функции распределения, изложенный в [38].

Пусть имеется функция распределения F(t), тогда вероятность попадания наблюдаемой случайной величины в интервал (0, 7) будет равна F(T). Разобьем интервал наблюдения на к равных частей. Определим вероятность попадания наблюдаемой случайной величины в интервал (0, £,_у] для любого j = l, к.

Попадание случайной величины на некоторый интервал (0, E_ly] есть событие, которое можно представить как сумму событий, состоящих в том, что случайная величина попадет либо в интервал (0, E_iyi], либо в интервал (£ S_lj.]. Следовательно, для вероятности попадания случайной величины в интервал (0, £.] можно записать выражение

1-й интервал; 2-й интервал

TT' T T

fTl/ гтт/ fp/ fp/

> V, +1 *' “> V|

V,+V₂

ЄЙР = Р{Т<^} = Р{Т<I;,..,}+Pft_y., <Т<^}, (9.1)

где T - значение наблюдаемой случайной величины. Вероятность попадания случайной величины на интервал (E_ly,, £ ] можно определить в виде

Р&1-, <r<4_J} = (¹-F.._l)(2ft_J,₁^,/^₁), (9.2)

где F_ja - значение функции F{t) в точке ^_l, F_j_x = Q(Z_3ja); Q(\_a, £Д_ч)

условная вероятность попадания случайной величины в интервал (E^₁, Е,_у] при условии, что на интервале (0, I_ij,] случайная величина T не реализовалась.

Подставляя выражение (9.2) в (9.1), получаем формулу для определения вероятности попадания случайной величины T в интервал

(О, у

Qfe_i)= Qa_H)+a-Q^_M))Q(^Aj fe_H), (9.3)

где Qfe,,) - вероятность попадания случайной величины в интервал (О, ^₁]. Расписывая аналогичным образом вероятность попадания случайной величины в интервал (0, ^ _l] через вероятности попадания в интервалы (О, и (^_y.₂, ^₁], получаем

Q(^₁) = Q(^₂) + a-Q(^-₂))Q(^A_M/^) .

Повторяя данную процедуру для интервалов (0, £.], где 1< і < j, можно в конечном счете получить выражение для вероятности попадания наблюдаемой случайной величины в интервал (О, Т) в виде

F(T) = 2(l-<2(V>))e(WA-i) • (9.4)

Оценим функцию распределения для многократно цензурированной справа выборки следующего вида:Г,, T₂,..., Т_ц, T'_+l,... T'_+v, где Г.,/= ITjx

значения наблюдаемой случайной величины с реализовавшимся признаком; T_j, j = n + l,p.+v - значения наблюдаемой случайной величины с нереализовавшимся признаком, т.е. цензурированные данные.

Разобьем результаты наблюдения на к интервалов:

it-й интервал; T ■

ґ•

ⁱV »

где - количество наблюдений случайной величины с реализовавшимся признаком, попавших в j-й интервал; V_j - количество наблюдений случайной величины с нереализовавшимся признаком, попавших вJ-й интервал,

Xn_j=Ii;Iv_j=V.

J=I J=I

Для определения оценки функции распределения в точке t необходимо вместо значений величин Qfe_jA), Qfe_JA, в (9.4) подставить их оценки. В качестве условных вероятностей используют отношение количества реализаций |Д._у, попавших на интервал fe_jV E_ly], к общему числу объектов, находящихся под наблюдением в начале этого интервала при условии, что в начале интервала под наблюдением находится хотя бы один объект. Если в начале интервала под наблюдением отсутствует хотя бы один объект, то условная вероятность наблюдения случайной величины на этом интервале равна нулю. Поэтому оценку условной вероятности на интервале полагают также равной нулю. С учетом этого выражение для оценки функции распределения в точке t будет иметь вид

О при N_yj <О,

где F_j_x - оценка функции распределения в точке Е,_у_];

(9.6)

(—і

Если в первом интервале одна или несколько случайных величин с нереализовавшимся признаком меньше первой случайной величины с реализовавшимся признаком, то V₀^ 0, в противном случае V₀= 0. Если в последнем интервале значение последней случайной величины с реализовавшимся признаком больше всех значений случайных величин с нереализовавшимся признаком, то V_t= 0, в противном случае \_кФ 0.

Величина N_y., входящая в выражение (9.5), называется условным

объемом цензурированной выборки на интервале (£ , £.]. Она равна

числу объектов, за которыми ведется наблюдение на указанном интервале.

Выражение (9.5) можно переписать, несколько детализировав представление функции распределения на каждом интервале:

О при t < 0;

Fi⁺G- Fi>77“ приN_y2 > 0

j- при 0S/<£,, J₁ =0, 1,..., щ;

/К*) =

Для4, </<4₂; J₂=O, 1,..., р₂;

Fi при N_y2 £ 0

(9.7)

Дта^., =Q, I,..., Li_i.

Ft-i +(^²- Ft-і )тр при N_yt >0

Ft-i ⁿPH W_y2 <0

В [3 8] даются рекомендации для разбиения области, на которой проводится оценивание функции распределения, на интервалы. В частности, указано, что для повышения точности оценки F(t) необходимо весь отрезок наблюдения [0, 7], где T= Z_sk = шах[Г_ц ,T'], разбить на интервалы, границы которых совпадают со значениями случайных величин с нере- ализовавшимся признаком. Например, если выборку наблюдений, состоящую из случайных величин с нереализовавшимся признаком и случайных величин с реализовавшимся признаком записать в порядке возрастания ее членов в виде

T₁, T₂, T₁', T₃, T₂,..., T_v', Г_м> T₁₁ , (9.8)

то интервалы наблюдений будут равны

to, T₁Kt₁: т'1,...,(т;_„ г;],(г;,г_ц],

а (1, у^соответственно будут равны

р, = 2, V₁ = 1; р₂ = I, V₂ = I;...; H₁ =2, V_k=O.

Если в выборке наблюдений окажется, что отдельные значения случайных величин с реализовавшимся признаком будут равны некото- 290 рым значениям случайных величин с нереализовавшимся признаком, то в вариационном ряду (9.8) сначала указывают значения случайных величин с реализовавшимся признаком, затем значения случайных величин с нереализовавшимся признаком.

Таким образом, используя правило (9.7), можно строить эмпирическую функцию распределения случайной величины при многократно цензурированных выборках.

Содержание