Обработка статистических данных
Данные о распределении дискретной или непрерывной случайной величины могут быть получены из опыта или в результате моделирования. Анализ статистических данных чаще всего состоит в определении математического ожидания или дисперсии интересующих величин. В случае экспериментальных статистических данных может возникнуть необходимость определить закон или плотность распределения случайной величины.
Простая статистическая совокупность
Пусть имеется некоторая случайная величина X и требуется определить закон распределения этой величины {pi} или f(x), или проверить гипотезу о том, что X распределена по определенному закону.
С этой целью под X проводится ряд экспериментов, в которых фиксируется полученное значение. Совокупность полученных значений представляет собой первичный материал для анализа. Этот ряд значений называют простой статистической совокупностью или простым статистическим рядом. Его представляют в виде:
i | xi | pi |
|
0 | 0,2831 | 1/n | |
1 | 0,012 | 1/n | |
2 | 1,1318 | 1/n | |
… | … | … | |
n | 0,2111 | 1/n |
На основе этих данных можно построить статистическую функцию распределения F*(x), которая по определению равна частоте события Х<х в данном статистическом ряде. Частота события xi рассматривается как отношение числа появления xi к общему числу измерений n. Значение F*(x), равно числу опытов, в которых Х<х, разделенное на общее число n и для непрерывной и для дискретной случайной величины, F* представляет собой ступенчатую функцию, скачки которой соответствуют наблюдаемым значениям. При росте числа опытов n ступенчатая функция F*(x) приближается к подлинной F(x), которая будет плавной.
Статистический ряд. Гистограмма
При очень большом количестве опытов простой статистический ряд перестает быть удобной формой записи материала. Часто эти значения подвергают дополнительной обработке для придания этому материалу компактности. Полученные при этом результаты также называют статистическим рядом.
Пусть имеются данные наблюдений случайной величины X в виде простого ряда. Разделим весь диапазон Х на k+1 интервал длины Δx. Далее мы подсчитаем количество значений mi попадающих в i-й интервал. Это число разделим на общее число наблюдений n и найдем число попаданий в каждый интервал: P*i = mi/n. Очевидно, что сумма всех P*i равна единице. Результат сгруппируем в таблицу, на основе которой можно построить график.
Ii | (x1, x2) | (x2, x3) | … | (xk, xk+1) |
Pi* | P1* | P2* | … | Pk* |
Ниже представлен фрагмент программы на языке С, который на основе массива n случайных значений xi, заданных в диапазоне от x0 до xn, строит массив из m элементов гистограммы pi.
void hist1(float *x, float x0, float xn, int n, float *h, int m)
{
int i, j;
float xi, dx, pn;
dx = (xn – x0) / m;
pn = 1.0/n;
for(i = 0; i < m; i++)
{
p[i] = 0;
for( j = 0; j < n; j++)
{
xi = x0 + i * dx;
if( (xi < x[j]) && (x[j] < xi + dx) ) p[i]+=pn;
}
}
}
Отметим, что число разрядов, на которые делится первичный статистический материал, не должно быть большим, ряд становится невыразительным (с погрешностями). Также ряд не может быть малым, иначе функция распределения будет описана грубо.
Выравнивание статистических рядов.
Для статистического ряда часто возникает задача подбора теоретической функции распределения. Такая задача называется выравниванием статистических рядов. Для решения этой задачи используют МНК. При этом считается. Что наилучшее согласие с данными экспериментов достигается в случае, когда сумма квадратов отношений обращается в минимум.
- Введение.
- Основные понятия теории вероятности.
- Числовые характеристики случайных величин.
- Основные законы распределения.
- Обработка статистических данных
- Лабораторная работа 1. Программная генерация псевдослучайных чисел.
- Метод Парка – Миллера (мультипликативный конгруэнтный метод)
- Лабораторная работа 2. Генерация случайных чисел с заданным распределением.
- Системы случайных величин.
- Лабораторная работа 3. Генерация системы случайных чисел с заданным распределением.
- Случайные процессы