1. Общие положения о применении критерия при проверке статистических гипотез
Критерий основан на сравнении эмпирической гистограммы распределения случайной величины с её теоретической плотностью. Диапазон изменения экспериментальных данных разбивается на k интервалов, и рассчитывается значение статистики по формуле:
где – количество значений случайной величины, попавших в i-й интервал;
– объём выборки; F(x)– гипотетический теоретический закон распределения вероятностей случайной величины;
– теоретическая вероятность попадания случайной величины в i-й интервал.[1, с. 204]
Принято считать, что статистика критерия имеет распределение, близкое к распределению . Правило проверки гипотезы следующее: если
то на уровне значимости , т.е. с достоверностью
, гипотеза о распределении отклоняется (Рисунок 1).
– критическое значение критерия для уровня значимости
и при числе степеней свободы f.[1, c. 205]
Рисунок 1. График распределения с областью отклонения гипотезы [2, c. 169]
Если параметры гипотетического распределения определяются непосредственно по самой выборке, то число степеней свободы определяется по формуле:
f = k – m – 1, (3)
где k - число интервалов группирования, m - количество параметров, оцениваемых по выборке [3, c. 8].
2. Применение критерия при проверке гипотезы о согласии распределения с нормальным
Для расчёта значения критерия при проверке статистической гипотезы о соответствии закона распределения случайной величины выборки нормальному необходимо найти теоретические значения частот попадания случайной величины в каждый интервал гистограммы плотности нормального распределения с учётом объёма выборки, выборочного среднего и выборочного среднего квадратичного отклонения.
Исходя из этих положений, формула (3) принимает следующий вид:
f = k – 3, (3)
При этом k в случае унимодального нормального распределения в соответствии с рекомендациями из [3, с. 14] принимает такие значения, при которых не более чем в двух крайних интервалах частоты меньше либо равны 1.
Для нахождения гипотетической гистограммы нормального распределения можно использовать следующий алгоритм:
- Рассчитать значения выборочного среднего
и выборочного среднего квадратичного отклонения s.
- Для каждого интервала определить середину
и частоту попадания случайной величины
.
- Вычислить отношение разности
к выборочному среднему квадратичному отклонению:
.
- По найденным на предыдущем шаге значениям рассчитать значение соответствующей плотности стандартного нормального распределения:
.
- Для каждого интервала найти значение
.
- Вычислить теоретические значения вероятности попадания случайной величины в соответствующие интервалы по формуле
, где h - ширина интервала.
- Определить гипотетическое значение частот попадания в соответствующие интервалы как произведение
.
- Для каждого интервала определить значение расхождения
.
- Наконец, вычислить значение статистического критерия
по формуле (1).
Имея значение статистического критерия, можно найти достигнутый уровень значимости , что позволит оперировать ещё одним правилом проверки статистической гипотезы: достигнутый уровень значимости должен превысить выбранное критическое значение уровня значимости
. Критический уровень значимости
представляет собой вероятность того, что вычисленное значение критерия
превысит критическое значение
. На практике значение выбирают от 0.05 до 0.001 в зависимости от объёма выборки, однако конкретных практических рекомендаций о способе выбора данного значения нет.
Достигнутый уровень значимости можно определить с помощью встроенной функции Microsoft Excel: CHISQ.DIST.RT(X, Deg_freedom), где X – значение, для которого определяется уровень значимости; Deg_freedom – число степеней свободы, которое определяется по формуле (4). [4]
Таким образом, применяя данный алгоритм, можно реализовать проверку согласия распределения эмпирической выборки с нормальным.
Библиографический список
- Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. – М.: ФИЗМАТЛИТ, 2006 – 816 с. – ISBN-5-9211-0707-0.
- Осипов А.Л., Храпов В.Н. Эконометрика: Учебно-методический комплекс для дистанционного обучения. – Новосибирск: СибАГС, 2002. – 173 с.
- ГОСТ Р 50.1.033-2001 Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть 1. Критерии типа хи-квадрат. – Москва: Госстандарт России – 91 с.
- Excel Help [Электронный ресурс] – URL: https://support.office.com/en-us/article/CHISQ-DIST-RT-function-dc4832e8-ed2b-49ae-8d7c-b28d5804c0f2 (дата обращения: 12.05.2016)