Непараметрические методы – это методы, которые используются в случаях, когда нам не известен характер распределения данных либо известно, что распределение данных не подчиняется нормальному закону распределения, в таких методах проводится ранжирование абсолютных значений.
U-критерий Манна-Уитни – это простой непараметрический статистический критерий, который используется для оценки различий между двумя независимыми выборками по уровню какого-либо признака, измеренного количественно. Данный критерий позволяет выявлять различия в значении параметра между малыми выборками и чем меньше значение критерия, тем вероятнее, что различия в выборках достоверны [1].
Ограничения применимости критерия:
1) В каждой из выборок должно быть не менее трех значений признака. Допускается, чтобы в одной выборке было два значения, но во второй тогда не менее пяти;
2) В выборочных данных не должно быть совпадающих значений или таких совпадений должно быть очень мало.
Применение U-критерия Манна-Уитни целесообразно при сравнении двух независимых совокупностей, однако, данный критерий можно использовать и при сравнении большего числа выборок, но при этом необходимо учесть изменение традиционного критического уровня значимости на новый уровень значимости [2].
Рассмотрим алгоритм применения U-критерия Манна-Уитни на примере сравнительного анализа характера загрязнения почв свинцом г.Архангельска и г.Северодвинска. Объект исследования – почвы, взятые с пробных площадей, заложенных в техногенно-антропогенных и природно-антропогенных зонах городов. Данные по валовому содержанию тяжелых металлов в почвах (концентрация, мг/кг) предоставлены кафедрой химии и химической экологии САФУ имени М.В. Ломоносова.
Алгоритм применения U-критерия Манна-Уитни следующий:
1) Выдвигаем нулевую гипотезу: города Архангельск и Северодвинск схожи по характеру загрязнения почв свинцом между собой.
2) Данные по загрязнению почв располагаем в обобщенный ряд в порядке от наименьшего значения к наибольшему и ранжируем.
3) Из обобщенного ряда отдельно выделяем выборки по г.Архангельску и г.Северодвинску. Суммируем ранги по каждой выборке.
4) Вычисляем эмпирическое значение U-критерия по следующей формуле:
,
где ,
,
.
5) Для заданного уровня значимости определяем по таблице критических значений U-критерия Манна-Уитни.
Проводим сравнение с критическим уровнем значимости (уровень значимости примем равным 0,05, то есть различия между выборками будем считать статистически значимыми только в том случае, когда Р < 0,05).
Если расчетное значение больше критического, то нулевую гипотезу принимаем, в противном случае гипотеза отвергается.
Таблица 1 – Расчет сумм рангов
Продолжение таблицы 1
n1 = 22,
n2 = 36
Uкр(0,05) = 292
U > Uкр, значит, гипотеза о сходстве принимается, таким образом, загрязненность свинцом в Архангельске и Северодвинске значимо не отличается. Гипотеза о сходстве принимается.
С целью подтверждения полученного вывода для проверки гипотезы можно использовать следующие автоматизированные расчеты:
1. двухвыборочный t-тест с различными дисперсиями в MS Excel [3];
2. автоматизированный расчет в SPSS Statistic.
Результаты проверки гипотезы по двухвыборочному t-тесту с различными дисперсиями при уровне значимости равном 0,05 следующие:
Таблица 2 — Двухвыборочный t-тест с различными дисперсиями
Поскольку tстат = 0,81 < tтабл = 2,0, то делаем вывод, что загрязненность свинцом в Архангельске и Северодвинске значимо не отличается.
Результаты проверки гипотезы в SPSS Statistic следующие:
Таблица 3 — Итоги по проверке гипотезы в SPSS Statistic
Поскольку нулевая гипотеза принимается, то делаем вывод, что загрязненность свинцом в Архангельске и Северодвинске значимо не отличается.
Подведем итоги. Мы рассмотрели алгоритм применения вероятностно-статистических методов (на примере непараметрического статистического U-критерия Манна-Уитни) при проведении сравнительного анализа характера загрязнения почв на примере загрязнения почв свинцом городов Архангельска и Северодвинска. В результате выявили сходство территорий г.Архангельска и г.Северодвинска по степени загрязнения почв свинцом. Проведя расчеты согласно алгоритму, подтвердили полученные результаты, используя автоматизированный расчет двухвыборочного t-теста с различными дисперсиями в MS Excel и расчет в SPSS Statistic. Применение U-критерия Манна-Уитни целесообразно при сравнении двух независимых совокупностей, однако, данный критерий можно использовать и при сравнении большего числа выборок, но при этом необходимо учесть изменение традиционного критического уровня значимости на новый.
Список литературы:
1. Algoritmika, statistika i teorija verojatnostej: [sajt]. URL: http://matstats.ru/mann.html/
2. Grzhibovskij A. M. Vybor statisticheskogo kriterija dlja proverki gipotez // Jekologija cheloveka. 2008. № 11. S. 48–57. URL: https://cyberleninka.ru/article/n/vybor-statisticheskogo-kriteriya-dlya-proverki-gipotez/viewer (data obrashhenija: 01.02.2020).
3. Dvuhvyborochnyj t-test s razlichnymi dispersijami v MS Excel. URL: https://excel2.ru/articles/dvuhvyborochnyy-t-test-s-razlichnymi-dispersiyami-v-ms-excel