Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение А
(рекомендуемое)
Алгоритм выделения модального интервала значений гидрохимических показателей состояния речных экосистем
А.1 Провести восходящее ранжирование вариационных рядов значений гидрохимического показателя.
А.2 Исключить из выборки аномально высокие или низкие значения ("промахов"), появление которых может быть связано только с грубыми ошибками при получении информации согласно РД 52.24.622.
Наличие промахов в ранжированной выборке оценивают по критерию Ирвина [6] последовательно для каждого максимального значения. Для этого рассчитывают критериальное значение по формуле
, (А.1)
где и - наибольшие значения показателя в выборке;
- стандартное отклонение, которые вычисляется по формулам А.2 или А.3 для выборки, включающей в себя предполагаемый "промах":
, при n > 30, (А.2)
, при n < 30, (А.3)
где - i-ое значение показателя выборки;
- среднее арифметическое значений показателя выборки;
n - количество значений показателя в выборке.
Затем сравнивается с табличным значением критерия , приведенным в таблице А.1. Если объем выборки занимает промежуточное положение между приведёнными в таблице А.1, используют критерий для большего n.
Пример - Для анализа выборки, состоящей из 15 вариантов, применяют критериальное значение , рассчитанное для n = 20 (1,3 при p < 0,05 и 1,8 при p < 0,01). Рекомендуемый уровень значимости р < 0,05.
Если , то нулевая гипотеза о принадлежности оцениваемого "промаха" данной выборке не подтверждается, т.е. результат ошибочный и должен быть исключён при дальнейшей обработке вариационных рядов, а следующее максимальное значение вновь подвергается оценке по этой же процедуре.
Таблица А.1 - Теоретические значения критерия Ирвина для различных уровней значимости p [6]
Количество значений показателя в выборке n |
Критерий при уровне значимости p |
|
менее 0,05 |
менее 0,01 |
|
1 |
2,0 |
3,0 |
2 |
2,8 |
3,7 |
3 |
2,2 |
2,9 |
10 |
1,5 |
2,0 |
20 |
1,3 |
1,8 |
30 |
1,2 |
1,7 |
50 |
1,1 |
1,6 |
Допустимо сразу удалить предполагаемые "промахи", исключив из выборки 5% её результатов. Удаление данных из выборки возможно, если объем её составляет не менее 40 единиц, при этом удаляют по 2,5% и минимальных, и максимальных данных. Рассчитать количество удаляемых с одного края ранжированной выборки данных можно по формуле
, (А.4)
где n - количество значений показателя в выборке.
Пример - Если объем выборки составляет 40 единиц, то . Следовательно, при удаляется одно наименьшее и одно наибольшее значение. Если число удаляемых данных получается с остатком, округляют до целого числа в меньшую сторону.
Если после удаления 5% выборки остаются предполагаемые промахи, то удалённые значения должны быть возвращены в выборку и проанализированы при помощи статистического критерия Ирвина, как описано выше.
А.3 Рассчитать шаг группировки оставшихся данных вариационного ряда на основе стандартного отклонения как оптимальной ширины интервала по формулам А.2 или А.3.
А.4 Определить границы интервалов (минимальная и максимальная) вариационного ряда. Границы интервалов приводят с точностью на один разряд больше, чем значение показателя (то есть, если значение показателя определено с точностью до 0,1, границы интервалов приводятся с точностью до 0,01).
Минимальная граница первого интервала равна наименьшему значению выборки согласно формуле
. (А.5)
Для получения максимальной границы первого интервала к его минимальной границе прибавляется стандартное отклонение по формуле
. (А.6)
Минимальная граница второго интервала отличается от максимальной первого интервала на величину (точность, с которой определено значение показателя) и рассчитывается по формуле
. (А. 7)
Определение границ интервалов осуществляется до тех пор, пока максимальная граница очередного интервала не превысит максимальное значение показателя в выборке.
А.5 Провести распределение значений показателей по интервалам.
Интервал, в который попадает наибольшее количество значений, является модальным. Для оценки его границ используют фактическое минимальное и максимальное значения показателя, вошедшие в расчетные границы модального интервала. Для удобства выделения модального интервала ряд распределения представляют графически в виде гистограммы частостей, где по оси абсцисс откладывают значения границ интервалов и на их основании стоят прямоугольники, высота которых пропорциональна частостям - частотам, выраженным в процентах.
Пример - Вариационный ряд значений концентрации соединений никеля в водной среде р. Териберка (60 км Серебрянской автодороги) за период с 1986 по 2012 годы состоит из 159 значений от <0,003 до 62 .
Рассчитанное стандартное отклонение составляет 6,9 . При этом максимальное значение (62 ) более, чем двукратно превышает предыдущее (30 ), что требует его проверки по критерию Ирвина.
; ;
при (р < 0,05)
, следовательно, результат должен быть исключен из дальнейшего анализа.
В новой выборке максимальное значение (30 ) в 1,5 раза превышает предыдущее (20 ) и требует проверки по критерию Ирвина. Рассчитанное стандартное отклонение составляет 5,1 .
; ; ;
при (р < 0,05);
, следовательно, результат должен быть исключен из дальнейшего анализа.
В новой выборке максимальное значение (20 ) незначительно превышает предыдущее (18 ). Результаты проверки максимального значения по критерию Ирвина показывают, что и при р < 0,05, следовательно, это значение не может быть исключено.
Рассчитанное стандартное отклонение в выборке, очищенной от "промахов", составляет 4,6 . Используя его в качестве шага группировки данных, получаем пять интервалов с границами в соответствии с таблицей А.2.
В первый интервал с расчетными границами от <0,003 до 4,0 попадает наибольшее количество значений (110 из 157 или 70,1%). Этот интервал является модальным.
Таблица А.2 - Распределение значений концентрации соединений никеля по интервалам (р. Териберка, 60 км Серебрянской автодороги)
Номер интервала |
Расчетный интервал вариационного ряда, |
Фактический интервал концентрации, |
Число значений концентрации никеля в интервале, ед. |
1 |
От 0 до 4,6 включ. |
От 0 до 4,0 |
110 |
2 |
Св. 4,6 до 9,2 включ. |
От 5,0 до 9,0 |
30 |
3 |
Св. 9,2 до 13,8 включ. |
От 10,0 до 13,0 |
10 |
4 |
Св. 13,8 до 18,4 включ. |
От 14,0 до 18,0 |
6 |
5 |
Св. 18,4 до 23,0 включ. |
От 19,0 до 23,0 |
1 |
Пример гистограммы частостей значений концентраций соединений никеля в воде р. Териберка в створе наблюдений "60-й км Серебрянской автодороги" показан на рисунке А.1.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.