Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение С
(обязательное)
Робастный анализ
С.1 Введение
Межлабораторные сравнительные испытания представляют собой особый анализ данных. В то время как большинство межлабораторных сравнительных испытаний представляют данные, подчиняющиеся унимодальному и приблизительно симметричному распределению в задачах проверки квалификации, большая часть наборов данных включает часть результатов, неожиданно далеко отстоящих от основного набора данных. Причины появления таких данных могут быть различными: например, появление новых, менее опытных участников проверки, появление новых и, возможно, менее точных методов измерений, непонимание некоторыми участниками инструкции или неправильная обработка образцов. Такие отличающиеся результаты (выбросы) могут быть весьма изменчивы, в этом случае применение традиционных статистических методов, в том числе вычисление среднего арифметического и стандартного отклонений, может дать недостоверные результаты.
Провайдерам рекомендуется (см. 6.5.1) использовать статистические методы, устойчивые к выбросам. Большинство таких методов предложено в книгах по математической статистике, и многие из них успешно использованы в задачах проверки квалификации. Обычно робастные методы обеспечивают дополнительную устойчивость при обработке данных из асимметричных распределений с выбросами.
В данном приложении описано несколько простых в применении методов, используемых в задачах проверки квалификации и имеющих различные возможности в отношении определения устойчивости оценок при наличии данных из загрязненных совокупностей (например, эффективности и пороговой точки). Методы представлены в порядке возрастания сложности (первый - самый простой, последний - самый сложный), и в порядке убывания эффективности, поэтому наиболее сложные оценки требуют доработки для повышения их эффективности.
Примечание 1 - В приложении D приведена дополнительная информация об эффективности, пороговых точках и чувствительности к небольшим модам - трем важным показателям различных робастных методов определения оценки функционирования.
Примечание 2 - Робастность является свойством алгоритма определения оценки, а не свойством полученных оценок, поэтому не совсем корректно называть средние значения и стандартные отклонения, рассчитанные с помощью такого алгоритма, робастными. Однако, чтобы избежать использования чрезмерно громоздких терминов, в настоящем стандарте применены термины "робастное среднее" и "робастное стандартное отклонение". Следует учитывать, что это означает оценки среднего или стандартного отклонения, полученные в соответствии с робастным алгоритмом.
С.2 Простые устойчивые к выбросам оценки для среднего и стандартного отклонений совокупности
С.2.1 Медиана
Медиана является наиболее простой, высоко устойчивой к выбросам оценкой среднего для симметричного распределения. Обозначим медиану med(x). Для определения med(x) по совокупности из р данных необходимо:
i) расположить р данных в порядке неубывания:
х{1}, х{2}, ..., х{р};
ii) вычислить
.
(С.1)
С.2.2 Абсолютное отклонение от медианы MADe
Абсолютное отклонение от медианы MADe(x) обеспечивает определение оценки стандартного отклонения генеральной совокупности для данных из нормального распределения и является высоко устойчивым при наличии выбросов. Для определения MADe(x) вычисляют:
i) абсолютные значения разностей di (i = 1, ..., р)
;
(С.2)
ii) MADe(х)
.
(С.3)
Если у половины или большего количества участников результаты совпадают, то MADe(x) = 0, и следует использовать оценку nIQR в соответствии с С.2.3, стандартное отклонение, полученное после исключения выбросов, или процедуру, описанную в С.5.2.
С.2.3 Нормированный межквартильный размах nIQR
Данный метод определения робастной оценки стандартного отклонения аналогичен методу определения MADe(x). Эту оценку получить немного проще, поэтому ее часто используют в программах проверки квалификации. Данную оценку определяют как разность 75-го процентиля (или 3-го квартиля) и 25-го процентиля (или 1-го квартиля) результатов участника. Данную статистику называют нормированным межквартильным размахом nIQR и вычисляют по формуле
,
(С.4)
где Q1(х) - 25-й процентиль выборки хi (i = 1, 2, ..., р);
Q3(x) - 75-й процентиль выборки хi (i = 1, 2, ..., р).
Если 75-й и 25-й процентили совпадают, то nIQR = 0 [как и MADe(x)], а для вычисления робастного стандартного отклонения следует использовать альтернативную процедуру, такую как арифметическое стандартное отклонение (после исключения выбросов), или процедуру, описанную в С.5.2.
Примечание 1 - Для расчета nIQR требуется сортировка данных только один раз в отличие от вычисления MADe, но nIQR имеет пороговую точку в 25 % (см. приложение D), в то время как у MADe пороговая точка 50 %. Поэтому MADe устойчива при значительно более высокой доле содержания выбросов, чем nIQR.
Примечание 2 - При р < 30 обе оценки обладают заметным отрицательным смещением, неблагоприятно влияющим на оценки участников при проверке квалификации.
Примечание 3 - Различные пакеты статистических программ используют различные алгоритмы расчета квартилей и, следовательно, могут давать оценки nIQR c некоторыми различиями.
Примечание 4 - Пример использования робастных оценок приведен в Е.3 приложения Е.
С.3 Алгоритм А
С.3.1 Алгоритм А с итеративной шкалой
Данный алгоритм дает робастные оценки среднего и стандартного отклонения на основе используемых данных.
Для выполнения алгоритма А р данные располагают в порядке неубывания
х{1}, х{2}, ..., х{р}.
Полученные по этим данным робастное среднее и робастное стандартное отклонения обозначают х* и s*.
Вычисляют начальные значения для х* и s* по формулам:
,
(С.5)
.
(С.6)
Примечание 1 - Алгоритмы А и S, приведенные в настоящем приложении, соответствуют ГОСТ Р ИСО 5725-5 с добавлением критерия остановки: при совпадении до 3-го знака после запятой среднего и стандартного отклонения вычисления прекращают.
Примечание 2 - В некоторых случаях более половины результатов хi будут идентичны (например, количество нитей в образцах ткани или количество электролитов в образцах сыворотки крови). В этом случае начальное значение s* = 0 и робастная процедура будут некорректными. Если начальное значение s* = 0, допустимо заменить выборочное стандартное отклонение после проверки всех очевидных выбросов, которые могут сделать стандартное отклонение неоправданно большим. Такую замену проводят только для начального значения s* и после этого итеративный алгоритм применяют в соответствии с описанием.
Вычисляют новые значения х* и s*. Для этого вычисляют
.
(С.7)
Для каждого хi (i = 1, 2, ..., р) вычисляют
.
(С.8)
Вычисляют новые значения х* и s*
,
(С.9)
,
(С.10)
где суммирование производят по i.
Робастные оценки х* и s* получают на основе итеративных, то есть повторных вычислений х* и s* в соответствии с (С.7) - (С.10) до тех пор, пока процесс не начнет сходиться, то есть разности предыдущих и последующих значений х* и s* не станут пренебрежимо малы. Обычно итеративные вычисления прекращают при совпадении в предыдущих и последующих значениях трех знаков после запятой.
Альтернативные критерии сходимости могут быть определены в соответствии с требованиями к плану эксперимента и к отчету по результатам проверки квалификации.
Примечание - Примеры использования алгоритма А приведены в Е.3 и Е.4 приложения Е.
С.3.2 Варианты алгоритма А
Итеративный алгоритм А, приведенный в С.3.1, имеет скромную разбивку (примерно 25 % для больших наборов данных [14]) и начальную точку для s*, предложенную в С.3.1, для наборов данных, где MADe(x) = 0 может серьезно ухудшить устойчивость при наличии нескольких выбросов в наборе данных. Если в наборе данных ожидаемая доля выбросов составляет более 20 % или если начальное значение s* подвержено неблагоприятному влиянию экстремальных выбросов, то следует рассмотреть следующие варианты:
i) замена MADe на при MADe = 0 либо использование альтернативной оценки в соответствии с С.5.1 или арифметического стандартного отклонения (после исключения выбросов);
ii) если при оценке робастное стандартное отклонение не используют, следует применять MADe [исправленное в соответствии с i)], и не изменяют s* во время итерации. Если при оценке используют робастное стандартное отклонение, заменяют s* в соответствии с С.5 оценкой Q и не изменяют s* во время итерации.
Примечание - Вариант, приведенный в перечислении ii), улучшает пороговую точку алгоритма А до 50 % [14], что позволяет применять алгоритм при наличии высокой доли выбросов.
С.4 Алгоритм S
Данный алгоритм применяют к стандартным отклонениям (или размахам), которые вычисляют, если участники представляют результаты m репликаций измерений измеряемой величины образца или в исследовании используют m идентичных образцов. Алгоритм позволяет получить робастное объединенное значение стандартных отклонений или размахов.
Имеющиеся р стандартных отклонений или размахов располагают в порядке неубывания
w{1}, w{2}, ..., w{p}.
Обозначим робастное объединенное значение w*, a v - число степеней свободы, соответствующее каждому wi. (Если wi - размах, то v = 1. Если wi - стандартное отклонение для m результатов испытаний, то v = m - 1.) Значения и определяют в соответствии с алгоритмом, приведенным в таблице С.1.
Вычисляют начальное значение w*:
.
(С.11)
Примечание - Если более половины wi имеют значения, равные нулю, то начальное значение w* равно нулю, а робастный метод является некорректным. Если начальное значение w* равно нулю, то после устранения выбросов, которые могут повлиять на выборочное среднее, заменяют стандартное отклонение объединенного среднего арифметического (или размах средних арифметических). Эту замену выполняют только для начального значения w*, после чего процедуру продолжают согласно описанию.
Значение w* вычисляют следующим образом:
.
(С.12)
Для каждого значения wi (i = 1, 2, ..., р) вычисляют
.
(С.13)
Вычисляют новое значение w*
.
(С.14)
Робастную оценку w* получают итеративным методом, вычисляя значение w* несколько раз, пока процесс не начнет сходиться. Сходимость считают достигнутой, если значения w* в последовательных итерациях совпадают в трех знаках после запятой.
Примечание - Алгоритм S обеспечивает оценку стандартного отклонения генеральной совокупности, если оно получено по стандартным отклонениям из того же нормального распределения (и, следовательно, обеспечивает оценку стандартного отклонения повторяемости при выполнении предположений в соответствии с ГОСТ Р ИСО 5725-2).
Таблица С.1 - Коэффициенты, необходимые для проведения робастного анализа: алгоритм S
Число степеней свободы v |
Лимитирующий коэффициент |
Поправочный коэффициент |
1 |
1,645 |
1,097 |
2 |
1,517 |
1,054 |
3 |
1,444 |
1,039 |
4 |
1,395 |
1,032 |
5 |
1,359 |
1,027 |
6 |
1,332 |
1,024 |
7 |
1,310 |
1,021 |
8 |
1,292 |
1,019 |
9 |
1,277 |
1,018 |
10 |
1,264 |
1,017 |
Примечание - Значения и приведены в ГОСТ Р ИСО 5725-5. |
С.5 Сложные для вычислений робастные оценки: Q-метод и оценка Хампеля
С.5.1 Обоснование оценок
Робастные оценки среднего и стандартного отклонения генеральной совокупности, описанные в С.2 и С.3, используют в тех случаях, когда вычислительные ресурсы ограничены или когда требуется краткое обоснование статистических процедур. Эти процедуры оказались полезными в самых разных ситуациях, в том числе в программах проверки квалификации в новых областях исследований или при калибровке и в тех областях экономики, где проверка квалификации раньше не была доступна. Однако эти методы являются недостоверными в тех случаях, когда количество выбросов в результатах превышает 20 %, или в случае бимодального (или мультимодального) распределения данных, и некоторые из них могут стать неприемлемо изменчивыми для небольшого количества участников. Кроме того, ни один из этих методов не может работать с данными репликаций измерений участников. В соответствии с ГОСТ ISO/IEC 17043 необходимо, чтобы эти ситуации были предусмотрены до проведения расчетов или выполнены в процессе анализа до проведения оценки функционирования участника, однако это не всегда возможно.
Кроме того, некоторые робастные методы, описанные в С.2 и С.3, имеют низкую статистическую эффективность. Если количество участников менее 50, а робастное среднее и/или стандартное отклонение используют для определения индексов, то существует значимый риск неверной классификации участников при применении неэффективных статистических методов.
Робастные методы, объединяющие высокую эффективность (то есть сравнительно низкую изменчивость) с возможностью работы с высокой долей выбросов в данных, обычно являются достаточно сложными и требуют серьезных вычислительных ресурсов, но эти методы представлены в литературе и международных стандартах. Некоторые из них обеспечивают получение дополнительных преимуществ, когда основное распределение данных является асимметричным или определенные результаты находятся ниже предела их обнаружения.
Ниже приведены некоторые высокоэффективные методы определения оценок стандартного отклонения и параметра положения (среднего), которые показывают более низкую изменчивость, чем простые оценки, и полезны при использовании для данных с большой долей выбросов. Одну из описанных оценок можно применять для оценки стандартного отклонения воспроизводимости, если участники сообщают о большом количестве наблюдений.
С.5.2 Определение робастного стандартного отклонения с использованием Q-метода и Qn-метода
С.5.2.1 Оценка Qn[15] является высокоэффективной оценкой стандартного отклонения генеральной совокупности с разбивкой, которая становится несмещенной для данных нормального распределения (при условии отсутствия выбросов).
Qn-метод учитывает единственный результат для каждого участника (включающий среднее или медиану репликаций измерений). Расчет основан на использовании попарных различий в наборе данных и поэтому не зависит от оценки среднего или медианы.
Выполнение этого метода включает корректировки, позволяющие обеспечить несмещенность оценки для всех фактических объемов наборов данных.
При вычислении Qn для набора данных (х1, х2, ..., хр) с р результатами:
i) вычисляют р(р-1)/2 абсолютных разностей
;
(С.15)
ii) для разностей dij используют обозначения
;
(С.16)
iii) вычисляют
,
(С.17)
где k - количество различных пар, выбранных из h объектов,
где
;
(С.18)
iv) вычисляют Qn
,
(С.19)
где bp определяют по таблице С.2 для конкретного количества данных, если р > 12, bp вычисляют по формуле
,
(С.20)
где
.
(С.21)
Примечание 1 - Коэффициент 2,2219 является поправочным, обеспечивающим несмещенность оценки стандартного отклонения для больших р. Поправочные коэффициенты bp для небольших значений р определяют по таблице С.2, а при р > 12 эти коэффициенты устанавливают в соответствии с [15], используя экстенсивное моделирование и последующее применение регрессионного анализа.
Примечание 2 - Простой алгоритм, описанный выше, для больших наборов данных, например, при р > 1000, требует значительных вычислительных ресурсов. Для быстрой обработки опубликованы программы (см. [15]) для использования с более крупными наборами данных (на момент публикации приведена обработка данных с объемом выше 8000 за приемлемое время).
Таблица С.2 - Поправочный коэффициент bp для 2 р 12
р |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
bp |
0,9937 |
0,9937 |
0,5132 |
0,8440 |
0,6122 |
0,8588 |
0,6699 |
0,8734 |
0,7201 |
0,8891 |
0,7574 |
С.5.2.2 Q-метод позволяет получить высокоэффективную оценку стандартного отклонения результатов проверки квалификации, представленных различными лабораториями, с разбивкой. Q-метод не является устойчивым не только при наличии выбросов, но и в той ситуации, когда большая часть результатов испытаний равны между собой, например, когда результаты представляют собой дискретные числа или при округлении данных. В такой ситуации другие подобные методы не следует применять, поскольку многие разности равны нулю.
Q-метод можно использовать для проверки квалификации как в случае предоставления участником единственного результата (в виде среднего и медианы репликаций измерений), так и результатов репликаций. Прямое использование репликаций измерений в вычислениях повышает эффективность метода.
Расчет основан на использовании разностей пар в наборе данных, и таким образом оценка не зависит от оценки среднего или медианы данных. Метод называют Q-методом, или методом Хампеля, если его используют вместе с алгоритмом конечных шагов для определения оценки Хампеля, описанной в С.5.3.3.
Обозначим результаты измерений участников, сгруппированные по лабораториям
.
Кумулятивная функция распределения абсолютных значений разностей результатов участников имеет следующий вид:
,
(С.22)
где - индикаторная функция.
Обозначим точки разрыва функции Н1(х):
.
Значения функции в точках х1, ..., хr
.
(C.23)
Пусть G1(0) = 0.
Значения функции G1(x) для х вне интервала [0, хr] вычисляют с помощью линейной интерполяции между точками разрыва 0 х1 < х2 < ... < хr.
Робастное стандартное отклонение s* результатов испытаний для различных лабораторий имеет вид:
,
(С.24)
где Н1(0) вычисляют аналогично формуле (С.22) и Н1(0) = 0 в случае точного совпадения данных, и Ф-1(q) - квантиль стандартного нормального распределения уровня q.
Примечание 1 - Этот алгоритм не зависит от среднего, он может быть использован либо вместе со значением, полученным по объединенным результатам участников, или в соответствии с установленным опорным значением.
Примечание 2 - Другие варианты Q-метода, позволяющие получить робастную оценку стандартных отклонений воспроизводимости и повторяемости, приведены в [14], [15].
Примечание 3 - Теоретические основы Q-метода, включая его асимптотическую эффективность и разбивку на конечное число выборок, описаны в [16] и [15].
Примечание 4 - Если исходные данные участников представлены единственным результатом измерений, полученным с помощью одного установленного метода измерений, робастное стандартное отклонение является оценкой стандартного отклонения воспроизводимости, как и в (С.21).
Примечание 5 - Стандартное отклонение воспроизводимости не обязательно является наиболее подходящим стандартным отклонением для использования в проверке квалификации, так как это, как правило, оценка разброса единственных результатов, а не оценка разброса средних или медиан результатов репликаций каждого участника. Однако разброс средних или медиан результатов репликаций лишь немного менее разброса единственных результатов различных лабораторий, если отношение стандартного отклонения воспроизводимости к стандартному отклонению повторяемости более двух. Если это отношение менее двух, для определения оценок при проверке квалификации может быть использована замена стандартного отклонения воспроизводимости sR скорректированным значением
,
где m - количество репликаций;
- дисперсия повторяемости, вычисленная в соответствии с [17], или можно использовать среднее значение репликаций измерений участника Q-метода.
Примечание 6 - Примечание 5 применяют только в том случае, если индексы определяют на основе средних или медиан результатов репликаций. Если репликации проводят вслепую, индексы следует рассчитывать для каждой репликации. В этом случае стандартное отклонение воспроизводимости является наиболее подходящим стандартным отклонением.
Примечание 7 - Пример применения Q-метода приведен в Е.3 приложения Е.
С.5.3 Определение робастного среднего, используемого в оценке Хампеля
С.5.3.1 Оценка Хампеля является высокоустойчивой высокоэффективной оценкой общего среднего всех результатов различных лабораторий. Поскольку формулы вычисления оценки Хампеля не существует, ниже приведены два алгоритма получения этой оценки. Первый из них является более простым, но может привести к отклонениям результатов при выполнении. Второй алгоритм обеспечивает получение однозначных результатов, зависящих только от базового стандартного отклонения.
С.5.3.2 Далее приведены вычисления, обеспечивающие получение итеративной взвешенной оценки Хампеля, для параметра положения.
i) Пусть x1, x2, ..., хp - данные.
ii) Пусть х* - медиана med(x) (см. С.2.1).
iii) Пусть s* - соответствующая робастная оценка стандартного отклонения, например, MADe, Qn или s* в соответствии с Q-методом.
iv) Для каждой точки хi вычисляют qi
.
v) Вычисляют вес wi
.
vi) Пересчитывают х*
.
vii) Повторяют действия в соответствии с перечислениями iv) - vi) до тех пор, пока значения х* не начнут сходиться. Сходимость считают достаточной, если разность х* в двух последних итерациях станет менее , что соответствует приблизительно 1 % стандартной погрешности х*. Могут быть использованы и другие более точные критерии сходимости.
Данный алгоритм получения оценки Хампеля не гарантирует получение единственной и наилучшей оценки, так как неудачный выбор начального значения х* и/или s* может привести к исключению важной части набора данных. Провайдеру следует предпринять соответствующие меры для проверки возможности получения неудачного результата или обеспечить однозначные правила выбора параметра положения. Наиболее общим правилом является выбор параметра положения, максимально близкого к медиане. Анализ результатов для подтверждения того, что большая часть данных не выходит за пределы области , может также помочь в принятии правильного решения.
Примечание 1 - Определение оценки Хампеля для данных из нормального распределения обладает эффективностью, приблизительно равной 96 %.
Примечание 2 - Примеры выполнения этого алгоритма приведены в Е.3 приложения Е.
Примечание 3 - Эффективность и устойчивость к выбросам оценки Хампеля могут быть повышены с помощью изменения весовой функции. Общая форма весовой функции имеет вид:
,
где а, b и с - регулируемые параметры. Для приведенного алгоритма а = 1,5, b = 3,0 и с = 4,5. Более высокая эффективность достигается за счет увеличения области изменений q. Повышения устойчивости к выбросам или изменениям режимов достигают за счет уменьшения области изменений q.
С.5.3.3 Ниже приведен алгоритм конечных шагов, позволяющий получить оценку Хампеля для параметра положения [14].
Вычисляют средние арифметические y1, y2, ..., yp.
Вычисляют робастное среднее х* как корень уравнения
,
(С.25)
где
,
(С.26)
s* - робастное стандартное отклонение, полученное Q-методом.
Точное решение может быть получено за конечное число шагов, без итерации, используя свойство, при котором как функция х* является частично линейной, имея в виду точки интерполяции в левой стороне уравнения (С.25).
Вычисляют все точки интерполяции:
- для 1-го значения y1:
;
- для 2-го значения y2:
;
- и так далее для всех y3, ..., yp.
Располагают d1, d2, d3, ..., в порядке неубывания d{1}, d{2}, d{3}, ..., .
Затем для каждого m = 1, ..., () вычисляют
и проверяют, являются ли следующие условия:
(i) если pm = 0, то d{m} - решение уравнения (С.25);
(ii) если pm+1 = 0, то, d{m+1} - решение уравнения (С.25);
(iii) если , то - решение уравнения (С.25).
Пусть S - множество всех решений уравнения (С.25).
Решением х* S является ближайшая медиана, используемая в качестве параметра положения х*, то есть
.
Могут существовать несколько решений. Если существуют два решения, наиболее близких к медиане, или если не существует никакого решения вообще, то в качестве параметра положения х* используют медиану.
Примечание 1 - Эта оценка Хампеля для данных из нормального распределения обладает эффективностью, приблизительно равной 96 %.
Примечание 2 - При использовании этого метода результаты лабораторий, отличающиеся от среднего более чем на 4,5 стандартных отклонений воспроизводимости, не оказывают никакого влияния на результат, то есть их рассматривают как выбросы.
С.5.4 Метод Q/Хампеля
Метод Q/Хампеля использует Q-метод, описанный в С.5.3.2, для вычисления робастного стандартного отклонения s* и алгоритм конечных шагов для оценки Хампеля, описанный в С.5.3.3, для вычисления параметра положения х*.
Если участники сообщают много наблюдений для вычисления робастного стандартного отклонения воспроизводимости sR, используют Q-метод, описанный в С.5.3.2. Для вычисления робастного стандартного отклонения повторяемости sr применяют 2-й алгоритм, использующий парные разности в пределах лаборатории.
Примечание - Веб-приложения для метода Q/Хампеля приведены в [18].
С.6 Другие робастные методы
Методы, описанные в настоящем приложении, не представляют собой целостную совокупность всех подходов. Ни один из них не является гарантированно оптимальным во всех ситуациях. По усмотрению провайдера могут быть использованы другие робастные методы при условии анализа их эффективности и всех остальных свойств, соответствующих определенным требованиям программы проверки квалификации.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.