Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение D
(справочное)
Дополнительное руководство к статистическим процедурам
D.1 Процедуры в случае небольшого количества участников
D.1.1 Общие положения
В программах проверки квалификации обычно принимает участие небольшое количество лабораторий, или при наличии большого общего количества участников выполняют сопоставление групп с небольшим количеством участников. Это происходит, когда участников группируют и подсчитывают оценки с помощью единого метода, как, например, это бывает в медицинских лабораториях.
В том случае, если количество участников невелико, приписанное значение в идеале должно быть определено с использованием валидированной метрологической процедуры независимо от участников, например, путем расчета или по данным эталонной лаборатории.
Критерий оценки функционирования лаборатории также должен быть основан на внешних критериях, таких как выборы экспертов или соответствие целям. В идеальной ситуации, когда качество функционирования оценивают с использованием предварительно определенного приписанного значения и критерия функционирования, проверка квалификации может быть проведена при наличии одного участника. Такой тип межлабораторных сравнительных испытаний можно назвать билатеральным, или аудитом измерений, он может быть очень полезным во многих ситуациях, например, при калибровке.
Если эти идеальные условия не могут быть выполнены, приписанное значение или дисперсия, или то и другое должны быть получены по результатам участников. Если количество участников слишком мало для выполнения конкретной процедуры, то оценка функционирования лаборатории может стать недостоверной, поэтому важно рассмотреть вопрос об установлении минимального количества участников оценки функционирования.
Далее приведено руководство по получению критерия оценки качества работы при небольшом количестве участников, когда для получения критерия функционирования используют результаты участников.
D.1.2 Процедуры идентификации выбросов
Хотя для загрязненных выбросами генеральных совокупностей настоятельно рекомендуется использование робастных статистик, для очень небольших наборов данных их все же не рекомендуют (исключения приведены ниже). Проверка на наличие выбросов для очень маленьких наборов данных, однако, возможна. В случае очень маленьких программ или групп предпочтительным является отклонение выброса с последующим вычислением среднего или стандартного отклонения.
Различные критерии выявления выбросов применимы к различным размерам наборам данных. В ГОСТ Р ИСО 5725-2 приведены таблицы теста Граббса для выявления единичного выброса и для двух одновременных выбросов в одном и том же направлении. В критерии Граббса и ряде других критериев необходимо установить заранее количество возможных выбросов, а при большом количестве выбросов эти критерии не выполняются, лучше всего они работают при р > 10 (в зависимости от возможной доли выбросов).
Примечание 1 - После исключения выбросов следует соблюдать осторожность при оценке дисперсии, так как оценка может быть смещена в меньшую сторону. Смещение обычно не очень большое, если исключают выбросы, выявляют с уровнем доверия 99 % и выше.
Примечание 2 - Большинство одномерных робастных оценок параметров положения и разброса приемлемы при р 12.
D.1.3 Процедуры оценки параметра положения
D.1.3.1 Приписанные значения, полученные из небольших наборов данных участников, должны по возможности удовлетворять критерию неопределенности приписанного значения, приведенному в 9.2.1. В ситуации с использованием в качестве приписанного значения среднего и в качестве стандартного отклонения оценки стандартного отклонения результатов этот критерий не может быть использован для нормального распределения с р 12 после удаления выбросов. При использовании медианы в качестве приписанного значения (с эффективностью 0,64) критерий не может быть использован для р 18. Другие робастные оценки, такие как в алгоритме А (С.3), имеют промежуточную эффективность и могут соответствовать критерию при р > 12, если учтены положения примечания 2 к 7.7.3.
D.1.3.2 Существуют ограничения на объем набора данных, применяемых для определения некоторых оценок параметра положения. Рекомендуются несколько численных робастных оценок среднего набора данных небольшого объема. Нижний предел, как правило, составляет р 15, хотя провайдеры могут иметь возможность продемонстрировать приемлемую работу с учетом установленных предположений для меньших наборов данных. Медиана применима для меньших объемов данных вплоть до р = 2 (если она равна среднему), но при 3 р 5 медиана обладает небольшим преимуществом по сравнению со средним, за исключением тех случаев, когда существует необычно высокий риск получения плохих результатов.
D.1.4 Процедуры оценки дисперсии
D.1.4.1 Не рекомендуется использовать критерии функционирования, основанные на разбросе результатов участников для набора данных небольшого объема из-за очень высокой изменчивости всех оценок разброса. Например, при р = 30 оценки стандартного отклонения для данных из нормального распределения в среднем отклоняются от истинного значения не более чем на 25 % (с уровнем доверия 95 %). Для данных из нормального распределения не существует лучших оценок.
D.1.4.2 Если оценки разброса необходимы для других целей (например, как суммарные статистики или оценка разброса данных для робастной оценки параметра положения) или если программа проверки квалификации устойчива к высокой изменчивости оценок разброса данных, для небольших наборов данных следует выбирать оценки разброса с самой высокой доступной эффективностью.
Примечание 1 - Под высокой доступностью следует понимать наличие программного обеспечения и соответствующего опыта.
Примечание 2 - Оценка Qn стандартного отклонения, описанная в С.5, является значительно более эффективной, чем MADe или nIQR из С.1.
Примечание 3 - При очень небольших наборах данных для робастных оценок разброса данных необходимо использовать следующие рекомендации [2]:
- для р = 2 необходимо использовать ;
- р = 3, если параметр положения и шкала неизвестны, необходимо использовать MADe для защиты от чрезмерно высоких оценок стандартного отклонения или среднего абсолютного значения отклонения, для защиты от слишком маленьких оценок стандартного отклонения, например, если из-за ошибок округления могут быть получены два одинаковых значения;
- р 4 необходимо использовать установленную М-оценку стандартного отклонения, полученную на основе логарифмически взвешенной функции, рекомендуемой в [19], а также близкий эквивалент алгоритма А без итерации при определении параметра положения с использованием медианы в качестве оценки параметра положения.
Примечание 4 - Для получения оценки стандартного отклонения на основе абсолютного значения разности хi и медианы используют следующую формулу:
.
(D.1)
D.2 Эффективность и пороговые точки робастных процедур
D.2.1 Различные статистические оценки (робастные методы) можно сопоставлять по трем показателям:
- пороговая точка - доля значений в наборе данных, которые можно заменить сколь угодно большими значениями, без того чтобы оценка также стала сколь угодно большой;
- эффективность оценки - отношение дисперсии оценки к дисперсии минимальной оценки дисперсии для рассматриваемого распределения;
- устойчивость к противоречивым результатам - способность оценки быть устойчивой к небольшому количеству противоречивых результатов (как правило, менее 20 % набора данных).
Эти показатели в значительной степени зависят от распределения результатов участников и особенностей результатов, полученных некомпетентными участниками (участниками, которые не следуют инструкциям или методике измерений). Загрязнение данных может проявиться в виде наличия выбросов, результатов с большой дисперсией или результатов с различными средними (бимодальное распределение).
Пороговые точки и эффективность оценок различны для различных ситуаций, их тщательный анализ выходит за рамки настоящего стандарта. Однако в предположении о нормальном распределении данных могут быть сделаны простые сопоставления результатов лабораторий со средним, равным xpt, и стандартным отклонением, равным .
D.2.2 Пороговая точка
Пороговая точка - доля выбросов в наборе данных, которая не влияет на оценку неблагоприятным образом. Пороговая точка - это мера устойчивости к выбросам, высокое значение этой точки говорит об устойчивости к наличию большой доли выбросов. Пороговые точки и устойчивость к противоречивым результатам оценок, приведенных в приложении С, представлены в таблице D.1. Следует отметить, что для процедуры, приведенной в 6.3 и 6.4, необходимо проводить предварительный анализ данных и не использовать данные с большим количеством выбросов. Однако существуют ситуации, в которых визуальный анализ нецелесообразен.
Таблица D.1 - Пороговая точка для оценки среднего и стандартного отклонений (доля выбросов, которая может привести к несостоятельности оценки)
Статистическая оценка |
Оцениваемый параметр совокупности |
Пороговая точка,% |
Устойчивость к противоречивым результатам |
Выборочное среднее |
Среднее |
0 |
Плохая |
Выборочное стандартное отклонение |
Стандартное отклонение |
0 |
Плохая |
Выборочная медиана |
Среднее |
50 |
Хорошая |
nIQR |
Стандартное отклонение |
25 |
Умеренная |
MADe |
Стандартное отклонение |
50 |
Умеренно хорошая |
Алгоритм А |
Среднее и стандартное отклонения |
25 |
Умеренная |
Оценки Qn и Q/Хампеля |
Среднее и стандартное отклонения |
50 |
Умеренная (очень хорошая для точки устойчивости, отстоящей более чем на 6 s*) |
Примечание - Определение пороговой точки, используемое здесь, сводится к определению доли большого набора данных из нормального распределения, которая может изменяться до бесконечности, без того чтобы оценка также двигалась к бесконечности. Например, если менее 50 % данных набора заменить на бесконечность, медиана останется конечной величиной.
Таким образом, выборочные среднее и стандартное отклонения могут дать недостоверную оценку при наличии единственного выброса. Робастные методы, использующие медиану MADe и Q/Хампеля, могут выдержать очень большую долю выбросов. Алгоритм А с итеративным стандартным отклонением и nIQR имеют пороговую точку 25 %. Надо помнить, что в любой ситуации при большой доле выбросов (> 20 %) как традиционные, так и робастные оценки могут дать смещенные оценки параметров положения и разброса, и это следует учитывать при интерпретации таких оценок.
D.2.3 Относительная эффективность
Все оценки имеют выборочную дисперсию, то есть оценки могут отличаться от раунда к раунду программы проверки квалификации, даже если все участники квалифицированные и нет выбросов или подгрупп участников с различными средними или дисперсиями. Робастные оценки видоизменяют представленные результаты, которые находятся слишком далеко от середины распределения, на основании теоретических предположений, и поэтому эти оценки имеют большую дисперсию, чем оценки с минимальной дисперсией, в том случае, когда набор данных фактически подчиняется нормальному распределению.
Выборочное среднее и стандартное отклонения являются оценками среднего и стандартного отклонений с минимальной дисперсией, и поэтому они имеют эффективность 100 %. Оценки с более низкой эффективностью имеют большую изменчивость, то есть они могут изменяться от раунда к раунду, даже если нет выбросов или различных подгрупп участников. В таблице D.2 приведена относительная эффективность оценок, представленных в приложении С.
Таблица D.2 - Относительная эффективность робастных оценок среднего и стандартного отклонений генеральной совокупности для нормально распределенного набора данных с n от 50 до 500 участников
В процентах
Статистическая оценка |
Среднее n = 50 |
Среднее n = 500 |
SD n = 50 |
SD n = 500 |
Выборочное среднее и стандартное отклонения |
100 % |
100 % |
100 % |
100 % |
Медиана и nIQR |
66 % |
65 % |
38 % |
37 % |
Медиана и MADe |
66 % |
65 % |
37 % |
37 % |
Алгоритм А |
97 % |
97 % |
74 % |
73 % |
Qn и Q/Хампеля |
96 % |
96 % |
73 % |
81 % |
Согласно таблице D.2 становится очевидным, что не существует статистического метода, идеально подходящего во всех ситуациях. Выборочные среднее и стандартное отклонения являются оптимальными оценками в случае нормального распределения данных, но неудачны в случае выбросов. Простые робастные методы, такие как медиана, MADe или nIQR, являются не очень хорошими для данных из нормального распределения, но могут быть эффективными при наличии выбросов или небольшом объеме данных.
D.3 Использование данных проверки квалификации для оценки воспроизводимости и повторяемости метода измерений
D.3.1 Во введении ГОСТ ISO/IEC 17043-2013 установлено, что оценка свойств метода измерений, как правило, не является целью проверки квалификации. Тем не менее результаты программы проверки квалификации можно использовать для проверки и, возможно, установления повторяемости и воспроизводимости метода измерений [20], если программа проверки квалификации удовлетворяет следующим условиям:
a) образцы для проверки квалификации однородны и стабильны;
b) участники способны дать последовательные удовлетворительные результаты;
c) квалификация участников (или подгруппы участников) продемонстрирована до начала раунда проверки квалификации, и результаты проверки квалификации не ставят эту квалификацию под сомнение.
D.3.2 Для того чтобы обеспечить достаточное количество данных для оценки повторяемости и воспроизводимости метода испытаний в программе проверки квалификации, должны быть выполнены следующие условия:
a) при проведении исследований имеется достаточное количество участников, продемонстрировавших свою квалификацию в части выполнения метода измерений на предыдущих раундах программы проверки квалификации, которые приняли обязательства следовать методу измерений без изменений;
b) при оценке повторяемости в каждом раунде проверки квалификации должно быть использовано не менее двух образцов для проверки квалификации или выполнены репликации наблюдений;
c) по возможности участники должны быть обеспечены отдельно идентифицированными репликациями "вслепую", что является более предпочтительным, чем выполнение репликаций на одном и том же образце;
d) образцы, используемые в одном или нескольких раундах программы проверки квалификации, должны охватывать весь диапазон уровней и типов обычных образцов, для которых предназначен метод измерений;
e) процедуры анализа данных, применяемые для оценки повторяемости и воспроизводимости, должны соответствовать стандартам серии ГОСТ Р ИСО 5725 или используемому совместному протоколу исследования.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.