Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение В
(справочное)
Статистические методы
для проверки квалификации
B.1 Общие положения
Форма представления результатов проверки квалификации может быть различной, охватывая широкий диапазон типов данных и предполагаемые статистические распределения. Статистические методы, используемые для анализа результатов, должны отвечать каждой конкретной задаче, и поэтому они слишком разнообразны, чтобы их можно было охарактеризовать в настоящем стандарте. В ISO 13528 приведены предпочтительные методы для каждой обсуждаемой ниже ситуации, а также установлено, что другие методы могут быть использованы до тех пор, пока они являются статистически обоснованными и полностью описанными для участников. Некоторые из методов для испытаний однородности и стабильности, приведенных в ISO 13528, незначительно изменены в техническом отчете Международного объединения по чистой и прикладной химии (IUPAC) "Международный гармонизированный протокол для проверки квалификации в аналитических химических лабораториях" [18]. Эти документы также представляют руководство по планированию и визуальному анализу данных. Другие справочные источники можно использовать для специальных типов программ проверки квалификации, например программы сличения измерений при калибровке.
Методы, обсуждаемые в этом приложении и в ссылочных документах, охватывают основные шаги, являющиеся общими почти для всех программ проверки квалификации:
a) определение приписанного значения;
b) расчет статистик функционирования;
c) оценивание характеристик функционирования, и
d) предварительное определение однородности и стабильности образцов для проверки квалификации.
В новых программах проверки квалификации вначале часто наблюдается несогласованность результатов вследствие новой проблематики, новых форм, искусственных образцов для испытаний, несогласованности методов испытаний или измерений или использования разных методик измерений. Координаторам, возможно, придется применять робастные оценки относительных характеристик функционирования (такие как процентили), до тех пор пока не улучшится согласованность. Может потребоваться усовершенствование статистических методов, после того как будет улучшена согласованность результатов участников и проверки квалификации будут признаны успешными.
Статистические методы для аналитических исследований, не связанные с обработкой данных проверок квалификации, не рассматриваются в настоящем приложении. Для этой и других представленных во введении целей применения данных межлабораторных сличений могут потребоваться другие методы обработки данных межлабораторных сличений.
B.2 Определение приписанного значения и его неопределенности
B.2.1 Существуют различные процедуры для установления приписанных значений. Большинство общих процедур приводится ниже в порядке, который в большинстве случаев приводит к возрастанию неопределенности приписанного значения. Эти процедуры включают применение:
a) известных значений, определяемых специальным составом образца для проверки квалификации (например, приготовлением или разбавлением);
b) сертифицированных эталонных значений, определяемых с помощью общепризнанных методов испытаний или измерений (для количественных испытаний);
c) эталонных значений, определяемых в ходе анализа, измерений или сличений образца для проверки квалификации с использованием стандартного образца или эталона, прослеживаемого к международному или национальному эталону;
d) согласованных значений от экспертных лабораторий, при этом эксперты (которые в некоторых случаях могут быть референтными лабораториями) должны обладать продемонстрированной компетентностью при определении измеряемых при испытаниях величин(ы) и использовать валидированные методы, обладающие наивысшей точностью и сопоставимые с методами общего применения;
e) согласованных значений от участников с использованием статистических методов, описанных в ISO 13528 и в Международном гармонизированном протоколе IUPAC, с учетом влияния выбросов.
B.2.2 Приписанные значения следует определять для объективного оценивания участников, в то же время способствуя повышению согласованности методов испытаний или измерений. Это достигается посредством выбора групп для общего сличения и использования общих приписанных значений, когда это возможно.
B.2.3 Процедуры для определения неопределенности приписанных значений приведены в ISO 13528 и в Международном гармонизированном протоколе IUPAC для каждой применяемой общей статистики (приведенной ранее в В.2.1). Дополнительная информация по неопределенности также приведена в ISO/IES Guide 98-3.
B.2.4 Статистические методы для определения приписанного значения качественных данных (также называемых категорийными или номинальными значениями) или полуколичественных значений (также называемых порядковыми значениями) не обсуждаются в ISO 13528 и в Международном гармонизированном протоколе IUPAC. В общем случае эти приписанные значения необходимо определять посредством экспертной оценки или процедуры изготовления. В некоторых случаях провайдер проверки квалификации может использовать согласованное значение, определяемое соглашением заранее установленного процентного большинства ответов (например, 80% или более). Однако указанный процент должен быть определен на основании целей программы проверки квалификации и уровня компетенции и опыта участников.
B.2.5 Статистические выбросы обрабатываются следующим образом:
a) очевидные промахи, такие как данные с некорректными единицами измерений, ошибками в десятичном знаке, результаты, принадлежащие различным образцам для проверки квалификации, должны быть удалены из набора данных и обрабатываться отдельно. Такие результаты не должны проверяться по критерию выбросов или с помощью робастных статистических методов;
b) когда результаты участников используются для определения приписанных значений, следует использовать статистические методы, чтобы минимизировать влияние выбросов. Это может достигаться с помощью робастных статистических методов или удалением выбросов до начала выполнения расчетов. В массовых или постоянно проводимых программах проверки квалификации можно применять автоматическое отсеивание выбросов, если эффективность данного подхода подтверждена объективными данными;
c) если результаты удаляются как выбросы, то они должны быть удалены только из расчетов итоговых статистик. Выбросы должны быть оценены в рамках программы проверки квалификации, и на их основе должна быть дана соответствующая оценка характеристик функционирования.
Примечание - В ISO 13528 приведены специальные робастные методы определения согласованного среднего значения и согласованного стандартного отклонения без необходимости удаления выбросов.
B.2.6 Дополнительная информация приведена ниже:
a) если приписанные значения устанавливают по соглашению участников, то в лучшем случае провайдер проверки квалификации должен иметь процедуру для определения правильности приписанных значений и анализа распределения данных;
b) провайдер проверки квалификации должен иметь критерии для определения приемлемости приписанного значения на основании его неопределенности. В ISO 13528 и в Международном гармонизированном протоколе IUPAC предлагаются критерии, основанные на ограничении влияния, которое неопределенность приписанного значения оказывает на оценку, т.е. критерии ограничивают вероятность получения участником неприемлемой оценки из-за неопределенности приписанного значения.
В.3 Расчет статистик функционирования
В.3.1 Характеристики функционирования для количественных результатов
B.3.1.1 Результаты проверок квалификации часто необходимо преобразовывать в статистики, характеризующие функционирование, с целью их интерпретации и возможности сравнения с установленными целями. Задачей является измерение отклонения от приписанного значения таким способом, который позволяет выполнить сравнение с критериями оценки характеристик функционирования. Возможно применение как простых статистических методов, которые не требуют обработки, так и сложных методов со статистическими преобразованиями.
B.3.1.2 Статистики функционирования должны быть подходящими для интерпретации участниками. Поэтому статистики должны быть подходящими для соответствующих видов испытаний и быть понятными или общепринятыми в конкретной области.
B.3.1.3 Используемые в большинстве случаев статистики для количественных результатов приводятся ниже в порядке возрастания степени преобразования результатов участников.
а) Разность D рассчитывается по формуле (В.1):
(В.1)
где х - результат участника;
Х - приписанное значение.
b) Процентная разность D% рассчитывается по формуле (В.2):
.
(В.2)
с) Количественный показатель z рассчитывается по формуле (В.3)
,
(В.3)
где - стандартное отклонение для оценки квалификации.
Как приведено в ISO 13528, может быть рассчитано на основании:
- соответствия уровня функционирования назначению, что определяется экспертной оценкой или документом (заданное значение);
- оценки из предыдущих туров проверки квалификации или предположений, основанных на опыте (интуиции);
- оценки из статистической модели (основная модель);
- результатов прецизионного эксперимента; или
- результатов участников, т.е. обычное или робастное стандартное отклонение, основанное на результатах участников.
d) Количественный показатель рассчитывается по формуле (В.4), где расчет очень похож на расчет числа (см. перечисление е), приведенное ниже), за исключением того, что вместо расширенных неопределенностей используются стандартные неопределенности. Это приводит к такой же интерпретации, как для обычных количественных показателей z.
,
(В.4)
где - суммарная стандартная неопределенность, связанная с результатом участника;
- стандартная неопределенность приписанного значения.
е) Числа рассчитываются по формуле (В.5):
(В. 5)
где - расширенная неопределенность, связанная с результатом участника;
- расширенная неопределенность приписанного значения, полученного в референтной лаборатории.
Примечание 1 - Формулы в выражениях (В.4) и (В.5) являются корректными, пока х и X являются независимыми.
Примечание 2 - Дополнительные статистические подходы представлены в ISO 13528 и Международном гармонизированном протоколе IUPAC.
В.3.1.4 Следует принимать во внимание аспекты, приведенные ниже:
a) обычная разность между результатом участника и приписанным значением может быть достаточной для определения характеристики функционирования, и ее легче всего понимают участники. Величина (х - Х) называется оценкой лабораторного смещения в ISO 5725-4 и ISO 13528;
b) процентная разность не связана с величиной приписанного значения, и ее хорошо понимают участники;
c) процентили или ранги полезны для сильно рассеянных или асимметричных результатов, порядковых ответов или при ограниченном количестве различных ответов. Этот метод следует использовать осторожно;
d) преобразованные результаты могут быть предпочтительны или необходимы в зависимости от природы испытаний. Например, результаты, основанные на разбавлении, являются формой геометрического масштабирования, преобразуемого логарифмически;
e) если для определения а применяется согласованное значение, то оценки изменчивости должны быть надежны, т. е. они должны быть основаны на достаточном количестве наблюдений, для того чтобы уменьшить влияние выбросов и достичь довольно низкой неопределенности;
f) если при расчете количественных показателей рассматривают оценки неопределенности измерений, предоставленные участниками (например, при расчете показателей или показателей ), то эти показатели могут быть представительными только тогда, когда оценки неопределенности определяются согласованным способом всеми участниками, например, в соответствии с требованиями ISO/IEC Guide 98-3.
В.3.2 Характеристики функционирования для качественных и полуколичественных результатов
В.3.2.1 Если используются статистические методы для обработки качественных и полуколичественных результатов, то они должны подходить для природы ответов, выдаваемых участниками. Для качественных данных (также называемых категорийными данными) подходящим способом является сравнение результата участника с приписанным значением. Если они идентичны, тогда испытание выполнено на приемлемом уровне. Если они не идентичны, то необходимо использовать экспертную оценку для определения того, подходит ли результат для использования по назначению. В некоторых случаях провайдер проверки квалификации может проанализировать результаты участников и определить, что образец для проверки квалификации не подходит для оценивания или что приписанное значение является некорректным. Такие определения должны быть частью плана для программы проверки квалификации и должны быть понятными для участников до начала выполнения программы.
B.3.2.2 Для полуколичественных результатов (также называемых порядковыми результатами) приемлема процедура, используемая для качественных данных (В.3.2.1). Порядковые результаты включают, например, марку или классификацию, органолептические оценки или силу химической реакции (например, 1+, 2+, 3+ и т.д.). Иногда такие результаты даются в виде чисел, например: 1 = плохо, 2 = неудовлетворительно, 3 = удовлетворительно, 4 = хорошо, 5 = очень хорошо.
В.3.2.3 Неуместно рассчитывать обычные итоговые статистики для порядковых данных, даже если результаты являются численными. Это происходит из-за того, что числа не принадлежат шкале интервалов, т. е. разность между 1 и 2 в некотором смысле не может означать то же, что разность между 3 и 4, так что средние значения и стандартные отклонения не могут быть правильно истолкованы. Поэтому неуместно использовать для оценки статистики, такие как количественные показатели z для полуколичественных результатов. Должны использоваться специальные статистики, такие как ранги или порядковые статистики, предназначенные для порядковых данных.
В.3.2.4 Рекомендуется составить таблицу распределения результатов, полученных от всех участников (или построить диаграмму), вместе с количеством или процентным содержанием результатов в каждой категории и получить итоговые показатели, такие как моды (самые распространенные ответы) и диапазон (самый нижний и самый высший ответы). Приемлемо оценивать результаты как удовлетворительные на основании близости к приписанному значению, например, результаты внутри плюс или минус один ответ по отношению к приписанному значению могут соответствовать цели измерения. В некоторых случаях может быть приемлемым оценивать характеристику функционирования, основываясь на процентилях, например, 5% результатов наиболее удаленных от моды или наиболее удаленных от приписанного значения могут быть определены как недопустимые. Это должно быть основано на плане программы проверки квалификации (например, соответствие назначению) и заранее понятно участникам.
В.3.3 Комбинированные показатели для характеристик функционирования
Характеристика функционирования может оцениваться на основании более чем одного результата в одиночном туре проверки квалификации. Это происходит при наличии более чем одного образца для проверки квалификации для конкретной измеряемой величины или совокупности взаимосвязанных измеряемых величин. Это необходимо для обеспечения более полного оценивания характеристики функционирования.
Графические методы, такие как диаграмма Юдена или диаграмма h - статистики Манделя, являются эффективными способами интерпретации характеристик функционирования (см. ISO 13528).
В общем случае использование усредненных показателей для характеристик функционирования не рекомендуется, так как они могут маскировать плохую характеристику функционирования на одном или более образцах для проверки квалификации, подлежащих исследованию. Наиболее распространенным комбинированным показателем для характеристик функционирования является просто количество (или процентное содержание) результатов, определенных как приемлемые.
В.4 Оценивание характеристик функционирования
В.4.1 Исходные характеристики функционирования
В.4.1.1 Критерии для оценивания характеристики функционирования должны устанавливаться после принятия во внимание того, учитывают ли способы оценивания характеристик функционирования основные особенности. Данными особенностями являются:
a) согласие между экспертами, когда консультативная группа или другие квалифицированные эксперты непосредственно определяют, соответствуют ли представленные результаты своему предполагаемому использованию; согласие экспертов - это типичный способ оценить результаты для качественных испытаний;
b) соответствие назначению, заданные критерии, которые учитывают, например, технические условия (спецификацию) для характеристик метода и признанный уровень работы участников;
c) статистическое определение показателей, т.е. когда критерии должны быть пригодными для каждого показателя; распространенные примеры применения показателей представлены ниже:
1) для количественных показателей и (для простоты далее в примерах рассматривается только "", но "" может быть заменено на "" в каждом случае):
- указывает на удовлетворительную характеристику функционирования и не требует выполнения действий;
- указывает на сомнительную характеристику функционирования и требует выполнения предупреждающих действий;
- указывает на неудовлетворительную характеристику функционирования и требует выполнения корректирующих действий;
2) для чисел :
- указывает на удовлетворительную характеристику функционирования и не требует выполнения действий;
- указывает на неудовлетворительную характеристику функционирования и требует выполнения действий.
В.4.1.2 Для программ с разделенной пробой цель может заключаться в выявлении в результатах неправильной калибровки и/или значительных случайных ошибок. В этих случаях оценки должны основываться на достаточном количестве результатов в широком диапазоне концентраций. Для выявления и описания этих проблем полезно использовать графические методы, приведенные в ISO 13528. Из-за проблем масштабирования следует использовать графики с откладываемыми по вертикальной оси разностями между результатами, а не диаграммы, на которые наносятся результаты одного участника относительно результатов другого участника. Ключевым является случай, когда результаты одного участника имеют или ожидается, что будут иметь низкую неопределенность измерения. В этом случае такие результаты являются лучшей оценкой действительного значения уровня измеряемой величины. Если оба участника имеют примерно одинаковую неопределенность измерений, то предпочтительной оценкой действительного значения уровня является среднее значение пары результатов.
В.4.1.3 Там, где это возможно, следует использовать графики для наглядной демонстрации характеристик функционирования (например, гистограммы, столбиковые диаграммы ошибок, диаграммы упорядоченных количественных показателей z), как приведено в ISO 13528 и Международном гармонизированном протоколе IUPAC. Такие диаграммы могут использоваться, чтобы показать:
a) распределение значений участников;
b) взаимосвязь между результатами, полученными на большом количестве образцов для проверки квалификации;
c) сравнительные распределения для различных методов.
В.4.2 Наблюдение за характеристиками функционирования по прошествии времени
В.4.2.1 Программа проверки квалификации может включать процедуры наблюдения за характеристиками функционирования по прошествии времени. Процедуры должны позволять участникам видеть изменчивость в своих характеристиках функционирования и определять, имеются ли основные тенденции или несоответствия и где характеристики функционирования изменяются случайным образом.
В.4.2.2 Для облегчения интерпретации рекомендуется использоваться графические методы. Для целей самосовершенствования особенно полезно использовать традиционные контрольные карты Шухарта. Массивы данных и итоговые статистики позволяют проводить более детальный анализ. Для этих графиков и таблиц должны использоваться стандартизованные показатели характеристик функционирования, например количественные показатели z. В ISO 13528 представлены дополнительные примеры и графические средства.
В.4.2.3 Когда в качестве стандартного отклонения для проверки квалификации используется согласованное стандартное отклонение, следует проявить осмотрительность при наблюдении за характеристикой функционирования по прошествии времени, так как группа участников может измениться, что окажет непредсказуемое воздействие на показатели. Также характерным свойством межлабораторного стандартного отклонения является тенденция к его уменьшению по прошествии времени, так как участники хорошо осваивают программу проверки квалификации или улучшается методология. Это может быть причиной явного увеличения значений показателей z при неизменности характеристики функционирования отдельного участника.
В.5 Демонстрация однородности и стабильности образцов для проверки квалификации
В.5.1 Настоящий стандарт требует демонстрации достаточной однородности образцов для проверки квалификации с помощью обоснованных статистических методов, включая статистически случайную выборку репрезентативного количества проб. Соответствующие процедуры детально изложены в ISO 13528 и в Международном гармонизированном протоколе IUPAC. Эти документы определяют достаточную однородность относительно интервала оценивания для программы проверки квалификации, поэтому рекомендации основаны на допущениях, связанных с неопределенностью из-за неоднородности относительно интервала оценивания. В то время как ISO 13528 устанавливает строгий предел по неоднородности и нестабильности для ограничения влияния на неопределенность и, следовательно, влияния, которое они оказывают на получаемые оценки, Международный гармонизированный протокол IUPAC расширяет условия выполнения статистической проверки оценки неоднородности и нестабильности относительно критерия, рекомендованного в ISO 13528.
В.5.2 Требования, представленные в ISO Guide 34 и ISO Guide 35, которые разработаны для оценки эталонных значений сертифицированных стандартных образцов, включая их неопределенности, определяются реализацией различных задач. ISO Guide 35 использует статистический дисперсионный анализ для оценивания изменчивости между колбами и изменчивости внутри колб (если требуется) и последующего использования этих дисперсий в качестве составляющих неопределенности приписанного значения. Если требуется точно оценить составляющие неопределенности для сертифицированных стандартных образцов, количество случайно отобранных проб может быть больше того, которое необходимо для проверки квалификации, где главной целью является проверка непредвиденных несоответствий в партиях образцов, изготовленных для проверки квалификации.
В.5.3 Стабильность проверяется для гарантии того, что измеряемая величина(ы) не изменилась во время тура проверки квалификации. Как определено в ISO 13528, Международном гармонизированном протоколе IUPAC и ISO Guide 35, образцы для проверки квалификации должны проверяться в различных условиях, которые встречаются при нормальном ходе проведения программы проверки квалификации, т.е. в условиях отгрузки и перевозки при распределении участникам. Критерием для допустимой нестабильности служит такой же критерий, как и для неоднородности в соответствии с ISO 13528, обычно предполагающий небольшое количество испытаний или измерений.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.