Товары в корзине: 0 шт Оформить заказ
Стр. 1
 

88 страниц

861.00 ₽

Купить ГОСТ Р 50779.60-2017 — бумажный документ с голограммой и синими печатями. подробнее

Распространяем нормативную документацию с 1999 года. Пробиваем чеки, платим налоги, принимаем к оплате все законные формы платежей без дополнительных процентов. Наши клиенты защищены Законом. ООО "ЦНТИ Нормоконтроль"

Наши цены ниже, чем в других местах, потому что мы работаем напрямую с поставщиками документов.

Способы доставки

  • Срочная курьерская доставка (1-3 дня)
  • Курьерская доставка (7 дней)
  • Самовывоз из московского офиса
  • Почта РФ

В стандарте приведены статистические методы, используемые провайдерами проверки квалификации лабораторий для разработки программ проверки квалификации и анализа полученных данных при выполнении этих программ. В стандарте приведены рекомендации по интерпретации данных проверки квалификации, и он предназначен для использования участниками данных программ и органами по аккредитации. Процедуры, приведенные в настоящем стандарте, предназначены для демонстрации того, что полученные результаты измерений лабораторий (проверяющих органов, физических лиц) подтверждают (или не подтверждают) качество их работы. Стандарт применим к проверке квалификации, результатами которой являются количественные или качественные результаты наблюдений, выполняемые на образцах.

 Скачать PDF

Содержит требования ISO 13528:2015

Оглавление

1 Область применения

2 Нормативные ссылки

3 Термины и определения

4 Основные принципы

5 Руководство по планированию эксперимента для программ проверки квалификации

6 Предварительный анализ образцов и результатов при проверке квалификации

7 Определение приписанного значения и его стандартной неопределенности

8 Определение критериев оценки работы лабораторий

9 Вычисления статистик функционирования лабораторий

10 Графические методы описания индексов функционирования

11 Планирование эксперимента и анализ программ проверки квалификации для качественных показателей (включая номинальные и порядковые свойства)

Приложение А (обязательное) Обозначения

Приложение В (обязательное) Однородность и стабильность образцов для проверки квалификации

Приложение С (обязательное) Робастный анализ

Приложение D (справочное) Дополнительное руководство к статистическим процедурам

Приложение Е (справочное) Иллюстративные примеры

Приложение ДА (справочное) Сведения о соответствии ссылочных национальных и межгосударственных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте

Библиография

 
Дата введения01.12.2018
Добавлен в базу01.01.2019
Актуализация01.01.2019

Этот ГОСТ находится в:

Организации:

12.09.2017УтвержденФедеральное агентство по техническому регулированию и метрологии1061-ст
ИзданСтандартинформ2017 г.
РазработанФГУП УНИИМ
РазработанАО НИЦ КД

Statistical methods. Use in proficiency testing by interlaboratory comparison

Нормативные ссылки:
Стр. 1
стр. 1
Стр. 2
стр. 2
Стр. 3
стр. 3
Стр. 4
стр. 4
Стр. 5
стр. 5
Стр. 6
стр. 6
Стр. 7
стр. 7
Стр. 8
стр. 8
Стр. 9
стр. 9
Стр. 10
стр. 10
Стр. 11
стр. 11
Стр. 12
стр. 12
Стр. 13
стр. 13
Стр. 14
стр. 14
Стр. 15
стр. 15
Стр. 16
стр. 16
Стр. 17
стр. 17
Стр. 18
стр. 18
Стр. 19
стр. 19
Стр. 20
стр. 20
Стр. 21
стр. 21
Стр. 22
стр. 22
Стр. 23
стр. 23
Стр. 24
стр. 24
Стр. 25
стр. 25
Стр. 26
стр. 26
Стр. 27
стр. 27
Стр. 28
стр. 28
Стр. 29
стр. 29
Стр. 30
стр. 30

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

ГОСТР

50779.60—

2017

(ИСО

13528:2015)

Статистические методы

ПРИМЕНЕНИЕ ПРИ ПРОВЕРКЕ КВАЛИФИКАЦИИ ПОСРЕДСТВОМ МЕЖЛАБОРАТОРНЫХ ИСПЫТАНИЙ

(ISO 13528:2015, Statistical methods for use in proficiency testing by interlaboratory comparison, MOD)

Издание официальное

Москва

Стандартинформ

2017

Предисловие

1    ПОДГОТОВЛЕН Открытым акционерным обществом «Научно-исследовательский центр контроля и диагностики технических систем» (АО «НИЦ КД») на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4, при участии Федерального государственного унитарного предприятия «Уральский научно-исследовательский институт метрологии» (ФГУП «УНИИМ»)

2    ВНЕСЕН Техническим комитетом по стандартизации ТК 125 «Применение статистических методов»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 12 сентября 2017 г. № 1061-ст

4    Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО 13528:2015 «Статистические методы для применения при проверке квалификации посредством межлабораторных испытаний» (ISO 13528:2015 «Statistical methods for use in proficiency testing by interlaboratory comparison», MOD) путем внесения отклонений, объяснение которых приведено во введении к настоящему стандарту.

Международный стандарт разработан техническим комитетом ТС 56 «Dependability» международной электротехнической комиссии (IEC).

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).

Сведения о соответствии ссылочных национальных и межгосударственных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДА

5    ВЗАМЕН ГОСТ Р ИСО 13528-2010

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ «О стандартизации в Российской Федерации». Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок — в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

© Стандартинформ, 2017

Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

данные), статистические предположения, особенности ошибок и ожидаемое количество результатов». Следовательно, в программах проверки квалификации с различными целями и источниками ошибок следует применять различные планы эксперимента.

Ниже приведены планы эксперимента для общих целей. Но другие цели также возможны.

Пример 1 — Для программы проверки квалификации, в которой сопоставляют результаты участников с предварительно определенным опорным значением в пределах границ, которые устанавливают до начала раунда, для планирования эксперимента требуются метод получения внешне определенного опорного значения, методы установления границ и расчета индексов.

Пример 2 — Для программы проверки квалификации, в которой сопоставляют результаты участников с комбинированными резулыпатами группы в одном и том же раунде и границами, которые устанавливают до начала раунда, для планирования эксперимента необходимо предусмотреть определение приписанного значения по комбинированным результатам, а также метод установления границ и метод индексов.

Пример 3 — Для программы проверки квалификации, в которой сопоставляют результаты участников с комбинированными резулыпатами группы в одном и том же раунде и границами, определенными на основе изменчивости результатов участников, необходимо рассмотреть расчеты приписанного значения и соответствующей меры разброса, а также метод определения индекса.

Пример 4 — Для программы проверки квалификации, в которой сопоставляют результаты участников с приписанным значением, полученным на основе их собственной неопределенности, при планировании эксперимента, необходимо рассмотреть способ получения приписанного значения и его неопределенности и использование неопределенности измерений участников при получении индекса.

Пример 5 — Для программы проверки квалификации с целью сопоставления различных методов измерений при планировании эксперимента, необходимо рассмотреть соответствующие обобщенные статистики и процедуры их вычисления.

5.2.2    При проверке квалификации используют различные типы данных, включая количественные, номинальные (категоризированные) и порядковые. Для количественных переменных некоторые результаты могут быть определены по интервальной или относительной шкале либо шкале отношений. В некоторых случаях при измерении количественных величин могут быть получены только дискретные или прерывистые наборы данных (например, при последовательном разбавлении), однако во многих случаях эти данные могут быть обработаны с помощью методов, применяемых к непрерывным данным.

Примечание 1 — Интервальная шкала для количественных величин представляет собой шкалу, на которой можно определить интервалы (разности) значений, но нельзя определить отношения величин, например, шкала Цельсия. Для шкалы отношений значимыми являются как интервалы, так и отношения величин, например, шкала Кельвина или наиболее общие единицы измерения длины.

Примечание 2 — Для качественных величин применяют классификацию по категориям, при этом упорядочивание значений не имеет смысла, например, упорядочивание наименований видов бактерий. Для порядковой шкалы порядок расположения величин имеет значение, но разности между ними не могут быть определены, например, такие понятия, как «большая, средняя, маленькая величины», могут быть упорядочены, но разность между величинами не может быть определена, кроме как в виде промежуточных значений.

5.2.3    Кроме того, программы проверки квалификации могут быть использованы для других целей (см. 0.1 ГОСТ ISO/IEC 17043—2013). Для всех установленных целей конкретной программы проверки квалификации должен быть определен подходящий план эксперимента.

5.3    Анализ статистического распределения результатов

5.3.1 В соответствии с 4.4.4.2 ГОСТISO/IEC 17043—2013 методы статистического анализа данных должны быть согласованы со статистическими предположениями относительно данных. Большая часть методов общего статистического анализа данных, используемых при проверке квалификации, предполагает, что набор результатов участников подчиняется приблизительно нормальному распределению или, по крайней мере, унимодальному и достаточно симметричному либо результаты могут быть преобразованы к таким данным. Общее дополнительное предположение состоит в том, что распределение результатов измерений представляет собой смесь, включающую результаты из совокупности ошибочных измерений, являющихся выбросами. Обычно интерпретация в баллах основана на предположении о нормальности распределения, но только для основного предполагаемого распределения для компетентных участников.

6

ГОСТ P 50779.60—2017

5.3.1.1    Как правило, нет необходимости в проверке того, что результаты принадлежат нормальному распределению, но очень важно проверить (хотя бы визуально) симметричность распределения. Если нельзя проверить симметричность плотности распределения, то провайдеру проверки квалификации следует использовать методы, которые устойчивы к асимметрии плотности распределения (см. приложение С).

5.3.1.2    Если ожидаемое распределение для программы проверки квалификации не является достаточно симметричным (с учетом загрязнения выбросами), провайдер программы квалификации должен выбрать методы анализа данных, которые учитывают ожидаемую асимметрию и устойчивы к выбросам, и методы расчета индексов, учитывающие особенности ожидаемого распределения результатов участников.

Такие методы могут включать:

-    преобразование, обеспечивающее переход к приближенно симметричному распределению;

-    методы оценки, устойчивые к асимметрии распределения;

-    методы оценки, учитывающие предположения о распределении (например, метод максимального правдоподобия, подходящий для предполагаемого распределения, при необходимости — исключение выбросов).

Пример 1 — Результаты, полученные на основе разбавления растворов, например при расчетах в микробиологических исследованиях или в методах анализа иммунологического статуса, часто имеют логарифмически нормальное распределение, и первым этапом анализа данных может быть их логарифмическое преобразование.

Пример 2 — Результаты подсчета небольшого количества частиц могут быть распределены в соответствии с распределением Пуассона, и поэтому критерии оценки могут быть определены по таблицам вероятностей Пуассона, на основе расчета среднего для группы участников.

5.3.1.3    В некоторых случаях калибровки результаты участников могут иметь распределение, описанное в процедуре выполнения измерений (например, экспоненциальное, прямоугольное, треугольное или другое распределение); это распределение следует указывать во всех протоколах оценки.

5.3.2 В соответствии с 4.4.4.2 ГОСТ ISO/IEC 17043—2013 провайдер проверки квалификации должен обосновать все используемые статистические предположения. Эти доказательства могут быть основаны, например, на данных наблюдений, результатах предыдущих раундов программы проверки квалификации или технической литературе.

Примечание — Обоснование предположений о виде распределения является менее строгим, чем доказательство справедливости этого предположения.

5.4 Исследования для небольшого количества участников

5.4.1    План эксперимента для программы проверки квалификации должен устанавливать минимальное количество участников, необходимых для достижения поставленных целей, а также альтернативные подходы в том случае, если количество участников будет недостаточным [см. 4.4.4.3, перечисление Ь) ГОСТ ISO/IEC 17043—2013]. Статистические методы, которые подходят для большого количества участников, не следует применять при недостаточном количестве участников. Опасность состоит в том, что результаты, определяемые при небольшом количестве участников, могут быть недостаточно достоверными, а оценка участника может быть сопоставлена с группой, неподходящей для сравнения.

Примечание — В [2] приведены полезные рекомендации для программ проверки квалификации с небольшим количеством участников. Приписанное значение рекомендуется устанавливать на основе независимых достоверных измерений: например, на основе использования сертифицированных стандартных образцов, независимо от назначенного посредством калибровки национальным метрологическим институтом, или с помощью гравиметрической подготовки образцов. Кроме того, стандартное отклонение для оценки квалификации не может быть определено на основе наблюдаемого разброса результатов участников одного раунда программы проверки квалификации.

5.4.2    Минимальное количество участников, необходимое для выполнения различных статистических методов, зависит от различных ситуаций, в частности:

-    используемых статистических методов, например, робастных методов или выбранной стратегии удаления выбросов;

-    опыта участников конкретной программы проверки квалификации;

7

-    опыта работы провайдера проверки квалификации с матрицами, измеряемыми величинами, методами или группой участников;

-    определения приписанного значения и стандартного отклонения или того и другого.

Дальнейшие рекомендации по методам обработки результатов при небольшом количестве участников приведены в D.1 приложения D.

5.5 Рекомендации по выбору формы отчета

5.5.1    В соответствии с 4.6.1.2 ГОСТ ISO/IEC 17043—2013, провайдеры проверки квалификации должны предоставить участникам подробные инструкции по выполнению измерений и оформлению отчета о результатах проверки квалификации так же, как для большинства повседневно выполняемых измерений, за исключением особых случаев.

Это требование в некоторых ситуациях может затруднить получение точной оценки прецизионности и правильности измерений участников или квалификации при выполнении процедуры измерений. Провайдер проверки квалификации должен установить форму отчета для программы проверки квалификации, но, по возможности, использовать единицы измерений, знакомые большинству участников, и выбрать форму отчета, минимизирующую ошибки при переписывании данных и другие ошибки. Может быть установлено автоматическое предупреждение об использовании ненадлежащих единиц измерения.

Примечание 1 — Целью некоторых программ проверки квалификации является оценка способности участника выполнять стандартный метод, использующий определенную единицу измерений или конкретное количество значащих цифр.

Примечание 2 — Количество ошибок переписывания при сборе данных можно существенно уменьшить или совсем устранить за счет использования электронных систем отчетности, которые позволяют участникам вводить свои данные самостоятельно.

5.5.2    Если программа проверки квалификации требует выполнения репликаций измерений на образцах, используемых при проверке квалификации, участник обязан внести в отчет все результаты репликаций измерений. Это может потребоваться в том случае, когда надо оценить прецизионность измерений участника на репликациях измерений известных образцов для проверки квалификации или когда для процедуры измерений необходимо выделить отчет о многократных наблюдениях. В таких ситуациях провайдер проверки квалификации также может попросить участника сообщить выборочное среднее своих результатов (или другую оценку параметра положения) и неопределенность измерений для анализа данных.

5.5.3    Если результаты в отчете записывают в виде «больше» или «меньше» ограничения (например, уровень калибровки или ограничение количественной величины) или если числовые результаты необходимы для оценки в виде индексов, провайдер должен определить, каким образом результаты должны быть обработаны.

5.5.3.1    Для цензурированных данных (см. Е.1 приложения Е) провайдер должен либо принять утвержденные процедуры обработки данных и определения индексов, либо требовать от участников результаты измерений вместо или в дополнение к обычно фиксируемым в отчете значениям.

Примечание 1 — Процедуры обработки индексов могут не учитывать такие данные.

Примечание 2 — Требования участников о фиксировании в отчете числовых значений вне диапазона обычно указываемых значений (например, ниже границы числовых значений) позволят использовать статистические методы, но могут приводить к определению индексов, которые не отражают уровень обслуживания участником потребителей.

5.5.3.2    Если при использовании согласованных статистик цензурированных значений достаточно много, может оказаться невозможно выполнить оценку, так как эти данные влияют на робастность метода. В тех случаях, когда количество цензурированных результатов достаточно велико и влияет на робастность метода, результаты должны быть оценены с использованием статистических методов, которые позволяют получить несмещенную оценку при наличии цензурированных данных [3], или результаты не должны быть оценены. В случае сомнений относительно выбранной процедуры провайдеру проверки квалификации необходимо рассчитать суммарные статистики и оценки показателей в соответствии с каждой альтернативной статистической процедурой, потенциально применимой в данной ситуации, и исследовать значимость различий полученных оценок.

8

ГОСТ P 50779.60—2017

5.5.3.3 Если ожидаются или наблюдаются цензурированные результаты, такие как «меньше заявленного значения», в план эксперимента программы проверки квалификации следует включать положения для определения индексов и/или производить другие действия с цензурированными данными, сообщаемыми участниками, а участники должны быть уведомлены об этих положениях.

Примечание — BE.I приложения Е приведен пример некоторых подходов к анализу цензурированных данных. В этом примере показаны робастные согласованные статистики с тремя различными подходами: с удалением цензурированных данных, с заменой цензурированных данных на максимальные значения (указываемые после знака «<») и с заменой цензурированных данных на половину максимальных значений.

5.5.4 Как правило, количество значащих цифр, указанных в отчете, определяют при разработке плана эксперимента программы проверки квалификации.

5.5.4.1    При определении количества значащих цифр, указываемых в отчете, необходимо обеспечить, чтобы ошибка округления была пренебрежимо малой по сравнению с ожидаемыми вариациями результатов участников.

Примечание — В некоторых ситуациях корректный отчет является частью определения квалификации участника, а количество значащих цифр и знаков после запятой может быть различным.

5.5.4.2    Если количество значащих цифр, указанное участником в отчете о результатах измерений в обычных условиях, затрудняет обработку данных провайдером (например, когда в соответствии с процедурой измерений необходимо фиксировать небольшое количество значащих цифр), провайдер проверки квалификации может сообщить участнику количество значащих цифр, которые требуется указать.

Пример — В процедуре измерений установлено, что результаты измерений можно указывать с точностью до 0,1 д, что приводит к появлению большого количества (> 50 %) одинаковых результатов измерений и таким образом к неправильному расчету робастных средних и стандартных отклонений. Поэтому провайдер проверки квалификации может потребовать от участников указывать в отчете результаты измерений с точностью до 2-го или 3-го знака после запятой для получения достаточно достоверных оценок параметров положения и разброса.

5.5.4.3    Если допускается, что различные участники фиксируют в отчете результаты измерений с указанием различного количества значащих цифр, провайдеру проверки квалификации следует принять это во внимание при определении согласованных статистик (таких как приписанное значение и стандартное отклонение для оценки квалификации).

6 Предварительный анализ образцов и результатов при проверке квалификации

6.1    Однородность и стабильность образцов при проверке квалификации

6.1.1    Провайдер проверки квалификации должен гарантировать, что партии образцов для проверки квалификации являются достаточно однородными, стабильными и пригодными для целей программы проверки квалификации. Провайдер должен оценить однородность и стабильность образцов с использованием критериев, позволяющих гарантировать, что неоднородность и нестабильность образцов не оказывают отрицательного влияния на оценку работы участника. При оценке однородности и стабильности следует использовать один или несколько из следующих подходов:

a)    экспериментальные исследования, описанные в приложении В, или альтернативные экспериментальные методы, которые обеспечивают равную им или большую уверенность в однородности и стабильности образцов;

b)    использование аналогичных образцов в предыдущих раундах программы проверки квалификации, подтверждающие приемлемость образцов для текущего раунда;

c)    оценка данных участников в текущем раунде программы проверки квалификации для доказательства согласованности с предыдущими раундами, то есть для доказательства возможных изменений после подготовки отчета или в порядке производства и всех неожиданных отклонений, характерных для неоднородности или нестабильности.

Примечание 1 — Эти подходы могут быть применены с использованием соответствующих статистических методов и технического обоснования для каждого подхода. В течение срока действия программы проверки квалификации подход может быть применен многократно, накопленный опыт со временем снижает первоначальную потребность в экспериментальных исследованиях.

9

Примечание 2 — Эксперимент [см. перечисления а)—с)] является разумной основой до тех пор, пока выполняются следующие требования:

1    В процессе изготовления партий образцов для проверки квалификации не возникают изменения, которые могут повлиять на однородность образцов.

2    Материалы, используемые в производстве образцов для проверки квалификации, не изменяются таким образом, что могут повлиять на однородность образцов.

3    Не появляются нарушения однородности, выявленные с помощью проверки на однородность или по реакции участников.

4    Требования к однородности материала регулярно анализируют с учетом предполагаемого использования материала при проведении анализа, чтобы гарантировать, что однородность, достигнутая за счет производственного процесса, остается пригодной для целей проверки квалификации.

Пример — Если в предыдущих раундах программы проверки квалификации использованы проверенные образцы, которые были в наличии, и продемонстрировано, что их однородность и стабильность являются достаточными, и участники проверки не изменились в новом раунде, то, если межлабораторное стандартное отклонение в текущем раунде не превышает стандартного отклонения в предыдущих раундах, это является доказательством достаточной однородности и стабильности образцов в текущем раунде.

6.1.2    Для программ проверки квалификации при калибровке, когда один и тот же артефакт используют несколько участников, провайдер проверки квалификации должен гарантировать его стабильность в течение всего раунда или иметь процедуры идентификации и оценки его нестабильности в процессе выполнения раунда программы проверки квалификации. Необходимо также исследовать тенденции изменения отдельных образцов и измеряемых величин, такие как дрейф. По возможности для уверенности в стабильности следует учитывать влияние использования одинаковых артефактов из различных партий.

6.1.3    Все результаты измерений величин (или свойств) должны быть проверены на однородность и стабильность. Однако если показано, что некоторое подмножество свойств может обеспечить хорошую индикацию однородности и стабильности для всех наблюдаемых свойств в этом раунде, программы проверки квалификации оценки, описанные в 6.1.1, могут быть ограничены этим подмножеством свойств. Проверяемые измеряемые величины должны быть чувствительными к источникам неоднородности и нестабильности в процессе работы с образцами для проверки квалификации. Некоторые важные случаи:

a)    если результатом измерений является доля, характерная особенность которой ее небольшое значение, эта величина может быть трудно управляемой и более чувствительной к изменениям однородности;

b)    если испытуемый образец нагревается во время работы с ним, то в качестве измеряемой величины следует выбрать величину, чувствительную к неравномерному нагреву;

c)    если измеряемая величина характеризует свойство, зависящее от отстаивания, выпадения осадка и других явлений, зависящих от времени подготовки образца, то это свойство следует проверять косвенным способом.

Пример — В программе проверки квалификации при определении содержания токсичных металлов в почве результат зависит от влажности образца почвы. Последовательная проверка содержания влаги в почве может быть признана достаточной для обеспечения адекватной стабильности содержания токсичных металлов.

Примечание — Пример проверки на однородность и стабильность с использованием статистических методов, рекомендованных в приложении В, приведен в Е.2 приложения Е.

6.2 Анализ различных методов измерений

6.2.1 Если все участники проверки должны сообщать значение одной и той же измеряемой величины, приписанное значение обычно должно быть одинаковым для всех участников. Но если участникам предоставлен выбор собственного метода измерений, то возможно, что единственное приписанное значение для каждого исследуемого вещества или свойства не будет подходить для всех участников. Однако существует вероятность того, что при использовании различных методов измерений результаты будут несопоставимыми. В этом случае провайдер проверки квалификации может использовать для каждого метода измерений свое приписанное значение.

Примеры

а) Медицинские исследования, в которых при установлении диагноза для одного и того же исследуемого материала различные методы измерений дают различные результаты и имеют различные диапазоны нормальных значений.

ГОСТ P 50779.60—2017

b) Оперативно определяемые измеряемые величины, такие как выщелачиваемые токсичные металлы в почвах, для которых доступны различные стандартные методы измерений и прямое сравнение величин не предполагается, по программе проверки квалификации устанавливают без ссылки на установленный метод испытаний.

6.2.2 При разработке программы проверки квалификации следует рассматривать необходимость использования различных приписанных значений (например, сделать заготовки для отчетов по конкретным методам), а также при анализе данных по каждому раунду.

6.3    Удаление грубых ошибок

6.3.1    В В.2.5 ГОСТ ISO/IEC 17043—2013 и согласованом протоколе IUPAC рекомендуют удалять очевидные грубые ошибки из набора данных на ранней стадии анализа данных перед использованием любой робастной процедуры или любого теста по выявлению статистических выбросов. Как правило, эти результаты следует рассматривать отдельно (например, по согласованию с участником). Некоторые грубые ошибки можно исправить, но это должно быть сделано только в соответствии с утвержденной политикой и процедурами.

Примечание — Очевидные грубые ошибки, такие как результаты, указанные в отчете в неправильных единицах измерений, спутанные результаты различных образцов, возникают в большинстве раундов проверки квалификации, и эти результаты только ухудшают применение последующих статистических методов.

6.3.2    При наличии подозрений в том, что результат является грубой ошибкой, он должен быть сохранен в наборе данных и подвергнут последующей обработке в соответствии с 6.4—6.6.

6.4    Визуальный анализ данных

6.4.1    В качестве первого этапа анализа данных провайдер должен организовать визуальный анализ данных, проводимый человеком, имеющим адекватные технические и статистические знания и опыт. Этот анализ необходим для подтверждения ожидаемого распределения результатов, а также для выявления аномалий или непредвиденных источников изменчивости. Например, бимодальное распределение может быть свидетельством того, что данные представляют собой смесь результатов из различных совокупностей, полученных различными методами, или использования загрязненных проб, или применения плохо сформулированных инструкций. Эта ситуация должна быть разрешена до выполнения анализа или оценки.

Примечание 1 — Наиболее полезным и широко доступным способом определения вида распределения является гистограмма. Она позволяет определить унимодальность и симметричность распределения, а также выявить необычные выбросы (см. 10.2). Однако интервалы, используемые для составления гистограммы, и количество результатов в интервале влияют на качество гистограммы, при небольшом количестве точек гистограммы ее может быть трудно построить. Более полезным для выявления возможной бимодальности или отсутствия симметрии является график плотности (см. подраздел 10.3).

Примечание 2 — Также могут быть полезны и другие методы, например, график кумулятивной функции распределения или диаграмма «стебель с листьями». Некоторые графические методы анализа данных приведены в Е.З и Е.4 приложения Е.

6.4.2    Если проведение визуального анализа всех наборов данных невозможно, должна быть предусмотрена процедура предупреждения появления неожиданной вариации в наборе данных, например с помощью сравнительного анализа неопределенности приписанного значения и ее сопоставления с критериями или с предыдущими раундами программы проверки квалификации.

6.5    Робастные статистические методы

6.5.1 Робастные статистические методы могут быть использованы для описания центральной части нормального распределения набора результатов без идентификации выбросов и исключения их из последующего анализа. На 1-м этапе большинство используемых робастных методов в качестве параметров применяют оценки медианы и размаха для центральных 50 % результатов — это показатели положения центра и разброса данных, аналогичные среднему и стандартному отклонению. В общем случае при проведении анализа надо отдавать предпочтение робастным методам, а не тем, для которых перед использованием требуется удаление выбросов.

Примечание — Стратегии, которые используют классические статистики, такие как стандартное отклонение, после удаления выбросов, как правило, приводят к заниженной оценке дисперсии для приблизительно нормальных данных; робастные статистики, как правило, дают несмещенные оценки дисперсии.

11

6.5.2    В качестве простых оценок применимы медиана, масштабированная медиана абсолютного отклонения MAD и нормированный межквартильный размах nlQR. Алгоритм А преобразует исходные данные с помощью процесса, называемого винсоризацией, для получения альтернативных оценок среднего и стандартного отклонения для данных, не подчиняющихся нормальному распределению, и является наиболее полезным, когда ожидаемая доля выбросов составляет менее 20 %. Методы Qи Q для оценки стандартного отклонения (см. приложение С) особенно полезны в той ситуации, когда в большинстве случаев (> 20 %) результаты являются несоответствующими или когда специалисты не могут достоверно проанализировать данные. Другие методы, описанные в приложении С, также достаточно эффективны, если ожидаемая доля экстремальных значений составляет более 20 % (см. приложение D).

Примечание — Медиана, среднее абсолютное отклонение, межквартильный размах и масштабированная медиана абсолютного отклонения имеют большую изменчивость, чем среднее и стандартное отклонения при применении к данным, подчиняющимся распределению близкому к нормальному. Более сложные робастные оценки дают более высокую эффективность для данных с распределением близким к нормальному, обеспечивая при этом большую устойчивость при использовании выбросов за счет использования медианы и межквартильного размаха.

6.5.3    Выбор статистических методов является обязанностью провайдера проверки квалификации. Робастные среднее и стандартное отклонения могут быть использованы для различных целей, оценка работы участников — лишь одна из них. Робастные средние и стандартные отклонения могут быть также использованы в качестве общих статистик для различных групп участников или для конкретных методов.

Примечание — Более подробно робастные процедуры описаны в приложении С. В Е.З и Е.4 приложения Е приведены примеры, иллюстрирующие использование робастных статистических методов, приведенных в приложении С.

6.6 Методы работы с выбросами для индивидуальных результатов

6.6.1    Проверка на выбросы может быть использована при визуальном анализе аномальных значений или в случае исключения выброса для обеспечения устойчивости к экстремальным значениям при вычислении общих статистик. При использовании методов выявления выбросов следует подтвердить выполнение предположений, лежащих в их основе, чтобы обеспечить пригодность этих методов для целей программы проверки квалификации, в частности многие критерии используют предположение о нормальности распределения данных.

Примечание — В ГОСТ Р ИСО 16269-4 и ГОСТ Р ИСО 5725-2 приведено несколько процедур идентификации выбросов, применимых к межпабораторным данным.

6.6.2    Если робастные методы не применяют (см. 6.5.1), то допускается использование стратегии отклонения выбросов, которая основана на исключении из обработки выбросов, обнаруженных с помощью соответствующих критериев с высоким уровнем доверия, и дальнейшем применении простых статистик, таких как среднее и стандартное отклонения. При использовании стратегий исключения выбросов провайдер проверки квалификации должен:

a)    документировать критерии и уровень доверия, применяемые для выявления исключаемого выброса;

b)    устанавливать ограничения на долю исключенных данных при применении тестов выявления выбросов в случае их использования;

c)    демонстрировать, что полученные оценки параметров положения и (при необходимости) масштаба обладают достаточными свойствами (включая эффективность и смещение) для целей программы проверки квалификации.

Примечание — В ГОСТ Р ИСО 5725-2 приведены рекомендации по выбору уровня доверия, подходящего для отклонения выбросов в межпабораторных исследованиях по определению прецизионности методов испытаний. В частности, в соответствии с ГОСТ Р ИСО 5725-2 рекомендуется исключать данные только в том случае, когда при выявлении выброса был использован уровень доверия 99 %, если нет другого основания отказаться от конкретного результата.

6.6.3    В тех случаях, когда исключение выброса является частью процедуры обработки данных и результат удаляют как выброс, работу участника тем не менее следует оценивать в соответствии с критериями, используемыми для всех участников программы проверки квалификации.

12

ГОСТ P 50779.60—2017

Примечание 1 — Выбросы среди зарегистрированных значений часто идентифицируют с помощью критерия Граббса для выявления выбросов в соответствии с ГОСТ Р ИСО 5725-2. Оценку в этой процедуре определяют с использованием стандартного отклонения всех участников, включая возможные выбросы. Поэтому данную процедуру необходимо применять, когда показатели работы участников соответствуют ожиданиям, основанным на результатах предыдущих раундов, а количество выбросов невелико (один или два выброса с каждой стороны среднего). Обычные таблицы для критерия Граббса предполагают одно применение для возможного выброса или два —для установленного параметра положения, но допустимо последовательное применение этого критерия. Если таблицы Граббса применяют последовательно, вероятности ошибки I рода для испытаний можно не применять.

Примечание 2 — Если результаты репликаций совпадают или если в раунде программы проверки квалификации использованы идентичные образцы, это является основанием для использования критерия Кохрена для повторяющихся выбросов в соответствии с ГОСТ Р ИСО 5725-2.

Примечание 3 — Выбросы также могут быть идентифицированы с помощью робастных или непараметрических методов: например, если вычислены робастное среднее и стандартное отклонение значения, отклоняющиеся от вычисленного среднего более чем на три робастных стандартных отклонения, могут быть идентифицированы как выбросы.

7 Определение приписанного значения и его стандартной неопределенности

7.1    Выбор метода определения приписанного значения

7.1.1    В 7.3—7.7 приведены пять методов определения приписанного значения. За выбор метода отвечает провайдер проверки квалификации.

Примечание — Подразделы 7.3—7.6 аналогичны подходам, используемым для определения характеристик свойств сертифицированных стандартных образцов, описанных в ГОСТ ISO Guide 35.

7.1.2    Альтернативные методы определения приписанного значения и его неопределенности могут быть использованы при условии, что они имеют строгое статистическое обоснование, а используемый метод описан в документированном плане для программы проверки квалификации, и это описание полностью известно участникам. Независимо от метода, используемого для определения приписанного значения, всегда целесообразно проверить обоснованность выбора приписанного значения для конкретного раунда программы проверки квалификации. Более подробное обсуждение этого положения приведено в 7.8.

7.1.3    Подходы к определению приписанных значений для качественных данных рассмотрены в 11.3.

7.1.4    Метод определения приписанного значения и соответствующей ему неопределенности должен быть указан в каждом отчете для участников или четко описан в протоколе программы проверки квалификации, доступном всем участникам.

7.2 Определение неопределенности приписанного значения

7.2.1    В руководстве по выражению неопределенности измерения ГОСТ Р 54500.3 приведены рекомендации по оценке неопределенности. В ГОСТ ISO Guide 35 представлены рекомендации по определению неопределенности приписанного значения для аттестованных значений показателей свойств, которые могут быть использованы при разработке многих программ проверки квалификации.

7.2.2    Общая модель приписанного значения и его неопределенности описывается уравнениями (2) и (3).

Модель приписанного значения может быть рассчитана следующим образом:

xpt = xchap + Vom + $trans + ^stab ’    (2)

где xpt — приписанное значение;

xchap —показатель свойства, полученный при характеризации (определении приписанного значения);

8hom — погрешность, вызванная различиями образцов для проверки квалификации;

Vans — погрешность, вызванная нестабильностью условий транспортирования;

8stgb — погрешность, вызванная нестабильностью процесса проведения проверки квалификации.

13

Соответствующая модель неопределенности приписанного значения имеет вид:

(3)

где u(xpt)

uchar

uhom

utrans

ustab

"(V = Hhar+uhom+utrans + uitab-

—    стандартная неопределенность приписанного значения;

—    стандартная неопределенность, соответствующая характеризации;

—    стандартная неопределенность, связанная с различиями между образцами;

—    стандартная неопределенность, соответствующая нестабильности условий транспортирования образцов;

—    стандартная неопределенность, соответствующая нестабильности процесса проведения проверки квалификации.

Примечание 1 — Ковариация источников неопределенности или даже незначительных источников неопределенности может привести к другой модели в конкретных случаях. В некоторых ситуациях все компоненты неопределенности могут быть равны нулю или ничтожно малы.

Примечание 2 — При расчете стандартного отклонения результатов участников составляющие неопределенности, обусловленные неоднородностью, условиями транспортирования и нестабильностью процесса проверки, в значительной степени отражаются в изменчивости результатов участников. В этом случае достаточно учитывать неопределенность характеризации в соответствии с 7.3—7.7.

Примечание 3 — Обычно предполагают, что провайдер проверки квалификации гарантирует, что изменения, связанные с нестабильностью процесса или условиями транспортирования образцов, пренебрежимо малы по сравнению со стандартным отклонением для оценки квалификации; то есть гарантируют, что 8frans и 8stab пренебрежимо малы. Если это требование удовлетворено, ustab и utrans можно считать равными нулю.

7.2.3 Приписанное значение может иметь смещение, которое не учтено в выражении (2). Это следует по возможности учитывать при разработке программы проверки квалификации. Если проведена корректировка смещения приписанного значения, то неопределенность, соответствующая такой корректировке, должна быть включена в оценку неопределенности приписанного значения.

7.3 Состав образцов

7.3.1    Образец для проверки квалификации может быть подготовлен путем смешивания материалов с различными известными уровнями содержания вещества в установленных пропорциях или добавления установленного количества вещества к основному материалу.

7.3.1.1    Приписанное значение xpt получают путем расчета на основе содержания веществ в используемых материалах. Такой подход особенно важен, когда отдельные образцы для проверки квалификации подготовлены описанным способом и пропорции используемых материалов известны.

7.3.1.2    Следует предпринять необходимые действия для того, чтобы обеспечить следующее:

a)    основной материал должен быть практически свободен от дополнительных компонентов, или их доли должны быть точно известны;

b)    компоненты должны быть смешаны до однородности (если это необходимо);

c)    все существенные источники ошибок должны быть идентифицированы (например, не всем известно, что стекло поглощает соединения ртути, так что концентрация соединения ртути в водном растворе может измениться, если раствор находится в стеклянном контейнере);

d)    не существует неблагоприятного взаимодействия между компонентами и основным веществом;

e)    свойства образцов для квалификационных испытаний, содержащих дополнительный материал, должны быть аналогичны свойствам образцов, обычно используемых заказчиком. Например, чистые материалы, добавляемые к природной основе, часто извлечь легче из такой же субстанции природного происхождения. Если существует возможность возникновения такой ситуации, провайдер должен обеспечить пригодность образцов для используемых методов проверки квалификации.

7.3.1.3    Если в образцах для проверки квалификации добавки более слабо связаны, чем в обычно проверяемых образцах, или находятся в другой форме, предпочтительнее использовать другой подход для подготовки образцов.

7.3.1.4    Определение приписанного значения по составу материала образцов является одним из случаев общего подхода к характеризации сертифицированных стандартных образцов, описанного в ISO Guide 35, когда единственная лаборатория определяет приписанное значение с использованием основного метода измерения. Существуют и другие способы определения приписанного значения единственной лабораторией с помощью основного метода (см. 7.5)

ГОСТ P 50779.60—2017

7.3.2 Если приписанное значение рассчитывают на основе состава материала образцов для проверки квалификации, оценки стандартной неопределенности uchgr определяют с помощью сочетания неопределенностей, используемых в соответствующей модели. Например, при проверке квалификации лабораторий, выполняющих химические измерения, основными являются неопределенности, связанные с гравиметрическими измерениями, измерениями объема и чистотой всех материалов, используемых при составлении образца. Стандартную неопределенность приписанного значения u(xpf) рассчитывают по уравнению (3).

7.4 Сертифицированный стандартный образец

7.4.1    Если образец для проверки квалификации является сертифицированным стандартным образцом CRM, его сертифицированное значение xCRM используется в качестве приписанного значения xpt.

Ограничения такого подхода вызваны следующим:

-    обеспечить каждого участника сертифицированным стандартным образцом потребует больших средств;

-    обеспечить долговременную стабильность образца часто очень сложно, что может приводить к нецелесообразности замены образца;

-    сертифицированные стандартные образцы могут быть известны участникам, и поэтому важно скрыть их истинные характеристики.

7.4.2    При использовании CRM в качестве образца для проверки квалификации стандартную неопределенность приписанного значения выводят из информации о неопределенности, указанной в сертификате. Сертификат должен включать в себя информацию о компонентах из уравнения (3) и информацию о предполагаемом использовании образца для целей программы проверки квалификации.

7.5 Результаты одной лаборатории

7.5.1    Приписанное значение может быть определено единственной лабораторией с использованием эталонного метода, например, основного метода. Используемый эталонный метод должен быть полностью описан и понятен с утверждением полной неопределенности и документированной метрологической прослеживаемостью, подходящей для целей программы проверки квалификации. Эталонный метод должен быть совместим со всеми методами измерений, используемыми участниками.

7.5.1.1    Приписанное значение рассчитывают как среднее арифметическое, определяемое для двух или большего количества образцов или условий измерений и при достаточном количестве репликаций измерений.

7.5.1.2    Неопределенность характеризации представляет собой соответствующую оценку неопределенности для эталонного метода и условий исследования в соответствии с планом эксперимента.

7.5.2    Приписанное значение xpt образца для проверки квалификации может быть получено с помощью единственной лаборатории и посредством использования подходящего метода измерений по данным калибровки на соответствие опорному значению, соответствующему сертифицированному стандартному образцу.

Такой подход предполагает, что CRM совместим со всеми методами измерений, используемыми участниками.

7.5.2.1 Это определение требует проведения серии испытаний, проводимых в одной лаборатории, на образцах для проверки квалификации и CRM с использованием одного и того же метода и в условиях повторяемости.

Если xCRM — приписанное значение для CRM;

xpt— приписанное значение образца для проверки квалификации;

dj— разность между средним арифметическим результатов для образца проверки квалификации и CRMj\ля /'-го образца;

(4)

d — среднее арифметическое разностей dj: тогда

Примечание — XCRM и d пертной лабораторией.

xpt ~ XCRM +cl-

независимы, за исключением того редкого случая, когда CRM получен экс-

7.5.2.2 Стандартную неопределенность характеризации выводят на основе неопределенности измерений, используемых для определения приписанного значения. Такой подход позволяет установить

15

ГОСТ P 50779.60—2017

Содержание

1    Область применения..................................................................1

2    Нормативные ссылки..................................................................1

3    Термины и определения...............................................................2

4    Основные принципы..................................................................4

5    Руководство по планированию эксперимента для программ проверки квалификации.............5

6    Предварительный анализ образцов и результатов при проверке квалификации.................9

7    Определение приписанного значения и его стандартной неопределенности...................13

8    Определение критериев оценки работы лабораторий......................................18

9    Вычисления статистик функционирования лабораторий....................................22

10    Графические методы описания индексов функционирования...............................29

11    Планирование эксперимента и анализ программ проверки квалификации

для качественных показателей (включая номинальные и порядковые свойства)...............34

Приложение А (обязательное) Обозначения...............................................39

Приложение В (обязательное) Однородность и стабильность образцов

для проверки квалификации...............................................41

Приложение С (обязательное) Робастный анализ..........................................47

Приложение D (справочное) Дополнительное руководство к статистическим процедурам..........56

Приложение Е (справочное) Иллюстративные примеры.....................................60

Приложение ДА (справочное) Сведения о соответствии ссылочных национальных и межгосударственных стандартов международным стандартам, использованным в качестве ссылочных в примененном

международном стандарте...............................................80

Библиография........................................................................81

приписанное значение таким образом, чтобы была обеспечена метрологическая прослеживаемость с сертифицированным значением CRM и стандартной неопределенностью, полученной в соответствии с уравнением (5):

(5)

Пример, приведенный в Е.5 приложения Е, показывает, как требуемая неопределенность может быть вычислена в простом случае, когда приписанное значение образца для проверки квалификации устанавливают прямым сопоставлением с единственным CRM.

7.5.3 Если опорное значение присваивают до начала раунда последовательной программы проверки квалификации, а затем опорное значение проверяют, используя туже измерительную систему, то разность полученных значений должна быть меньше, чем удвоенная неопределенность этой разности (то есть результаты должны быть метрологически совместимыми). В таких случаях провайдер проверки квалификации может принять решение об использовании в качестве приписанного значения среднего арифметического результатов измерений с соответствующей неопределенностью. Если результаты не являются метрологически совместимыми, провайдер должен исследовать причину различий и принять соответствующие меры, включая использование альтернативных методов определения приписанного значения и его неопределенности или прекращения раунда.

7.6 Согласованное значение по данным экспертных лабораторий

7.6.1    Приписанное значение может быть определено с применением межлабораторных сравнительных испытаний с привлечением экспертных лабораторий в соответствии с ISO Guide 35 для использования межлабораторного сравнения для характеризации CRM. Сначала подготавливают образцы для проверки квалификации и распределяют их между участниками. Некоторые из этих образцов отбирают случайным образом, и затем их анализирует группа экспертов с использованием протокола, в котором устанавливают количество образцов и репликаций и все другие соответствующие условия. Каждая эталонная лаборатория должна обеспечить стандартную неопределенность своих результатов.

7.6.2    Если экспертные лаборатории сообщают единственный результат и в соответствии с протоколом не требуется обеспечить достаточную информацию о неопределенности результатов или при наличии свидетельств либо предположении о недостаточной достоверности полученной неопределенности, согласованная величина должна быть получена в соответствии с методами, приведенными в 7.7, применяемыми к набору результатов экспертных лабораторий. Если каждая из экспертных лабораторий получает более одного результата (например, включая репликации), провайдер в программе проверки квалификации должен установить альтернативный метод определения приписанного значения, его неопределенности, и допускать наличие выбросов или других отклонений от ожидаемого распределения результатов, который должен быть статистически обоснованным (см. 4.4.1).

7.6.3    Если экспертные лаборатории вместе с результатами измерений указывают их неопределенности, оценка приписанного значения путем согласования результатов является сложной проблемой, и для ее решения существует много подходов, включая, например, применение взвешенного среднего арифметического, невзвешенного среднего арифметического, процедур, допускающих большой разброс данных, и процедур, допускающих наличие выбросов или ошибочных результатов и оценок неопределенности [4]. Провайдер проверки квалификации должен соответствующим образом установить процедуру оценки, которая должна:

a)    включать проверку достоверности указанных оценок неопределенности, например, проверку соответствия в полной мере указанной неопределенности наблюдаемому разбросу результатов;

b)    использовать взвешенные процедуры с весами, соответствующими степени достоверности и размеру указанной неопределенности, например, равные веса в случае близких неопределенностей, либо низкой или неизвестной достоверности (см. 7.6.2);

c)    допускать возможность того, что указанные неопределенности могут не в полной мере соответствовать наблюдаемому (полному) разбросу, например, путем включения дополнительного члена;

d)    допускать возможность появления неожиданных удаленных значений в указанных результатах или неопределенностях;

e)    иметь обоснованную теоретическую основу;

f)    иметь продемонстрированные свойства (например, на данных испытаний или на моделях), необходимые для целей программы проверки квалификации.

Введение

0.1 Цели проверки квалификации

Проверка квалификации посредством межлабораторных сравнительных испытаний предназначена для определения способности участников (которыми могут быть лаборатории, контролирующие органы или физические лица) проводить испытания или измерения, а также для проверки их работы. Во введении к ГОСТ ISO/IEC 17043—2013 приведены основные задачи проверки квалификации лабораторий, например:

-    определение оценок характеристик функционирования лабораторий;

-    выявление проблем в лабораториях;

-    установление результативности и сопоставление методов испытаний или измерений;

-    обеспечение дополнительного доверия заказчиков лаборатории;

-    подтверждение заявленной неопределенности;

-    обучение участвующих лабораторий.

Применяемые статистические и аналитические методы должны быть приемлемыми для указанных целей.

0.2 Обоснование для выбора критериев проверки квалификации

Для проверки квалификации используют различные стратегии. Несмотря на то что детали расчетов разные, в большинстве схем проверки квалификации отклонение результатов измерений участника от приписанного значения сравнивают с критерием для того, чтобы определить, является ли отклонение поводом для беспокойства. Поэтому стратегии, используемые для выбора приписанного значения и критерия оценки отклонений, очень значимы. В частности, важно определить, следует ли выбирать приписанное значение и критерий независимо от результатов измерений участников или их следует определять на основе результатов измерений, представленных участниками. В настоящем стандарте рассмотрены обе стратегии. В разделах 7 и 8 рассмотрены преимущества и недостатки выбора приписанных значений и критериев оценки отклонений независимо от результатов измерений участников. В целом выбор приписанных значений и критериев независимо от результатов измерений участников является предпочтительным. Это, в частности, касается критериев, используемых для оценки отклонения от приписанного значения, таких как стандартное отклонение оценки квалификации или допуск на погрешность измерений, для которых выбор, основанный на пригодности использования для конечного пользователя, особенно важен.

0.3 Настоящий стандарт и ГОСТISO/IEC 17043

Настоящий стандарт дополняет ГОСТ ISO/IEC 17043 в части требований к статистическим методам валидации образцов для проверки квалификации, анализа результатов, общей статистической отчетности. В приложении В ГОСТ ISO/IEC 17043—2013 кратко описаны общие статистические методы, используемые в программах проверки квалификации. Настоящий стандарт предназначен в качестве дополнения к ГОСТ ISO/IEC 17043 и содержит рекомендации по применению статистических методов для проверки квалификации.

Определение проверки квалификации, приведенное в ГОСТ ISO/IEC 17043, совпадает с представленными в настоящем стандарте замечаниями, которые описывают различные типы проверки квалификации и набор планов эксперимента, которые могут быть использованы. Настоящий стандарт не охватывает все цели, планы эксперимента, матрицы и измеряемые величины. Методы, представленные в настоящем стандарте, предназначены для широкого применения, особенно для вновь создаваемых программ проверки квалификации. Предполагается, что статистические методы, используемые в конкретных программах проверки квалификации, будут совершенствоваться с изменением программ, планов эксперимента, критериев оценки, а графические методы — уточняться для учета потребностей целевой группы участников, органов аккредитации и регулирующих органов.

В настоящем стандарте приведено руководство по проверке квалификации химических аналитических лабораторий [1], а также дополнительно представлен набор процедур, позволяющих использовать валидированные методы измерений и работы с данными. Настоящий стандарт представляет статистические методы и содержит указания по их применению, расширенные, по мере необходимости, в соответствии с упомянутыми документами и ГОСТ ISO/IEC 17043. В ГОСТ ISO/IEC 17043 приведены

ГОСТ P 50779.60—2017

требования относительно проверки квалификации для отдельных лиц и проверяющих органов; в приложении В — сведения, относящиеся к качеству результатов.

В настоящем стандарте приведены статистические методы, согласующиеся со статистическими методами других международных стандартов, особенно разработанных комитетом ИСО/ТС 69/ SC6, в частности с методами, представленными в серии стандартов ГОСТР ИСО 5725. Методы, приведенные в настоящем стандарте, согласованы с ГОСТР 54500-3 /Руководство ИСО/МЭК 98-3 (GUM).

0.4 Статистическая экспертиза

В соответствии с требованиями ГОСТ ISO/IEC 17043—2013 провайдер проверки квалификации должен быть компетентным в области проведения межлабораторных сличений, наделен полномочиями по осуществлению статистической экспертизы, привлечению персонала для выполнения статистического анализа. Однако ни в ГОСТ ISO/IEC 17043, ни в настоящем стандарте не установлены требования к необходимости проведения проверки. В некоторых случаях обозначено наличие специального образования у провайдера, но, как правило, требования к проверке могут быть выполнены и техническими специалистами, знакомыми с основными статистическими понятиями и имеющими опыт работы или обученными общим методам анализа данных, применяемым в программе проверки квалификации. Если физическое лицо привлекают к статистической обработке или анализу данных, то даже при наличии специального образования в области статистики очень важно, чтобы этот специалист имел опыт в области межлабораторных сравнительных испытаний. Обычное обучение статистическим методам не включает в себя методы, применяемые при межлабораторных сравнительных испытаниях, и описание причин возникновения ошибок измерений, которые происходят при проверке квалификации и часто остаются невыясненными. В настоящем стандарте не могут быть представлены весь спектр возникающих проблем и опыт, накопленный при работе, связанной с межлабораторными сравнительными испытаниями.

0.5 Программное обеспечение

Компьютерное программное обеспечение, которое необходимо для статистического анализа данных проверки квалификации, весьма разнообразно — от электронных таблиц для выполнения арифметических операций, используемых в случае известных опорных значений, до сложного программного обеспечения, применяемого для итерационных расчетов или других современных численных методов. Для большинства методов, перечисленных в настоящем стандарте, достаточно использования электронных таблиц с настройкой для работы с конкретными программами или для проведения анализа; некоторые методы требуют применения компьютерных приложений, которые находятся в свободном доступе. Во всех случаях пользователи должны проверять точность своих расчетов, особенно при использовании специальных программ. Тем не менее даже тогда, когда методы, приведенные в настоящем стандарте, являются надлежащими и правильно реализованными соответствующими компьютерными приложениями, их не следует применять без тщательной технической и статистической экспертизы, достаточной для выявления и изучения отклонений, которые могут произойти на любом этапе проверки квалификации.

0.6 Отклонения от ИСО 13528:2015

Из раздела 2 исключены стандарты, которые нецелесообразно применять в соответствии с требованиями национальной системы стандартизации.

V

ГОСТ P 50779.60—2017 (ИСО 13528:2015)

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Статистические методы

ПРИМЕНЕНИЕ ПРИ ПРОВЕРКЕ КВАЛИФИКАЦИИ ПОСРЕДСТВОМ МЕЖЛАБОРАТОРНЫХ ИСПЫТАНИЙ

Statistical methods. Use in proficiency testing by interlaboratory comparison

Дата введения — 2018—12—01

1    Область применения

В настоящем стандарте приведены статистические методы, используемые провайдерами проверки квалификации лабораторий для разработки программ проверки квалификации и анализа полученных данных при выполнении этих программ. В настоящем стандарте приведены рекомендации по интерпретации данных проверки квалификации, и он предназначен для использования участниками данных программ и органами по аккредитации.

Процедуры, приведенные в настоящем стандарте, предназначены для демонстрации того, что полученные результаты измерений лабораторий (проверяющих органов, физических лиц) подтверждают (или не подтверждают) качество их работы. Настоящий стандарт применим к проверке квалификации, результатами которой являются количественные или качественные результаты наблюдений, выполняемые на образцах.

Примечание — Процедуры, установленные в настоящем стандарте, могут быть применены к экспертным оценкам, когда мнения или заключения экспертов представлены в форме, допускающей объективное сопоставление с некоторой независимой эталонной величиной или согласованной статистикой: например, при классификации образцов для проверки квалификации на несколько категорий с помощью контроля или при определении во время контроля принадлежности (или нет) образцов для проверки квалификации одному источнику и объективного сопоставления результатов классификации. В этом случае могут быть применены положения настоящего стандарта, относящиеся к номинальным (качественным) свойствам.

2    Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие документы:

ГОСТ ISO/IEC 17043—2013 Оценка соответствия. Основные требования к проведению проверки квалификации

ГОСТ ISO Guide 35—2015 Стандартные образцы. Общие и статистические принципы сертификации (аттестации)

ГОСТ ИСО/МЭК 17025—2009 Общие требования к компетентности испытательных и калибровочных лабораторий

ГОСТ Р ИСО 5725-1-2002 Точность (правильность и прецизионность) методов и результатов измерений. Часть 1. Основные положения и определения

ГОСТ Р ИСО 5725-2-2002 Точность (правильность и прецизионность) методов и результатов измерений. Часть 2. Основной метод определения повторяемости и воспроизводимости стандартного метода измерений

ГОСТ Р ИСО 5725-5-2002 Точность (правильность и прецизионность) методов и результатов измерений. Часть 5. Альтернативные методы определения прецизионности стандартного метода измерений

ГОСТ Р ИСО 16269-4-2017 Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов

Издание официальное

ГОСТ Р 54500.3—2011/Руководство ИСО/МЭК 98-3:2008 Неопределенность измерения. Часть 3. Руководство по выражению неопределенности измерения

ГОСТ Р ИСО 7870-2-2015 Статистические методы. Контрольные карты. Часть 2. Контрольные карты Шухарта

Примечание — При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю «Национальные стандарты», который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя «Национальные стандарты» за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

3 Термины и определения

В настоящем стандарте применены следующие термины с соответствующими определениями:

3.1    межлабораторные сравнительные испытания1) (interlaboratory comparison): Организация, выполнение и оценка результатов измерений или испытаний одного и того же или нескольких подобных образцов двумя или более лабораториями в соответствии с заранее установленными условиями.

3.2    проверка квалификации (proficiency testing): Оценка характеристики функционирования участника по заранее установленным критериям посредством межлабораторных сравнительных испытаний.

Примечание — В настоящем стандарте термин «проверка квалификации» употребляется в широком понимании и включает следующее (перечень может быть дополнен):

-    количественную программу, когда целью является определение количественной оценки одной или нескольких измеряемых величин каждого образца для проверки квалификации;

-    качественную программу испытаний, когда целью является идентификация или описание одной или нескольких качественных характеристик образца для проверки квалификации;

-    последовательную программу, когда один или несколько образцов для проверки квалификации последовательно распределяют для испытаний или измерений и возвращают провайдеру проверки квалификации через определенные интервалы;

-    параллельную программу, когда образцы для проверки квалификации распределяют для выполнения одновременных испытаний или измерений в течение определенного периода времени;

-    единоразовое задание, когда образцы проверки квалификации возможно предоставить только один раз;

-    непрерывную программу, когда образцы для проверки квалификации предоставляют через регулярные интервалы времени;

-    выборочный контроль, когда выборки отбирают для последующего анализа, а цели программы проверки квалификации включают оценку выполнения выборочного контроля;

-    интерпретацию данных, когда предоставляют наборы данных и обрабатывают другую информацию для обеспечения их интерпретации (или получения иного результата).

3.3    приписанное значение (assigned value): Значение, приписываемое конкретному свойству образца для проверки квалификации.

3.4    стандартное отклонение для оценки квалификации (standard deviation for proficiency assessment): Мера рассеяния, используемая при оценке результатов проверки квалификации.

Примечание 1 — Стандартное отклонение может быть интерпретировано как стандартное отклонение результатов, полученных некоторой гипотетической совокупностью лабораторий, работающих в точном соответствии с установленными требованиями.

Примечание 2 — Стандартное отклонение для оценки квалификации применяют только к результатам, полученным по шкале отношений или шкале разности.

Примечание 3 — Не во всех программах проверки квалификации оценка квалификации основана на анализе рассеяния результатов.

[ГОСТ ISO/I ЕС 17043—2013]

11 Синонимами являются термины «межлабораторные сличительные испытания», «межлабораторные сличения».

ГОСТ P 50779.60—2017

3.5    погрешность измерений (measurement error): Разность между результатом и опорным значением величины.

3.6    максимально допустимая погрешность (maximum permissible error): Максимальное значение погрешности измерений по отношению к известному опорному значению величины, разрешенное процедурами спецификации или нормативными документами для данного метода (методики) измерений, средства измерений или измерительной системы.

3.7    z-индекс (z-score): Стандартизованная мера характеристики функционирования, вычисленная с использованием результата измерений участника, приписанного значения и стандартного отклонения для оценки квалификации.

Примечание — Общая вариация z-индекса (иногда обозначается z' и произносится z-штрих) формируется путем объединения неопределенности приписанного значения со стандартным отклонением для оценки квалификации до вычисления z-индекса.

3.8    Дзета-индекс (Zeta score): Стандартная мера характеристики функционирования, вычисленная с использованием результата измерений участника, приписанного значения и суммарной стандартной неопределенности результата и приписанного значения.

3.9    доля допустимого предельного индекса (proportion of allowed limit score): Стандартизованная мера характеристики функционирования, вычисленная с использованием результатов участника, приписанного значения и критерия для погрешности измерений при проверке квалификации.

Примечание — Для единичных результатов характеристика функционирования выражена в виде отклонения от приписанного значения (D или D %).

3.10    сигнал к действиям (action signal): Признак, указывающий на то, что по результатам проверки квалификации необходимо выполнить какие-либо действия.

Пример — Значение z-индекса более двух подразумевает необходимость проведения анализа возможных причин происходящего, а значение индекса равное трем — выполнения корректирующих действий.

3.11    согласованная величина (consensus value): Величина, полученная на основе набора результатов при межлабораторных сравнительных испытаниях.

Примечание — Термин «согласованная величина» обычно используют для описания оценок параметров положения и разброса, полученных по результатам участников раунда в межпабораторных сравнительных испытаниях, но может быть также использован для значений, полученных по результатам установленного подмножества таких результатов или, например, ряда экспертных лабораторий.

3.12    выброс (outlier): Наблюдение в совокупности, которое признано несовместимым с остальными членами совокупности.

Примечание 1 — Выброс может появиться за счет случайности из рассматриваемой совокупности, принадлежать другой совокупности, быть результатом некорректной записи или грубой ошибки.

Примечание 2 — Во многих программах проверки квалификации термин «выброс» используют для обозначения сигнала к действиям. Но это не всегда так. Сигнал к действиям может появиться и при отсутствии выбросов.

[ГОСТ Р ИСО 5725-1:2002, добавлено примечание]

3.13    участник (participant): Лаборатория, организация или физическое лицо, которые получают образцы для проверки квалификации и представляют результаты на рассмотрение провайдеру проверки квалификации.

3.14    образец для проверки квалификации (proficiency test item): Проба, продукт, искусственный объект (артефакт), стандартный образец, часть оборудования, эталон, набор данных или другая информация, используемые для проверки квалификации.

Примечание — В большинстве случаев термин «образец для проверки квалификации» соответствует определению термина «стандартный образец».

3.15    провайдер проверки квалификации1) (proficiency testing provider): Организация, которая несет ответственность за все задачи по разработке и выполнению программы проверки квалификации.

11 Синонимом является термин «провайдер межлабораторных сличительных испытаний».

3

3.16    программа проверки квалификации (proficiency testing scheme): Процедура проверки квалификации, разработанная и реализованная за один или несколько раундов в определенной области испытаний, измерений, калибровки или контроля.

Примечание — Программа проверки квалификации может охватывать конкретный вид испытаний, калибровки, контроля или ряд испытаний, калибровок или контрольных операций на образцах для проверки квалификации.

3.17    стандартный образец; RM (reference material, RM): Материал (вещество), достаточно однородный и стабильный по отношению к одному или нескольким определенным свойствам для того, чтобы использовать его в соответствии с назначением в измерительном процессе.

Примечание 1 — Стандартный образец — общее понятие.

Примечание 2 — Свойства могут быть охарактеризованы количественными или качественными величинами (например, идентичность веществ или категорий).

Примечание 3 — Использование может включать калибровку (градуировку) измерительной системы, определение пригодности методики измерений, приписывание значений свойств другим материалам и контроль качества.

3.18    сертифицированный стандартный образец1); CRM (certified reference material, CRM): Стандартный образец, одно или несколько определенных свойств которого установлены метрологически обоснованной процедурой, сопровождаемый паспортом, в котором приведено значение этого свойства, связанной с ним неопределенности и утверждение о метрологической прослеживаемости.

Примечание — Термин «значения» охватывает как количественные, так и качественные характеристики, такие как идентичность или последовательность. Неопределенность такой характеристики может быть выражена с помощью вероятности или уровня доверия.

4 Основные принципы

4.1    Основные требования к статистическим методам

4.1.1    Используемые статистические методы должны соответствовать целям и быть статистически обоснованными. Все статистические предположения, на которых основаны методы или планы проверки, должны быть указаны в программе проверки квалификации, и их применение должно быть обосновано.

Примечание — Статистически обоснованный метод имеет прочную теоретическую основу, известные свойства в ожидаемых условиях использования, и опирается на предположения или условия, при которых данные могут быть применены для целей обработки.

4.1.2    Статистические методы планирования эксперимента и анализа данныхдолжны соответствовать целям программы проверки квалификации.

4.1.3    Провайдер проверки квалификации должен предоставить участникам описание используемых методов расчета, объяснение общей интерпретации результатов, а также обоснование всех ограничений, касающихся интерпретации результатов. Эта информация должна быть представлена в каждом отчете для каждого раунда программы проверки квалификации или в отдельных процедурах и должна быть доступной для участников.

4.1.4    Провайдер проверки квалификации должен гарантировать, что все программное обеспечение является адекватным.

4.2 Базовая модель

4.2.1 Если в программах проверки квалификации для заданного образца результатом проверки квалификации является единственный результат, представляющий собой количественную величину, то базовая модель имеет вид:

Х/=ц + е/,    (1)

где х,- — результат проверки квалификации /-го участника;

(х — истинное значение измеряемой величины;

е,- — погрешность измерений /-го участника, подчиняющаяся распределению в соответствии с моделью.

11 Синонимом является термин «аттестованный стандартный образец».

ГОСТ P 50779.60—2017

Примечание 1 — Общие модели для е включают: нормальное распределение е(- ~ Л/(0,о2) со средним, равным 0, и дисперсией, одинаковой или различной для каждой лаборатории; более общие модели включают «загрязненное (с выбросом)» нормальное распределение, представляющее собой сочетание нормального распределения с распределением, представляющим собой совокупность ошибочных результатов.

Примечание 2 — Основой модели сравнительной оценки с использованием z-индексов и apt является предположение о том, что в «идеальной» генеральной совокупности квалифицируемых лабораторий межпабора-торное стандартное отклонение должно быть apt или меньше.

Примечание 3 — Данная модель отличается от базовой модели, установленной в стандартах серии ГОСТ Р ИСО 5725, так как она не использует термин «лабораторное смещение» В,-. Это происходит потому, что термины «лабораторное смещение» и «остаточная погрешность» не могут быть применены в случае единственного наблюдения. Однако если рассматривают результаты участников в нескольких раундах или при проверке используют несколько образцов, может быть полезно включение лабораторного смещения.

4.2.2 Для порядковых или качественных результатов могут быть использованы другие модели или вообще отсутствовать необходимые статистические модели.

4.3 Общие подходы к сравнительной оценке результатов

4.3.1    Существуют три различных общих подхода к оценке показателей в программе проверки квалификации. Применение того или иного подхода зависит от целей программы проверки квалификации. Ниже перечислены эти подходы, как то оценка показателя на основе сопоставления:

a)    с независимо выведенным критерием;

b)    показателями других участников;

c)    заявленной неопределенностью результатов измерений.

4.3.2    Для определения приписанного значения и определения критерия сравнительной оценки общие подходы могут быть использованы по-разному. Например, если приписанное значение является робастным средним участника и сравнительную оценку выполняют на основе opt или и SE, где SE— заранее определенная допустимая погрешность измерений и crpf = SE/3. Аналогично, в некоторых случаях приписанное значение может быть опорным значением, a opt— робастным стандартным отклонением результатов участника. В подходе с) 4.3.1, использующем неопределенность измерений, приписанное значение обычно соответствует опорному значению.

5 Руководство по планированию эксперимента для программ проверки квалификации

5.1    Введение

Проверка квалификации связана с оценкой показателей участников и по существу не связана со смещением или прецизионностью (хотя и они могут быть оценены в некоторых конкретных случаях). Показатели участников оценивают с помощью статистической сравнительной оценки их результатов на основе измерений или интерпретаций, которые они выполняют на образцах при проверке квалификации. Показатель часто выражают в виде индексов, которые дают возможность единой интерпретации результатов измерений, позволяя тем самым сопоставлять различные результаты измерений с единой базой. Индекс обычно определяют на основе сопоставления разности полученного результата участника, зафиксированного в отчете, и приписанного значения со стандартным отклонением или с оценкой неопределенности результатов измерений. Анализ индексов за несколько раундов программы проверки квалификации может дать информацию, свидетельствующую о наличии систематических ошибок (смещений) или низкой долговременной прецизионности в лабораториях.

В разделах 5—10 приведены рекомендации по разработке программ проверки квалификации и статистической обработке результатов для количественных величин, включая вычисление и интерпретацию различных индексов. В разделе 11 приведены рекомендации для качественных программ проверки квалификации, включая программы с порядковыми данными для количественных величин.

5.2    Основы статистического планирования эксперимента

5.2.1 В соответствии с 4.4.4.1 ГОСТISO/IEC 17043—2013 «следует разработать методы статистического планирования эксперимента, отвечающие целям программы проверки квалификации, учитывающие тип данных (качественные или количественные, включая порядковые и категоризированные