Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение С
(справочное)
Поиск совпадения данных
С.1 Общие положения
Целью настоящего приложения является снижение количества ошибок поиска совпадения данных и их последствий, в первую очередь - за счет улучшения идентифицирующей информации субъекта медицинской помощи, используемой при поиске. Однако в настоящем приложении представлен также обзор методологий поиска совпадения данных, поскольку процесс установления факта совпадения является другим важным определяющим фактором успешной идентификации. Отметим, что если данные будут использоваться для поиска совпадения, то в соответствии с принципами защиты персональных данных субъект медицинской помощи должен быть извещен об этом намерении.
Установив совпадение идентифицирующих данных, можно связывать или не связывать медицинские карты между собой для получения более объемлющего источника клинической информации. Целью настоящего приложения является улучшение возможности поиска совпадения медицинских карт с помощью однотипной и точной идентификации субъектов медицинской помощи. Улучшение процесса связывания медицинских карт является политическим вопросом и находится вне области применения настоящего приложения. В учреждениях здравоохранения должны учитываться законы, регламенты и политики, регулирующие связывание медицинских карт
Отметим, что если данные будут использоваться для поиска совпадения, то в соответствии с принципами защиты персональных данных и требованиями законодательства субъект медицинской помощи должен быть извещен об этом намерении. В учреждениях здравоохранения должны учитываться законы, регламенты и политики, регулирующие связывание медицинских карт.
С.2 Цели поиска совпадения данных
Поиск совпадения данных может проводиться с различными целями, включая клинические и административные, а также проведение научных исследований и планирование. В создании и использовании этих двух групп назначений поиска совпадения данных существуют значительные различия, суммируемые в таблице С.1
Таблица С.1 - Цели поиска совпадения данных
|
Административные/клинические |
Планирование/исследование |
Пример |
Предоставление медицинских карт субъекта медицинской помощи его врачу |
Отображение адресов субъекта медицинской помощи в целях оптимизации размещения новых объектов здравоохранения |
Точность |
Связывание должно быть настолько точным и настолько полным, насколько это возможно, поскольку данные могут быть использованы для управления лечением отдельной личности. Ошибки идентификации представляют значительную проблему для безопасности пациента |
Поскольку данные являются предметом статистического анализа, может допускаться небольшая (заданная) доля ошибок связывания |
Обычно (но не обязательно) относительно консервативное сопоставление (минимизация количества ложноположительных совпадений при относительно большом числе ложноотрицательных совпадений) |
Обычно должным образом уравновешенная (минимизация общего числа ошибок с равным числом ложноположительных и ложноотрицательных совпадений) |
|
Обработка |
Поиск медицинских карт осуществляется по идентификаторам клиентов |
Записи "обезличены" (идентификаторы клиентов и прочая уникальная информация уничтожены или скрыты). В некоторых сообществах обезличивание данных трудно практически или невозможно |
Доступ |
Осуществляется в режиме "реального времени" |
Предоставляется в статической форме к "моментальному снимку" на определенную дату |
Своевременность |
Требуется "живое" соединение со всеми базами данных |
Используются копии данных. Непосредственное подключение к базам данных не является необходимым |
Конфиденциальность персональных данных |
Требуется чрезвычайное внимание к защите персональных данных, поскольку медицинские карты связаны с идентификаторами лиц |
Хотя данные и обезличены, но они все еще могут оставаться чувствительными по отношению к конфиденциальности некоторых субъектов медицинской помощи или групп субъектов |
Согласие |
От субъекта медицинской помощи может потребоваться личное согласие |
Личное согласие обычно не является необходимым |
Хотя улучшение возможностей поиска совпадения данных принесет пользу и при выполнении исследований, и при планировании, в настоящем приложении основное внимание уделяется сфере непосредственного оказания медицинской помощи, т.е. клиническому и административному использованию.
Клинические и административные данные, возникающие в результате предшествующего взаимодействия (взаимодействий) субъекта медицинской помощи с поставщиком медицинской помощи или организацией, связываются с конкретным субъектом с помощью поиска совпадения данных. Этот поиск может выполняться несколькими способами, в том числе:
a) сравнение записей людьми;
b) компьютеризированное сканирование ключевых переменных;
c) поиск в пределах отдельных хранилищ, например, в шкафах с бумажными медицинскими картами или в базах данных информационных систем;
d) между хранилищами, например, между отдельными базами данных, между учреждениями здравоохранения или другими организациями.
С.3 Вопросы качества поиска совпадения данных
Реалии сферы здравоохранения таковы, что вновь собранные данные разного качества нередко должны быть использованы для поиска совпадений с уже существующими данными разного качества, что нередко приводит к значительным неточностям. Разное качество данных возникает в результате многих причин, включая:
- отсутствие возможности получения необходимых данных, например, при трудностях общения или при травме;
- ошибки записи и ввода данных;
- неспособность сбора и/или отслеживания изменений;
- неспособность выполнения интеллектуального поиска существующих данных.
В жизни, особенно в очень крупных организациях, появление некоторых ошибок поиска совпадения практически неизбежно. Этот риск возрастает при попытках поиска совпадения данных, собранных разными службами или организациями, осуществляемого в целях обеспечения преемственности лечения. Эти ошибки делятся на следующие две главные категории.
1) Ложноотрицательное совпадение (ошибка первого рода), когда не удается найти идентифицирующие данные, которые в действительности относятся к одному и тому же субъекту медицинской помощи. Вследствие таких ошибок возрастает риск установления неправильного диагноза или назначения неправильного лечения в связи с отсутствием полных данных, а также риск дублирования сбора данных, диагностических исследований и (или) лекарственных назначений.
2) Ложноположительное совпадение (ошибка второго рода), когда "объединены" данные, которые в действительности не относятся или не должны относиться к одному и тому же субъекту медицинской помощи. Вследствие таких ошибок возрастает риск установления неправильного диагноза или назначения неправильного лечения в связи с неверной информацией, а также риск нарушения конфиденциальности персональных данных.
Интеллектуальные механизмы поиска обладают значительным потенциалом сокращения ошибок совпадения.
Существуют и другие вопросы качества, которые должны рассматриваться при подготовке к разработке алгоритмов поиска совпадения данных. Они могут быть различными в разных сообществах. Далее приведены некоторые примеры:
- вариабельность значений данных. Элементы данных с небольшим набором возможных значений не обеспечивают большой вариабельности. Например, пол имеет всего четыре возможных значения и, следовательно, его использование при поиске совпадения не позволяет получить значительное сокращение возможных вариантов совпадения. Напротив, фамилии отличаются значительной вариабельностью и, следовательно, использование фамилии при поиске совпадения существенно сокращает число возможных вариантов;
- точность данных с учетом зависимости от времени. Элемент данных может быть очень точным в момент его сбора, но при этом может быстро меняться. Например, в высокомобильной популяции использование адреса при поиске совпадения данных не обладает таким весом, как в стабильной популяции;
- точность данных: качество первичного и повторного сбора. Должно учитываться также качество сбора данных. Такие элементы данных как фамилия часто неправильно записывают, особенно если сбор данных ведется по телефону или когда популяция является многонациональной, и не весь персонал, регистрирующий субъектов медицинской помощи, может правильно понимать национальные варианты написания фамилий. Проблемы поиска совпадения фамилий, имен и отчества могут быть даже более сложными, если имена, имеющие одинаковое звучание, имеют разнообразные написания (Catherine, Katherine, Kathryn) или используются уменьшительные имена (Bill), а "правильное" имя субъекта медицинской помощи (William) не введено в регистрационную систему (что часто случается в унаследованных системах).
При разработке алгоритма поиска совпадения необходимо идентифицировать элементы данных, которые с большой вероятностью точны (например, пол), а также элементы данных с большим числом возможных значений, (например, фамилии, имена улиц).
С.4 Детерминированный и вероятностный поиск совпадения данных
Поиск совпадения идентифицирующих данных выполняют разнообразными методами, которые делятся на две категории: детерминированные и вероятностные. Эти термины на самом деле обозначают два крайних случая в широком спектре методов, а не два полностью различающихся метода.
При детерминированных методах совпадение одного набора идентифицирующей информации с другим определяется с помощью сопоставления значений конкретных атрибутов этих наборов. Например, записи могут сопоставляться по фамилии, инициалу имени, дате рождения и полу. Совпадение имеет место, когда эти детали пар записей совпадают, иначе они будут считаться различающимися. При использовании детерминированных методов идентификаторы "John D'Arcy Langton" и "John D'Arcy Langdon" не будут считаться совпадающими. Крайней формой детерминированного связывания записей является совпадение, определяемое с помощью статистического ключа связи (SLK - statistical linkage key), в котором, например, зашифровано сочетание фамилии, даты рождения и пола.
При вероятностных методах упомянутые строки будут считаться с высокой вероятностью совпадающими. В них для определения того, относится ли пара записей к одному и тому же субъекту, используется вероятностный подход. Чтобы оценить степень сходства пары записей, вероятностям совпадения присваиваются веса. При анализе совпадения пары записей каждый результат сравнения полей, участвующих в сравнении, имеет свой вес. Для оценки вероятности совпадения сопоставляемой пары записей веса суммируются, и в зависимости от полученного результата пара считается достоверно совпадающей, несовпадающей или возможно совпадающей. В зависимости от типа сравнения веса могут быть не зависящими от значения или зависящими от него.
Общие или не зависящие от значения веса основываются на согласованности/рассогласованности заданного поля, например: при применении общих весов согласованности/рассогласованности даты рождения может быть присвоен статический положительный/отрицательный вес.
Веса, зависящие от значения, вычисляются в зависимости от конкретных сравниваемых значений. Например, при сравнении инициалов можно задать один вес совпадению инициалов со значением "А", другой - совпадению инициалов со значением "В". В общем случае редким значениям назначаются большие веса, например, в большинстве частей Австралии совпадение с фамилией "Jones" будет иметь меньший вес, чем совпадение с фамилией "Tshabalala".
Веса в высокой степени зависят от распределения значений поля. Например, если в наборе данных пропорции записей о мужчинах и женщинах примерно равные, то совпадение пола будет иметь только небольшой положительный вес (в конце концов, существует вероятность пятьдесят-на-пятьдесят, что в любых двух случайно выбранных записях будет указан один и тот же пол). Несовпадению пола обычно присваивается высокий отрицательный вес (в большинстве наборов данных различия пола в записях, относящихся к одному и тому же субъекту медицинской помощи, встречаются редко).
Отметим, что эти процессы свойственны не только для компьютерных технологий. Лицо, предпринимающее ручную проверку записей, аналогичным образом формирует мнение о вероятности того, что различные записи относятся к одному и тому же субъекту медицинской помощи.
С.5 Текущий и ретроспективный поиск совпадения
Заслуживают обсуждения два других варианта поиска совпадения: текущий (активный) и ретроспективный (пассивный).
Текущий (активный) поиск совпадения вычисляется непосредственно в процессе регистрации или оказания медицинской помощи (в режиме реального времени или с помощью немедленного ручного просмотра данных, находящихся в распоряжении медрегистратора). В этом случае для выявления совпадения субъекту могут быть "не отходя от места" заданы дополнительные вопросы, и качество данных может быть подтверждено или улучшено. Ретроспективный (пассивный) поиск совпадения проводится уже после того как процесс регистрации или оказания медицинской помощи произошел, и для уточнения возможности совпадения может понадобиться привлечение третьей стороны.
С.6 Выбор методологии совпадения
Методология поиска совпадения, используемая на практике, должна учитывать назначение результатов поиска, природу и качество сопоставляемых данных и относительные риски, связанные с ошибками первого и второго рода. Когда число записей, с которыми осуществляется сравнение, относительно мало, или известно, что качество идентифицирующих данных однородно высокое, и(или) последствия таковы, что лучше пропустить возможное совпадение данных, чем ошибочно определить их совпадение, детерминированные методы могут быть более приемлемыми. Вероятностные методы, скорее всего, будут более полезными, если число записей, с которыми осуществляется сравнение, велико, а качество идентифицирующих данных переменно, неизвестно или проблематично.
При автоматизированном вычислении совпадения рекомендуется, чтобы:
- если это осуществимо, применялся текущий поиск совпадения, включая проверку достоверности данных с участием субъекта, "не отходя от места";
- используемые алгоритмы поиска совпадения были статистически достоверны;
- алгоритмы поиска совпадения допускали пользовательскую настройку сопоставляемых параметров и весов, позволяющую учесть местные условия, выбранные решающие правила и вариации написания;
- применение вероятностных методов сопровождалось вмешательством человека при выявлении неопределенностей, возникающих в процессе вычисления совпадений;
- имелись политики и процедуры четкого определения решающих правил, отражающих свойства обслуживаемой популяции.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.