Экспертная оценка персонала. Точно? Объективно? (Г.А. Реймаров, "Управление персоналом", N 5, март 2008 г.)

Экспертная оценка персонала. Точно? Объективно? (Г.А. Реймаров, "Управление персоналом", N 5, март 2008 г.)
1. Источники нестабильности результатов экспертной оценки

Экспертная оценка персонала. Точно? Объективно?

При использовании экспертных методов оценки в управлении персоналом проблемными являются два вопроса:

1) Какова точность экспертной оценки работников?

2) Насколько объективны результаты экспертной оценки?

Множество публикаций в отечественной прессе грешат уверенным ответом: погрешность оценки не превышает 0,5 единиц в 5-балльной шкале. Проповедники "метода 360 (720, 7200) градусов" настаивают на его высочайшей (максимальной) объективности.

Прежде чем ответить на первый вопрос, напомним, что в соответствии с теорией измерений погрешность - это разность между измеренным и истинным значением (физического) параметра. В нашем случае говорить об истинном значении результата оценивания (рейтинга) бессмысленно. Следует искать свое решение. Теоретиками психологии, оказавшимися в аналогичной ситуации, не случайно был изобретен целый букет определений валидности тестов.

Ответ на второй вопрос, к сожалению, так же неутешителен. Объективный - значит лишенный систематической ошибки. Измерить среднее смещение результатов измерений относительно истинного значения, которого не существует, невозможно. Среднее значение субъективных оценок не может быть объективным в строгом смысле этого слова.

При поиске приемлемого и адекватного решения проблемы анализировались данные оценки работников промышленной сферы, полученные при использовании компьютерной системы "Персона". Мы приблизились к пределу возможностей экспертного оценивания благодаря пооперационному моделированию деятельности и применению достаточно мощных и гибких методов анализа данных [1, 2] на представительных выборках. Поэтому используем эту систему как инструмент исследований. Хотя, строго говоря, некоторые результаты не могут автоматически переноситься на иные реализации экспертной оценки.

Логика дальнейшего изложения такова:

1) изложены результаты анализа основных источников нестабильности экспертных оценок, показаны способы минимизации их влияния;

2) предлагается критерий, позволяющий математически строго подтвердить (или не подтвердить) справедливость выполненных оценок.

Основной недостаток множества систем и технологий оценки - отсутствие процедур, сводящих к минимуму влияние дестабилизирующих факторов на неопределенность результатов. Рассмотрим основные источники нестабильности результатов экспертного оценивания, подробно изложенные в докладе [3].

1. Источники нестабильности результатов экспертной оценки

1.1. Влияние качества моделирования деятельности

Расчеты, проводимые по результатам оценивания с помощью специальной процедуры (бутстрепа), показывают, что при развитой информационной базе влияние описаний рабочих мест пренебрежимо мало, и при размерности матриц экспертной оценки порядка 60 х 6 находится в пределах +2% при реально наблюдаемом диапазоне изменения оценок рейтинга от 27 до 92 ед.

1.2. Влияние состава экспертной группы

Неоднородность мнений экспертов - главная компонента неустойчивости оценок. Пожалуй, это наилучшим образом подтверждает необходимость введения специальных процедур, позволяющей выявить и минимизировать влияние экстремистски настроенных, небрежных, слабо информированных экспертов, а также выявить и учесть ситуации расхождения мнений коалиций экспертов.

Приведенные на рис. 1 графики получены следующим образом. Из множества результатов оценивания была взята выборка, соответствующая достаточно однородной по оценкам группе из девяти экспертов, затем выборка, в которой при том же количестве экспертов наиболее сильно выражена поляризация оценок, разделение экспертов на два класса. В каждом наборе данных перебирались все возможные сочетания с восемью, семью,...., четырьмя экспертами. При этом в состав каждой экспертной группы включались оцениваемый работник и его руководитель. Как видно из рисунка, для однородной экспертной группы уменьшение числа экспертов с девяти до четырех привело к разбросу рассчитанных значений рейтинга на +2 ед. В то же время для экспертной группы, в которой зафиксированы две коалиции экспертов с разным уровнем строгости оценок, та же процедура приводит к разности между максимумом и минимумом возможных значений Rэ до 30 ед. (1,5 балла в 5-балльной шкале).

"Рис. 1. Изменения рассчитываемого значения рейтинга при сокращении числа экспертов: 1) для однородной группы экспертов 2) для неоднородной группы экспертов"

Далее мы покажем на примерах, как выявляются ситуации неслучайного расхождения мнений экспертов. При этом возрастает роль администратора системы, который должен дать верную интерпретацию механизма "раскола", предложить соответствующее решение.

1.3. Смещения самооценки

По результатам оценивания более 400 руководителей и специалистов крупных предприятий получена средняя зависимость ошибки самооценки от величины рейтинга (рис. 2).

"Рис. 2. Усредненная зависимость смещения самооценки от величины рейтинга"

При невысоком значении рейтинга (Rэ < 68) оцениваемый сотрудник стремится в какой-то мере оправдать себя, завышает оценки. При достаточно хорошем рейтинге (68 < Rэ < 88) оцениваемый относится к себе требовательнее, чем его коллеги-эксперты, в среднем немного занижает оценки. При наиболее высоких значениях рейтинга (Rэ > 88) проявляются эффекты соперничества между экспертами и оцениваемым работником: рейтинг самооценки в среднем выше рейтинга, вычисленного по оценкам группы экспертов. Рассеяние отдельных результатов относительно линии регрессии практически равномерно, его среднеквадратическое значение сигмаR ~ (приблизительно) 6,0 ед.

Рассеяние зависит от личностных особенностей и статуса оцениваемого. В частности, молодые амбициозные руководители в большинстве имеют существенно завышенную самооценку. Среднеквадратическое рассеяние самооценки у женщин вдвое выше, чем у мужчин. Влияние смещений самооценок минимизируется по алгоритму, описанному далее в примерах.

1.4. Влияние специфики деятельности

В табл. 1 приведены данные об изменениях параметров распределений рейтинга, связанных с профессиональной и должностной спецификой.

Экстремальные значения оценок

"Обозначения"

у научных сотрудников объясняются большим диапазоном возможной успешности, высокой верхней "планкой" достижений для этой категории оцениваемых лиц: ученый международного класса, ведущий ученый в заданной области и т.д.

Максимум среднего рейтинга

"Равенство"

(что соответствует оценке 4,2 в пятибалльной шкале) высшего руководства концерна "Росэнергоатом" отражает реальный уровень профессионализма и личностных качеств руководителей, прошедших основательный естественный отбор.

Специфика деятельности оказывает сильное влияние на согласованность оценок экспертов. Высокий уровень информированности ученых (ПИНРО) о достоинствах и недостатках в работе коллег не требует пояснений. Далее в порядке увеличения рассогласованности следуют: оперативный персонал, руководители и специалисты технических служб, затем прочих служб промышленных предприятий.

"Таблица 1. Зависимость распределения рейтинга от специфики должности"

Принятые обозначения:

N - количество опытов (оцененных лиц) в выборке;

"Обозначение 1"

- оценка среднего значения рейтинга;

"Обозначение 2"

- оценка среднеквадратического рассеяния рейтинга.

По мере удаления от производства (исполнительный аппарат холдингов, государственные учреждения) оценки оказываются все более рассогласованными из-за слабого взаимодействия работников в процессе деятельности, повышенного влияния личных отношений, связей, амбиций, карьерных соображений и пр.

1.5. Корректирующие действия необходимы

Итак, мы выяснили, как влияют на результаты экспертных оценок основные источники нестабильности. В системе "Персона" они не просто выявляются - минимизируется их влияние. Кроме главного источника - предвзятости групп экспертов (по причинам, о которых будет сказано ниже, мы используем термин "предвзятость" вместо термина "субъективность").

Когда мнения экспертов расходятся, ни минимизация влияния какой-либо из коалиций, ни простое усреднение мнений всех экспертов неприемлемо. Стратегии подготовки решений администратором системы зависят от ситуации. Администратор системы использует специальную методику, где на большом числе примеров показано, какие действия следует выполнять при расхождениях в оценках экспертов. Приводим два примера из этой методики.

Пример 1

В качестве документа, свидетельствующего о правильности выполненных расчетов, в системе "Персона" выдается протокол экспертной оценки. На рис. 3 представлен фрагмент одного из протоколов.

В начале протокола (пункт 1) приводятся экспертные оценки: столбцы соответствуют отдельным экспертам, строки - оцениваемым качествам (признакам).

Далее (пункт 3) определяются параметры, характеризующие качество работы экспертов. Все эксперты представляются шифрами (фамилии известны только администратору системы и не разглашаются). Приводится таблица индивидуальных характеристик работы каждого эксперта:

систематическое отклонение оценок от среднего по экспертной группе;

сумма систематической и случайной составляющей отклонений оценок от среднего значения по экспертной группе;

коэффициент информированности эксперта r, который может принимать значения от 0 до 1,0; критическое значение r = 0,3.

Все эксперты, кроме эксперта N 6, хорошо информированы об относительных достоинствах и недостатках работника (у всех из них r > 0,3).

Суммарная ошибка используется для автоматического назначения веса оценкам каждого эксперта: вес обратно пропорционален квадрату ошибки.

Структура мнений экспертов отображается в координатах трех главных компонент корреляционной матрицы [1]. При этом угол между каждой парой векторов, отражающих мнения экспертов, характеризует степень близости (коррелированности) их оценок.

"Рис. 3. Фрагмент протокола оценки заместителя начальника департамента холдинга"

Систематическая ошибка (-2,67 в исходной шкале или 53,4 ед. - в 100-балльной) эксперта с шифром 24618 - абсолютный рекорд за 15-летнюю историю использования системы "Персона". Эксперт с шифром 24618 руководствовался главной целью: занизить оценку. Это ему не удалось, алгоритм расчета оценок свел к минимуму его влияние. В рассматриваемом случае оценкам эксперта N 2 с минимальной суммарной ошибкой 0,58 ед. автоматически, в соответствии с алгоритмом, присвоен вес, превышающий вес оценок эксперта N 7, который имеет суммарную ошибку 3,058 ед., в 27,8 раза.

Эффективность алгоритма оценим по строке исходных данных (пункт 1) признака 2.12. Она содержит цифры 2 2 2 2 2 6. Среднее арифметическое мнений шести экспертов по этой строке равно (16/6) = 2,67. Но, как видно из результатов расчетов (пункт 4), среднее взвешенное мнение для признака 2.12 равно 2.05. Влияние экстремально настроенного эксперта ослаблено более чем на порядок (0.05 вместо 0.67).

Итоговый рейтинг также не очень пострадал, его значение R = 79 (4,5 балла в пятибалльной шкале). После закономерного исключения данных предвзятого эксперта итоговое значение оказалось равным R = 81,8.

Пример 2

Структура протокола оценки стандартная, поэтому приводим только отображение структуры мнений экспертов (рис. 4).

"Рис. 4. Структура мнений экспертов"

Администратор системы задействовал в оценке не 6, как принято при оценке рядового сотрудника, а 9 экспертов. Учитывалась неординарная ситуация в оценке конкретного работника.

В рассчитанной по оценкам всех экспертов характеристике оказались согласованно выделенными сравнительные достоинства:

Имеет значительный опыт работы и хорошие практические навыки.

Умеет подходить к анализу сложных явлений с учетом разных сторон, многофакторно.

Не менее отчетливо выделены недостатки:

Навыки использования инструментальных средств ПК слабы.

Освоил работу на компьютере в пределах одного программного пакета и стандартных операций управления.

Имеет начальные навыки применения методов и программных средств расчета и оптимизации режима электросети энергосистемы.

В характеристике, рассчитанной по данным экспертов "минус-коалиции", отмечается:

С трудом привыкает работать на ПК, нуждается в консультациях.

Не проявляет интереса к рационализации производственного процесса.

Освоение новой техники дается с трудом.

В "плюс-коалицию" кроме оцениваемого работника вошли лица, которые тесно взаимодействуют с ним в процессе деятельности, помнят его прошлые заслуги и позитивно оценивают текущую работу. В "минус-коалиции" - руководители, лица, наиболее остро представляющие проблемы совершенствования процесса управления режимами энергосистемы и негативно оценивающие работников, которые не отвечают требованиям развития.

Налицо два взгляда на деятельность опытного специалиста, который умеет работать по старинке, но не научился использовать современные средства управления. С одной стороны, солидарное захваливание с завышением рейтинга (R = 80,2), с другой стороны - жесткая, но достаточно справедливая оценка (R = 48,0).

В этой ситуации решающее слово должно принадлежать аттестационной комиссии, на суд которой представляется не только средняя характеристика и соответствующий протокол (R = 60,7), но и результаты, полученные на основании мнений "минус-коалиции". Например, можно рекомендовать перевести работника из диспетчерского управления в производственно-технических отдел, где его опыт будет востребован в полной мере.

Отметим, что разделение на коалиции не всегда обязательно с систематическими смещениями ("плюс" и "минус"). Разные взгляды не всегда полярны. Отметим, что иногда деление на коалиции свидетельствует о ненормальном психологическом климате в коллективе.

В аномальных ситуациях программа выдает диагностические сообщения типа: "Эксперт с шифром ХХХХХ чрезмерно занижает оценки, оценивает как недостатки всеми отмечаемые относительные достоинства. Рекомендуется исключить мнение этого эксперта".

2. Критерий качества оценки

Сопоставление результатов оценки различных категорий работников (табл. 1) свидетельствует о том, что в разных профессиональных и должностных группах складываются свои диапазоны значений рейтингов. Сопоставление оценок, полученных работниками разных подразделений, даже если это лица примерно равного должностного уровня, в общем случае нежелательно, может приводить к неверным выводам. Основным показателем качества оценки однородной группы сотрудников конкретного подразделения (цеха, лаборатории, службы) является то, насколько согласован ранжированный ряд сотрудников, представленный по результатам оценки системой "Персона", и ряд, который каждый работник подразделения имеет, сравнивая себя и других сотрудников по степени успешности деятельности. При этом систематические смещения (например, некоторое завышение оценок наименее успешных работников на начальном этапе внедрения системы) не оказывают влияния на ранги. Поскольку управление персоналом каждого подразделения осуществляется независимо, численное значение рейтинга не играет определяющей роли. Следует помнить, что в сознании индивида интерсубъективный мир его группы выступает как объективный.

Представим, что мы провели прямое ранжирование оцененных работников ведущими специалистами подразделения. Обозначим:

хj - средние ранги, полученные в результате прямого ранжирования оцениваемых;

yi - ранги, полученные с помощью экспертной оценки для тех же оцениваемых (объектов).

Запишем результаты в таблицу:

Ранги	Объекты (оцениваемые)
Ранги	1	2	...	j	...	m
Х	x1	x2	...	xj	...	xm
Y	y1	y1	...	yj	...	ym

Рассчитаем степень взаимозависимости между рядами Х и Y, записанными в таблице, с помощью коэффициента корреляции Спирмена [4]:

               6СуммаDj

    rs = 1 - --------------

               n(n  - 1)

где Dj - разность j-й пары рангов X, Y.

Коэффициент ранговой корреляции Спирмена имеет важное преимущество перед простым коэффициентом корреляции: он нечувствителен к нелинейностям, сдвигу, растяжению и сжатию распределений случайных величин. Будем считать эту характеристику основной при решении задачи о признании/непризнании выполненных оценок справедливыми.

Остается только опытным путем определить критическое значение, ниже которого возникают ситуации, когда расхождения между результатами "машинного" ранжирования и субъективными суждениями будут признаваться заданным большинством работников подразделения как грубые, "неточные".

Заключение

В статье изложены результаты анализа данных экспертной оценки руководителей и специалистов пяти десятков крупных предприятий России за период с 1995-го по 2007 г. Описываются источники нестабильности результатов экспертного оценивания и технология минимизации их влияния. Влияние индивидуальных различий в оценках экспертов ослабляется чисто статистическими методами, посредством снижения веса оценок предвзятых, слабо информированных и небрежных экспертов. При наличии коалиций экспертов с полярными оценками решения принимаются на основании профессионально-должностного анализа состава коалиций и мотивов расхождений в оценках.

Несмотря на то, что при экспертной оценке труда понятие "объективность" теряет смысл, для однородных профессионально-должностных групп достижимы вполне качественные интерсубъективные оценки, согласующиеся с результатами независимого ранжирования работников на соответствие требованиям должности/рабочего места. Высокая согласованность по критерию Спирмена прямых ранжировок успешности деятельности работников и ранжировок, полученных по нашей технологии (rs > 0,9), подтверждена многократно, начиная с внедрения системы на Калининской АЭС в 1995 г.

В настоящее время актуальна проблема агрегирования всех показателей, влияющих на эффективность и надежность деятельности работников. Цель - получение обобщенного (интегрального) рейтинга соответствия каждого работника требованиям его должности/рабочего места. При этом возможны два варианта настройки весов отдельных показателей:

1. Для руководителей высшего звена и лиц, от которых зависят финансово-экономическое благополучие предприятия, - выбор и агрегирование ключевых показателей эффективности в соответствии с популярными ныне методиками Key Performance Indicator (KPI).

2. Для персонала потенциально опасных и сложных производств - агрегирование частных рейтингов с позиций обеспечения профессиональной надежности. При этом посредством специального подбора весов частных рейтингов можно обеспечить корреляцию интегрального рейтинга работника с вероятностью его безотказной работы [3].

Комплексный подход открывает перспективу использования результатов оценивания для социально ориентированного, системного управления персоналом: мотивации эффективного и надежного труда, здорового образа жизни, выработки индивидуальных программ самосовершенствования.

Список литературы

1. Реймаров Г.А., Грицук Р.К., Ионов В.В. Анализ экспертных данных в системе оценки кадров "Персона": Доклады IV Международной конференции "Идентификация систем и задачи управления" SICPRO`05 (25-28 января 2005 г., Москва). С. 1602-1637.

2. Реймаров Г.А., Грицук Р.К. Опыт оценки персонала с использованием системно-аналитического подхода // Управление персоналом. 2005. N 4. С. 30-36.

3. Реймаров Г.А. Ошибки экспертной оценки деятельности: Сборник докладов V Международной конференции "Идентификация систем и задачи управления" SIC-PRO'06 (30 января - 2 февраля 2006 г., Москва). С. 997-1008.

4. Холлендер М., Вулф Д. Непараметрические методы статистики. М.: "Финансы и статистика", 1983.

Г.А. Реймаров,

Франко-российский институт

делового администрирования

"Управление персоналом", N 5, март 2008 г.

Актуальная версия заинтересовавшего Вас документа доступна только в коммерческой версии системы ГАРАНТ. Вы можете подать заявку на получение полного доступа к системе бесплатно на 3 дня.

Получить бесплатный доступ

Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.