Вы можете открыть актуальную версию документа прямо сейчас.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение
УТВЕРЖДЕНЫ
приказом Росстата
от 7.12.2018 N 732
Методологические положения
по организации процессов производства официальной статистической информации
I. Общие положения
Настоящие Методологические положения по организации процессов производства официальной статистической информации (далее - Методологические положения) предназначены для специалистов структурных подразделений центрального аппарата Росстата и его территориальных органов.
Данный документ представляет собой описание всех этапов производства официальной статистической информации от сбора статистических данных до их распространения и/или предоставления пользователям, а также содержит изложение современного понимания понятия качества статистической информации и его критериев, принятых в международной статистической практике.
Методологические положения предназначены для использования при организации и подготовке федеральных статистических наблюдений, для подготовки экономических описаний, программ обследований, организационных планов проведения наблюдений и других необходимых документов в целях повышения качества формируемой официальной статистической информации.
Методологические положения разработаны с учетом принципов официального статистического учета, установленных Федеральным законом от 29 ноября 2007 г. N 282-ФЗ "Об официальном статистическом учете и системе государственной статистики в Российской Федерации" (далее - Закон о статистике), основополагающих принципов официальной статистики, одобренных на 68 сессии Генеральной Ассамблеи ООН 23 января 2014 г., Типовой модели производства статистической информации (версия 5.0), подготовленной группой высокого уровня ЕЭК ООН, а также международных стандартов обеспечения качества официальной статистической информации.
На страницах 36-39 Методологических положений приведен глоссарий основных терминов, который включает описание таких понятий как: выбросы, генеральная совокупность, геоинформационная система, калибрация, когнитивное интервью, кодирование поведения, коэффициент вариации оценки или относительная стандартная ошибка, метаданные, микроданные, отраслевые субрегистры, охват, план выборки, средний квадрат ошибки (СКО), стандартная ошибка выборки (оценка по выборке), статистическая основа, фокус-группа, эффект интервьюера.
II. Принципы официального статистического учета и системы государственной статистики
Официальный статистический учет - деятельность, направленная на проведение в соответствии с официальной статистической методологией федеральных статистических наблюдений и обработку данных, полученных в результате этих наблюдений, и осуществляемая в целях формирования официальной статистической информации.
Единые правовые основы осуществления официального статистического учета установлены Законом о статистике и принятым в целях его реализации постановлением Правительства Российской Федерации от 18 августа 2008 г. N 620 "Об условиях предоставления в обязательном порядке первичных статистических данных и административных данных субъектам официального статистического учета". Проведение Всероссийских переписей населения регламентируется Федеральным законом от 25 января 2002 г. N 8-ФЗ "О Всероссийской переписи населения"; Всероссийских сельскохозяйственных переписей - Федеральным законом от 21 июля 2005 г. N 108-ФЗ "О Всероссийской сельскохозяйственной переписи". Проведение статистических наблюдений за деятельностью субъектов малого и среднего предпринимательства регулируется Федеральным законом от 24 июля 2007 г. N 209-ФЗ "О развитии малого и среднего предпринимательства в Российской Федерации" и Постановлением Правительства Российской Федерации от 16 февраля 2008 г. N 79 "О порядке проведения выборочных статистических наблюдений за деятельностью субъектов малого и среднего предпринимательства".
Официальный статистический учет и система государственной статистики базируется на следующих принципах:
полнота, достоверность, научная обоснованность, своевременность предоставления и общедоступность официальной статистической информации (за исключением информации, доступ к которой ограничен федеральными законами);
применение научно обоснованной официальной статистической методологии, соответствующей международным стандартам и принципам официальной статистики, а также законодательству Российской Федерации, открытость и доступность такой методологии;
рациональный выбор источников в целях формирования официальной статистической информации для обеспечения ее полноты, достоверности и своевременности предоставления, а также в целях снижения нагрузки на респондентов;
обеспечение возможности формирования официальной статистической информации по Российской Федерации в целом, по субъектам Российской Федерации, по муниципальным образованиям;
обеспечение конфиденциальности первичных статистических данных при осуществлении официального статистического учета и их использование в целях формирования официальной статистической информации;
согласованность действий субъектов официального статистического учета;
применение единых стандартов при использовании информационных технологий и общероссийских классификаторов технико-экономической и социальной информации для создания и эксплуатации системы государственной статистики в целях ее совместимости с другими государственными информационными системами;
обеспечение сохранности и безопасности официальной статистической информации, первичных статистических данных и административных данных.
В соответствии со статьей 6 Федерального закона от 27 июля 2006 г. N 152-ФЗ "О персональных данных" обработка персональных данных осуществляется для статистических целей при условии их обязательного обезличивания.
Гарантию защиты первичных статистических данных, содержащихся в формах федерального статистического наблюдения, обеспечивает Закон о статистике (статья 9).
Первичные статистические данные представляют собой документированную информацию по формам федерального статистического наблюдения, получаемую от респондентов, или информацию, документируемую непосредственно в ходе федерального статистического наблюдения.
Первичные статистические данные являются информацией ограниченного доступа, за исключением информации, недопустимость ограничения доступа к которой установлена федеральными законами (например, статьей 8 Федерального закона от 27 июля 2006 г. N 149-ФЗ "Об информации, информационных технологиях и о защите информации").
В случае, если должностные лица, а также лица, которые в силу своего служебного положения или рода осуществляемой деятельности имели доступ к информации ограниченного доступа, допустили утрату этой информации, ее незаконное разглашение (распространение и (или) предоставление), либо фальсифицировали ее или содействовали ее фальсификации, указанные лица несут дисциплинарную, гражданско-правовую, административную или уголовную ответственность в соответствии с законодательством Российской Федерации.
III. Критерии качества статистических данных
В мировой статистической практике принята концепция качества, основанная на принципе максимального удовлетворения потребностей пользователей. Исходя из этого принципа и в соответствии с международными рекомендациями и стандартами качество статистических данных оценивается по следующим критериям:
востребованность статистической информации - соответствие предоставляемой статистической информации потребностям и нуждам пользователей;
достоверность статистической информации характеризуется величиной отклонения истинных значений статистических показателей от их оценок, полученных в ходе проведения статистических наблюдений.
На достоверность могут оказывать влияние такие факторы, как умышленное и неумышленное искажение представляемой информации, неполнота первичных данных, ошибки, возникающие при обработке и редактировании данных, а также ошибки выборки.
Ошибка, связанная с выборкой, определяет точность оценок показателей, полученных по выборке, и измеряется стандартной ошибкой выборки, коэффициентом вариации оценки (относительной стандартной ошибкой) и доверительным интервалом;
своевременность статистической информации - соблюдение продолжительности периода времени, проходящего от наступления наблюдаемого события до момента публикации или передачи пользователю соответствующих этому событию данных. Характеризуется предельно допустимым интервалом времени, на протяжении которого официальная статистическая информация остается актуальной и востребованной пользователями. При этом очень важна также пунктуальность - период времени между реальной и запланированной датами публикации официальных статистических данных;
доступность статистической информации - возможность получения статистических данных широким кругом пользователей в печатном или/и электронном виде, а также информированность пользователей о возможности и средствах получения интересующих их данных;
интерпретируемость статистической информации - обеспечение возможности правильности понимания, восприятия, трактования, использования и анализа пользователями опубликованной официальной статистической информации;
сопоставимость представляет собой возможность проведения сравнений статистических показателей, относящихся к различным временным периодам, географическим регионам и областям. Проведение корректных сравнений статистических показателей возможно при наличии адекватной информации о методологии расчета данных показателей, характеристиках совокупностей, отдельных аспектах проведения статистических наблюдений;
согласованность статистической информации предполагает возможность сочетания (объединения) данных различными способами в том числе полученных из разных источников и совместного их анализа для различных целей с высоким уровнем надежности. Согласованность обеспечивается путем использования при формировании официальной статистической информации принятых международных и общероссийских понятий и определений, единой методологии, применением единых стандартов при использовании информационных технологий и общероссийских классификаторов технико-экономической и социальной информации. Если данные формируются из различных источников, например, по результатам статистических обследований, охватывающих различные совокупности и разные временные периоды, то в этом случае статистическая информация не может быть полностью согласованной в силу различных методологических подходов, используемых классификаций и стандартов.
IV. Описание процессов производства статистической информации
Процессы производства статистической информации предусматривают планирование и подготовку к проведению федерального статистического наблюдения, сбор и обработку первичных статистических данных, оценку результатов проведения федерального статистического наблюдения, сезонную корректировку данных (при наличии сезонности), валидацию данных и пересмотр оценок, публикацию официальной статистической информации.
Работа с пользователями официальной статистической информации
В соответствии с Законом о статистике федеральное статистическое наблюдение представляет собой сбор первичных статистических и административных данных субъектами официального статистического учета. Сбор первичных статистических данных осуществляется по формам федерального статистического наблюдения путем предоставления этих данных респондентами либо путем опроса респондентов или регистрации соответствующих фактов лицами, привлекаемыми для сбора первичных статистических данных, или специалистами органов государственной статистики.
Цели проведения федерального статистического наблюдения определяются текущими и потенциальными потребностями пользователей официальной статистической информации, заинтересованных в его результатах.
Для определения потребностей в статистической информации Росстат проводит ряд мероприятий по осуществлению обратной связи с пользователями официальной статистической информации:
опрос основных пользователей и федеральных органов власти в рамках подготовки и ежегодной актуализации Федерального плана статистических работ;
проведение заседаний Научно-методологического совета Росстата и его секций, Общественного Совета при Росстате, рабочих групп и комиссий по вопросам проведения статистических наблюдений;
опрос различных групп пользователей;
проведение фокус-групп;
проведение встреч сотрудников Росстата с пользователями или организациями в рамках тематических конференций, семинаров;
анализ запросов пользователей (в том числе поступивших на официальный интернет-сайт Росстата).
В соответствии с непрерывным процессом улучшения качества также учитываются основные неудовлетворенные потребности пользователей и поощряется реализация проектов, направленных на их удовлетворение. Задачи наблюдения и процедуры их выполнения регулярно анализируются и при необходимости пересматриваются, что ведет к улучшению информационного обеспечения проектов. Наибольший объем работы по учету требований пользователей к статистической информации, разрабатываемой Росстатом, выполняется при подготовке и выполнении Федерального плана статистических работ.
Федеральный план статистических работ разрабатывается уполномоченным Правительством Российской Федерации федеральным органом исполнительной власти совместно с субъектами официального статистического учета и утверждается Правительством Российской Федерации. Решение об актуализации (о корректировке) Федерального плана статистических работ принимается Правительством Российской Федерации по представлению уполномоченного Правительством Российской Федерации федерального органа исполнительной власти.
Федеральный план статистических работ содержит перечни субъектов официального статистического учета и выполняемых ими работ по формированию официальной статистической информации с указанием периодичности выполнения каждой работы, уровня агрегирования официальной статистической информации (по Российской Федерации в целом, по субъектам Российской Федерации, по муниципальным образованиям), группировки этой информации согласно классификационным признакам и срокам ее предоставления пользователям официальной статистической информации или распространения.
Формирование Федерального плана статистических работ и подготовка предложений по его актуализации осуществляются на основе рационального выбора источников в целях формирования официальной статистической информации для обеспечения ее полноты, достоверности, научной обоснованности, своевременности предоставления, учета интересов пользователей официальной статистической информации, а также в целях снижения нагрузки на респондентов и исключения дублирования в работе субъектов официального статистического учета.
При включении работ по формированию официальной статистической информации в Федеральный план статистических работ:
сроки предоставления или распространения официальной статистической информации пользователям устанавливаются исходя из сроков предоставления респондентами отчетов по формам федерального статистического наблюдения с учетом возможности формирования показателей, в том числе во взаимоувязке с показателями бухгалтерской отчетности, а также трудоемкости формирования субъектами официального статистического учета официальной статистической информации, необходимой для обеспечения ее полноты и качества;
периодичность выполнения работ и уровень агрегирования официальной статистической информации, группировки этой информации согласно классификационным признакам устанавливаются исходя из потребностей информационного статистического обеспечения социальных, экономических, демографических, экологических и других общественных процессов в Российской Федерации на основе использования общероссийских классификаторов технико-экономической и социальной информации с учетом соблюдения принципа конфиденциальности официальной статистической информации в соответствии с действующим законодательством, а также возможности обеспечения репрезентативных данных.
Мониторинг пользователей официальной статистической информации, проводимый Росстатом, включает в себя наблюдение целевых категорий пользователей официальной статистической информации - представителей власти, бизнеса, научно-исследовательских организаций и СМИ - в различных субъектах Российской Федерации. В результате такого наблюдения Росстат получает данные о потребностях, удовлетворенности и доверии пользователей к официальной статистике; оценки качества статистических данных и их актуальности для пользователей.
Также Росстат проводит обследование удовлетворённости пользователей статистической информацией, предоставляемой Росстатом, и работой Росстата в целом. Обследование проводится путем опроса (анкетирования) профессиональных пользователей официальной статистической информации. Оценка мнений респондентов представляется в виде индексов информированности, вовлеченности, удовлетворенности и понимания деятельности.
Таким образом, Росстат обеспечивает соблюдение трех основных принципов достижения и поддерживания уровня качества, приемлемого для пользователей: знание и понимание их потребностей; вовлечение в принятие решений, связанных с их потребностями; непрерывные поиски улучшения методов и процессов управления качеством.
Нагрузка на респондентов
Федеральное статистическое наблюдение планируется исходя из максимального удовлетворения потребностей пользователей, при этом оно должно учитывать необходимость снижения нагрузки на респондентов по предоставлению статистической отчетности.
В целях реального снижения нагрузки на респондентов в Федеральный план статистических работ включаются работы по формированию официальной статистической информации, как на основе первичных статистических данных, так и административных данных.
При этом особое внимание при подготовке к утверждению форм федерального статистического наблюдения обращается на исключение дублирования первичных статистических данных, собираемых министерствами и ведомствами, более широкое применение метода сбора первичных статистических данных с использованием административных источников вместо прямого метода сбора первичных статистических данных.
В состав мероприятий по снижению нагрузки на респондентов также входят ежегодный пересмотр форм федерального статистического наблюдения и отмена форм, потерявших актуальность. Кроме того, осуществляется оптимизация системы показателей (вопросов) формы федерального статистического наблюдения (вопросника) путем сокращения второстепенных показателей (вопросов), не являющихся определяющими для целей наблюдения при формировании статистической информации.
В соответствии с программой статистического наблюдения и единицами наблюдения для снижения нагрузки на респондентов могут применяться другие методы: координация и ротация выборок.
Большое значение для снижения нагрузки по предоставлению статистической отчетности имеет измерение или оценка нагрузки на респондентов.
Показатели измерения нагрузки на респондентов основываются на времени, необходимом для заполнения формы, и на оценке трудностей, с которыми сталкиваются респонденты при поиске необходимой информации. Эта оценка связана с объемом, сложностью формы или трудностью поиска информации. Чрезмерная продолжительность интервью (или длина формы (вопросника)) может привести к отказу респондента или предоставлению приблизительных и поспешных ответов.
Уровень сложности для респондентов при сборе необходимой статистической информации, в частности, для статистических наблюдений предприятий и учреждений оценивается следующим образом:
уровень сложности считается низким, если информация может быть легко предоставлена респондентом;
уровень сложности является умеренным, если какая-то информация должна быть получена из документов или баз данных;
уровень сложности высокий, если необходимы трудоемкий поиск и (или) предварительная обработка запрашиваемой информации, например, в случае, когда данные относятся к прошлым годам и доступны лишь в архивах, или необходим расчет прогнозных значений показателей.
Время, необходимое для заполнения формы, может быть оценено специалистами Росстата на федеральном или региональном уровне на этапе тестирования формы или в ходе пилотного наблюдения. Затрачиваемое время также может быть измерено на этапе сбора первичных статистических данных, например, можно попросить респондентов или интервьюера указать, сколько времени потребовалось для ответа на вопросы; время может автоматически регистрироваться, если используются методы электронного сбора данных.
Виды работ, связанные с планированием и подготовкой к проведению федерального статистического наблюдения
Планирование и подготовка к проведению федерального статистического наблюдения включают в себя выполнение следующих процедур (выполняется на федеральном уровне):
решение о проведении наблюдения, которое включает: определение целей и задач проведения федерального статистического наблюдения; подготовка экономического обоснования (при необходимости); включение необходимых мероприятий в Федеральный план статистических работ; работа с пользователями официальной статистической информации; определение ключевых концепций (понятий) наблюдения: генеральная совокупность и ее элементы, разрезы разработки (области изучения), измеряемые показатели, используемые классификации;
определение метода сбора первичных статистических данных. Методом сбора может быть выбрано проведение интервью с помощью электронных устройств (например, портативных компьютеров), заполнение бумажных версий формы федерального статистического наблюдения, заполнение электронных версий формы федерального статистического наблюдения, размещенных в информационно-коммуникационных сетях, в том числе в сети "Интернет", использование административных источников данных, а также использование комбинированных методов сбора первичных статистических данных с применением всех или нескольких из вышеперечисленных методов;
подготовка статистического инструментария для проведения федерального статистического наблюдения, включающая разработку формы федерального статистического наблюдения и указаний по ее заполнению и ее тестирование;
разработка методологии проведения федерального статистического наблюдения и обработки его результатов, включающая разработку организационного плана проведения наблюдения, программы проведения статистического наблюдения, методики формирования статистической основы наблюдения и выборочной совокупности, методики кодирования, редактирования и импутации данных, алгоритмов расчета итоговых показателей и формирования итоговых таблиц, алгоритмов формирования метаданных, интеграции и валидации данных, методологии формирования официальной статистической информации с учетом обеспечения конфиденциальности персональных данных;
подготовка экономического описания для автоматизированной обработки данных наблюдения, включающего описание алгоритмов отбора объектов статистического наблюдения; описание нормативно-справочной информации; схему информационных потоков; алгоритмы формально-логического и арифметического контролей; алгоритмы расчета переменных (показателей); алгоритмы формирования выборочной совокупности, описание расчетов оценок показателей и определение их точности (в случае проведения выборочных статистических показателей); макеты итоговых (регламентных) и публикационных таблиц; описание входной и выходной информации и др.;
создание нового или актуализация действующего программно-технологического обеспечения, включая разработку (доработку) электронной версии формы (XML-шаблона);
тестирование разработанного (доработанного) программно-технологического обеспечения по проведению статистического наблюдения, сбору и обработке статистической информации;
передача программного обеспечения и необходимой документации в отраслевой фонд алгоритмов и программ Росстата. При необходимости - рассылка его в территориальные органы Росстата. Монтаж, настройка, проверка работоспособности аппаратных средств, необходимых для проведения федерального статистического наблюдения, а также установка и настройка общесистемного и специального программного обеспечения, настройка общесистемного и специального программного обеспечения, необходимого для проведения федерального статистического наблюдения;
подготовка организационного плана проведения наблюдения, в том числе при необходимости расчет для территориальных органов Росстата численности привлекаемых к проведению наблюдения лиц по гражданско-правовым договорам, необходимого количества бланков статистического инструментария, количества необходимых канцелярских принадлежностей (ручки, блокноты, карандаши, калькуляторы и т.д.), числа портативных компьютеров для интервьюеров в случае заполнения электронных версий форм, числа удостоверений работников федерального статистического наблюдения, количества комплектов экипировки интервьюера (сумки, фонарики, одежда с символикой Росстата или статистического наблюдения, средства индивидуальной защиты) и т.д.;
доведение до территориальных органов Росстата статистического инструментария и инструктивных материалов, при необходимости, закупка и доставка в территориальные органы Росстата комплектов экипировки интервьюера, канцелярских товаров.
Выбор метода (способа) проведения статистического наблюдения
На определение метода (способа) проведения статистического наблюдения оказывают влияние следующие основные факторы:
материальные и трудовые ресурсы;
состав решаемых статистических задач;
количество единиц наблюдения;
необходимая точность получаемых результатов;
нормативно-правовая база.
Сплошное статистическое наблюдение
Решение о выборе метода сплошного статистического наблюдения должно быть обосновано и вызвано несколькими причинами.
Сплошное статистическое наблюдение представляет собой наблюдение всех без исключения элементов генеральной совокупности и, следовательно, позволяет получить исчерпывающую статистическую информацию об объектах наблюдения.
Важнейшую роль для статистики играют специальные сплошные статистические наблюдения - переписи населения, предприятий, сельскохозяйственные переписи. В ходе проведения переписи осуществляется выяснение структуры общей совокупности и создание статистической основы для организации последующих наблюдений, в том числе выборочных. Сплошное статистическое наблюдение используется в случае, когда генеральная совокупность состоит из сравнительно небольшого числа элементов, либо в силу необходимости получения точной информации, в том числе по каждому элементу.
Сплошные статистические наблюдения необходимы для актуализации статистической основы наблюдения и получения структурных данных в региональной и тематической группировках.
Эта информация используется для уточнения результатов выборочных статистических наблюдений. Наблюдение всех единиц совокупности связано со значительными финансовыми, трудовыми и другими материальными затратами, а также предполагает сравнительно более высокую нагрузку на организаторов обследования и участие большего количества респондентов.
При организации проведения сплошного статистического наблюдения необходимо учесть, что число ошибок, не связанных с выборкой, должно быть сведено к минимуму и/или влияние ошибок, которых не удалось избежать, должно быть оценено после формирования сводных итогов.
Выборочное статистическое наблюдение
Главная причина организации наблюдения выборочным методом - существенная экономия средств, а предпосылка - возможность получить информацию об общей совокупности с определенной степенью точности. Выборочное статистическое наблюдение представляет собой учёт только подмножества элементов общей совокупности, на основе которого можно получить обобщающие характеристики всей совокупности с некоторой степенью точности. Для проведения выборочного статистического наблюдения совокупность единиц наблюдения формируется на основе вероятностного отбора. Использование невероятностных методов формирования выборки должно быть обосновано. План выборки и объем выборки должны быть такими, чтобы обеспечить заданный уровень точности для ключевых переменных в основных областях исследования (разрезах разработки).
Невероятностная выборка
Невероятностная выборка - это способ отбора единиц, который осуществляется без использования понятий теории вероятностей, вследствие чего невозможно рассчитать вероятность включения в выборку единицы совокупности.
Отбор может осуществляться в соответствии с мнениями и суждениями экспертов, имеющих опыт наблюдений в той или иной области статистики. Отбор элементов в неслучайной выборке осуществляется по субъективным критериям - доступности, однотипности и т.д. Кроме того, учитываются такие немаловажные факторы как бюджет и удобство исследователей при проведении статистических наблюдений.
Выбор невероятностного метода формирования выборки должен быть обоснован как теоретически, так и практически.
Примерами невероятностной выборки являются:
метод основного массива, или ценз, предполагает отбор в исследуемую совокупность единиц, которые представляют интерес для исследователя (например, включаются самые крупные единицы);
метод направленного отбора предполагает отбор небольшого числа "типичных" единиц, т.е. единиц, отвечающих представлению исследователя о "среднем" для совокупности;
метод квотного отбора или отбор квотами, при котором заранее определяется число наблюдаемых единиц, отбираемых из каждой группы единиц совокупности. Обследователь отбирает единицы до тех пор, пока от каждой группы не будет обеспечена необходимая "квота".
Выводы по результатам наблюдения генеральной совокупности на основе невероятностной выборки могут быть корректными, только при наличии предположений, обосновывающих репрезентативность выборки. Кроме того необходимо вычислить оценки параметров совокупности и связанные с ними оценки ошибки выборки. Все аспекты невероятностного отбора подробно документируются.
Вероятностная выборка
Вероятностная выборка - это выборка, сформированная вероятностным (случайным) способом, при котором каждый элемент совокупности имеет определенный, неравный нулю, шанс оказаться включенным в выборку. Вероятностная выборка извлекается из статистической основы наблюдения с использованием плана выборки. На практике выборочный план представляет собой сочетание различных способов извлечения выборок или выборочных методов. Он может включать стратификацию или кластеризацию статистической основы наблюдения, а также несколько этапов отбора.
План выборки должен быть адекватно определен относительно целей статистического наблюдения; он должен быть максимально простым, насколько это позволяют цели и задачи проведения статистического наблюдения. Статистическая основа наблюдения должна быть четко определена согласно оценке ее соответствия целям наблюдения. План выборки обеспечивает расслоение (стратификацию) единиц для формирования слоев (страт) однородных единиц по отношению к информации, которая должна быть собрана, и описание разрезов разработки, которые будут получены в результате объединения элементарных слоев.
Оптимальный объем выборки определяется статистическими вероятностными методами для обеспечения необходимой точности оценок для основных переменных в целом по совокупности, а также в основных разрезах разработки.
Если ожидается значительное сокращение объема выборки из-за большого количества неответов респондентов, целесообразно предусмотреть достаточное количество резервных единиц выборки.
План выборки должен предусматривать возможность оценки ошибок выборки. В качестве этой оценки используются коэффициент вариации оценки, стандартная ошибка оценки, средний квадрат ошибки выборки. Задача формирования выборочной совокупности решается либо с помощью стандартного программного обеспечения (например, SPSS, Statistica и др.), либо с использованием специального разработанного программного обеспечения, которое должно быть предварительно и качественно протестировано.
Целесообразно проанализировать альтернативные методы формирования выборки, чтобы оценить все плюсы и минусы каждого из них. Все аспекты планирования выборочного статистического наблюдения должны быть надлежащим образом задокументированы.
Как уже было сказано выше, на практике выборочный план может представлять собой сочетание различных способов извлечения выборок или выборочных методов, таких как, простой случайный отбор, систематический отбор, отбор с вероятностями, пропорциональными размеру единиц, расслоенный случайный отбор, кластерный отбор (гнездовая выборка; многоступенчатый отбор), многофазная выборка.
Простой случайный отбор редко применяется самостоятельно, но знание сущности этого метода чрезвычайно важно для лучшего понимания более сложных планов выборки, используемых на практике. Применение этого метода не требует никаких вспомогательных данных, а также дает возможность аппроксимации более сложного плана выборочного обследования. Простой случайный отбор единиц из основы выборки осуществляется таким образом, что каждый элемент совокупности имеет одинаковую вероятность включения, т.е. данная выборка является равновероятностной.
Систематический отбор - это процедура формирования выборочной совокупности, которая имеет ряд практических преимуществ, в частности, простота ее осуществления. Первый элемент такой выборки извлекается случайно с равной вероятностью из первых а элементов списка. Положительное целое число а определяется заранее и называется выборочным интервалом. Далее для построения систематической выборки случайные извлечения уже не потребуются. Остальные элементы выборки определяются систематически: из списка отбирается каждый а-ый элемент, и так до конца списка. Таким образом, имеются только а возможных выборок, имеющих одну и туже вероятность отбора, равную 1/а.
Выборка с вероятностью, пропорциональной размеру, предполагает, что вероятность включения единицы зависит от размера элементов совокупности. При этом значения показателя, характеризующего размер единиц, должны быть известны для каждой единицы совокупности. Обычно показателями размерности являются показатели, которые физически измеряют параметры элемента совокупности. Например, в обследованиях предприятий такой переменной, характеризующей размер единицы, может быть численность занятых или выручка, выпуск, оборот; в обследованиях школ - количество учеников.
Стратифицированная (расслоенная) выборка предполагает разбиение целевой совокупности на непересекающиеся подсовокупности, которые называются стратами. Они могут считаться отдельными совокупностями, из которых элементы отбираются независимо друг от друга. Отбор из страты осуществляется в соответствии с методами отбора (простой случайный отбор, систематический отбор, отбор, пропорциональный размеру наблюдаемых единиц). Если в каждом слое берут простую случайную выборку, то способ отбора в целом называется расслоенным случайным отбором.
Кластерная (многоступенчатая) выборка предполагает, что единицы наблюдения объединены в группы или кластеры (естественным образом). Например, в школе - классы, в квартале - домохозяйства. При одноступенчатой кластерной (или гнездовой) выборке наблюдению подлежат все элементы в отобранных кластерах. Двухступенчатая кластерная выборка предполагает извлечение выборки наблюдаемых единиц из отобранных кластеров.
Многофазная выборка - выборка элементов, сформированная в результате выполнения нескольких этапов отбора. При этом совокупность единиц, отобранных на данном этапе является подсовокупностью единиц, отобранных на предыдущем этапе отбора. Таким образом, извлекается выборка из выборки. Многофазная выборка применяется в частности тогда, когда основная или базовая информация собирается на основе единиц предварительной выборки большого объема, а дополнительная детализированная информация собирается от единиц, извлеченных из предварительной выборочной совокупности.
Форма федерального статистического наблюдения
Форма федерального статистического наблюдения является формуляром - образцом статистического документа, предназначенным для получения в установленном порядке первичных статистических данных, содержащим вопросы программы наблюдения, место для ответов на них, а также при необходимости реквизиты подписи должностного лица, ответственного за предоставление статистической информации (лица, уполномоченного предоставлять статистическую информацию от имени юридического лица или от имени гражданина, осуществляющего предпринимательскую деятельность без образования юридического лица на территории Российской Федерации), и позволяющим осуществлять унификацию процессов сбора и автоматизированной обработки статистической информации.
Сроки и последовательность действий при осуществлении Росстатом полномочий по утверждению форм федерального статистического наблюдения и указаний по их заполнению при проведении федеральных статистических наблюдений установлены Административным регламентом исполнения Федеральной службой государственной статистики государственной функции "Утверждение форм федерального статистического наблюдения и указаний по их заполнению и координация деятельности в сфере официального статистического учета при их утверждении", утверждённым приказом Минэкономразвития России от 27 декабря 2010 г. N 685.
При разработке формы федерального статистического наблюдения там, где это возможно, в обязательном порядке используются системы показателей и классификаций, гармонизированные с международными статистическими классификаторами.
Обязательным требованием является обеспечение однозначного понимания респондентами вопросов форм проводимых статистических наблюдений. Порядок заполнения и предоставления респондентами первичных статистических данных, содержащихся в формах федерального статистического наблюдения, или порядок заполнения формы интервьюером устанавливается в указаниях по заполнению форм федерального статистического наблюдения. Указания могут утверждаться приказом Росстата и публиковаться отдельным документом; они также могут публиковаться совместно с утвержденной формой федерального статистического наблюдения. Информация, изложенная в указаниях, должна быть понятной и доступной. Дополнительно в форму могут быть включены арифметические и логические контроли. Формы и указания размещаются в открытом доступе в сети "Интернет".
Все формы федерального статистического наблюдения до начала этапа сбора первичных статистических данных должны тестироваться. Это обеспечивает возможность доработки формы перед ее использованием в наблюдении. На предварительных этапах разработки формы для проведения интервью, когда вопросы еще не до конца определены, рекомендуется проводить фокус-группы и когнитивные интервью для оценки восприятия и интерпретации вопросов потенциальными респондентами. Предварительные оценки, такие как неофициальные тесты или обзоры экспертов, могут также помочь выявить основные недостатки в статистическом инструментарии.
Когнитивные интервью, как правило, ориентированы на оценку понимания респондентами вопросов, изложенных в той форме и порядке, как видят их исследователи, и выявление возможности отвечать на них. Многие предварительные испытания по заполнению формы проводятся непосредственно на местах; к ним относятся наблюдения за поведением респондента, интервьюера или обоих с использованием структурированных схем (кодирование поведения). Их цель состоит в том, чтобы понять, справляются ли интервьюеры со своей задачей должным образом, как реагируют респонденты, а также как происходит их взаимодействие. Другие применяемые методы - подведение итогов с респондентами и интервьюерами и интенсивные или последующие повторные интервью.
В ходе текущих федеральных статистических наблюдений должен проводиться специальный анализ, направленный на получение информации о качестве используемого инструментария. В частности, оценки должны проводиться на основе анализа неответов респондентов, частоты выбора альтернативы "затрудняюсь ответить" и других подобных альтернатив вопросов. Кроме того, частота отказов от ответа может быть сигналом о возможных проблемах в форме. Интервьюеры должны быть вовлечены в процесс оценки качества формы, так как они могут предоставить важную обратную связь по этому вопросу.
При разработке электронных версий форм федерального статистического наблюдения используется специальное программное обеспечение, проверяется их функциональность и пригодность.
Электронные версии форм федерального статистического наблюдения, используемые для проведения интервью, позволяют контролировать качество данных непосредственно во время интервью. Например, при наличии в данных недопустимых значений (ошибок ввода), нельзя продолжать интервью, пока они не будут исправлены. Строгость контроля ошибок согласованности зависит от важности переменных, к которым они относятся.
Формирование статистической основы наблюдения
В большинстве статистических наблюдений доступ к индивидуальным элементам совокупности и их наблюдение осуществляется в соответствии со статистической основой наблюдения.
В настоящее время Росстат использует два основных типа (статистических) основ: 1) список элементов совокупности (списочная основа); 2) список множеств элементов совокупности.
Списочная основа статистического наблюдения должна надлежащим образом охватывать генеральную совокупность. Она должна включать в себя точную и обновленную информацию, которая будет использоваться для обеспечения связи с единицами наблюдения.
При выборочных статистических наблюдениях, где это возможно, списочная основа наблюдения включает вспомогательную (дополнительную) информацию, необходимую для обеспечения эффективного отбора выборки (например, стратификация или отбор единиц с вероятностью, пропорциональной какой-то величине, характеризующей размер единицы).
И генеральная совокупность, и списочная основа наблюдения, которые будут использоваться для определения единиц статистического наблюдения и связи с ними, должны быть четко определены. Если несоответствие списочной основы наблюдения генеральной совокупности предполагает пересмотр последней (т.е. так называемая наблюдаемая совокупность исследуется вместо генеральной совокупности), такое решение должно быть документально оформлено и доведено до сведения пользователей.
Списочная основа наблюдения должна быть актуальна настолько, насколько это возможно относительно отчетного периода статистического наблюдения. Охват списочной основы наблюдения должен, главным образом, оцениваться относительно его неполноты. Неполный охват может привести к существенному смещению в оценках статистического наблюдения. В этом случае перед процедурой извлечения выборок выполняются мероприятия по ее улучшению.
Вспомогательная информация, содержащаяся в списочной основе наблюдения, используется при планировании выборок. Ошибки в этих показателях могут привести к потере точности результатов. Если такие ошибки значительны, рассматривается возможность проведения специальных процедур для их выявления и коррекции.
Для практической организации наблюдений Росстат формирует и поддерживает в актуальном состоянии систему регистров - перечней единиц наблюдения, отвечающих реальным генеральным совокупностям, с ограниченным набором признаков идентификации, классификации и основных статистических характеристик.
Списочные статистические основы для отраслевых и межотраслевых наблюдений предприятий формируются на базе Генеральной совокупности объектов статистического наблюдения, отраслевых субрегистров. Существует текущее и фиксированное состояние Генеральной совокупности объектов статистического наблюдения, которое фиксируется по состоянию на 1 января текущего года. Чем продолжительнее период времени, прошедший с момента ее формирования до организации конкретного наблюдения, тем меньше степень актуальности данных создаваемой основы наблюдения и создаваемых на ее основе отраслевых субрегистров.
Выделяют следующие требования к качеству списочной основы выборки:
все единицы, входящие в основу выборки, должны быть идентифицированы;
каждая единица, попавшая в выборку, должна быть найдена. То есть контактные данные каждой единицы основы выборки (телефоны, адреса, размещение на карте, и т.д.) должны либо содержаться в основе выборки, либо быть всегда доступны для организаторов наблюдения;
если в задачи статистического наблюдения входит получение результатов по различным подсовокупностям (или разрезам разработки), то для каждой единицы в основе должны быть определены признаки, позволяющие определить ее принадлежность к подсовокупности (или требуемому разрезу разработки);
желательно, чтобы в основе выборки для каждой единицы имелась дополнительная информации, которая нужна для применения методик отбора, повышающих качество выборок, например, для стратификации и оптимизации, а также и качество оценок исследуемых параметров совокупности;
отсутствие дублирования единиц, когда каждому элементу совокупности соответствует только одна единица в основе выборки и, соответственно, каждый элемент наблюдаемой совокупности в основе выборки присутствует только один раз;
отсутствие переохвата единиц, т.е. элементов, не относящихся к целевой совокупности, не содержатся в основе выборки;
отсутствие недоохвата единиц, т.е. все элементы совокупности представлены в основе выборки;
отсутствие ошибок классификации, неправильного отнесения статистических единиц к тому или иному классу объектов. Например, когда промышленное предприятие включено в группу торговых предприятий, вместо группы предприятий промышленности.
Поскольку в России пока не существует регистра населения или домашних хозяйств, для их выборочного наблюдения используется второй тип статистической основы в виде списка множеств элементов совокупности. При этом для формирования выборочной совокупности объектов наблюдения сначала отбираются из первичного информационного фонда переписи населения множества элементов, называемые гнездами или кластерами (первичные выборочные единицы), а затем наблюдаются либо все элементы отобранных множеств, либо только часть элементов в отобранных множествах. Первичный информационный фонд представляет собой совокупность переписных листов населения частных домохозяйств, постоянно проживающего на территории России, распределенных по счетным, инструкторским и переписным участкам согласно оргплану Всероссийской переписи населения 2010 (ВПН 2010). В качестве первичной выборочной единицы в обследованиях домашних хозяйств используют счетные участки, а на втором этапе отбираются домашние хозяйства.
Для выборочного наблюдения индивидуальных предпринимателей в розничной торговле также используется второй тип статистической основы в виде списка множеств элементов совокупности.
При выборе единиц основы выборки учитываются такие факторы, как стоимость доступа к элементам совокупности и желаемой дополнительной информации, доступность информации, которую нужно иметь для единиц в основе выборки, стабильность единиц основы выборки во времени, время, необходимое для создания основы выборки.
Статистические основы наблюдения обоих типов разрабатываются в виде базы данных. Созданная основа сохраняется вплоть до создания новой основы. Процедуры ведения статистической основы включают мероприятия по ее совершенствованию и обновлению, которые заключаются в обязательном проведении действий по исключению дублирования единиц, а также по удалению "мертвых" единиц и включению вновь созданных. Для оценки ее качества проводят процедуру проверки соответствия основы с сопоставимыми альтернативными административными источниками.
Статистическая основа наблюдения формируется с помощью специализированного или стандартного программного обеспечения.
Проведение пилотного тестирования (апробация)
Пилотное тестирование (апробация) фактически дублирует полный проект статистического наблюдения в ограниченном масштабе, от начала до конца, включая обработку данных и анализ результатов. При определении общей стратегии разработки и тестирования (апробации) принимаются во внимание задачи наблюдения, генеральная совокупность и имеющиеся ресурсы с точки зрения бюджета, персонала и времени.
Сбор первичных статистических данных
На этапе сбора первичных статистических данных вся необходимая информация (данные и метаданные) аккумулируется с помощью определенных методов и, возможно, из различных источников (статистических, административных и других регистров и баз данных) и загружается в соответствующую программную среду для дальнейшей обработки.
Основная задача этого этапа - обеспечение в кратчайшие сроки высокого уровня собираемости и заполнения форм федерального статистического наблюдения. В соответствии с Положением об условиях предоставления в обязательном порядке первичных статистических данных и административных данных субъектам официального статистического учета, утвержденным Постановлением Правительства Российской Федерации от 18 августа 2008 г. N 620, непредоставление или несвоевременное предоставление респондентами субъектам официального статистического учета первичных статистических данных или административных данных либо предоставление недостоверных первичных статистических данных или административных данных влечет ответственность респондентов, предусмотренную законодательством Российской Федерации.
В соответствии со статьей 13.19 Кодекса Российской Федерации об административных правонарушениях непредоставление респондентами субъектам официального статистического учета первичных статистических данных в установленном порядке или несвоевременное предоставление этих данных либо предоставление недостоверных первичных статистических данных влечет наложение административного штрафа на должностных лиц в размере от десяти тысяч до двадцати тысяч рублей; на юридических лиц - от двадцати тысяч до семидесяти тысяч рублей. Повторное совершение данного правонарушения влечет наложение административного штрафа на должностных лиц в размере от тридцати тысяч до пятидесяти тысяч рублей; на юридических лиц - от ста тысяч до ста пятидесяти тысяч рублей.
На этапе сбора одновременно может выполняться проверка (валидация) форматов наборов данных, при этом данный этап не предусматривает никаких преобразований данных.
Организация процесса сбора первичных статистических данных должна гарантировать, что работники, процессы и технологии полностью готовы для сбора статистических данных и метаданных всеми методами сбора, предусмотренными методологией федерального статистического наблюдения.
Методы сбора первичных статистических данных
В зависимости от источника получения первичных статистических данных различают сбор первичных статистических данных с использованием административных источников и прямой метод сбора первичных статистических данных, который предполагает получение информации от респондента при прямом или опосредованном контакте.
Использование административных источников статистических данных
Сбор первичных статистических данных с использованием административных источников осуществляется на основе правовых норм, регулирующих процесс предоставления административных данных, например, официальных соглашений с министерствами и ведомствами, ведущими административные базы данных. Такие соглашения включают в себя процедуры и сроки передачи данных, необходимый уровень качества административных данных, документацию, подтверждающую их передачу, а также обратную связь с "поставщиками" данных.
При планировании сбора первичных статистических данных с использованием административных источников необходимо в полной мере составить представление о целях и назначении административных данных, структуре и содержании баз данных, методах их генерирования и управления на основе изучения соответствующих нормативных документов. Такая информация оказывает существенное влияние на использование административных данных для статистических целей (например, в отношении охвата, содержания, используемых понятий и определений, периодичности и своевременности административного учета, качества ключевой информации, стабильности в течение долгого времени).
Перед началом этапа обработки статистических данных выполняется оценка качества административных данных, осуществляемая путем проверки полноты охвата генеральной совокупности для статистических целей, соответствия объектов административных данных статистическим единицам и оценки доли недостающей или противоречивой информации. Для этого выполняется анализ, основанный на интеграции и сравнении с другими источниками административных данных. Также при возможности оценивается влияние потенциальных ошибок в административных данных на качество конечных данных.
Передача административных данных осуществляется с использованием защищенных каналов и стандартных протоколов совместимости. Желательно использовать проверку передачи данных для предотвращения их потери.
Все этапы "приобретения" и обработки административных данных должны быть задокументированы.
Так, информационное взаимодействие Федеральной службы государственной статистики и Федеральной налоговой службы регламентировано совместным приказом, утверждающим перечни передаваемой информации и порядок передачи информации в электронном виде. Передача информации осуществляется на федеральном и региональном уровнях. Структура, форматы и способы передачи информации согласовываются ФНС России и Росстатом и оформляются Протоколом информационного обмена в электронном виде, утверждаемым заместителями руководителей обеих служб. При передаче сведений обеспечиваются меры, исключающие несанкционированный доступ к сведениям.
Прямой сбор первичных статистических данных
Прямой сбор первичных статистических данных включает в себя методы, предполагающие прямой или опосредованный контакт с респондентами. Это может быть доведение до респондентов бумажных версий форм федерального статистического наблюдения для самостоятельного заполнения (рассылка по почте или доставка интервьюером), опрос респондентов и заполнение форм интервьюерами (специалистами органов государственной статистики или лицами, привлекаемыми для сбора первичных статистических данных), самостоятельное заполнение респондентами электронных версий форм, размещенных в информационно-телекоммуникационных сетях, в том числе в сети "Интернет", а также, при необходимости, повторное обращение к респонденту.
При выборе метода прямого сбора первичных статистических данных учитывается возможность сокращения статистической нагрузки на респондентов и затрат на проведение сбора и в то же время обеспечения максимального улучшения своевременности и точности статистических данных.
По возможности выбираются способы с использованием электронно-технологических средств (портативные компьютеры, Web-сбор и т.п.), так как они обеспечивают:
повышение эффективности сбора и обработки первичных статистических данных;
возможность проверки ответов непосредственно при сборе статистических данных (в частности при использовании портативных компьютеров), возможность проведения формального и логического контроля в присутствии респондента и уточнения ответов на отдельные вопросы формы федерального статистического наблюдения;
сокращение времени на опрос;
общее снижение затрат и, в частности, исключение этапа сканирования и верификации бумажных версий форм, отсутствие необходимости печати, транспортировки, хранения и уничтожения большого количества бумажных версий форм.
Важнейшим аспектом процесса сбора первичных статистических данных является участие респондентов в обследовании. В этой связи планируется и реализуется ряд мер по предотвращению неполучения ответов от них, например:
отправка респондентам информационного письма за подписью руководителя, заместителя руководителя Росстата или руководителя, заместителя руководителя территориального органа Росстата;
проведение информационно-разъяснительной работы о цели и задачах наблюдения в средствах массовой информации;
обеспечение гарантий защиты конфиденциальности;
взаимодействие с ФНС России, Пенсионным фондом России по установке фактического местонахождения респондента (в случае неответа респондента);
создание бесплатной телефонной линии или электронной почты для обращений респондентов;
взаимодействие с председателями ТСЖ, ЖК, старшими по подъезду и т.п. по вопросам проведения наблюдения.
Качество конечных результатов наблюдения методом опроса респондентов интервьюером во многом зависит от самого интервьюера, его личной активности, дисциплинированности и уровня знаний. Интервьюеры получают широкую подготовку по всем аспектам, касающимся целей статистического наблюдения и содержания форм, связей и контактов с потенциальными респондентами, учета пропусков в формах, использования электронной версии формы и т.д. Интервьюеры обеспечиваются всеми полезными материалами, указаниями по заполнению форм и другими информационными материалами о статистическом наблюдении. На этапе сбора первичных статистических данных организуются консультации с интервьюерами для своевременного выявления проблем и их решения.
Нагрузка интервьюеров контролируется с целью ее оптимизации, а также во избежание недостаточно качественной работы интервьюеров и чрезмерной текучести кадров. Нагрузка на интервьюеров может регламентироваться специальными документами, например, в случае проведения обследований домашних хозяйств - Основными методологическими и организационными положениями выборочного наблюдения домашних хозяйств (обследования).
Контроль процесса сбора первичных статистических данных осуществляется путем создания системы мониторинга для отслеживания доли полученных ответов от респондентов, в том числе доли отчетов, предоставленных в электронном виде. Система мониторинга способствует эффективному использованию ресурсного обеспечения на стадиях сбора и обработки статистических данных.
Для мониторинга доли полученных ответов от респондентов используется специализированное или стандартное программное обеспечение.
Все этапы проведения прямого сбора первичных статистических данных должны быть задокументированы.
Ввод первичных статистических данных
На этапе проведения сбора первичных статистических данных выполняется ручной или автоматизированный ввод первичных статистических данных.
Целью такого ввода данных является их перевод в электронный формат с использованием специально разработанного для статистического наблюдения программного обеспечения.
При проведении сбора осуществляется:
ввод первичных статистических данных в электронные версии формы федерального статистического наблюдения (при использовании в наблюдении технологии сбора с помощью портативных компьютеров или самостоятельном заполнении респондентами электронных версий форм, размещенных в информационно-телекоммуникационных сетях, в том числе сети "Интернет");
перевод информации с заполненных на бумажном носителе форм федерального статистического наблюдения в электронный вид. При этом обеспечивается соответствие сведений, содержащихся в заполненных формах по каждой единице сбора данных, данным, перенесенным в электронную версию формы для ввода.
При вводе данных в зависимости от разработанной технологии наблюдения осуществляется визуальный и автоматизированный контроль, в том числе логический и арифметический контроль ввода данных.
Одновременно ведется мониторинг хода проведения этапов работ по сбору данных, а также обеспечивается обратная связь с респондентами: подготовка ответов на запросы и жалобы. В процессе ввода данных может осуществляться оперативное взаимодействие со службой технической поддержки для своевременного решения возникающих проблем.
Для получения первичных статистических данных из административных источников организаторы обследования либо обращаются к "поставщику" информации, либо он предоставляет ее в соответствии с установленным порядком (графиком).
По окончании выполнения вышеперечисленных функций формируется отчет о сборе информации. При вводе данных в электронную версию формы или при переводе информации с заполненных на бумажном носителе форм федерального статистического наблюдения в электронный вид может осуществляться конвертация форматов файлов, полученных от других организаций, анализ метаданных о сборе в целях гарантии выполнения необходимых требований сбора данных. При использовании комбинированного метода сбора информации данные, полученные разными методами, приводятся к единому формату. Одновременно осуществляется проверка структуры и полноты собранной информации, например, это может быть проверка правильности формата сформированных файлов первичных статистических данных, заполняемости всех необходимых полей и отсутствие дублирования записей.
В случае, когда для сбора статистических данных в качестве инструментария используются бумажные версии форм, ненужные для дальнейшей обработки данных, они сдаются в архив или уничтожаются. Хранение и уничтожение документов производится в установленном нормативными актами Росстата порядке.
Все процедуры этапа сбора данных надлежащим образом документируются.
Обработка первичных статистических данных
Обработка первичных статистических данных включает кодирование, редактирование и импутацию, оценку результатов проведению федерального статистического наблюдения, сезонную корректировку данных (при наличии сезонности), валидацию данных и пересмотр оценок, публикацию официальной статистической информации.
Кодирование
Кодирование осуществляется с помощью специализированного или стандартного программного обеспечения. Кодирование - это техническая процедура для преобразования текстовой информации в цифровые коды.
Процесс кодирования может быть:
автоматизированным, если он выполняется с помощью программного обеспечения респондентами, интервьюерами или кодировщиками;
ручным, если процесс кодирования осуществляется специально обученными операторами (кодировщиками) без помощи специального программного обеспечения.
При использовании автоматизированного кодирования в сложных случаях данные часто остаются незакодированными или могут возникать ошибки кодирования; такие ситуации должны решаться кодировщиками статистической информации совместно с экспертом.
Процесс кодирования должен быть оценен в целом с учетом компромисса между точностью и временем, необходимыми для завершения операции, при этом принятые решения не должны приводить к существенной задержке последующих процессов производства официальной статистической информации.
Оценка ошибок кодирования и времени, необходимого для их устранения, может указывать на недостатки в процессе и позволяет определить соответствующие мероприятия по усовершенствованию, которые будут реализованы в последующих наблюдениях. Анализ ошибок кодирования и незакодированной части текстовой информации может указать на элементы информационной базы системы кодирования, требующие усовершенствования.
Ошибки статистического наблюдения
Как уже отмечалось выше, одним из критериев качества статистических данных является их достоверность. Уровень достоверности связан с количеством ошибок, которые могут возникнуть в процессе статистического производства; чем больше количество ошибок, тем ниже достоверность.
Оценка ошибки измеряемого параметра совокупности включает в себя как ошибку выборки, которая возникает из-за того, что наблюдается только часть, а не вся генеральная совокупность, так и ошибки, не связанные с выборкой, и представляет собой разницу между оценкой и истинным значением параметра.
Для всех типов статистического наблюдения ошибки, не связанные с выборкой, возникают при планировании, сборе и обработке данных, расчете конечных оценок. Ошибки, не связанные с выборкой, могут возникнуть из-за целого комплекса проблем, например, ошибок, которые допустил исследователь или интервьюер, неточностей ответов респондентов, концептуальных или логических ошибок, отклонений в процессе редактирования, кодирования, классификации и анализа данных.
Классификация ошибок при планировании наблюдения, сборе и обработке статистических данных представлена на схеме ниже.
Ошибки, возникающие при планировании статистического наблюдения, прежде всего, вызваны плохим качеством основы выборки. Ошибки, возникающие при сборе статистических данных, делятся на ошибки измерения и ошибки, связанные с отсутствием ответов. Ошибки измерения возникают в данных статистического наблюдения из-за: метода сбора статистических данных, умышленных или неумышленных ошибок респондента или интервьюера, инструментария статистического наблюдения, информационной системы, хода проведения интервью. Данная ошибка включает:
ошибку в ответе наблюдения - как результат затруднения, незнания, небрежности или нечестности респондента;
ошибку (присущую интервьюерам), являющуюся следствием плохого или неадекватного обучения, предварительно ожидаемой оценки ответа респондента или преднамеренных ошибок;
ошибку, относящуюся к формулировке и контексту вопросов формы, порядку, в котором они представлены, или методу, используемому для получения ответа.
Ошибки, связанные с отсутствием ответов, возникают вследствие невозможности получить ответ на вопрос статистического наблюдения.
Неответы являются причиной увеличения дисперсии оценки из-за уменьшения объема выборки и/или применения методов замещения данных. При этом существуют как полные, так и частичные неответы. Полный неответ представляет собой полное отсутствие в файле с первичными данными результатов обследования по единице наблюдения. Частичный неответ - отсутствие данных не в целом по единице наблюдения, а лишь по конкретным пунктам вопросника.
Ошибки, возникающие при обработке статистических данных, могут возникать на всех стадиях обработки: кодировании, редактировании, взвешивании, агрегировании и т.д.
Редактирование и импутация данных
Этап редактирования собранных первичных данных - неотъемлемая часть системы управления проведением статистического наблюдения, который в обязательном порядке предусматривается при планировании федерального статистического наблюдения.
Еще до начала редактирования при проведении некоторых обследований, таких как обследования домашних хозяйств, выполняется техническое рассмотрение, под которым понимается процесс выполнения дополнительных процедур контроля первичного информационного фонда для повышения статистической надежности и достижения наиболее полного статистического согласования итоговых статистических данных между показателями "внутри обследования" и между показателями обследования и показателями из внешних источников.
Редактирование преследует триединую цель: 1) создание основы для усовершенствования процессов проведения наблюдений; 2) обеспечение информацией по качеству данных наблюдения; 3) корректировка данных.
Редактирование и замещение данных должно осуществляться с помощью специализированного или стандартного программного обеспечения.
Стратегия редактирования должна быть выстроена с учетом выделения большего объема ресурсов на устранение наиболее серьезных ошибок и на наиболее важные единицы и переменные. Способы и инструменты редактирования и замещения должны выбираться с учетом статистической теории, имеющихся практик по аналогичным статистическим данным, специальных указаний, стандартов или рекомендаций, разработанных на национальном или международном уровнях. Иными словами, они должны базироваться на научно обоснованной методологии, утвержденной соответствующими нормативно-правовыми документами в установленном порядке. Различные этапы стратегии редактирования и замещения статистических данных должны периодически оцениваться с помощью моделирования или экспериментов, чтобы либо подтвердить их обоснованность, либо внести необходимые изменения.
Процесс редактирования статистических данных включает три этапа: оценку состоятельности заранее определенных правил редактирования; проверку данных на предмет удовлетворения всем правилам редактирования; замещение или импутацию данных, не удовлетворяющих правилам редактирования.
В процессе редактирования осуществляются следующие виды проверок:
проверка на наличие "выбросов" - нетипичных единиц и значений;
сверка с контрольными данными;
выявление пропущенных данных;
проверка согласованности данных;
проверка на наличие ошибочных значений.
В случае обнаружения ошибочных, противоречивых и отсутствующих ответов значений производится замещение этих данных другими приемлемыми значениями в ручном или автоматическом режиме по согласованию с респондентами или с использованием методов импутации.
Процесс импутации - это замещение ошибочных, противоречивых и отсутствующих ответов в процессе редактирования данных другими ответами - значениями показателей. Стратегия проведения импутации определяется заранее при подготовке методологии проведения статистического наблюдения.
Доступ к вспомогательной информации существенно повышает качество проводимой импутации. Процесс импутации может быть автоматизированным, ручным или являться комбинацией этих двух способов. Редактирование и импутация могут осуществляться: в интерактивном режиме по отдельной единице сбора данных; методами пакетной обработки в ходе специальных редакторских "прогонов" данных с использованием специально разработанного программного обеспечения; с использованием комбинации вышеперечисленных методов.
В ходе выполнения программы редактирования и импутации производится:
обнаружение и обработка ошибочных и пропущенных значений в данных в соответствии с выбранными методами, заданными правилами и параметрами редактирования и импутации;
формирование описаний с результатами, признаками и характеристиками импутации.
Выходные импутированные данные, помимо первоначальной информации, должны содержать:
дополнительные выходные переменные, позволяющие оценить качество проведенной импутации;
"флаги импутации" (импутированные данные, помеченные специальной отметкой), что позволит в случае наличия ошибочных и пропущенных значений идентифицировать импутированное значение.
При проведении обследований домашних хозяйств в случае обнаружения ошибочных и противоречивых ответов значений направляются запросы на территориальный уровень для уточнения данных с интервьюерами (или респондентами). В случае необходимости внесения уточнений производится замещение этих данных в ручном или автоматическом режиме. В случае обнаружения отсутствующих ответов в данных обследований производится замещение этих данных другими приемлемыми значениями в ручном или автоматическом режиме с использованием методов импутации.
В целях оценки различных подэтапов процесса редактирования и замещения статистических данных сохраняются как оригинальные, так и замещенные значения на различных этапах процедуры. Непрямая оценка различных этапов процедуры должна быть выполнена путем расчета показателей по количеству внесенных изменений и показателей изменений в распределении показателей, представляющих интерес.
Информация, полученная в ходе процедур редактирования и замещения статистических данных, используется для выявления потенциальных проблем на ранних стадиях процесса статистического производства (например, из-за недоработок в форме статистического наблюдения) и может дать представление об основных источниках ошибок. Эта информация должна быть проанализирована и использована для улучшения последующих случаев наблюдения.
Все этапы стратегии по выявлению и устранению ошибок в процессе сбора данных должны быть надлежащим образом задокументированы.
Интеграция источников данных
Интеграция различных источников данных может иметь разные цели. В случае административного учета интеграция осуществляется в целях:
расчета новых (дополнительных) переменных;
импутации пропусков в данных (как для полных, так и для частичных неответов респондентов);
валидации (проверки, сверки) собранных данных, направленной на выявление и оценку влияния потенциальных ошибок измерения.
Интеграция административных источников или административных источников и данных наблюдений может осуществляться по-разному. Если единицы имеют уникальный безошибочный идентификационный код, то можно интегрировать данные с помощью слияния на основе кода идентификации.
В случае отсутствия идентификационного кода, если ключевые переменные, которые рассматриваются совместно, могут способствовать идентификации единицы наблюдения (например, имя, дата рождения, адрес и т.д.), то соответствие может быть проведено через процедуры "установления связи". Установление связи является детерминированным, когда оно основано на формальных правилах, определяющих, являются ли пары записей в двух отдельных источниках относящимися к одной единице наблюдения или имеет вероятностный характер, когда решающее правило основано на вероятностных критериях.
Зачастую процедуры интеграции состоят из комбинации различных методов. В таком случае необходимо подробное описание всей процедуры с точным указанием порядка применения различных методов.
Методы, используемые в процессе интеграции, должны быть обоснованными и регламентированными.
Качество процесса интеграции можно определить путем оценки частоты ложных совпадений (ложно соответствующие записи, которые на самом деле являются двумя отдельными единицами) и частоты ложных несовпадений (единицы, ошибочно определенные в ходе процедуры как несоответствующие).
Все задачи интеграции должны быть выполнены в соответствии с положениями о конфиденциальности.
Интеграция различных источников данных должна осуществляться с помощью специализированного или стандартного программного обеспечения. Весь процесс интеграции должен быть задокументирован.
Оценка результатов статистического наблюдения
Процедура получения оценок параметров совокупности (суммы показателя, среднего значения показателя, отношений величин показателей, долей, и т.п.) должна быть точно определена. Оценка представляет собой рассчитанное по данным выборочного наблюдения значение некоторого параметра совокупности. Также под оценкой понимают формулу или алгоритм вычисления числового значения оцениваемого по выборочным данным параметра изучаемой совокупности.
Как правило, в случае наблюдений на основе вероятностной выборки, оценки рассчитываются с учетом весов, соответствующих плану выборки (выборочных весов).
Для компенсации влияния систематических ошибок (неполучение ответа от единиц наблюдения, неполнота охвата) на достоверность итогов наблюдения и получения более точных значений оценки могут корректироваться, в том числе с использованием вспомогательной информации (например, методом калибрации).
Если в процессе оценки используются вспомогательные переменные, то их выбор должен быть обоснован, они должны быть соотнесены с переменными наблюдения и актуализированы. Использование той или иной модели процедуры оценивания должно быть задокументировано, включая и основополагающие допущения, принятые по данной модели.
В ходе выборочных наблюдений, которые используют невероятностные выборки, оценки, как правило, получают с использованием соответствующих статистических моделей. При этом процедуры оценки должны быть обоснованы, а принятые допущения - правдоподобны и, если это возможно, протестированы.
Оценки параметров совокупности должны сопровождаться характеристиками их точности (коэффициент вариации оценки, средний квадрат ошибки (СКО), среднеквадратическая (стандартная) ошибка выборки), в которых должны учитываться характеристики плана выборки (стратификация, многоступенчатый отбор и т.д.), а также поправки, внесенные в веса. По возможности в них также должны быть отражены и другие основные ошибки, которые наблюдаются во всем процессе производства статистических данных. Меры точности для наиболее важных оценок показателей должны быть получены как для всей совокупности, так и для основных разрезов разработки. Если они рассчитываются методами приближенных вычислений, то эти методы расчета должны быть задокументированы.
Критерии для публикации оценок должны быть установлены до их расчета: то есть должен быть зафиксирован уровень ошибки оценки, выше которого полученные данные не публикуются.
Процедуры оценки результатов статистического наблюдения, а также их применение детально описываются в соответствующих разделах методологических материалов (методологических рекомендациях, положениях и др.), утверждаемых в установленном порядке и размещаемых в открытом доступе на официальном сайте Росстата.
Процедура оценки может быть проведена с использованием специализированного или стандартного программного обеспечения. Специализированное программное обеспечение должно быть предварительно и точно испытано перед производством окончательных оценок. Все результаты процессов оценки должны быть воспроизводимыми (точно или с небольшими приближениями), а это означает, что, при повторении всей процедуры обработки должны быть получены такие же результаты.
Сезонная корректировка статистических данных
Процедуры сезонной корректировки направлены на устранение сезонной составляющей временных рядов. Сезонно скорректированные данные не должны иметь остаточных сезонных эффектов.
Процедуры сезонной корректировки должны выполняться только тогда, когда имеется экономическая интерпретация сезонных/календарных эффектов. Временной ряд должен быть скорректирован с учетом сезонных колебаний, если данные демонстрируют характер сезонных изменений, а также когда сезонность может быть надлежащим образом идентифицирована.
Сезонная корректировка должна предусматривать обработку данных, направленную на коррекцию влияния разного количества рабочих дней, праздников (фиксированных или мобильных, гражданских или религиозных), аномальных (нетипичных) значений (выбросов) и, наконец, исключительных событий (эпидемий, стихийных бедствий, и т.п.). Все процедуры для предварительной обработки должны следовать обоснованным и соответствующим международным стандартам методологиям и быть надлежащим образом задокументированы.
Оценка сезонной составляющей должна проводиться с использованием обоснованных и общепринятых процедур. При этом необходимо использовать стандартные инструменты (анализ качества сезонного сглаживания, включая тестирование на отсутствие остаточной сезонности, графики, диагностику остатков модели и др.), являющиеся частью процедур, используемых для сезонной корректировки статистических данных.
Используемая методология должна быть надлежащим образом задокументирована наряду с используемым программным обеспечением и его версиями. Характеристики используемых процедур должны быть опубликованы по требованию внешних пользователей.
Пересмотр оценок
В некоторых случаях необходимость публикации своевременных оценок включает выпуск предварительных или временных оценок, которые впоследствии будут пересматриваться по мере того, как новая (или обновленная) информация становится доступной. Иногда такие изменения могут быть также обусловлены применением различных процедур оценки, изменениями в методологиях или неожиданными событиями.
Вся информация, касающаяся пересмотра оценок, должна быть четко и ясно определена в разрабатываемых Росстатом документах с указанием использованных источников и их актуальности, планируемого количества пересмотров, их причин и календаря публикации. О предстоящем пересмотре оценок заранее информируют пользователей данных с указанием информации о сроках его проведения.
Каждый пересмотр должен быть задокументирован таким образом, чтобы обеспечить возможность провести реконструкцию истории опубликованных оценок и оценку влияния пересмотра. Документация должна также включать результаты, касающиеся вычисления основных показателей пересмотра, и содержать ссылки на документы с более детальным анализом изменений (если таковые имеются).
Если анализ при пересмотре выявил систематическую тенденцию оценок (тенденцию предварительных оценок недооценивать или переоценивать явления), предпринимаются действия по поиску и устранению воздействия на производственный процесс.
Отдельные изменения, не содержащиеся в документах по пересмотру, должны быть документально оформлены и обоснованы. Пользователи должны быть проинформированы о таких изменениях и о причинах, почему они были сделаны.
Исследования по пересмотру и анализ должны проводиться на регулярной основе и использоваться для совершенствования производственного процесса.
Валидация агрегированных данных
Валидация в общем смысле означает приведения доказательств того, что требования конкретного пользователя, продукта, услуги или системы удовлетворены.
Перед публикацией результатов статистического наблюдения проводится процесс валидации данных путем сравнения их с результатами предыдущего наблюдения и сопоставления с внешними источниками. Это могут быть внутренние статистические источники, внешние источники - организации или административные источники. Возможные различия должны быть обоснованы и задокументированы. Например, в рамках процесса валидации в обследованиях домашних хозяйств осуществляется процедуры контроля регламентных таблиц, полученных с федерального уровня, которые включают:
приемку и администрирование первичного информационного фонда и региональных регламентных таблиц;
формирование (на основе слияния региональных регламентных таблиц) регламентных таблиц в целом по России;
контроль информации, содержащейся в регламентных таблицах регионального и федерального уровня;
при обнаружении ошибочных данных - формирование запросов на корректировку, получение новой версии региональных регламентных таблиц и их переформирование в целом по Российской Федерации.
Если это возможно, следует контролировать согласованность результатов относительно соотношений, которые можно считать практически постоянными или незначительно измененными в течение краткосрочного периода (например, некоторые демографические коэффициенты). Возможные различия должны быть обоснованы и задокументированы.
В ряде случаев целесообразно задействовать внутренних или внешних экспертов в области валидации, которые непосредственно не участвуют в процессе производства данных, при этом конфиденциальность первичных статистических данных должна быть гарантирована.
На этапе валидации показатели качества, такие как, например, частота ошибок, связанных с охватом, процент ответивших и коэффициент вариации оценок, следует систематически анализировать и сравнивать с ожидаемыми уровнями этих показателей. При значительных отклонениях должно быть обосновано принятие корректирующих действий, таких как отслеживание неответивших единиц и интеграция с данными из административных источников. Наконец, контроль наблюдения или специальные измерения должны регулярно проводиться для оценки различных компонентов систематических ошибок (например, ошибки, связанные с неответами, и "эффект интервьюера").
Специальный анализ, а также расчет показателей качества (при наличии таковых) направлены, в первую очередь, на обеспечение качества публикуемых статистических данных, а затем на оценку возможности принятия мер по улучшению качества статистических данных при последующих наблюдениях.
Хранение и распространение (публикация) данных
Официальная статистическая информация является общедоступной, за исключением информации, доступ к которой ограничен федеральными законами. Обеспечение доступа заинтересованных пользователей к общедоступной официальной статистической информации осуществляется путем ее предоставления или распространения.
Распространение официальной статистической информации субъектами официального статистического учета осуществляется путем ее опубликования в официальных изданиях субъектов официального статистического учета, средствах массовой информации и размещения для всеобщего доступа в информационно-телекоммуникационных сетях, в том числе для бесплатного доступа на официальных сайтах субъектов официального статистического учета в сети "Интернет". Официальная статистическая информация, включая их метаданные, также может размещаться в Единой межведомственной информационно-статистической системе в сети "Интернет".
Целью распространения является обеспечение своевременного и эффективного использования статистической информации пользователями. Для этого необходимо заранее сформировать календарь для различных типов публикаций статистических данных. Данные публикуются одновременно для всех пользователей, чтобы обеспечить беспристрастность и независимость официальной статистики.
Распространение легкодоступных и понятных статистических данных важно для обеспечения более эффективного их использования. Доступность связана с типом используемого носителя (электронное распространение, бумажные издания) и легкостью извлечения информации.
Понятность данных связана с наличием метаданных о содержании информации и характеристик производственного процесса, а также с показателями качества. Кроме того, необходимо информирование о возможных ограничениях данных, например, о наличии разрывов во временных рядах и возможном временном характере выпущенных данных. Различные типы публикаций, например, ежегодники и пресс-релизы, должны соответствовать редакционным стандартам.
Содержание, структура и оформление статистической публикации зависят от предмета исследования и от того, для какого круга пользователей она предназначена. Если публикация ориентирована в первую очередь на специалистов, то в нее включается большее число подробных таблиц, сопровождаемых при необходимости краткими примечаниями, причем в публикации результатов выборочных статистических наблюдений необходимо включать характеристики точности представляемых оценок показателей. Если же публикация ориентирована на широкий круг пользователей, то в этом случае наиболее важны доступность и наглядность представляемого материала, для чего используются графические методы отображения статистических данных, такие как различные виды диаграмм и картограмм с применением ГИС-технологий. При подготовке данных к публикации должно учитываться стремление пользователей использовать технологические инновации, помогающие им обрабатывать статистическую информацию наиболее эффективно.
Сведения о сборе и обработке данных наблюдения представляют значительный интерес для пользователей, так как они позволяют составить представление о качестве опубликованной информации.
Для адекватного восприятия пользователями статистических данных любая публикация сопровождается метаданными, включающими следующие компоненты: 1) информация о генеральной совокупности объектов статистического наблюдения и применяемых стандартных классификациях, используемая в таблицах система статистических показателей, причем понятия и значение терминов целесообразно приводить в виде определений; 2) информация о методах сбора и обработки данных: какие именно использовались методы сбора данных; каков реальный охват обследуемой совокупности; что предпринималось для учета фактов отсутствия ответов от респондентов; какие применялись методы редактирования данных; в случае выборочного наблюдения - какие методы расчета оценок использованы; какого рода проводились корректировки данных (например, поправки на объемы теневой экономики, сезонность и т.п.).
При публикации результатов выборочных наблюдений характеристики точности распространенных на генеральную совокупность выборочных данных по возможности включаются в таблицы, непосредственно содержащие оцененные показатели (а не в отдельный раздел). В этом случае пользователь имеет общую картину достоверности информации в каждой таблице. Возможным недостатком таких таблиц является их громоздкость и, следовательно, сложность их восприятия.
Обработка первичных данных статистического наблюдения, которые будут получены из исходного файла, обычно проходит несколько этапов, в этой связи необходимо проверить, что полученные в результате обработки данные сопоставимы с исходными данными.
Для предотвращения раскрытия конфиденциальной информации осуществляется предварительная проверка данных на анонимность и невозможность персонализации на условиях, установленных Росстатом.
До начала этапа распространения данных проверенные микроданные должны храниться в архиве субъекта статистического учета. Проверенные микроданные должны храниться вместе с метаданными, необходимыми для их интерпретации (форматы записи, переменные и связанные с ними классификации), итоговыми таблицами в порядке, определенном субъектом статистического учета. При этом должна обеспечиваться конфиденциальность и безопасность микроданных. При распространении микроданных с целью уменьшения возможности идентификации и получения информации об отдельных единицах могут быть использованы специальные методы, например, перекодировка переменных для уменьшения детализированной информации, сокрытие специфической информации, которая позволяет идентифицировать единицу, и метод случайной пертурбации данных. Для защиты конфиденциальности в области распространения данных должно быть использовано специализированное или стандартное программное обеспечение.
Для обеспечения обратной связи с пользователями в каждом выпуске официальной статистической информации указываются контакты лиц, ответственных за выпуск данных, их номера телефона и адреса электронной почты.
Документация производственного процесса создается и архивируется на всех этапах - от планирования проведения федерального статистического наблюдения до распространения официальной статистической информации, и должна включать в себя показатели качества процесса.
<< Назад |
Приложение. >> Глоссарий |
|
Содержание Приказ Федеральной службы государственной статистики от 7 декабря 2018 г. N 732 "Об утверждении Методологических положений... |
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.