Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение Б
(справочное)
Описание
технологии автоматизированного построения математических моделей с использованием ЭВМ
Б.1 Подготовка на носителях и контроль входных данных
В процессе подготовки исходной информации на машинных носителях осуществляется технический контроль, заключающийся в проверке каждого числа на неправильный символ.
Ошибки подготовки данных выявляются с помощью распечатки информации и анализа расчетных таблиц основных статистических характеристик показателей механических свойств, химического состава стали, магнитных свойств и других параметров.
После корректировки данных пересчитывают статистические характеристики и приступают к формированию рабочего массива и анализу данных с помощью выборочных методов математической статистики.
Б.2 Организация рабочего массива. Анализ результатов испытаний
Из множества параметров, составляющих исходную информацию, условно формируют группу факторов (рабочий массив), содержащую все влияющие переменные и показатель механических свойств.
Значения показателей качества, не несущие информации в контексте решаемой задачи, а также соответствующие им значения независимых влияющих переменных из выборки удаляют. В этом случае статистические характеристики пересчитывают.
Исключение резко выделяющихся значений осуществляется, исходя из качественного и количественного анализов выборки.
При большом числе наблюдений используется "правило трех сигм", по которому наблюдение X исключается в случае, если его отклонение от превосходит 3S, где S - среднее квадратическое значение показателя качества.
Согласно более точному критерию оценки аномальности значений рассматривается упорядоченная выборка результатов наблюдений
, (Б.1)
где n - число наблюдений в каждом показателе.
Чтобы оценить принадлежность и к данной совокупности и принять решение об исключении или оставлении в составе выборки, находят отношения
или . (Б.2)
Результаты сравнивают с табличным значением критерия Смирнова о вычислении критических значений при вероятности Р, которые находят из соотношений:
и (Б.3)
для данного объема n и уровня значимости .
Если , то подозреваемый в аномальности результат наблюдения исключается из выборки, в противном случае он остается в выборке.
Указанный критерий используется для малых выборок объемом .
Б.3 Исследование характеристик распределения и приведение к нормальности
Целевой показатель (показатель качества) сформированной группы факторов подвергается исследованию на нормальность распределения.
Проверка нормальности распределения показателей осуществляется по критериям: Пирсона для объема выборки, превышающего 200; Колмогорова для объема выборки, превышающего 100, и Мизеса-Смирнова для объема выборки, превышающего 50.
В случае отсутствия нормальности распределения выполняется переход от исходного показателя X к другой переменной Y путем функционального преобразования данных.
В случае нормальности распределения целевого показателя или приведения к нормальности вычисляемые его статистические характеристики имеют известные распределения и для этих характеристик можно установить доверительные пределы изменения, и тогда оценки будущей модели становятся обоснованными с вероятностно-статистической точки зрения, что позволяет перейти к следующему этапу моделирования по рассматриваемой схеме.
Если переход к нормальности не осуществлен, то это влечет за собой ненадежность статистических оценок будущей модели.
Б.4 Оценка объема измерений
Если объем выборки по целевому параметру не меньше вычисленного по приводимым ниже формулам, то осуществляется переход на следующий этап статистической обработки данных, в противном случае производится сбор информации для пополнения выборки, и процесс моделирования проводится для дополненной выборки согласно схеме.
Пусть - среднее значение наблюдений при простой случайной выборке и вероятность
, (Б.4)
где d - выбранное предельное значение ошибки;
- некоторая малая вероятность;
- генеральное среднее значение.
В качестве приближения минимального объема n выборочной совокупности выбирается значение
, (Б.5)
где t - значение абсциссы для кривой нормального распределения, отсекающее на "хвостах" площадь .
Б.5 Анализ парных зависимостей
Наличие линейной корреляционной зависимости между показателями X и Y выявляется сравнением коэффициента корреляции R и корреляционного отношения .
Если разность не превышает 0,1, то предположение о линейной форме корреляционной связи подтверждается.
Если разность превышает 0,1, то оценивают существенность различия между и R.
С целью выявления вида криволинейной зависимости строят корреляционные поля и эмпирические линии регрессии, устанавливают формы связи между Y и показателями X, подбирают аналитическую формулу Y = f(X), отражающую характер эмпирической кривой, например:
, , Y=1/X, Y=ln x, .
Все выбранные зависимости должны отражать качественную зависимость механических свойств от влияющих показателей.
Б.6 Построение модели
В качестве статистического метода установления связи между зависимой переменной Y и совокупностью влияющих показателей используется пошаговый метод построения множественной регрессии, позволяющий включать или исключать независимые переменные в порядке их значимости.
Оценка параметров выполняется для линейных и линеаризованных моделей вида:
, (Б.6)
где - показатели исходной совокупности или показатели, из путем алгебраических преобразований;
, - коэффициенты регрессии, оценки параметров модели.
Критерий пошагового построения регрессий основывается на уменьшении остаточной суммы квадратов уравнений (Б.6), при этом в регрессию вводится переменная, наиболее влияющая на это уменьшение на данном шаге, а исключается наименее влияющая.
Процедура построения модели продолжается до тех пор, пока не исчерпываются все различные , ; при этом полное множество возможных моделей составляет . Пошаговое построение предполагает движение по направлениям, перспективным с точки зрения уменьшения остаточной суммы квадратов. Окончательный выбор модели определяется статистической надежностью ее в целом и статистической надежностью каждой получаемой оценки параметров модели.
На каждом l-м шаге построения регрессионной модели вычисляют ее характеристики:
- стандартная ошибка оценки модели с учетом степеней свободы;
- коэффициент множественной корреляции, скорректированный на степени свободы;
- коэффициент надежности множественного коэффициента корреляции (статистика Фишера);
- коэффициент надежности коэффициентов регрессии (статистика Стьюдента),
где SS - сумма квадратов отклонений зависимой переменной от своего среднего;
- накопленная сумма квадратов, объяснимая множественной регрессией;
n - число наблюдений по каждой переменной;
l - число переменных в уравнении регрессии на данном шаге;
- коэффициент регрессии;
- стандартные ошибки коэффициентов регрессии, вычисляемые как элементы матрицы обратной корреляции.
Оценки параметров регрессионной модели согласно методу наименьших квадратов выбираются на каждом шаге такими, чтобы значения, характеризующие меру разброса экспериментальных данных по отношению к предсказанным по модели значениям, были минимальны.
При оценивании качества модели значения показателей надежности коэффициентов регрессии сравнивают с предельным значением статистики Стьюдента (q - принятый уровень значимости, v - число степеней свободы), а значение F - коэффициент надежности множественного коэффициента корреляции сравнивают с табличным значением статистики Фишера (q - принятый уровень значимости, , - соответствующие значения степеней свободы).
Если , то значение i-го коэффициента регрессии считается надежным. Если , то значение множественного коэффициента регрессии считается надежным.
Прежде всего необходимо получить модели с надежными оценками коэффициентов регрессии и коэффициента множественной корреляции, минимальной ошибкой аппроксимации и стандартной ошибкой оценки модели.
Остановиться следует на той из построенных моделей, которая имеет надежные оценки коэффициентов регрессии , надежную оценку F множественного коэффициента корреляции, наименьшую стандартную ошибку оценки модели, достаточно высокий коэффициент множественной корреляции R как показатель детерминированности взаимосвязи целевой переменной Y с независимыми переменными X, а также имеет состав переменных X, приемлемый в контексте решаемой задачи.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.