Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение П
(справочное)
Оценка вариации гидрометеорологических переменных и связи между ними
П.1 Общие положения
П.1.1 Океанолог-прогнозист, приступая к изучению определенных статистических закономерностей, прежде всего знакомится с фактическим материалом, представляющим ряды наблюдений за морскими гидрологическими явлениями, которые могут рассматриваться как система случайных взаимосвязанных величин. Поэтому в исследованиях нельзя ограничиваться изучением отдельных явлений, а нужно исследовать множество явлений, взаимосвязанных друг с другом.
П.1.2 Случайные величины, называемые признаками, обычно обозначаются прописными буквами латинского алфавита X, Y, Z, а их конкретные значения, называемые вариантами, обозначаются строчными буквами латинского алфавита с индексом. Например, если случайная величина X имеет n возможных значений, то они обозначаются как: .
По форме выражения признаки подразделяются на атрибутивные, построенные по качественным признакам, и количественные, построенные по количественному признаку. В свою очередь, количественные признаки подразделяются на дискретные (прерывные) и непрерывные, принимающие любые значения, как целые, так и дробные.
П.1.3 Множество признаков представляет собой статистическую совокупность. Различают генеральную и выборочную совокупности.
Генеральная совокупность - это весь мыслимо возможный набор случайной величины.
Выборочная совокупность - любая последовательность значений случайной величины, извлеченная из генеральной совокупности.
П.1.4 Задача статистического анализа временного (вариационного) ряда состоит в изучении его основных свойств: изменчивости и характеристик его периодических и непериодических колебаний. Знание этих свойств помогает разрешить основную задачу, а именно: предсказать поведение временного ряда в будущем.
П.2 Обработка гидрометеорологических данных наблюдений
П.2.1 Статистическая обработка гидрометеорологических данных наблюдений осуществляется в следующей последовательности:
- анализ ошибок наблюдений;
- систематизация данных рядов наблюдений;
- нахождение взаимосвязи между данными;
- оценка значимости конечного результата.
П.2.2 Обработка гидрометеорологической информации начинается с изучения качества наблюдений. Наблюдения никогда не бывают абсолютно точными, а имеют некоторую долю ошибок. Поэтому, прежде чем приступать к статистическому анализу ряда, необходимо оценить величину ошибок наблюдений. Без анализа ошибок наблюдений нельзя сказать что-либо определенное относительно точности конечного результата. Ошибки наблюдений могут быть систематическими, случайными, субъективными и грубыми.
Анализ ошибок наблюдений должен являться непременной составной частью проверки однородности рядов. Все случаи нарушения однородности должны быть устранены. Могут быть разные причины, приводящие к нарушению однородности ряда, среди них, такие как изменение поправок приборов, изменение методов измерений и т. д. Только после приведения ряда к однородности можно рассчитывать его статистические характеристики: математическое ожидание (среднее), среднее квадратичное отклонение и т.д.
П.2.3 Систематизация (упорядочение) данных рядов наблюдений заключается в построении кривых распределения частот (повторяемостей), которые позволяют легко и быстро проанализировать их статистическую структуру.
П.2.4 Ряд распределения - это ряд чисел, в котором значения изучаемого признака расположены в определенном порядке: либо в порядке возрастания, либо убывания (ранжируются). После процедуры ранжирования данные наблюдений группируются так, чтобы в каждой группе величина принимала одно и то же значение, называемое вариантом x. Кроме вариантов в ряд распределения включаются также частоты m - величины, показывающие, сколько раз каждый вариант встречается в данной совокупности. Таким образом, ряд распределения состоит из вариантов и частот и представляет собой, для однородной совокупности достаточно большого объема, эмпирическую, т.е. полученную в результате наблюдения и систематизации данных, закономерность распределения изучаемого признака.
По ряду распределения можно сделать заключение о том, какие варианты встречаются чаще других, а какие реже, какие наибольшие и наименьшие значения принимает признак, каков характер распределения частот между вариантами.
При достаточно большом числе наблюдений характер изменения частот весьма правильно отражает закономерность, лежащую в основе изучаемого признака совокупности. Искажение закономерности, в результате действия случайных причин, уменьшается при увеличении числа наблюдений, ввиду уравновешивания действия одних случайных причин действием других.
П.2.5 Интервал случайной переменной, на который распространяется данная группа, называется частотой (или интервалом группировки).
Ряд распределения обычно оформляется в виде таблицы (таблица П.1), в первой графе которой располагаются варианты , а во второй - соответствующие вариантам частоты . Такие таблицы называются таблицами распределения.
Таблица П.1 - Таблица распределения
. . . |
. . . |
. . . |
П.2.6 По данным таблиц распределения строят графики распределения (гистограммы, полигоны, огивы и дифференциальные и интегральные кривые распределения). Гистограмма, полигон и кривая распределения строятся на основании данных первого и второго столбца таблицы распределения, а огива и интегральная кривая - на основании данных первого и третьего столбца.
П.2.7 Оценкой функции распределения является эмпирическая функция распределения, оценкой плотности функции распределения является гистограмма.
На рисунке П.1 приведен пример гистограммы распределения годовых приращений уровня Каспийского моря.
При построении гистограммы по оси абсцисс откладываются значения переменной (в данном случае уровня), а по оси ординат - частоты. Гистограмма состоит из смежных прямоугольников, основаниями которых являются отрезки между последовательными математическими границами, а высотами - частоты каждой градации. Таким образом, площадь каждого прямоугольника равна произведению его высоты на основание. Общая площадь под гистограммой равна , где n - число членов ряда, а i - число градаций. Площади пропорциональны частотам только в том случае, если градации равны.
П.2.8 Гистограмма вероятностей аналогична гистограмме, показанной на рисунке Т.1, за исключением того, что высота прямоугольника является частотой, деленной на общее число наблюдений. В этом случае площадь каждого прямоугольника равна .
По-видимому, в тексте предыдущего абзаца допущена опечатка. Имеется в виду "рисунке П.1"
Общая площадь под гистограммой равна i.
В гистограмме плотности вероятности высотой каждого прямоугольника на графике является величина , а общая площадь под гистограммой равна 1.
П.2.9 Полигон частот представляет собой график (рисунок П.2), построенный путем нанесения частот градаций для точек, соответствующих серединам этих градаций. Значения частот соединяются затем прямыми линиями.
При длинных рядах наблюдений полигон и гистограмма приближается к плавной кривой, называемой кривой распределения (рисунок П.2 - кривая 2).
П.2.10 Для того, чтобы найти, как часто повторяются значения гидрометеорологических элементов большие или меньшие заданных величин, используется распределение накопленных (кумулятивных) частот, называемое огивой (рисунок П.3 - кривая 1). Эта кривая в пределе стремится к сглаженной интегральной кривой распределения (на рисунке П.3 - кривая 2).
По оси абсцисс (как и в случае гистограммы) откладываются последовательные верхние математические границы, по оси ординат - процентные частоты (или число случаев) значений переменной, меньших соответствующей математической границы; каждой верхней границе соответствует одна частота. Эти частоты наносятся на график и соединяются прямыми линиями. Таким образом, огива на графике всегда начинается в точке нулевой частоты и заканчивается в точке 100% (если по оси ординат нанесена накопленная процентная частота) или в точке, соответствующей общему числу случаев (если по оси ординат нанесена накопленная частота).
П.3 Меры изменчивости статистических характеристик случайных величин
П.3.1 Числовые характеристики распределения
П.3.1.1 Вариационные ряды позволяют получить первое представление об изучаемом распределении. Далее исследуются числовые характеристики распределения более высокого порядка: характеристики положения (среднее арифметическое, медиана, мода); характеристики рассеяния (дисперсия, среднее квадратичное отклонение, коэффициент вариации); характеристики меры скошенности (коэффициент асимметрии) и островершинности (эксцесс) распределения.
П.3.1.2 Среднее арифметическое (среднее) является наиболее часто применяемой величиной. Эту величину получают, суммируя все значения случайной переменной в выборке и деля сумму на общее число случаев, вошедших в данную выборку.
П.3.1.3 Среднее арифметическое невзвешенное вычисляется по формуле
, (П.1)
где - вариант;
n - число членов ряда.
П.3.1.4 Среднее арифметическое взвешенное вычисляется по формуле
, (П.2)
где - частота; .
Под взвешиванием понимается процедура умножения вариантов на частоты.
П.3.1.5 Медиана - значение случайной переменной, находящееся в середине ряда распределения. Для ее определения достаточно расположить в порядке возрастания или убывания все значения переменной; срединное значение и будет медианой. Медиана Ме может быть рассчитана по формуле
, (П.3)
где - конец меридианного интервала;
h - размер интервала;
S - накопленная частота до значения .
П.3.1.6 Мода - значение случайной переменной в изучаемой совокупности, которому соответствует наибольшая частота. Моду используют при выявлении наиболее часто встречающегося значения изучаемого признака. Мода Мо может быть рассчитана по формуле
. (П.4)
П.3.1.7 При симметричном распределении частот среднее арифметическое, медиана и мода совпадают. При асимметричном распределении медиана располагается между средним арифметическим и модой. При правосторонней асимметрии мода принимает меньшие значения, а среднее арифметическое большие, при левосторонней асимметрии - наоборот.
Использование медианы и моды целесообразно при анализе резко асимметричных распределений. Когда среднее арифметическое уже не является достаточно представительным параметром распределения, то его целесообразно дополнить медианой и модой.
П.3.1.8 Для полной характеристики случайной переменной средней, медианы и моды бывает недостаточно. Известно несколько показателей, характеризующих вариацию ряда распределения: размах вариации, среднее абсолютное отклонение, среднее квадратичное отклонение, дисперсия, коэффициент вариации.
П.3.1.9 Размах вариации A представляет собой разность между наибольшим и наименьшим вариантами в ряду наблюдений
. (П.5)
П.3.1.10 Из характеристик изменчивости, не имеющей сильной систематической зависимости от длины ряда наблюдений, наиболее важными являются среднее абсолютное и среднее квадратичное отклонение.
Среднее абсолютное отклонение САО определяется по формуле
. (П.6)
Основное преимущество среднего абсолютного отклонения состоит в легкости его подсчета, лучше всего выполняемой с помощью формулы (П.6). Недостаток его состоит в том, что в формуле (П.6) фигурируют абсолютные величины, что затрудняет выполнение математических выкладок. Другим недостатком является то, что среднее абсолютное отклонение "слабо" характеризует изменчивость, так как вклад малых и больших отклонений учитывается одинаково.
П.3.1.11 Среднее квадратичное отклонение - показатель вариации, измеряющий величину, на которую все варианты в среднем отклоняются от среднего арифметического, рассчитывается по формуле
, (П.7)
П.3.1.12 Среднее квадратичное отклонение имеет те же единицы измерения, что и варианты. Среднее квадратичное отклонение является лишь суммарной мерой вариации статистической переменной, поэтому оно не дает полного представления о характере распределения отклонений от нормы. Оно мало зависит от незначительных отклонений от среднего значения.
П.3.1.13 Дисперсией называется квадрат среднего квадратичного отклонения. Если - среднее квадратичное отклонение для генеральной совокупности, то дисперсия этой совокупности равна
. (П.8)
Понятие дисперсии весьма важно, поскольку оно широко применяется при анализе факторов, обуславливающих рассеяние случайных переменных.
П.3.2 Характеристики меры скошенности и островершинности распределения
П.3.2.1 Коэффициент вариации
П.3.2.1.1 Для удобства сравнения изменчивости отдельных рядов среднее квадратичные отклонения выражаются в относительных единицах . Относительное среднее квадратичное отклонение называется коэффициентом вариации, или изменчивости и вычисляется по формуле
. (П.9)
П.3.2.1.2 Среднее характеризует квазистационарную часть ряда, а среднее квадратичное отклонение - его переменную часть.
Если , то изменчивость невелика, а если , то изменчивость велика. При можно приближенно считать ряд нормально распределенным.
П.3.2.1.3 Формула (П.9) предполагает истинное значение генеральной совокупности при . Реальные ряды величин представляют лишь ограниченную выборку в n членов из генеральной совокупности, и в формуле (П.9) вместо N принимается n<N .
Разница между и , как правило, тем больше, чем короче ряд наблюдений. В математической статистике принимается
. (П.10)
П.3.2.2 Показатели асимметрии
П.3.2.2.1 Распределение частот называют положительно асимметричным, если средняя больше моды, и отрицательно асимметричным, если средняя меньше моды. Характеристикой асимметрии (скошенности) распределения случайной величины X является коэффициент асимметрии . Коэффициент асимметрии величина безразмерная, его можно определить по формуле
. (П.11)
Так как приблизительно равна , то формулу (П.11) можно переписать в виде
. (П.12)
П.3.2.2.2 Если распределение имеет левостороннюю асимметрию, то сумма отрицательных кубов отклонений превышает сумму положительных кубов, т. е. показатель асимметрии отрицательный , если асимметрия правосторонняя, то показатель асимметрии положительный . При симметричном распределении показатель асимметрии равен нулю . Образцы кривых распределения вероятности с положительной и отрицательной асимметрией показаны на рисунке П.4.
П.3.2.2.3 Таким образом, асимметричная кривая может характеризоваться средним арифметическим значением переменной , средним квадратом отклонений членов ряда от их средней величины или , и средним кубом этих отклонений: или .
П.3.2.2.4. Поправку на асимметрию можно определить по таблице П.2.
Таблица П.2 - Поправка на асимметрию в зависимости от значения переменной
x |
0,00 |
0,01 |
0,02 |
0,03 |
0,04 |
0,05 |
0,06 |
0,07 |
0,08 |
0,09 |
0,0 |
66,5 |
66,5 |
66,4 |
66,4 |
66,3 |
66,2 |
66,1 |
66,0 |
65,8 |
65,6 |
0,1 |
65,5 |
65,3 |
65,1 |
64,8 |
64,6 |
64,3 |
64,0 |
63,6 |
63,3 |
63,0 |
0,2 |
62,6 |
62,2 |
61,8 |
61,4 |
60,9 |
60,5 |
60,0 |
59,5 |
59,0 |
58,4 |
0,3 |
57,8 |
57,3 |
56,7 |
56,1 |
55,5 |
54,9 |
54,2 |
53,5 |
52,9 |
52,2 |
0,4 |
51,6 |
50,8 |
50,1 |
49,4 |
48,6 |
47,9 |
47,1 |
46,3 |
45,5 |
44,7 |
0,5 |
44,0 |
43,2 |
42,4 |
41,5 |
40,7 |
39,9 |
39,0 |
38,1 |
37,3 |
36,4 |
0,6 |
35,5 |
34,6 |
33,7 |
32,9 |
32,0 |
31,1 |
30,2 |
29,3 |
28,4 |
27,5 |
0,7 |
26,5 |
25,6 |
24,7 |
23,8 |
22,9 |
22,0 |
21,0 |
20,1 |
19,2 |
18,3 |
0,8 |
17,4 |
16,5 |
15,6 |
14,7 |
13,8 |
12,9 |
12,0 |
11,1 |
10,2 |
9,3 |
0,9 |
8,4 |
7,5 |
6,7 |
5,8 |
5,0 |
4,1 |
3,3 |
2,5 |
1,7 |
0,9 |
1,0 |
0,0 |
-0,8 |
-1,6 |
-2,4 |
-3,2 |
-3,9 |
-4,7 |
-5,4 |
-6,1 |
-6,9 |
1,1 |
-7,6 |
-8,3 |
-9,0 |
-9,7 |
-10,4 |
-11,1 |
-11,7 |
-12,3 |
-12,9 |
-13,6 |
1,2 |
-14,2 |
-14,8 |
-15,4 |
-16,0 |
-16,6 |
-17,2 |
-17,7 |
-18,2 |
-18,7 |
-19,2 |
1,3 |
-19,7 |
-20,2 |
-20,7 |
-21,1 |
-21,5 |
-21,9 |
-22,3 |
-22,7 |
-23,1 |
-23,5 |
1,4 |
-23,9 |
-24,3 |
-24,6 |
-24,9 |
-25,2 |
-25,5 |
-25,8 |
-26,1 |
-26,4 |
-26,7 |
1,5 |
-27,0 |
-27,2 |
-27,4 |
-27,6 |
-27,8 |
-28,0 |
-28,2 |
-28,4 |
-28,6 |
-28,7 |
1,6 |
-28,8 |
-28,9 |
-29,0 |
-29,1 |
-29,2 |
-29,3 |
-29,4 |
-29,5 |
-29,6 |
-29,6 |
1,7 |
-29,6 |
-29,6 |
-29,6 |
-29,6 |
-29,6 |
-29,6 |
-29,6 |
-29,6 |
-29,6 |
-29,6 |
1,8 |
-29,5 |
-29,4 |
-29,3 |
-29,2 |
-29,1 |
-29,0 |
-28,9 |
-28,8 |
-28,7 |
-28,6 |
1,9 |
-28,5 |
-28,4 |
-28,3 |
-28,1 |
-28,0 |
-27,8 |
-27,7 |
-27,5 |
-27,3 |
-27,2 |
2,0 |
-27,0 |
-26,8 |
-26,6 |
-26,4 |
-26,2 |
-26,0 |
-25,8 |
-25,6 |
-25,4 |
-25,2 |
2,1 |
-25,0 |
-24,8 |
-24,6 |
-24,3 |
-24,1 |
-23,9 |
-23,7 |
-23,4 |
-23,2 |
-22,9 |
2,2 |
-22,7 |
-22,5 |
-22,2 |
-22,0 |
-21,7 |
-21,5 |
-21,3 |
-21,0 |
-20,8 |
-20,5 |
2,3 |
-20,3 |
-20,1 |
-19,8 |
-19,5 |
-19,3 |
-19,0 |
-18,8 |
-18,5 |
-18,3 |
-18,0 |
2,4 |
-17,8 |
-17,5 |
-17,3 |
-17,0 |
-16,8 |
-16,5 |
-16,3 |
-16,0 |
-15,8 |
-15,6 |
2,5 |
-15,3 |
-15,1 |
-14,9 |
-14,6 |
-14,4 |
-14,2 |
-13,8 |
-13,7 |
-13,5 |
-13,3 |
2,6 |
-13,0 |
-12,8 |
-12,6 |
-12,4 |
-12,1 |
-11,9 |
-11,7 |
-11,5 |
-11,3 |
-11,1 |
2,7 |
-10,9 |
-10,7 |
-10,5 |
-10,3 |
-10,1 |
-9,9 |
-9,8 |
-9,6 |
-9,4 |
-9,2 |
2,8 |
-9,0 |
-8,9 |
-8,7 |
-8,5 |
-8,3 |
-8,2 |
-8,0 |
-7,8 |
-7,7 |
-7,5 |
2,9 |
-7,3 |
-7,2 |
-7,0 |
-6,9 |
-6,7 |
-6,6 |
-6,5 |
-6,3 |
-6,2 |
-6,0 |
3,0 |
-5,9 |
-5,8 |
-5,7 |
-5,5 |
-5,4 |
-5,3 |
-5,2 |
-5,0 |
-4,9 |
-4,8 |
3,1 |
-4,7 |
-4,6 |
-4,5 |
-4,4 |
-3,3 |
-4,2 |
-4,1 |
-4,0 |
-3,9 |
-3,8 |
3,2 |
-3,7 |
-3,6 |
-3,5 |
-3,4 |
-2,5 |
-3,2 |
-3,1 |
-3,0 |
-2,9 |
-2,8 |
3,3 |
-2,8 |
-2,7 |
-2,7 |
-2,6 |
-1,9 |
-2,5 |
-2,4 |
-2,3 |
-2,3 |
-2,2 |
3,4 |
-2,2 |
-2,1 |
-2,1 |
-2,0 |
-1,5 |
-1,9 |
-1,8 |
-1,8 |
-1,7 |
-1,7 |
3,5 |
-1,6 |
-1,6 |
-1,5 |
-1,5 |
-1,1 |
-1,4 |
-1,4 |
-1,3 |
-1,3 |
-1,3 |
3,6 |
-1,2 |
-1,2 |
-1,1 |
-1,1 |
-0,8 |
-1,0 |
-1,0 |
-1,0 |
-0,9 |
-0,9 |
3,7 |
-0,9 |
-0,9 |
-0,9 |
-0,8 |
-0,6 |
-0,8 |
-0,8 |
-0,8 |
-0,7 |
-0,7 |
3,8 |
-0,7 |
-0,6 |
-0,6 |
-0,6 |
-0,4 |
-0,5 |
-0,5 |
-0,5 |
-0,5 |
-0,5 |
3,9 |
-0,5 |
-0,5 |
-0,4 |
-0,4 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
4,0 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
-4,3 |
-0,3 |
-0,3 |
-0,3 |
-0,2 |
-0,2 |
П.3.2.3 Показатели эксцесса
П.3.2.3.1 Два распределения частот, имеющие одинаковые значения средней, дисперсии и асимметрии, могут различаться величиной эксцесса. Для характеристики меры эксцесса обычно используют четвертый центральный момент распределения. Для удобства сопоставления эмпирического распределения с нормальным законом распределения показатель эксцесса записывается в виде
. (П.12)
П.3.2.3.2 Эксцесс характеризует заостренность или уплощенность (по сравнению с нормальным распределением) графика плотности распределения. Для нормального распределения , отсюда и появляется число 3 в определении E.
В качестве характеристики заостренности или уплощенности статистического ряда принимается величина:
.
П.3.2.3.3 Если E>0, то распределение является островершинным; если E<0, то распределение плосковершинное относительно нормального распределения. При E=0 распределение считается нейтральным в отношении эксцесса (рисунок П.5). На этом рисунке нормальная кривая соответствует .
П.3.2.3.4 Если эмпирическая кривая распределения оказалась ниже нормальной кривой, то показатель эксцесса будет отрицательным. При этом E будет равен минус трем в том случае, если все частоты оказались равными нулю. Если эмпирическая кривая легла выше нормальной кривой, то показатель эксцесса будет положительным.
П.3.2.3.5 Знак асимметрии можно получить, даже не прибегая к расчету стандартного момента, а по последовательности положения моды, медианы. Поправку на эксцесс можно определить по таблице П.3.
Таблица П.3 - Поправка на эксцесс в зависимости от значения переменной
x |
0,00 |
0,01 |
0,02 |
0,03 |
0,04 |
0,05 |
0,06 |
0,07 |
0,08 |
0,09 |
0,0 |
0,0 |
0,5 |
1,0 |
1,5 |
2,0 |
2,5 |
3,0 |
3,5 |
4,0 |
4,5 |
0,1 |
4,9 |
5,4 |
5,9 |
6,4 |
6,9 |
7,3 |
7,8 |
8,3 |
8,7 |
9,2 |
0,2 |
9,6 |
10,1 |
10,5 |
11,0 |
11,4 |
11,8 |
12,3 |
12,7 |
13,1 |
13,5 |
0,3 |
13,9 |
14,3 |
14,7 |
15,0 |
15,4 |
15,8 |
16,1 |
16,5 |
16,8 |
17,1 |
0,4 |
17,4 |
17,8 |
18,1 |
18,3 |
18,6 |
18,9 |
19,2 |
19,4 |
19,6 |
19,9 |
0,5 |
20,2 |
20,4 |
20,6 |
20,8 |
21,0 |
21,2 |
21,4 |
21,6 |
21,7 |
21,9 |
0,6 |
22,0 |
22,1 |
22,3 |
22,4 |
22,5 |
22,5 |
22,6 |
22,7 |
22,8 |
22,8 |
0,7 |
22,9 |
22,9 |
22,9 |
22,9 |
22,9 |
22,9 |
22,9 |
22,9 |
22,9 |
22,8 |
0,8 |
22,8 |
22,7 |
22,7 |
22,6 |
22,4 |
22,4 |
22,3 |
22,2 |
22,1 |
22,0 |
0,9 |
21,9 |
21,8 |
21,6 |
21,4 |
21,3 |
21,1 |
20,9 |
20,8 |
20,6 |
20,4 |
1,0 |
20,2 |
20,0 |
19,8 |
19,6 |
19,3 |
19,1 |
18,9 |
18,6 |
18,4 |
18,2 |
1,1 |
17,9 |
17,7 |
17,4 |
17,1 |
16,8 |
16,6 |
16,3 |
16,0 |
15,7 |
15,4 |
1,2 |
15,1 |
14,9 |
14,6 |
14,3 |
14,0 |
13,7 |
13,4 |
13,1 |
12,8 |
12,5 |
1,3 |
12,2 |
11,9 |
11,6 |
11,3 |
10,9 |
10,6 |
10,3 |
10,0 |
9,7 |
9,4 |
1,4 |
9,1 |
8,8 |
8,5 |
8,2 |
7,9 |
7,6 |
7,3 |
7,0 |
6,7 |
6,4 |
1,5 |
6,1 |
5,8 |
5,5 |
5,2 |
4,9 |
4,6 |
4,4 |
4,1 |
3,8 |
3,5 |
1,6 |
3,3 |
3,0 |
2,8 |
2,5 |
2,2 |
1,9 |
1,7 |
1,4 |
1,1 |
0,9 |
1,7 |
0,7 |
0,4 |
0,2 |
0,0 |
-0,2 |
-0,4 |
-0,6 |
-0,8 |
-1,0 |
-1,2 |
1,8 |
-1,4 |
-1,6 |
-1,8 |
-1,9 |
-2,1 |
-2,3 |
-2,5 |
-2,7 |
-2,9 |
-3,0 |
1,9 |
-3,2 |
-3,3 |
-3,4 |
-3,6 |
-3,7 |
-3,8 |
-4,0 |
-4,1 |
-4,2 |
-4,3 |
2,0 |
-4,5 |
-4,6 |
-4,7 |
-4,8 |
-4,9 |
-5,0 |
-5,0 |
-5,1 |
-5,2 |
-5,3 |
2,1 |
-5,4 |
-5,4 |
-5,5 |
-5,6 |
-5,6 |
-5,7 |
-5,8 |
-5,8 |
-5,9 |
-6,0 |
2,2 |
-6,0 |
-6,1 |
-6,1 |
-6,1 |
-6,1 |
-6,1 |
-6,2 |
-6,2 |
-6,2 |
-6,2 |
2,3 |
-6,2 |
-6,2 |
-6,2 |
-6,2 |
-6,3 |
-6,3 |
-6,3 |
-6,3 |
-6,2 |
-6,2 |
2,4 |
-6,2 |
-6,2 |
-6,2 |
-6,2 |
-6,1 |
-6,1 |
-6,1 |
-6,0 |
-6,0 |
-5,9 |
2,5 |
-5,9 |
-5,9 |
-5,8 |
-5,8 |
-5,8 |
-5,7 |
-5,7 |
-5,6 |
-5,6 |
-5,5 |
2,6 |
-5,5 |
-5,5 |
-5,4 |
-5,4 |
-5,3 |
-5,3 |
-5,2 |
-5,2 |
-5,1 |
-5,1 |
2,7 |
-5,0 |
-5,0 |
-4,9 |
-4,9 |
-4,8 |
-4,8 |
-4,7 |
-4,7 |
-4,6 |
-4,6 |
2,8 |
-4,5 |
-4,5 |
-4,4 |
-4,4 |
-4,3 |
-4,3 |
-4,2 |
-4,1 |
-4,1 |
-4,0 |
2,9 |
-3,9 |
-3,9 |
-3,8 |
-3,8 |
-3,7 |
-3,7 |
-3,6 |
-3,5 |
-3,5 |
-3,4 |
3,0 |
-3,3 |
-3,3 |
-3,2 |
-3,2 |
-3,1 |
-3,1 |
-3,0 |
-3,0 |
-2,9 |
-2,9 |
3,1 |
-2,8 |
-2,8 |
-2,7 |
-2,7 |
-2,6 |
-2,6 |
-2,5 |
-2,5 |
-2,4 |
-2,4 |
3,2 |
-2,3 |
-2,3 |
-2,2 |
-2,2 |
-2,1 |
-2,1 |
-2,1 |
-2,0 |
-2,0 |
-1,9 |
3,3 |
-1,9 |
-1,9 |
-1,8 |
-1,8 |
-1,7 |
-1,7 |
-1,6 |
-1,6 |
-1,6 |
-1,5 |
3,4 |
-1,5 |
-1,5 |
-1,4 |
-1,4 |
-1,4 |
-1,3 |
-1,3 |
-1,3 |
-1,2 |
-1,2 |
3,5 |
-1,2 |
-1,2 |
-1,1 |
-1,1 |
-1,1 |
-1,0 |
-1,0 |
-1,0 |
-0,9 |
-0,9 |
3,6 |
-0,9 |
-0,9 |
-0,9 |
-0,8 |
-0,8 |
-0,8 |
-0,8 |
-0,8 |
-0,7 |
-0,7 |
3,7 |
-0,7 |
-0,7 |
-0,7 |
-0,6 |
-0,6 |
-0,6 |
-0,6 |
-0,5 |
-0,5 |
-0,5 |
3,8 |
-0,5 |
-0,5 |
-0,5 |
-0,5 |
-0,5 |
-0,4 |
-0,4 |
-0,4 |
-0,4 |
-0,4 |
3,9 |
-0,4 |
-0,4 |
-0,4 |
-0,4 |
-0,4 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
4,0 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
-0,3 |
-0,2 |
-0,2 |
-0,2 |
-0,2 |
-0,2 |
П.3.3 Кривые повторяемости и обеспеченности
П.3.3.1 Средняя величина, среднее квадратичное отклонение являются лишь суммарной мерой вариации статистической переменной, поэтому они не дают полного представления о характере распределения отклонений от нормы. Полную картину вариации переменной дают кривые распределения, которые могут выражаться в двух видах: дифференциальной, часто называемой кривой повторяемости, и интегральной, именуемой кривой обеспеченности.
П.3.3.2 Под обеспеченностью понимается вероятность превышения заданного значения статистической переменной, что символически записывается как , или вероятность непревышения заданного значения переменной, что запишется как .
Последнее понятие чаще всего употребляется применительно к погрешностям прогноза и, в частности, при сравнении их с допустимой погрешностью.
П.3.3.3 Дифференциальная кривая распределения дает представление о частоте (повторяемости) появления определенных значений статистической переменной. Интегральная кривая распределения представляет собой результат интегрирования дифференциальной кривой и дает возможность определить как вероятность (обеспеченность) появления определенного значения переменной в заданном интервале , так и вероятность (обеспеченность) превышения заданных значений или .
Построение кривых распределения может быть выполнено для любой статистической переменной, в том числе и для отклонения от нормы, при наличии ряда наблюдений. Такие кривые получили название эмпирических кривых распределения.
П.3.3.4 Обеспеченность данного значения переменной в процентах вычисляется по формуле
, (П.14)
где m - порядковый номер члена ряда, расположенного в убывающем порядке;
n - общее число членов ряда.
П.3.3.6 Имея обеспеченность превышения, легко вычислить также обеспеченность непревышения данного значения переменной по формуле
. (П.15)
Пример кривой обеспеченности непревышения - кривая 2 на рисунке П.6.
П.3.3.7 Построение эмпирической кривой повторяемости проще всего выполняется путем графического дифференцирования кривой обеспеченности (рисунок П.7).
Вертикальная шкала графика на рисунке П.7 разбивается горизонтальными линиями на ряд произвольных небольших одинаковых интервалов . Из точек пересечения этих линий с кривой опускаются перпендикуляры, дающие на оси абсцисс приращения , которые и являются вероятностью появления переменной в заданном интервале. Откладывая эти величины от вертикальной оси, получаем ступенчатый график распределения повторяемости, или гистограмму. Плавное соединение столбиков гистограммы дает непрерывную эмпирическую кривую распределения.
П.3.3.8 Распределение повторяемости можно получить и непосредственно из ряда эмпирических значений статистической переменной. Для этого амплитуда переменной разбивается на ряд одинаковых интервалов. После этого подсчитывается число попаданий значений переменной в каждый из этих интервалов. Делением числа попаданий на общее число членов ряда переменной получают искомую вероятность попадания переменной в данный интервал. Пример подсчета повторяемости и обеспеченности отклонений уровня моря от нормы приведен в таблице П.4.
Такого рода интегральные распределения необходимы, в частности, для оценки эффективности метода прогноза.
Эмпирическое распределение дает картину вариации статистической переменной лишь в пределах того ряда, по которому установлено это распределение.
Таблица П.4 - Пример расчета повторяемости и обеспеченности отклонения уровня моря от нормы
Интервал отклонений, см |
Повторяемость отклонений |
Обеспеченность попадания отклонения в заданный интервал |
Обеспеченность превышения заданного отклонения |
|||||
Число случаев |
% |
Интервал, см |
Число случаев |
% |
Отклонение, см |
Число случаев |
% |
|
От 141 до 80 |
2 |
5 |
12 |
30 |
140 |
2 |
5 |
|
От 101 до 140 |
2 |
5 |
26 |
65 |
100 |
4 |
10 |
|
От 61 до 100 |
4 |
10 |
34 |
85 |
60 |
8 |
20 |
|
От 21 до 60 |
6 |
15 |
38 |
95 |
20 |
14 |
35 |
|
От -21 до 20 |
12 |
30 |
40 |
100 |
-20 |
26 |
65 |
|
От -61 до -20 |
8 |
20 |
- |
- |
- |
-60 |
34 |
85 |
От -101 до 60 |
4 |
10 |
- |
- |
- |
-100 |
38 |
95 |
От -140 до -100 |
2 |
5 |
- |
- |
- |
-140 |
40 |
100 |
П.4 Теоретические функции распределения
П.4.1 Общие положения
П.4.1.1 В практике исследований и расчетов различных случайных величин и явлений используют различные кривые распределения.
Выбор той или иной теоретической кривой как математической модели, описывающей непериодический колебательный процесс, может быть перспективным, если она будет удовлетворять основным свойствам эмпирических кривых распределения, а также практическим требованиям. Соответствие теоретических кривых распределения, или обеспеченности, эмпирическим кривым устанавливается путем сопоставления при построении их на совмещенных графиках.
С этой целью исследуются общие характеристики эмпирических кривых распределения или частоты, которые строятся по материалам наблюдений.
П.4.1.2 При применении корреляционного анализа в практике морских гидрологических прогнозов часто приходится иметь дело со сравнительно короткими рядами эмпирических данных. Поэтому достоверность эмпирических кривых распределения оценивается по отношению к теоретическому распределению для неограниченной длины ряда. Наиболее широкое применение получило так называемое нормальное распределение (или закон Гаусса), хотя в практике морских гидрологических прогнозов приходится применять и другие виды распределений, например: биноминальное распределение, экспоненциальное распределение, распределение Стьюдента и др.
П.4.2 Нормальный закон распределения
П.4.2.1 Закон нормального распределения случайной величины наиболее часто используется при разработке методов прогнозов и оценки их качества. Главная особенность закона нормального распределения состоит в том, что он является предельным законом, к которому, при определенных условиях, приближаются другие законы распределения.
П.4.2.2 Дифференциальная функция нормального распределения описывается уравнением
, (П.16)
где - заданное отклонение от нормы, равно ;
- среднее квадратичное отклонение от нормы.
Нормальное распределение является симметричным, что подтверждается равной вероятностью равных по абсолютному значению положительных и отрицательных отклонений от нормы.
П.4.2.3 Кривая нормального распределения, часто именуемая кривой Гаусса, показана на рисунке П.8.
Кривая Гаусса имеет максимум при x=a и две точки перегиба при ; при и при кривая асимптотически стремится к оси x.
П.4.2.4 Основные свойства нормального распределения сводятся к следующему.
П.4.2.4.1 Расстояние от средней до точки перегиба равно среднему квадратичному отклонению .
Р.4.2.4.2# Между и находится 68% общей площади под кривой.
Р.4.2.4.3# Вероятная ошибка, определенная из условия, что половина площади под нормальной кривой лежит в пределах и равна .
Р.4.2.4.4# 95% площади под кривой заключено примерно между и , т.е. между и .
П.4.2.5 Вероятность того, что случайная величина Х, распределенная по нормальному закону, отклонится от математического ожидания M(X)=a не более, чем на величину , равна
. (П.17)
П.4.2.6 Вероятность того, что нормально распределенная случайная величина Х отклонится от M(X)=a на равна
, (П.18)
, (П.19)
. (П20)
Отсюда следует правило : если случайная величина Х имеет нормальное распределение, то отклонение этой величины от ее математического ожидания по абсолютной величине не превышает утроенное среднее квадратичное отклонение .
П.4.2.7 Вероятность того, что переменная попадет в заданный интервал, определяется путем интегрирования уравнения (П.16).
Таблица значений вероятности дается в справочниках (под названием интеграла вероятности Гаусса) для различных значений отклонения переменной от нормы, выраженной в долях среднего квадратичного отклонения . Некоторые характерные значения вероятности для различных значений даны в таблице П.5.
Таблица П.5 - Характерные значения вероятности для различных значений
|
Значения вероятности при |
|||||||
0,015 |
0,125 |
0,260 |
0,355 |
0,525 |
0,674 |
0,842 |
0,935 |
|
0,010 |
0,100 |
0,200 |
0,300 |
0,400 |
0,500 |
0,600 |
0,650 |
|
0,505 |
0,550 |
0,600 |
0,650 |
0,700 |
0,750 |
0,800 |
0,825 |
|
0,495 |
0,450 |
0,400 |
0,350 |
0,300 |
0,250 |
0,200 |
0,175 |
|
|
1,000 |
1,035 |
1,150 |
1,280 |
1,440 |
1,640 |
1,960 |
2,580 |
0,684 |
0,700 |
0,750 |
0,800 |
0,850 |
0,900 |
0,950 |
0,990 |
|
0,158 |
0,850 |
0,875 |
0,900 |
0,925 |
0,950 |
0,975 |
0,995 |
|
0,842 |
0,150 |
0,125 |
0,100 |
0,075 |
0,050 |
0,025 |
0,005 |
П.4.2.8 Отклонение от нормы, равное , принято называть вероятным отклонением. Обеспеченность вероятного отклонения при нормальном распределении будет равна
. (П.21)
П.4.2.9 Зная вероятность (обеспеченность) отклонений от нормы , легко перейти к вероятности превышения крайних в данном диапазоне значений переменной. Так как нормальное распределение симметрично, то обеспеченность верхнего предела диапазона вычисляется из соотношения
, (П.22)
а обеспеченность нижнего предела из соотношения
. (П.23)
Пример - обеспеченность попадания значения переменной в диапазон будет равна
.
Обеспеченность верхнего предела этого диапазона составляет
.
Обеспеченность нижнего предела равна
.
Таким образом, зная интегральное распределение вероятности отклонений от нормы , легко перейти к распределению обеспеченности самих значений переменной.
П.4.3 Биномиальное распределение
П.4.3.1 Биномиальное распределение применяется, когда речь идет о двух возможных исходах, при этом, если нормальное распределение является непрерывным, то биномиальное распределение дает вероятности только в дискретных точках. Для этого точки биномиального распределения рассматриваются как средние точки в градациях. Например, точка 35 в биномиальном распределении отражает градацию 34,5-35,5 в нормальном. Формула для биномиального распределения имеет вид
. (П.24)
П.4.3.2 Среднее квадратичное отклонение для биномиального распределения равно . Биномиальное распределение особенно быстро приближается к нормальному распределению, когда P=1 - P=0,5. В этом случае распределение можно считать нормальным уже при N>25. Для несимметричного распределения величина должна превышать 9, чтобы нормальное распределение хорошо его описывало. Аппроксимация биномиального распределения нормальным при достаточно большом N сильно упрощает расчеты.
П.4.3.3 Распределение Пуассона
П.4.3.3.1 Распределение Пуассона представляет предел биномиального распределения, когда вероятность некоторого события P мала при условии, что ожидаемое число событий постоянно. Вероятность того, что редкое событие произойдет в данный период x раз, выражается формулой
, (П.25)
где x - целое число;
- ожидаемое число событий в данный период.
В данном случае является как средним значением, так и дисперсией для распределения частот и оценивается из выборки путем вычисления как среднего числа появления данного события за прошедший период той же продолжительности.
Предполагается, что (или ) имеет порядок единицы.
Пример - Известно, что в Махачкале в среднем за год наблюдается 5 случаев со штормовым нагоном. Какова вероятность того, что за год произойдет только один нагон?
В этом случае и x=1 и вероятность равна:
.
П.4.3.4 Распределение Пирсона
П.4.3.4.1 Пусть одинаково распределенные по нормальному закону случайные величины, являющиеся взаимонезависимыми, для которых математическое ожидание равно нулю, а среднеквадратичное отклонение равно 1, тогда сумма квадратов этих случайных величин носит название случайной величины - хи-квадрат с n степенями свободы:
. (П.26)
Дифференциальная функция распределения задается формулой:
, (П.27)
где - гамма функция Эйлера.
П.4.3.4.2 Критические точки - распределения Пирсона приведены в таблице П.6.
Таблица П.6
n |
Критические точки при уровне значимости |
|||||
0,20 |
0,10 |
0,05 |
0,02 |
0,01 |
0,001 |
|
1 |
1,642 |
2,706 |
3,841 |
5,412 |
6,635 |
10,827 |
2 |
3,219 |
4,605 |
5,991 |
7,824 |
9,210 |
13,815 |
3 |
4,642 |
6,251 |
7,815 |
9,837 |
11,345 |
16,266 |
4 |
5,989 |
7,779 |
9,488 |
11,668 |
13,277 |
18,467 |
5 |
7,289 |
9,236 |
11,070 |
13,388 |
15,086 |
20,515 |
6 |
8,558 |
10,645 |
12,592 |
15,033 |
16,812 |
22,457 |
7 |
9,803 |
12,017 |
14,067 |
16,622 |
18,475 |
24,322 |
8 |
11,030 |
13,362 |
15,507 |
18,168 |
20,090 |
26,125 |
9 |
12,242 |
14,684 |
16,919 |
19,679 |
21,666 |
27,877 |
10 |
13,442 |
15,987 |
18,307 |
21,161 |
23,209 |
29,588 |
11 |
14,631 |
17,275 |
19,675 |
22,618 |
24,725 |
31,264 |
12 |
15,812 |
18,549 |
21,026 |
24,054 |
26,217 |
32,909 |
13 |
16,985 |
19,812 |
22,362 |
25,472 |
27,688 |
34,528 |
14 |
8,151 |
21,064 |
23,685 |
26,783 |
29,141 |
36,123 |
15 |
19,311 |
22,307 |
24,996 |
28,259 |
30,578 |
37,697 |
16 |
20,465 |
23,542 |
26,296 |
29,633 |
32,000 |
39,252 |
17 |
21,615 |
24,769 |
27,587 |
30,995 |
33,409 |
40,790 |
18 |
22,760 |
25,989 |
28,869 |
32,346 |
34,805 |
42,312 |
19 |
23,900 |
27,204 |
30,144 |
33,687 |
36,191 |
43,820 |
20 |
25,038 |
28,412 |
31,410 |
35,020 |
37,566 |
45,315 |
21 |
26,171 |
29,615 |
32,671 |
36,343 |
38,932 |
46,797 |
22 |
27,301 |
30,813 |
33,924 |
37,659 |
40,289 |
48,268 |
23 |
28,429 |
32,007 |
35,172 |
38,968 |
41,638 |
49,728 |
24 |
29,553 |
33,196 |
36,415 |
40,270 |
42,980 |
51,179 |
25 |
30,675 |
34,382 |
37,652 |
41,566 |
44,314 |
52,620 |
26 |
31,795 |
35,563 |
38,885 |
42,856 |
45,642 |
54,052 |
27 |
32,912 |
36,741 |
40,113 |
44,140 |
46,963 |
55,476 |
28 |
34,027 |
37,916 |
41,337 |
45,419 |
48,278 |
56,893 |
29 |
35,139 |
39,087 |
42,557 |
46,693 |
49,588 |
58,302 |
30 |
36,250 |
40,256 |
43,773 |
47,962 |
50,892 |
59,703 |
П.4.3.5 Распределение Стьюдента
П.4.3.5.1 Это распределение имеет важное значение при статистических вычислениях, связанных с нормальным законом распределения, где - неизвестный параметр распределения, который приходится оценивать из относительно небольших выборок данных. Безразмерная величина t называется распределением Стьюдента и определяется по формуле
. (П.28)
Распределение Стьюдента не зависит от в силу его безразмерности.
Дифференциальная функция f(t) - распределения с k степенями свободы имеет вид
, (П.29)
где t стремится к нормальному закону распределения быстрее, чем .
П.4.3.5.2 Критические точки t - распределения Стьюдента приведены в таблице П.7.
Таблица П.7
Число степеней свободы (n-1) |
Значения критерия Стьюдента при уровне значимости (двухсторонняя критическая область) |
||||
0,1 |
0,05 |
0,02 |
0,01 |
0,001 |
|
1 |
6,314 |
12,706 |
31,821 |
63,657 |
636,619 |
2 |
2,920 |
4,303 |
6,965 |
9,925 |
31,598 |
3 |
2,353 |
3,182 |
4,541 |
5,841 |
12,924 |
4 |
2,132 |
2,776 |
3,747 |
4,604 |
8,610 |
5 |
2,015 |
2,571 |
3,365 |
4,032 |
6,869 |
6 |
1,943 |
2,447 |
3,143 |
3,707 |
5,959 |
7 |
1,895 |
2,365 |
2,998 |
3,499 |
5,408 |
8 |
1,860 |
2,306 |
2,896 |
3,355 |
5,041 |
9 |
1,833 |
2,262 |
2,821 |
3,250 |
4,781 |
10 |
1,812 |
2,228 |
2,764 |
3,169 |
4,587 |
11 |
1,796 |
2,201 |
2,718 |
3,106 |
4,437 |
12 |
1,782 |
2,179 |
2,681 |
3,055 |
4,318 |
13 |
1,771 |
2,160 |
2,650 |
3,012 |
4,221 |
14 |
1,761 |
2,145 |
2,624 |
2,977 |
4,140 |
15 |
1,753 |
2,131 |
2,602 |
2,947 |
4,073 |
16 |
1,746 |
2,120 |
2,583 |
2,921 |
4,015 |
17 |
1,740 |
2,110 |
2,567 |
2,898 |
3,965 |
18 |
1,734 |
2,101 |
2,552 |
2,878 |
3,922 |
19 |
1,729 |
2,093 |
2,539 |
2,861 |
3,883 |
20 |
1,725 |
2,086 |
2,528 |
2,845 |
3,850 |
21 |
1,721 |
2,080 |
2,518 |
2,831 |
3,819 |
22 |
1,717 |
2,074 |
2,508 |
2,819 |
3,792 |
23 |
1,714 |
2,069 |
2,500 |
2,807 |
3,768 |
24 |
1,711 |
2,064 |
2,492 |
2,797 |
3,745 |
25 |
1,708 |
2,060 |
2,485 |
2,787 |
3,725 |
26 |
1,706 |
2,056 |
2,479 |
2,779 |
3,707 |
27 |
1,703 |
2,052 |
2,473 |
2,771 |
3,690 |
28 |
1,701 |
2,048 |
2,467 |
2,763 |
3,674 |
29 |
1,699 |
2,045 |
2,462 |
2,756 |
3,659 |
30 |
1,697 |
2,042 |
2,457 |
2,750 |
3,646 |
40 |
1,684 |
2,021 |
2,423 |
2,704 |
3,551 |
50 |
1,676 |
2,009 |
2,403 |
2,678 |
3,496 |
60 |
1,671 |
2,000 |
2,390 |
2,660 |
3,460 |
80 |
1,664 |
1,990 |
2,374 |
2,639 |
3,416 |
100 |
1,660 |
1,984 |
2,364 |
2,626 |
3,390 |
120 |
1,658 |
1,980 |
2,358 |
2,617 |
3,374 |
150 |
1,655 |
1,976 |
2,352 |
2,609 |
3,357 |
200 |
1,652 |
1,972 |
2,345 |
2,601 |
3,340 |
300 |
1,650 |
1,968 |
2,339 |
2,592 |
3,323 |
500 |
1,648 |
1,965 |
2,334 |
2,586 |
3,310 |
П.5 Методы графического и аналитического выражения зависимостей, линейная корреляция между ними
П.5.1 Корреляционно-регрессионный анализ
П.5.1.1 Корреляционно-регрессионный анализ выполняется в следующей последовательности:
- исходя из целей и задач исследования зависимости устанавливаются результативный (y) и факторные переменные (предиктант и предикторы);
- по данным наблюдений формируются ряды значений этих переменных;
- обосновывается модель уравнения регрессии для случая парной зависимости обычно графическим способом;
- методом наименьших квадратов определяются параметры уравнения регрессии;
- определяется теснота связи между изучаемыми переменными;
- оценивается значимость уравнения связи, его параметров и показателей тесноты связи.
П.5.1.2 Когда проведен первичный физический анализ явления, подлежащий предсказанию, и установлены определяющие его факторы, приступают к построению зависимостей между числовыми характеристиками, как предсказываемого явления, так и тех факторов, которые эти явления определяют.
П.5.1.3 Построение зависимости сводится к расчету эмпирических коэффициентов линейной корреляции с двумя или более переменными. После того как зависимость построена проверяется ее применимость для прогноза в конкретных физико-географических условиях. При этом может быть установлено, что зависимость применима без каких-либо уточнений. Но может оказаться, что для ее применения в данных конкретных условиях необходимо уточнить коэффициенты. Наконец, может быть установлено, что зависимость, дававшая хорошие результаты при применении ее в других условиях, в данном случае совершенно не применима.
П.5.1.4 Аналитическим выражением статистической связи служит уравнение регрессии, т. е. такое уравнение, применение которого при составлении прогноза давало бы наименьшие ошибки между вычисленными и фактическими величинами.
При анализе связи между двумя переменными одну из переменных, например x, принято считать независимой, а другую, y, зависимой. Иногда x называют предиктором, а y - предиктантом. На практике предиктор обычно основан на данных наблюдений. Но это могут быть данные, полученные и расчетным путем.
П.5.1.5 Простейшим случаем является линейная связь между двумя переменными x и y:
. (П.30)
Данное уравнение будет хорошо удовлетворять исходным данным. Прямую, выражающую эту зависимость можно провести на глаз так, чтобы она как можно ближе проходила около средних значений и при условии, что x нанесено по горизонтали, а y - по вертикали.
П.5.1.6 Наиболее удовлетворительным способом получения наилучшей для целей прогноза прямой является способ наименьших квадратов, с помощью которого определяются коэффициенты в линейном уравнении (П.30). Подобранную с помощью метода наименьших квадратов прямую называют линией регрессии. Согласно определению, сумма квадратов отклонений отдельных величин y от значений, которые предсказываются с помощью линии регресс, является минимальной.
П.5.1.7 Применяемые в морских гидрологических прогнозах статистические связи являются приближенными, они характеризуются типом, теснотой, реальностью и устойчивостью во времени.
П.5.1.7.1 Тип связи характеризует степень изменения функции при изменении аргумента. По данному признаку статистические связи подразделяются на линейные и нелинейные (рисунок П.9).
П.5.1.7.2 Теснота связи обычно оценивается коэффициентом корреляции r, реальность связи удобно определять по соотношению коэффициента корреляции и его вероятного отклонения .
П.5.1.7.3 Необходимой характеристикой любой прогностической зависимости следует считать устойчивость во времени, под которой понимают изменение тесноты и реальности связи при изменении продолжительности ряда наблюдений.
П.5.1.8 Наиболее простым видом связи между переменными является функциональная зависимость, когда каждому значению одной величины x соответствует вполне определенное значение другой величины y.
П.5.1.9 При исследовании связей между физическими явлениями в море на основе натурных наблюдений чаще приходится иметь дело не с функциональными зависимостями, а с корреляционными. В этом случае каждому значению одной величины соответствует множество возможных значений другой величины. Разброс этих возможных значений носит случайный характер и объясняется, с одной стороны, неточностью наблюдений, а с другой - не учетом большого числа влияющих второстепенных факторов.
П.5.1.10 Чтобы оценить характер связи между величинами x и y, строится корреляционный график, на котором по оси ординат откладываются значения y, а по оси абсцисс - значения x. На графике значениям x и y наносится поле точек, характер распределения которых наглядно показывает не только вид зависимости, но и тесноту (меру) их связи. По тому, как рассеяны точки на графике, во многих случаях можно заранее оценить пригодность зависимости для прогностических целей, не прибегая к сложным вычислениям.
Когда на графике имеется большое количество точек, то для проведения линии связи можно все точки разбить на группы и для каждой группы подсчитать средние значения величин x и y, которые затем нанести на график. Затем по нанесенным точкам плавно проводится линия связи.
Р.5.1.11# Точность полученной прогностической линии связи может быть оценена путем сопоставления рассчитанных по этой связи значений величин y с данными фактических наблюдений. Для этого строят еще один график, на котором по оси ординат откладывают данные фактических наблюдений, а по оси абсцисс - данные, полученные по прогностической связи. Если линия связи будет представлять собой прямую, проходящую через начало координат, а угол наклона ее будет составлять примерно 45° с осью абсцисс, то прогностический график построен правильно; в противном случае его необходимо уточнить, путем подключения второстепенных неучтенных факторов и построить новый график связи.
Обычно проверка прогностической связи производится не на том ряде наблюдений, на основании которых построена связь, а на независимом ряде. Поэтому при построении прогностических зависимостей используют не весь имеющийся ряд наблюдений, а только часть его с тем, чтобы полученную связь можно было проверить на наблюдениях, не вошедших в ряд наблюдений, использованных для построения прогностической зависимости. Это делается для того, чтобы оценить устойчивость связи во времени.
После того, как полученная зависимость удовлетворяет исследователя, он находит количественное или аналитическое выражение этой связи, т.е. определяет количественную характеристику тесноты связи - коэффициент корреляции и вид уравнения.
П.5.1.12 Меру зависимости между величинами при линейной регрессии характеризует безразмерный коэффициент корреляции r, который по абсолютной величине не превосходит единицы:
.
П.5.1.12.1 Коэффициент корреляции характеризует меру уклонения корреляционной связи от линей функциональной связи. Он может иметь значения от минус 1 до плюс 1. Значения минус 1 и плюс 1 будут в случае точной линейной функциональной зависимости между величинами. При r=0 связь отсутствует в том смысле, что среднее значение каждой величины не зависит от значений другой величины. Коэффициент корреляции есть число отвлеченное, не зависящее ни от начала отсчета u и v, ни от единиц измерения.
П.5.1.12.2 Равенство коэффициента корреляции нулю означает отсутствие линейной зависимости, но не исключает зависимости нелинейной. Чем ближе абсолютная величина коэффициента корреляции к единице, тем теснее линейная зависимость между величинами. Равенство коэффициента корреляции единице означает наличие линейной функциональной зависимости между величинами x и y.
П.5.1.12.3 Методы линейной корреляции применимы только в тех случаях, когда связь между величинами x и y линейна, т.е. представляет прямую линию. При нелинейной связи применяют другие методы.
П.5.1.12.4 Коэффициент корреляции не изменяется при изменении начала отсчета и масштаба измерения величин x и y. Это позволяет существенно упростить вычисления с помощью выбора удобного начала отсчета и подходящих единиц масштаба. Коэффициент корреляции и уравнение регрессии приближенно можно найти по корреляционному графику и более точно - путем вычислений по методу наименьших квадратов.
В первом случае коэффициент корреляции выражается через угловые коэффициенты регрессии. На рисунке П.10 изображены две линии регрессии, уравнения которых имеют вид
, (П.31)
.
Направления этих прямых определяются коэффициентами регрессии:
; .
П.5.1.12.5 В общем случае корреляционной связи эти две прямые линии регрессии не совпадают. Они совпадут, если зависимость между x и y будет функциональной, т.е. угол между прямыми линиями будет равен нулю. По величине угла можно судить о тесноте связи между x и y: при увеличении угла , связь ухудшается, а при уменьшении угла связь приближается к функциональной.
При совпадении прямых линий x(y) и y(x), т.е. :
.
При отсутствии связи между величинами x и y:
.
Коэффициент корреляции r служит мерой тесноты связи:
. (П.32)
Так как , , то
. (П.33)
П.5.1.13 Оценка достоверности и значимости коэффициента корреляции
П.5.1.13.1 Рассмотрим способы оценки коэффициентов корреляции в случаях, когда коэффициент корреляции маленький , а ряд большой (n>30-40). Для этого используется следующая формула
. (П.34)
Отсюда видно, что чем больше значения r и n, тем меньше ошибка коэффициента корреляции.
Если , то можно уверенно утверждать, что искомый коэффициент корреляции надежен и достоверно отражает связь между переменными.
П.5.1.13.2 Для оценки генерального коэффициента корреляции строятся доверительные интервалы на основе t - статистики Стьюдента
, (П.35)
где - критерий Стьюдента при уровне значимости и числе степеней свободы .
П.5.1.13.3 Оценка значимости коэффициента корреляции осуществляется на основе нулевой гипотезы, которая в этом случае выбирается относительно проверки r на равенство нулю, т.е. при . Коэффициент корреляции считается значимым, если он отличается от нуля неслучайным образом, т.е. его величина существенно выше (прямая связь) или ниже (обратная связь) нуля. Для проверки нулевой гипотезы используется критерий Стьюдента в виде . Затем осуществляется проверка неравенства . Если данное неравенство выполняется, то нулевая гипотеза отвергается и делается вывод, что коэффициент корреляции значим. Если же оно не выполняется, то есть основания полагать, что коэффициент корреляции незначим, т.е. отклоняется от нуля случайным образом.
П.5.1.13.4 В том случае, если распределение коэффициентов корреляции является резко асимметричным, т.е. когда коэффициент корреляции большой , а ряд маленький точность коэффициента корреляции оценивается с помощью преобразования Фишера, основанного на использовании специальной переменной z, функционально связанной с r следующим выражением
. (П.36)
Значения величины z для значений коэффициентов корреляции r от 0,00 до 0,99 приведены в таблице П.8.
Таблица П.8 - Значения величины z для значений коэффициентов корреляции r
r |
0,00 |
0,01 |
0,02 |
0,03 |
0,04 |
0,05 |
0,06 |
0,07 |
0,08 |
0,09 |
0,0 |
0,000 |
0,010 |
0,020 |
0,030 |
0,040 |
0,050 |
0,060 |
0,070 |
0,080 |
0,090 |
0,1 |
0,100 |
0,110 |
0,121 |
0,131 |
0,141 |
0,151 |
0,161 |
0,172 |
0,182 |
0,192 |
0,2 |
0,203 |
0,213 |
0,224 |
0,234 |
0,245 |
0,255 |
0,266 |
0,277 |
0,288 |
0,299 |
0,3 |
0,309 |
0,321 |
0,332 |
0,343 |
0,354 |
0,365 |
0,377 |
0,388 |
0,400 |
0,412 |
0,4 |
0,424 |
0,436 |
0,448 |
0,460 |
0,472 |
0,485 |
0,497 |
0,510 |
0,523 |
0,536 |
0,5 |
0,549 |
0,563 |
0,576 |
0,590 |
0,604 |
0,618 |
0,633 |
0,647 |
0,662 |
0,678 |
0,6 |
0,693 |
0,709 |
0,725 |
0,741 |
0,758 |
0,775 |
0,793 |
0,811 |
0,829 |
0,848 |
0,7 |
0,867 |
0,887 |
0,908 |
0,929 |
0,950 |
1,973 |
0,996 |
1,020 |
1,045 |
1,071 |
0,8 |
1,099 |
1,127 |
1,157 |
1,188 |
1,221 |
1,256 |
1,293 |
1,333 |
1,376 |
1,422 |
0,9 |
1,472 |
1,527 |
1,589 |
1,658 |
1,738 |
1,832 |
1,946 |
2,092 |
2,298 |
2,647 |
П.5.2 Построение уравнений регрессии и оценка их надежности
П.5.2.1 Выбор предикторов
П.5.2.1.1 Построению прогностического уравнения регрессии предшествует процедура отбора наиболее информативных предикторов из числа предварительно выбранных предикторов, исходя из общих физических соображений. От удачного выбора предикторов часто зависит надежность построенной связи. Поэтому выбор оптимального количества предикторов важен при построении корреляционных связей. Часто излишне большое число предикторов не улучшает качество метода, а только увеличивает объем вычислений.
Основная цель выбора предикторов (аргументов) - как можно полнее описать те свойства гидрометеорологических процессов, которые несут информацию о будущем значении функции предиктанта. Сама эта информация выражается посредством уравнения регрессии, построенного по данным выборки.
П.5.2.1.2 Всякий раз, когда это возможно, предикторы следует выбирать на основании физических соображений. Однако только одних физических соображений для выбора предикторов бывает недостаточно.
П.5.2.1.3 Выбор наилучших предикторов зависит от разрабатываемого метода. Для каждого предиктанта, возможно, существуют свои наилучшие предикторы. Например, известно, что изменения температуры воды поверхностного и деятельного слоев, образования льда в море, а также таяние ледяного покрова являются следствием непостоянства теплового баланса. Однако прогнозист не всегда располагает данными о составляющих теплового баланса. В этом случае для прогноза этих процессов, используется некоторый параметр, косвенно связанный с тепловым балансом. В качестве такого параметра часто используется сумма положительных или отрицательных температур воздуха, а адвекция тепла течениями учитывается косвенно с помощью количественных характеристик, характеризующих атмосферную циркуляцию.
П.5.2.1.4 Другой важный вопрос возникает при определении числа предикторов. Трудно установить оптимальное число предикторов. Оно зависит как от характеристик переменной, так и от характера взаимосвязи, которую необходимо установить. Компьютерные программы сильно упрощают эту задачу. Они позволяют по специальной методике перебрать большое количество комбинаций различных предикторов и выбрать среди них наиболее оптимальный вариант.
Число предикторов должно быть намного меньше длины ряда наблюдений. Насколько именно меньше, зависит от сложности метода прогноза. Если прогноз дается с помощью линейных уравнений, то может быть использовано сравнительно большое количество предикторов. Число предикторов в уравнении регрессии ориентировочно должно составлять 0,1-0,2 от объема выборки. Обычно число предикторов в уравнении регрессии не должно превосходить десяти. О числе предикторов можно судить по изолиниям, представляющим собой графическое изображение уравнения регрессии. Чем проще конфигурация изолиний, тем большее число предикторов можно использовать.
П.5.2.1.5 Выбор наиболее информативных предикторов осуществляется способом "просеивания" с помощью метода пошаговой линейной множественной корреляции. Процедура представляет собой стандартное просеивание по максимуму прироста множественного коэффициента корреляции.
П.5.2.1.5.1 На первом шаге строится уравнение регрессии со всеми предикторами и выбирается предиктор, которому соответствует наибольший общий (сводный) коэффициент корреляции. На втором шаге проводится полный перебор всех предикторов из числа оставшихся после первого шага и выбирается второй предиктор, которому соответствует наибольший общий коэффициент корреляции.
П.5.2.1.5.2 Для окончательного принятия решения о включении очередного предиктора в уравнении регрессии или об ограничении числа предикторов можно использовать показатель
, (П.37)
где n - объем выборки, по которой оценивается корреляция всех предикторов с предиктантом;
k - число ранее отобранных предикторов;
- соответственно квадрат множественного коэффициента корреляции при учете (k) и (k -1)-го предикторов.
Эта процедура прекращается, если прирост коэффициента корреляции на очередном шаге будет минимальным.
П.5.2.1.6 Отбор наиболее информативных предикторов также удобно произвести с помощью построения ковариационной матрицы.
П.5.2.2 Нахождение уравнений связи по способу наименьших квадратов
П.5.2.2.1 Аналитическим выражением статистической связи служит уравнение регрессии вида (П.30). Метод наименьших квадратов является наиболее приемлемым для этой цели. Многие задачи гидрометеорологии, в которых применяется метод наименьших квадратов, заключается в определении коэффициентов линейного уравнения регрессии вида
. (П.38)
Выражение (П.38) есть функция неизвестных параметров a и b.
П.5.2.2.2 Для оценки параметров a и b применяется метод наименьших квадратов, согласно которому отклонения фактически измеренных величин от рассчитанных по уравнению регрессии будут стремиться к минимуму, т.е.
. (П.39)
Чтобы значение суммы в (П.39) достигло минимума, параметры a и b нужно определить из системы уравнений, приравняв к нулю частные производные по переменным а и b от суммы (П.39). В результате указанных действий для определения параметров а и b получим систему из двух уравнений
, (П.40)
, (П.41)
где суммы берутся по всем членам выборки.
Решая эту систему уравнений относительно a и b, находим
, (П.42)
. (П.43)
Параметр a называется коэффициентом регрессии, его можно привести к виду
, (П.44)
где r - коэффициент корреляции между переменными x и y, который можно вычислить по формуле
. (П.45)
П.5.2.2.4 Средние ошибки уравнений регрессии вычисляются по формуле
. (П.47)
Чем ближе к единице, тем меньше средняя погрешность уравнения регрессии. В таблице П.9 приведен порядок расчета параметров уравнения регрессии.
Таблица П.9
Порядковый номер |
Проверка |
||||||||
1 |
|||||||||
2 |
|||||||||
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
n |
|||||||||
|
|
|
П.5.2.2.5 Пользуясь графическими способами, предварительно устанавливают характер связи и в зависимости от этого выбирают приемы вычислений. В случае линейной связи двух переменных по имеющимся рядам наблюдений величин y и x составляется таблица П.9, по данным которой вычисляются основные параметры: средние , среднеквадратичные отклонения и коэффициент корреляции.
Для вычисления указанных параметров используются известные формулы
; ; ; ; ; ,
где E - вероятное отклонение r. Значение r меняется от 0 до 1.
П.5.2.2.6 Более упрощенный порядок расчета параметров уравнения регрессии для двух переменных (с вычислением отклонений от нормы) приведен в таблице П.10.
Таблица П.10
Порядковый номер |
|||||||
1 |
|||||||
2 |
|||||||
... |
... |
... |
... |
... |
... |
... |
... |
n |
|||||||
Сумма |
0 |
0 |
|
||||
Среднее |
- |
- |
|
Далее рассчитывают среднее квадратичное отклонение и и коэффициент корреляции .
П.5.2.3 Множественная корреляция
П.5.2.3.1 Если найденное уравнение для двух переменных оказалось ненадежным, то в этом случае находится дополнительный влияющий фактор z и анализируется зависимость вида
. (П.48)
П.5.2.3.2 Для определения степени связности трех переменных и нахождения коэффициентов уравнения а, b, c составляется корреляционная таблица для трех переменных и определяются основные параметры
;
;
.
Коэффициенты корреляции между функцией и аргументирующими факторами носят названия главных коэффициентов.
П.5.2.3.2.1 Средние, средние квадратичные отклонения и частные коэффициенты корреляции вычисляются по формулам
; ; ; (П.49)
; ; . (П.50)
; ; .
П.5.2.3.2.2 Общий коэффициент корреляции рассчитывается по формуле
, (П.51)
а его вероятное отклонение по формуле
. (П.52)
П.5.2.3.2.3 Множественный коэффициент корреляции R по своему численному значению не может быть меньше наибольшего из значений частных коэффициентов корреляции. Эффективность связи трех переменных определяется близостью множественного коэффициента корреляции к единице. Если , то связь между тремя переменными достаточно надежная.
П.5.2.3.2.6 В таблице П.10 показан порядок расчета коэффициента корреляции для трех переменных: в ней находится связь между средней за зиму (декабрь-май) ледовитостью Охотского моря (y), аномалиями атмосферного давления за январь-февраль (x) и июль предшествующего года (z).
Далее с учетом формул (П.49)-(П.52) получаем:
;
;
;
;
;
;
.
Значения коэффициентов уравнения регрессии по результатам таблицы П.10 будут равны:
;
.
Тогда окончательный вид уравнения регрессии получается следующим образом:
.
Таблица П.10 - Схема расчета коэффициента корреляции для трех переменных
Годы |
y |
x |
z |
Погрешность |
||||||||||||
1946 |
54 |
-38 |
-7 |
1 |
-33 |
-5 |
-33 |
-5 |
165 |
1 |
1089 |
25 |
-37 |
1369 |
53 |
1 |
1947 |
60 |
-9 |
-3 |
7 |
-4 |
-1 |
-28 |
-7 |
4 |
49 |
16 |
1 |
2 |
4 |
52 |
8 |
1948 |
46 |
18 |
-1 |
-7 |
23 |
1 |
-161 |
-7 |
23 |
49 |
529 |
1 |
17 |
289 |
49 |
-3 |
1949 |
61 |
-11 |
-1 |
8 |
-6 |
1 |
-48 |
8 |
-6 |
64 |
36 |
1 |
3 |
8 |
56 |
5 |
1950 |
63 |
11 |
0 |
10 |
16 |
2 |
160 |
20 |
32 |
100 |
256 |
4 |
28 |
784 |
52 |
11 |
1951 |
59 |
-19 |
1 |
6 |
-14 |
3 |
-84 |
18 |
-42 |
36 |
196 |
9 |
-5 |
25 |
58 |
1 |
1952 |
43 |
7 |
-4 |
-10 |
12 |
-2 |
-120 |
20 |
-24 |
100 |
144 |
4 |
0 |
0 |
47 |
-4 |
1953 |
54 |
-7 |
-3 |
1 |
-2 |
-1 |
-2 |
-1 |
2 |
1 |
4 |
1 |
-2 |
4 |
52 |
2 |
1954 |
53 |
3 |
1 |
0 |
8 |
3 |
0 |
0 |
24 |
0 |
64 |
9 |
11 |
121 |
54 |
-1 |
1955 |
46 |
-9 |
-3 |
-7 |
-4 |
-1 |
28 |
7 |
4 |
49 |
16 |
1 |
-12 |
144 |
52 |
-6 |
1956 |
41 |
8 |
-4 |
-12 |
13 |
-2 |
-156 |
24 |
-26 |
144 |
169 |
4 |
-1 |
1 |
47 |
-6 |
1957 |
42 |
13 |
-7 |
-11 |
18 |
-5 |
-198 |
55 |
-90 |
121 |
324 |
25 |
2 |
4 |
42 |
0 |
1958 |
53 |
-20 |
-5 |
0 |
-15 |
-3 |
0 |
0 |
45 |
0 |
225 |
9 |
-18 |
324 |
52 |
1 |
1959 |
61 |
-11 |
0 |
8 |
-6 |
2 |
-48 |
16 |
-12 |
64 |
36 |
4 |
4 |
16 |
57 |
4 |
1960 |
60 |
-46 |
-1 |
7 |
-41 |
1 |
-287 |
7 |
-41 |
49 |
1681 |
1 |
-33 |
1089 |
64 |
-4 |
1961 |
59 |
-8 |
0 |
6 |
-3 |
2 |
-18 |
12 |
-6 |
36 |
9 |
4 |
5 |
25 |
57 |
2 |
1962 |
47 |
0 |
-2 |
-6 |
5 |
0 |
-30 |
0 |
0 |
36 |
25 |
0 |
-1 |
1 |
52 |
-5 |
1963 |
45 |
-2 |
-4 |
-8 |
3 |
-2 |
-24 |
16 |
-6 |
64 |
9 |
4 |
-7 |
49 |
49 |
-4 |
1964 |
48 |
14 |
-3 |
-5 |
19 |
-1 |
-95 |
5 |
-19 |
25 |
361 |
1 |
13 |
169 |
47 |
1 |
1965 |
48 |
20 |
-3 |
-5 |
25 |
-1 |
-125 |
5 |
-25 |
25 |
625 |
1 |
19 |
361 |
46 |
2 |
1966 |
54 |
-11 |
-3 |
1 |
-6 |
-1 |
-6 |
-1 |
6 |
1 |
36 |
1 |
-6 |
36 |
53 |
1 |
1967 |
64 |
-21 |
3 |
11 |
-16 |
5 |
-176 |
55 |
-80 |
121 |
256 |
25 |
0 |
0 |
64 |
0 |
1968 |
49 |
-1 |
-6 |
-4 |
4 |
-4 |
-16 |
16 |
-16 |
16 |
16 |
16 |
-4 |
16 |
46 |
3 |
1969 |
55 |
-5 |
-1 |
2 |
0 |
1 |
0 |
2 |
0 |
4 |
0 |
1 |
3 |
9 |
54 |
1 |
1970 |
53 |
-11 |
-3 |
0 |
-6 |
-1 |
0 |
0 |
6 |
0 |
36 |
1 |
-7 |
49 |
53 |
0 |
1971 |
52 |
-6 |
2 |
-1 |
-1 |
4 |
1 |
-4 |
-4 |
1 |
1 |
16 |
2 |
4 |
59 |
-7 |
1370 |
-141 |
-57 |
|
|
|
-1466 |
261 |
-86 |
1156 |
6159 |
|
|
4902 |
|
|
|
N=22 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Среднее |
53 |
-5 |
-2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
П.5.2.3.3 Другой способ определения коэффициента корреляции состоит в вычислении ковариации cov(x, y) величин x и y по формуле
, (П.55)
где - повторяемость каждой пары значений x и y.
В этом случае коэффициент корреляции равен
. (П.56)
Ковариацию можно вычислить по более удобной формуле
. (П.57)
Используя эту формулу, можно вычислить среднеквадратичные отклонения и по формулам
, (П.58)
, (П.59)
где и - частоты соответствующих значений x и y.
П.5.2.4 Оценка надежности уравнения регрессии
П.5.2.4.1 На основе результатов вычислений по выше приведенным формулам решается вопрос о целесообразности дальнейших вычислений. Первоначально определяется надежность связи.
Связь считается достаточно надежной, если коэффициент корреляции достаточно велик и, кроме того, если он не менее чем в 6-10 раз больше своего вероятного отклонения .
Необходимость вычисления критерия надежности обусловлена тем, что не всегда высокий коэффициент корреляции является показателем надежности корреляционной связи. Так при коротких рядах наблюдений высокий коэффициент корреляции иногда является лишь результатом случайного совпадения. Ряд считается достаточно длинным, если вероятное отклонение E, являющееся функцией числа наблюдений, достаточно мало, т.е. . Если это неравенство не соблюдается, то ряд необходимо увеличить.
Как известно, корреляционные связи надежно работают относительно короткое время в силу их эмпиричности, т.е. они неустойчивы во времени. Существует два способа проверки устойчивости связи. Первый способ заключается в следующем. Весь ряд наблюдений разбивается на две примерно равные части и для каждой из них отдельно вычисляют коэффициенты корреляции ( и ) и соответствующие вероятные отклонения и . Если модальная разность между коэффициентами корреляции не превосходит суммы их вероятных ошибок, т.е. если выполняется соотношение
,
то связь устойчива.
Второй способ проверки надежности связи заключается в сравнении коэффициентов корреляции двух частей исходного ряда с коэффициентом корреляции всего ряда. Если их значения и не выходят за пределы значений коэффициента корреляции всего ряда, то связь считается устойчивой.
П.5.2.4.2 Мерой точности корреляционной связи является средняя квадратичная ошибка, часто называемой стандартной ошибкой. Средняя квадратичная ошибка вычисляется по тем же данным, на основании которых установлена сама корреляционная связь по формуле
, (П.60)
где - отклонение эмпирических точек от линии связи.
Вычисленная по формуле (П.60) стандартная ошибка характеризуется дисперсией эмпирических точек относительно линии или кривой связи в целом для данной выборки. Эта ошибка одновременно может служить и мерой точности предвычисленных значений функции по заданным значениям аргумента (аргументов). Однако такой мерой она может служить лишь в том случае, когда определенно известно, что любые новые исходные значения независимой переменной принадлежат к той же генеральной совокупности, для которой справедлива эмпирическая связь, т.е. вполне сравнимы с ранее использованными данными.
Полученная на основании ограниченной выборки стандартная ошибка S отличается от истинного ее значения для всей генеральной совокупности и тем больше, чем меньше объем выборки. Значение средней стандартной ошибки вычисляется по формуле
, (П.61)
где m - число, зависящее от вида уравнения регрессии и равное количеству постоянных величин в нем.
Для линейного уравнения вида y=ax+b число m равно двум. В случае нелинейной зависимости m равно числу констант в уравнении связи (если последнее задано), а при графическом построении кривой, равным числу постоянных такого математического уравнения, которому близка по виду кривая связи.
Увеличение количества переменных в линейном уравнении (П.48) ведет к повышению вероятности значительных изменений постоянных эмпирических коэффициентов по мере увеличения количества членов вариационных рядов.
Достоверность постоянных эмпирических коэффициентов обратно пропорциональна относительному количеству переменных. Так, если количество определяющих факторов равно количеству членов вариационных рядов, достоверность эмпирических коэффициентов приближается к нулю.
П.5.2.4.3 Распределение отклонений эмпирических точек от прямой или кривой линии связи, установленной по способу наименьших квадратов, является, как правило, близким к нормальному распределению. Поэтому при рассмотрении вопросов точности корреляционных связей и точности расчетов по ним исходят из нормального распределения ошибок.
Исходной величиной для определения ошибок различной вероятности является при этом средняя квадратичная ошибка, вычисляемая по формуле (П.57) на основании эмпирических данных. Обеспеченность различных по величине ошибок, выраженных в долях средней квадратичной ошибки, определяется из таблицы интеграла вероятности Гаусса. Ошибку, равную , принято называть вероятной ошибкой. Погрешность прогнозов зависит от изменчивости самого гидрологического явления или величины. Иногда погрешность прогноза выражается в процентном отношении от средней квадратичной ошибки, называемой относительной ошибкой прогноза.
П.5.2.4.4 Степень взаимосвязи между двумя или несколькими статистическими переменными можно охарактеризовать различными показателями. Наиболее простой и то же время универсальной мерой взаимосвязи является корреляционное отношение:
. (П.62)#
Для линейных зависимостей корреляционное отношение численно совпадает с коэффициентом корреляции .
П.5.2.4.5 Зная отношение и пользуясь формулой (П.62) или пользуясь графиком (рисунок П.11) легко определить величину индекса корреляции .
.
Этот график представляет собой четверть окружности с центром в начале координат и радиусом, равным единице.
П.5.2.4.6 Одно из преимуществ корреляционного отношения как меры связи заключается в том, что в его выражение в явном виде входят те величины, которые характеризуют, с одной стороны, природную вариацию переменной относительно нормы , а с другой - точность корреляционной зависимости S. Отношение этих величин характеризует тот выигрыш, который дает расчет перед природным распределением.
Другое преимущество корреляционного отношения заключается в том, что его легко вычислить для любых зависимостей, в том числе и для проводимых на глаз, не прибегая там, где к этому нет необходимости, к трудоемким расчетам уравнений регрессии. Это особенно важно в случаях нелинейных зависимостей.
П.5.2.4.7 Основные свойства корреляционного отношения :
- корреляционное отношение всегда положительно ;
- корреляционное отношение должно быть не менее численного значения соответствующего коэффициента корреляции;
- при зависимость линейна;
- если между y и x корреляционная связь отсутствует, то ; если y связано с x однозначной связью, то (связь между y и x называется однозначной, когда всякому значению x соответствует определенное значение y);
- чем ближе к единице, тем корреляционная связь y с x теснее; чем ближе к нулю, тем эта связь слабее.
П.5.2.4.8 Корреляционное отношение оценивается при помощи приближенного значения его среднего квадратичного отклонения
. (П.63)
Надежность определения коэффициента корреляции и индекса корреляции характеризуется вероятной ошибкой. Она зависит от самого коэффициента корреляции или корреляционного отношения и от длины исходного ряда наблюдений.
Вероятная ошибка коэффициента корреляции r для линейных зависимостей вычисляется по формуле
. (П.64)
Для определения вероятной ошибки общего коэффициента множественной корреляции R используется формула
. (П.65)
При этом обеспеченность непревышения вероятной ошибки равна 50%. Для определения других значений обеспеченностей в формулах (П.64) и (П.65) вместо величины 0,674 необходимо подставить соответствующее значение , взятое из таблицы П.5.
Надежность уравнения регрессии или положения графически проведенной прямой связи зависит от того, с какой ошибкой определяется этот коэффициент. Вероятная ошибка определения углового коэффициента вычисляется по формуле
. (П.66)
Вероятная ошибка положений прямой регрессии в любой заданной части корреляционного поля определяется по формуле
. (П.67)
П.5.2.4.9 Формула (П.67) позволяет вычислить границы, в которых с вероятностью 50% находится истинная линия связи.
Как видно из формулы (П.67) и рисунка П.12, точность определения положения линии связи уменьшается по мере увеличения отклонения от нормы.
П.5.2.5 Расчет постоянных эмпирических коэффициентов для линейной корреляции со многими переменными
П.5.2.5.1 Расчет постоянных эмпирических коэффициентов осуществляется пошагово.
П.5.2.5.2. Составляется таблица исходных данных (таблица П.11).
П.5.2.5.3. Подсчитывается сумма значений членов каждого вариационного ряда и определяется среднее арифметическое значение.
П.5.2.5.4. Рассчитывается среднее квадратичное отклонение всех вариационных рядов по формуле
. (П.68)
П.5.2.5.5. Подсчитываются суммы произведений соответствующих членов двух вариационных рядов для всех возможных сочетаний их них.
Таблица П.11
Год |
Значения исходных данных |
||||
u |
x |
y |
z |
u+x+y+z |
|
1943 |
70,5 |
-12,1 |
4,5 |
36 |
123,1 |
1944 |
18,6 |
-15,0 |
-19,6 |
27 |
11,0 |
1945 |
41,4 |
-1,8 |
-13,6 |
25 |
51,0 |
1946 |
38,3 |
-4,0 |
-8,3 |
11 |
37,0 |
1947 |
52,1 |
14,5 |
-23,7 |
44 |
86,9 |
1948 |
18,8 |
-3,3 |
-16,6 |
26 |
24,9 |
1949 |
43,9 |
1,4 |
-11,0 |
24 |
58,3 |
1950 |
26,9 |
-1,5 |
-15,7 |
18 |
27,7 |
1951 |
20,4 |
-3,0 |
-22,1 |
22 |
17,3 |
1952 |
40,8 |
4,9 |
-13,2 |
10 |
42,5 |
1953 |
25,7 |
8,9 |
-21,6 |
12 |
25,0 |
1954 |
39,4 |
7,4 |
-15,1 |
12 |
43,7 |
1955 |
68,3 |
22,8 |
-3,6 |
31 |
118,5 |
1956 |
68,5 |
18,9 |
-2,9 |
51 |
135,5 |
1957 |
45,6 |
-3,3 |
-16,7 |
39 |
64,6 |
1958 |
20,0 |
-3,5 |
-21,8 |
18 |
12,7 |
1959 |
36,0 |
-3,2 |
-8,7 |
7 |
31,1 |
1960 |
32,3 |
9,7 |
-11,2 |
7 |
37,8 |
707,5 |
62,0 |
-240,9 |
420 |
948.6 |
|
39,3 |
3,4 |
-13,4 |
23,3 |
|
|
32685,17 |
1787,50 |
4196,85 |
12660 |
75355.64 |
|
1815,84 |
99,31 |
233,16 |
703,33 |
|
П.5.2.5.6. На этом этапе вычислений имеется возможность проверить полученные результаты по формуле
П.5.2.5.7. После проверки определяются средние значения сумм произведений соответствующих членов двух вариационных рядов для всех возможных сочетаний из них.
П.5.2.5.8. Расчет частных коэффициентов корреляции двух вариационных рядов для всех сочетаний из них производится по формуле
, (П.69)
при этом расчет достаточно производить до четвертого знака после запятой.
П.5.2.5.9. Составляется система уравнений для расчета коэффициентов по формулам
(I)
Расчет коэффициентов осуществляется по схеме
Расчет постоянных коэффициентов:
;
.
.
Формирование уравнений:
;
;
.
П.5.2.5.10. Справа от системы уравнений в столбце с индексом записывается для каждой строки алгебраическая сумма численных значений всех коэффициентов и свободного члена со знаком, соответствующим его переносу в правую часть.
П.5.2.5.11. В столбце с индексом m записывается для каждой строки множитель m, который определяется как взятое с обратным знаком частное от деления каждого численного коэффициента последнего столбца системы уравнений на коэффициент в этом же последнем столбце последней (нижней) строки. Таким образом, каждой строке уравнений соответствует свой множитель m.
П.5.2.5.12 Производится сокращение последнего члена в уравнении каждой строки следующим образом:
- индекс m первой строки умножается на свободный член в левой части последней строки;
- произведение индекса m первой строки и свободного члена последней строки алгебраически складывается со свободным членом в левой части первой строки;
- полученный результат записывается под исходной системой уравнений (I) как свободный член в левой части первой строки вновь формируемой системы уравнений (II);
- таким же образом поступают с численными коэффициентами при : множитель m первой строки умножается на коэффициент при в последней строке, и это произведение складывается с коэффициентом при в первой строке, а результат записывается как численный коэффициент при a в правой части первой строки вновь формируемой системы уравнений (II);
- аналогично определяются новые численные значения при следующих коэффициентах вновь формируемой правой части первой строки преобразованной системы уравнений (II);
- естественно, что согласно определению множителя m и последующих операций с ним для последнего члена первой строки вновь полученный численный коэффициент должен быть равен нулю. Таким образом, происходит освобождение от одного члена;
П.5.2.5.13 После формирования первой строки новой системы уравнений производится проверка, которая состоит в следующем:
- коэффициент m первой строки умножается на значение суммы последней строки, и произведение алгебраически складывается со значением суммы первой строки;
- результат записывается в аналогичный столбец и индексом для преобразованной системы уравнений (II) соответственно в первой строке над чертой. Под чертой записывается сумма численных значений всех коэффициентов и свободного члена со знаком, соответствующим его переносу в правую часть.
П.5.2.5.14 Эти величины (над и под чертой) должны совпадать, расхождения не должны превышать предела ошибок округления. Аналогичным образом формируются следующие строки преобразований системы уравнений (II):
- естественно, что при этом полностью исключается последняя строка исходной системы уравнений;
- далее, определив соответствующие множители m для каждой строки преобразованной системы уравнений (II), как взятое с обратным знаком частное от деления каждого численного коэффициента при последнем члене каждой строки на таковой в последней строке, и производя действия, изложенные в пунктах , освобождаемся еще от одного столбца и одной строки;
- подобные преобразования производятся для приведения исходной системы уравнений (II) к одному уравнению с одним неизвестным .
Из последнего уравнения с одним неизвестным определяется величина .
П.5.2.5.15 Значения других коэффициентов определяют обратным ходом, используя при этом для расчетов уравнения с наибольшим численным значением при определяемом коэффициенте:
а) ;
;
;
;
; ; ;
; ; ;
б) проверка:
;
; ; ;
; ; ;
в) расчет коэффициентов корреляции:
;
;
;
;
;
.
После определения коэффициентов вычисляются постоянные эмпирические коэффициенты , b, c в установленном типе зависимости
; ; .
Затем составляется искомое уравнение
П.5.2.6 Определение погрешности прогноза различной вероятности и представление ее в виде кривой обеспеченности
П.5.2.6.1 Ошибка прогноза не зависит от предсказываемой величины, а ее распределение близко к нормальному распределению. В этом случае ошибка прогноза заданной обеспеченности будет равна
, (П.70)
где - средняя квадратичная ошибка прогноза, - нормированное отклонение, соответствующее заданной обеспеченности.
П.5.2.6.2 Ожидаемое значение заданной обеспеченности определяется по формуле
, (П.71)
где I' - среднее значение ожидаемой величины, снятое с графика связи или вычисленное согласно методике прогноза.
П.5.2.6.3 В качестве примера приведен рисунок П.13, где показан график связи между суммой отрицательных температур воздуха в Баренцбурге с ледовитостью Баренцева моря. На рисунке видно, что погрешность прогноза не зависит от предсказываемой величины, а разброс погрешностей близок к нормальному распределению.
Исходные данные для построения этой связи приведены в таблице П.12. Средняя квадратичная ошибка связи, подсчитанная по таблице П.12, будет равна
.
Средняя квадратичная ошибка прогноза принимается равной средней квадратичной ошибке связи S, так как поправка за счет неточности проведения связи при числе членов 25 мала и в расчет не принимается.
По средней квадратичной ошибке прогноза и, пользуясь таблицей нормированных отклонений , можно определить ошибку прогноза и ожидаемые значения различной обеспеченности. Для рассмотренного примера такой расчет сделан в таблице П.13 при двух значениях исходных данных: x = -80° и x = -35°.
Таблица П.12
Порядковый номер |
Год |
Сумма температур воздуха в Баренцбурге x, °С |
Ледовитость Баренцева моря y, %, |
Ледовитость Баренцева моря по прогнозу y', %, |
y-y` |
|
1 |
1934 |
-42,7 |
36 |
28 |
8 |
64 |
2 |
1935 |
-47,7 |
28 |
30 |
-2 |
4 |
3 |
1936 |
-40,5 |
20 |
27 |
-7 |
49 |
4 |
1937 |
-35,6 |
23 |
24 |
-1 |
1 |
5 |
1938 |
-30,5 |
27 |
22 |
5 |
25 |
6 |
1939 |
-49,1 |
34 |
31 |
3 |
9 |
7 |
1940 |
-64,6 |
38 |
38 |
0 |
0 |
8 |
1941 |
-78,5 |
43 |
44 |
-1 |
1 |
9 |
1942 |
-87,5 |
40 |
48 |
-8 |
64 |
10 |
1943 |
-55,9 |
30 |
38 |
-8 |
64 |
11 |
1944 |
-45,0 |
30 |
29 |
1 |
1 |
12 |
1945 |
-66,5 |
31 |
39 |
-8 |
64 |
13 |
1946 |
-44,9 |
31 |
29 |
2 |
4 |
14 |
1947 |
-60,9 |
33 |
36 |
-3 |
9 |
15 |
1948 |
-58,0 |
31 |
35 |
-4 |
16 |
16 |
1949 |
-40,1 |
29 |
26 |
3 |
9 |
17 |
1950 |
-43,1 |
32 |
28 |
4 |
16 |
18 |
1951 |
-68,4 |
36 |
39 |
-3 |
9 |
19 |
1952 |
-56,2 |
27 |
34 |
-7 |
49 |
20 |
1953 |
-26,0 |
18 |
20 |
-2 |
4 |
21 |
1954 |
-58,3 |
29 |
35 |
-6 |
36 |
22 |
1955 |
-55,8 |
36 |
38 |
-2 |
4 |
23 |
1956 |
-32,7 |
27 |
23 |
4 |
16 |
24 |
1957 |
-39,4 |
32 |
26 |
6 |
36 |
25 |
1958 |
-59,2 |
35 |
35 |
0 |
0 |
|
|
|
|
|
|
Таблица П.13
|
Ошибка прогноза при обеспеченности, % |
||||||
5 |
10 |
25 |
50 |
75 |
90 |
95 |
|
1,64 |
1,28 |
0,674 |
0,0 |
-0,674 |
1,28 |
-1,64 |
|
8,0 |
6,3 |
3,3 |
0,0 |
-3,3 |
-6,3 |
-8,0 |
|
При x=-80° |
48,0 |
46,3 |
43,3 |
40,0 |
36,7 |
337 |
32,0 |
При x=-35° |
33,0 |
31,3 |
28,3 |
25,0 |
21,7 |
18,7 |
17,0 |
Графическое изображение прогноза в виде кривой обеспеченности представлено на рисунке П.14.
П.6 Анализ внутренней структуры временных рядов
П.6.1. Задачи статистического анализа временного ряда
П.6.1.1 Статистический анализ временного ряда состоит в следующем:
- изучить основные свойства временного ряда;
- оценить изменчивость и характеристики его периодических и непериодических колебаний;
- разделить исходный временной ряд на периодические и непериодические компоненты и изучить каждую из компонент в отдельности.
П.6.1.2 При применении статистических методов необходимо соблюдение ряда условий. Исходные ряды наблюдений должны быть стационарными, нормальными, локально однородными и обладать свойством эргодичности.
Известно, что в общем случае временные ряды гидрометеорологических наблюдений являются нестационарными. Это связано, в первую очередь, с годовым, сезонным и суточным ходом многих элементов, а также с возможными колебаниями и изменениями климата. Всякая нестационарность должна быть заранее исключена. Существенным требованием к переменным, используемым в качестве предиктанта и предикторов, является соблюдение постоянства сдвига во времени наблюдений для любой пары реализаций.
П.6.1.3 Выполнение перечисленных выше условий позволяет случайный процесс описать с помощью нескольких наиболее информативных статистических характеристик: математического ожидания (средней), дисперсии, автокорреляционной функции и функции спектральной плотности.
П.6.2 Метод выделения периодических колебаний
П.6.2.1 Используется корреляционно-спектральный метод. Гармонический анализ Фурье является наиболее распространенным методом анализа, применяемого для исследования периодического ряда. Такой анализ дает возможность понять физическую сущность периодических флуктуаций. Первая (или основная) гармоника имеет период, равный длине всего исследуемого периода. Вторая гармоника имеет период, равный половине основного, третья имеет период, равный одной трети основного и m д. Различные гармоники выделяются таким образом, чтобы каждую из них можно было рассматривать независимо от других и объяснять ее физические причины. Однако каждая гармоника в отдельности не обязательно имеет отчетливый физический смысл.
Остаток временного ряда после исключения из исходного ряда периодических колебаний называется непериодическим временным рядом.
П.6.2.2 Влияние короткопериодных флуктуаций может быть в значительной степени исключено с помощью применения методики скользящих средних или скользящих сумм. Если, например, ряд состоит из 100 средних годовых значений , то этот ряд можно заменить другим, состоящим из членов:
,
,
...,
.
Такой ряд получается существенно более сглаженным.
П.6.3 Исключение тренда
П.6.3.1 Медленное, постепенное изменение случайной переменной в течение анализируемого периода называется трендом. Тренд никогда не длится бесконечно, а скорее является частью колебаний, длительность которых сравнима с периодом рассматриваемого ряда. Тренд может быть выделен и проанализирован с помощью метода наименьших квадратов. В простейшем случае тренд можно принять линейным. Наклон линии регрессии этого тренда задается формулой:
. (П.72)
Черта обозначает осреднение. Если наклон тренда рассчитан, то можно записать уравнение для прямой, описывающей тренд, в виде линии проходящей через точку . Тогда уравнение тренда примет вид
. (П.73)
П.6.3.2 Прежде чем рассчитывать тренд, следует убедиться, что временной ряд однородный. Не следует пользоваться трендами для прогнозов. Попытки составления прогнозов, основанных на экстраполяции трендов, оказались безуспешными. Тренды описывают только поведение переменной в прошлом и могут прекратиться в любой момент времени.
Если тренд характеризуется определенной кривизной, к нему можно применить метод наименьших квадратов. Пусть тренд имеет параболический вид, описываемый формулой
. (П.74)
Тогда коэффициенты a, b и c можно получить, решив систему уравнений
,
, (П.75)
.
П.6.3.3 Расчеты могут быть упрощены, если начало системы отсчета времени выбрать в центре временного ряда. В этом случае члены с и исчезают. Как и в случае линейного ряда, параболический ряд не может быть точно экстраполирован. Наконец, для описания тренда можно с помощью метода наименьших квадратов подобрать синусоидальную кривую. Однако в этом случае формула будет такой же, что и при гармоническом анализе.
П.6.4 Проверка на стационарность
П.6.4.1 Термин "стационарность" означает, что, несмотря на кажущуюся хаотичность ряда, определенные статистические характеристики будут оставаться постоянными от одного периода к другому (на протяжении всего временного ряда).
П.6.4.2 Наиболее простой способ оценивания стационарности реализации заключается в рассмотрении физической природы процесса, которому эта реализация принадлежит. Если основные физические факторы, определяющие процесс не зависят от времени, то можно полагать изучаемый процесс стационарным. Для проверки на стационарность используют разные способы - от визуального просмотра реализаций опытным специалистом до детального статистического оценивания различных параметров процесса. В любом случае, если исследователь намеревается установить стационарность процесса по отдельной реализации, он должен сделать существенные допущения.
П.6.4.3 Нестационарность процесса характеризуется наличием тренда. Основной процедурой сведения к стационарности является выделение тренда. Для этого можно применить три метода:
а) метод регрессионного анализа. Он позволяет построить математическую модель, которая наиболее полно описывает функциональный вид тренда;
б) метод скользящих средних. Если априорная информация о характере тренда отсутствует, то для его удаления используют метод скользящих средних. Этот метод основан на представлении нестационарной части временного ряда a(t) в виде последовательности средних значений исходного ряда, вычисленных на коротком временном интервале, центр которого "скользит" вдоль всего ряда. Далее вычитанием из исходного ряда осуществляется переход к стационарной последовательности
. (П.76)
П.6.5 Проверка на нормальность
П.6.5.1 При изучении эмпирических распределений, отличных от нормального распределения, возникает необходимость количественно оценить это различие. Часто для этой цели используется третий и четвертый моменты - коэффициент асимметрии и коэффициент эксцесса. Предположение о нормальности позволяет существенно упростить аналитические исследования свойств случайного процесса (не содержащего периодических составляющих), поэтому желательно предварительно проверить гипотезу о нормальности случайного процесса.
П.6.5.2 Наиболее простой путь проверить, подчиняется ли реализация стационарного случайного процесса нормальному закону, построить по эмпирическим данным кривую плотности вероятности значений процесса и сравнить ее с кривой теоретического нормального распределения. Если длина реализации достаточно велика и ошибки измерений малы по сравнению с отклонениями функции от нормальной кривой, то несоответствие ее нормальному распределению будет очевидной.
П.6.6 Корреляционно-спектральный анализ временных рядов
П.6.6.1 Автокорреляционная функция
П.6.6.1.1 Изучение внутренней структуры временного ряда осуществляется с помощью метода спектрального анализа. Он основан на автокорреляционной функции. Автокорреляционная функция означает корреляцию параметра с самим собой. Иными словами, коэффициенты автокорреляции являются обычными коэффициентами линейной корреляции между двумя последовательными значениями ряда. Если наблюдатель видит ряд синусоидальных волн, то он может совершенно определенно сказать о колебания в различные моменты времени, но если наблюдается случайный процесс, то нельзя быть уверенным о форме волны в будущем. Наиболее вероятной ожидаемой величиной в этом случае является средняя арифметическая величина из числа наблюдений. Оценить колебательный процесс можно, если скоррелировать колебания поверхности воды в момент и .
П.6.6.1.2 Для практических целей коэффициент автокорреляции определяется по формуле
. (П.77)
Интервал l называется запаздыванием (лагом). Если l=0, то . По мере увеличения l коэффициент автокорреляции уменьшается и может даже стать отрицательным. Это может означать, например, что если сегодня температура выше нормы, то через определенное время она, вероятно, станет ниже нормы. Кореллограмма может использоваться для оценки наиболее важных периодов временных рядов. Ясно, что такая информация обладает определенной прогностической ценностью. Зависимость между r и l представляется коррелограммой. Типичный вид коррелограммы представлен на рисунке П.15.
П.6.6.2 Свойства автокорреляционной функции
П.6.6.2.2 Величина автокорреляции при представляет собой средний квадрат флуктуации поверхности воды
. (П.79)
П.6.6.2.3 Величина автокорреляции при равна нулю, если наблюденное явление содержит непериодическую компоненту.
Следует также отметить, что если процесс случаен, то корреляция между данными измерений в моменты t и стремится к бесконечно малой величине по мере увеличения .
П.6.6.2.4 Энергетический спектр представляет трансформацию Фурье автокорреляционной функции
. (П.80)
Тогда по определению
. (П.81)
При
, (П.82)
т.е. площадь под кривой Ф(k) представляет средний квадрат величины . Площадь какого-либо элемента Ф(k) представляет средний квадрат вклада дисперсии в интервале . Функция Ф(k) представляет вариацию плотности частоты спектра . Иногда ее называют энергетическим спектром или просто спектром процесса .
П.6.6.2.5 Функция спектральной плотности годовых приращений среднего уровня Каспийского моря, соответствующая автокорреляционной функции, показанной на рисунке П.15, представлена на рисунке П.16.
Причина названия энергетического спектра следует из следующего определения
. (П.83)
Если (t) записать в виде
, (П.84)
а затем возвести в квадрат и осреднить правую часть уравнения (П.81), получим
. (П.85)
Это означает, что средняя энергия на единицу длины и единицу гребня линейной (малой амплитуды) волны можно записать в виде:
, (П.86)
где h - высота волны, равная удвоенной амплитуде волны .
П.6.7 Методы сглаживания рядов
П.6.7.1 Наличие достаточно существенных случайных колебаний переменной затрудняет выявление закономерностей их временного хода, выражающихся в форме длинно-периодных циклов изменения годовых значений исследуемой переменной. Для выделения таких циклов применяют различные способы сглаживания или фильтрации исходных рядов наблюдений.
П.6.7.2 Одним из наиболее простых способов является расчет скользящей средней арифметической. Различают скользящее среднее, построенное по предыдущим точкам наблюденного ряда и центрированное скользящее среднее. В центрированном сглаживании данные усредняются слева и справа от выбранной точки. Хотя такой вид сглаживания более обоснован, он имеет недостаток: сигнал о смене тенденции существенно запаздывает во времени.
Пусть наблюдается ряд значений: x(1), x(2), x(3), ..., x(k) . Простейшее скользящее среднее устроено следующим образом: берется текущая точка x(1) , соответствующая значению x(t), предыдущие значения x(t-1), x(t-2)...x(t-k+1) и строится новое усредненное значение , по определению полагаемое равным
.
Далее точка x(1) сдвигается вправо на 1 шаг, скользит по временной шкале, вновь производится усреднение k значений ряда и т. д.
Временной ряд, по которому производится усреднение, называется окном. Это положительное число, больше единицы.
П.6.7.3 Рассмотрим это на примере многолетнего ряда годовых приращений уровня Каспийского моря. Сглаживание осуществляется по формуле
, (П.87)
где - сглаженные колебания годовых приращений уровня Каспийского моря; - годовые приращения (i = 1,2,3,..., n); n - число членов ряда; T - интервал осреднения.
Естественно, чем больше период сглаживания, тем больше уменьшается амплитуда высокочастотных (малой продолжительности) колебаний и, следовательно, более четко могут быть представлены колебания низких частот. Однако при этом происходит сдвиг фаз осредненных колебаний по сравнению с исходным рядом вплоть до противоположного; причем этот сдвиг фазовых колебаний зависит как от периода сглаживания T , так и от частотного спектра исходного ряда.
Для исключения или уменьшения смещения фаз осредненных величин по сравнению с исходными данными применяются другие способы сглаживания. Например, способ последовательного парного осреднения членов ряда, при котором весовые коэффициенты симметрично убывают от центрального члена осреднения и представляют собой биноминальные коэффициенты:
,
,
,
,
,
......,
Таким образом, отмеченная фильтрация выражается формулой
, (П.88)
где - сглаженные колебания годовых приращений уровня моря; - годовое приращение уровня от i=1 до i=n (n - число членов ряда); T - интервал осреднения; - весовые коэффициенты.
Следует отметить, что сглаживание с использованием данного фильтра равносильно применению способа последовательного парного осреднения членов исходного ряда.
П.6.8 Гармонический анализ
П.6.8.1 Применение математических способов разложения волновых движений в тригонометрический ряд с помощью метода Фурье дает особенно плодотворные результаты при разработке методов морских гидрологических прогнозов. Он позволяет волны сложного вида представлять в виде суммы простых синусоидальных волн. Всякое периодическое колебательное движение может быть разложено на конечное или бесконечное число синусоидальных волн с однократным, двукратным, трехкратным и т.д. к-кратным периодом и с произвольным смещением фаз. Отдельные колебательные движения называются "гармоническими" колебаниями, причем первое колебательное движение называется также "основным колебанием" ("основной тон"), а прочие - "дополнительными колебаниями" ("обертона").
П.6.8.2 Периодическая функция может быть представлена в виде
. (П.89)
Если положить
и , (П.90)
то получим
(П.91)
В такой форме ряд Фурье чаще всего и употребляется. Умножая уравнение (П.91) на и интегрируя в пределах от 0 до , получим
. (П.92)
Откуда
. (П.93)
При k=0 это соотношение дает удвоенное значение члена, зависящего от в уравнении (П.91) и, соответственно, в (П.93), поэтому перед этим членом стоит множитель 1/2.
. (П.94)
Умножая уравнение (П.91) на и интегрируя в пределах от 0 до , находим
. (П.95)
Таким образом, коэффициенты, входящие в уравнение (П.91), определяются при помощи соотношений (П.93) - (П.95)
. (П.96)
П.6.8.3 Для случая, если кривая задана графически, определяется непосредственно значение ординаты кривой. Остальные коэффициенты могут быть определены аналитическим или графическим способами.
Один из способов заключается в следующем. Отрезок делится на 2m равных частей с координатами . Затем коэффициенты и вычисляются методом наименьших квадратов таким образом, чтобы сумма квадратов ошибок была наименьшей, причем под "ошибкой" подразумеваются разности между вычисленными при помощи коэффициентов и значениями и значениями , полученными при помощи наблюдений.
В этом случае сумма должна иметь наименьшее значение. Из равенств
и
будем иметь
, (П.97)
. (П.98)
Пример - Пусть отрезок разделен на 2m=24 равные части. Значения r соответствующих ординат даны в первом столбце таблиц П.14 и П.15. Если r заданы как , то эти значения должны быть умножены соответственно на и . Эти величины приведены в таблицах П.14 и П.15.
Таблица П.14
r |
Значение при k |
Значение при k |
|||||||
1 |
2 |
3 |
4 |
1 |
2 |
3 |
4 |
||
1 |
-4150 |
0,966 |
0,866 |
0,707 |
0,500 |
-4010 |
-3595 |
-2935 |
-2075 |
2 |
-300 |
0,866 |
0,500 |
0 |
-0,500 |
-260 |
-150 |
0 |
150 |
3 |
3250 |
0,707 |
0 |
-0,707 |
-1 |
2300 |
0 |
-2300 |
-3250 |
4 |
7000 |
0,500 |
-0,500 |
-1 |
-0,500 |
3500 |
-3500 |
-7000 |
-3500 |
5 |
7450 |
0,259 |
-0,866 |
-0,707 |
0,500 |
1930 |
-6450 |
-5265 |
3725 |
6 |
4300 |
0 |
-1 |
0 |
1 |
0 |
-4300 |
0 |
4300 |
7 |
2750 |
-0,259 |
-0.866 |
0,707 |
0,500 |
-710 |
-2380 |
1945 |
1375 |
8 |
0 |
-0,500 |
-0,500 |
1 |
-0,500 |
0 |
0 |
0 |
0 |
9 |
-2650 |
-0,707 |
0 |
0,707 |
-1 |
1875 |
0 |
-1875 |
2650 |
10 |
-5200 |
-0,866 |
0,500 |
0 |
-0,500 |
4505 |
-2600 |
0 |
2600 |
11 |
-7700 |
-0,966 |
0,866 |
-0,707 |
0,500 |
7440 |
-6670 |
5445 |
-3850 |
12 |
-7400 |
-1 |
1 |
-1 |
1 |
7400 |
-7400 |
7400 |
-7400 |
13 |
-4850 |
-0.966 |
0,866 |
-0,707 |
0,500 |
4685 |
-4200 |
3430 |
-2425 |
14 |
-2250 |
-0,866 |
0,500 |
0 |
-0,500 |
1950 |
-1125 |
0 |
1125 |
15 |
6503 |
-0,707 |
0 |
0,707 |
-1 |
-460 |
0 |
460 |
-650 |
16 |
850 |
-0,500 |
-0,500 |
1 |
-0,500 |
-1925 |
-1925 |
3850 |
-1925 |
17 |
6400 |
-0,259 |
-0,866 |
0,707 |
0,500 |
-1660 |
-5540 |
4525 |
3200 |
18 |
7600 |
0 |
-1 |
0 |
1 |
0 |
-7600 |
0 |
7600 |
19 |
6800 |
0,259 |
-0,866 |
-0,707 |
0,500 |
1760 |
-5890 |
-4810 |
3400 |
20 |
4500 |
0,500 |
-0,500 |
-1 |
-0,500 |
-2250 |
-2250 |
-4500 |
-2250 |
21 |
2300 |
0,707 |
0 |
-0,707 |
-1 |
1625 |
0 |
-1625 |
-2300 |
22 |
250 |
0,866 |
0,500 |
0 |
-0,500 |
215 |
125 |
0 |
-125 |
23 |
-5150 |
0,966 |
0,866 |
0,707 |
0,500 |
-4975 |
-4460 |
-3640 |
-2575 |
24 |
-7200 |
1 |
1 |
1 |
1 |
-7200 |
-7200 |
-7200 |
-7200 |
|
|
|
|
|
|
20235 |
-77110 |
-14095 |
-9400 |
Таблица П.15
r |
Значение при k |
Значение при k |
|||||||
1 |
2 |
3 |
4 |
1 |
2 |
3 |
4 |
||
1 |
-4150 |
0,259 |
0,500 |
0,707 |
0,866 |
-1075 |
-2075 |
-2935 |
-3595 |
2 |
300 |
0,500 |
0,866 |
1 |
0,866 |
-150 |
260 |
-300 |
-260 |
3 |
3250 |
0,707 |
1 |
0,707 |
0 |
2300 |
3250 |
2300 |
0 |
4 |
7000 |
0,866 |
0,866 |
0 |
-0,866 |
6060 |
6060 |
0 |
-6060 |
5 |
7450 |
0,966 |
0,500 |
-0,707 |
-0,866 |
7195 |
3725 |
-5265 |
-6450 |
6 |
4300 |
1 |
0 |
1 |
0 |
4300 |
0 |
-4300 |
0 |
7 |
2750 |
0.966 |
-0,500 |
-0,707 |
-0,866 |
2655 |
-1375 |
-1945 |
-2380 |
8 |
0 |
0,866 |
-0,866 |
0 |
-0,866 |
0 |
0 |
0 |
0 |
9 |
2650 |
0,707 |
-1 |
0,707 |
0 |
-1875 |
2650 |
-1875 |
0 |
10 |
-5200 |
0,500 |
-0,866 |
1 |
0,866 |
-2600 |
4505 |
-5200 |
-4505 |
11 |
-7700 |
0,259 |
-0,500 |
0,707 |
0,866 |
-1995 |
3850 |
-5445 |
-6670 |
12 |
-7400 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
13 |
-4850 |
-0,259 |
0,500 |
-0,707 |
-0,866 |
1255 |
-2425 |
3430 |
4200 |
14 |
-2250 |
-0,500 |
0,866 |
-1 |
-0,866 |
1125 |
-1950 |
2250 |
1950 |
15 |
6503 |
-0,707 |
1 |
-0,707 |
0 |
-460 |
650 |
-460 |
0 |
16 |
850 |
-0,866 |
0,866 |
|
0,866 |
-3335 |
3335 |
0 |
3335 |
17 |
6400 |
-0,966 |
0,500 |
0,707 |
0,866 |
-6180 |
3200 |
4525 |
5540 |
18 |
7600 |
-1 |
0 |
1 |
0 |
-7600 |
0 |
7600 |
0 |
19 |
6800 |
0,966 |
-0,500 |
0,707 |
-0,866 |
-6570 |
-3400 |
4810 |
-5890 |
20 |
4500 |
-0,866 |
-0,866 |
0 |
-0,866 |
-3900 |
-3900 |
0 |
-3900 |
21 |
2300 |
-0,707 |
-1 |
-0,707 |
0 |
-1625 |
-2300 |
-1625 |
0 |
22 |
250 |
-0,500 |
-0,866 |
-1 |
0,866 |
-125 |
-215 |
-250 |
215 |
23 |
-5150 |
-0,259 |
-0,500 |
-0,707 |
0,866 |
1335 |
-2575 |
3640 |
-4460 |
24 |
-7200 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
|
|
|
|
|
-11265 |
15900 |
-1045 |
-28930 |
Суммы соответственных произведений, деленные на 12, дают значения коэффициентов и :
; ; ;
; ; ;
.
; ; ;
; ; ;
.
.
.
Чтобы удобнее вычертить кривую, полезно соединить вместе члены, содержащие синус, и члены, содержащие косинус. Из равенства (П.90) следует:
, (П.96)
. (П.97)
Именно угол , как показывает уравнение (П.92), лежит:
- в I четверти, если и ;
- во II четверти, если и ;
- в III четверти, если и ;
- в IV четверти, если и .
Для нашего примера будем иметь:
,
.
Следовательно, разложение в ряд будет иметь вид:
.
П.6.8.4 Из рисунка П.17, где представлены первые четыре гармонические колебания, обозначенные римскими цифрами (I-IV), следует, что гармоническое колебание соответствующее k=2 имеет наибольшее влияние на форму сложной волны. Следующее по важности гармоническое колебание соответствует k=4 . Остальные (k=1 и k=3) имеют меньшие значения. Уже составленное только из них результирующее колебание R имеет лишь незначительные уклонения от исходной кривой T .
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.