Подпишись и читай
самые интересные
статьи первым!

Оценка значимости уравнения множественной регрессии. Оценка существенности параметров линейной регрессии и всего уравнения в целом

Для проверки значимости анализируется отношение коэффициента регрессии и его среднеквадратичного отклонения. Это отношение является распределением Стьюдента, то есть для определения значимости используем t – критерий:

- СКО от остаточной дисперсии;

- сумма отклонений от среднего значения

Если t рас. >t таб. , то коэффициент b i является значимым.

Доверительный интервал определяется по формуле:

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

    Взять исходные данные согласно варианту работы (по номеру студента в журнале). Задан статический объект управления с двумя входами X 1 , X 2 и одним выходом Y . На объекте проведен пассивный эксперимент и получена выборка объемом 30 точек, содержащая значения Х 1 , Х 2 и Y для каждого эксперимента.

    Открыть новый файл в Excel 2007. Ввести исходную информацию в столбцы исходной таблицы - значения входных переменных X 1 , Х 2 и выходной переменной Y .

    Подготовить дополнительно два столбца для ввода расчетных значений Y и остатков.

    Вызвать программу «Регрессия»: Данные/ Анализ данных/ Регрессия.

Рис. 1. Диалоговое окно «Анализ данных».

    Ввести в диалоговое окно «Регрессия» адреса исходных данных:

    входной интервал Y, входной интервал X (2 столбца),

    установить уровень надежности 95%,

    в опции «Выходной интервал, указать левую верхнюю ячейку места вывода данных регрессионного анализа (первую ячейку на 2-странице рабочего листа),

    включить опции «Остатки» и «График остатков»,

    нажать кнопку ОК для запуска регрессионного анализа.

Рис. 2. Диалоговое окно «Регрессия».

    Excel выведет 4 таблицы и 2 графика зависимости остатков от переменных Х1 и Х2 .

    Отформатировать таблицу «Вывод итогов» - расширить столбец с наименованиями выходных данных, сделать во втором столбце 3 значащие цифры после запятой.

    Отформатировать таблицу «Дисперсионный анализ»- сделать удобным для чтения и понимания количество значащих цифр после запятых, сократить наименование переменных и настроить ширину столбцов.

    Отформатировать таблицу коэффициентов уравнения - сократить наименование переменных и скорректировать при необходимости ширину столбцов, сделать удобным для чтения и понимания количество значащих цифр, удалить 2 последних столбца (значения и разметку таблицы).

    Данные из таблицы «Вывод остатка» перенести в подготовленные столбцы исходной таблицы, затем таблицу «Вывод остатка» удалить (опция «специальная вставка»).

    Ввести полученные оценки коэффициентов в исходную таблицу.

    Подтянуть таблицы результатов по максимуму вверх страницы.

    Построить под таблицами диаграммы Y эксп , Y расч и ошибки прогноза (остатка).

    Отформатировать диаграммы остатков. По полученным графикам оценить правильность модели по входам Х1, Х2 .

    Распечатать результаты регрессионного анализа.

    Разобраться с результатами регрессионного анализа.

    Подготовить отчет по работе.

ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫ

Прием выполнения регрессионного анализа в пакете EXCEL представлен на рисунках 3-5.

Рис. 3. Пример регрессионного анализа в пакете EXCEL.


Рис.4 . Графики остатков переменных Х1, Х2

Рис. 5. Графики Y эксп ,Y расч и ошибки прогноза (остатка).

По данным регрессионного анализа можно сказать:

1. Уравнение регрессии полученное с помощью Excel, имеет вид:

    Коэффициент детерминации:

Вариация результата на 46,5% объясняется вариацией факторов.

    Общий F-критерий проверяет гипотезу о статистической значимости уравнения регрессии. Анализ выполняется при сравнении фактического и табличного значения F-критерия Фишера.

Так как фактическое значение превышает табличное
, то делаем вывод, что полученной уравнение регрессии статистически значимо.

    Коэффициент множественной корреляции:

    b 0 :

t таб. (29, 0.975)=2.05

b 0 :

Доверительный интервал:

    Определяем доверительный интервал для коэффициента b 1 :

Проверка значимости коэффициента b 1 :

t рас. >t таб. , коэффициент b 1 является значимым

Доверительный интервал:

    Определяем доверительный интервал для коэффициентаb 2 :

Проверка значимости для коэффициентаb 2 :

Определяем доверительный интервал:

ВАРИАНТЫ ЗАДАНИЙ

Таблица 2. Варианты заданий

№ варианта

Результативный признак Y i

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

№ фактора X i

№ фактора X i

Продолжение таблицы 1

№ варианта

Результативный признак Y i

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

№ фактора X i

№ фактора X i

Таблица 3. Исходные данные

Y 1

Y 2

Y 3

X 1

X 2

X 3

X 4

X 5

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

    Задачи регрессионного анализа.

    Предпосылки регрессионного анализа.

    Основное уравнение дисперсионного анализа.

    Что показывает F- отношение Фишера?

    Как определяется табличное значение критерия Фишера?

    Что показывает коэффициент детерминации?

    Как определить значимость коэффициентов регрессии?

    Как определить доверительный интервал коэффициентов регрессии?

    Как определить расчетные значение t-критерия?

    Как определить табличное значение t-критерия?

    Сформулируйте основную идею дисперсионного анализа, для решения каких задач он наиболее эффективен?

    Каковы основные теоретические предпосылки дисперсионный анализ?

    Произведите разложение общей суммы квадратов отклонений на составляющие в дисперсионном анализе.

    Как получить оценки дисперсий из сумм квадратов отклонений?

    Как получаются необходимые числа степеней свободы?

    Как определяется стандартная ошибка?

    Поясните схему двухфакторного дисперсионного анализа.

    Чем отличается перекрестная классификация от иерархической классификации?

    Чем отличаются сбалансированные данные?

Отчет оформляется в текстовом редакторе Word на бумаге формата А4 ГОСТ 6656-76 (210х297 мм) и содержит:

    Название лабораторной работы.

    Цель работы.

  1. Результаты вычисления.

ВРЕМЯ, ОТВЕДЕННОЕ НА ВЫПОЛНЕНИЕ

ЛАБОРАТОРНОЙ РАБОТЫ

Подготовка к работе – 0,5 акад. часа.

Выполнение работы – 0,5 акад. часа.

Расчеты на ЭВМ – 0,5 акад. часа.

Оформление работы – 0,5 акад. часа.

ЛитЕратура

    Идентификация объектов управления. / А. Д. Семенов, Д. В. Артамонов, А. В. Брюхачев. Учебное пособие. - Пенза: ПГУ, 2003. - 211 с.

    Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTIC и EXCEL. / Вуколов Э.А. Учебное пособие. - М.: ФОРУМ, 2008. - 464 с.

    Основы теории идентификации объектов управления. / А.А. Игнатьев, С.А. Игнатьев. Учебное пособие. - Саратов: СГТУ, 2008. - 44 с.

    Теория вероятности и математическая статистика в примерах и задачах с применением EXCEL. / Г.В. Горелова, И.А. Кацко. - Ростов н/Д: Феникс, 2006.- 475 с.

    Цель работы 2

    Основные понятия 2

    Порядок выполнения работы 6

    Пример выполнения работы 9

    Вопросы для самоконтроля 13

    Время, отведенное на выполнение работы 14

    Оценив параметры a и b , мы получили уравнение регрессии, по которому можно оценить значения y по заданным значениям x . Естественно полагать, что расчетные значения зависимой переменной не будут совпадать с действительными значениями, так как линия регрессии описывает взаимосвязь лишь в среднем, в общем. Отдельные значения рассеяны вокруг нее. Таким образом, надежность получаемых по уравнению регрессии расчетных значений во многом определяется рассеянием наблюдаемых значений вокруг линии регрессии. На практике, как правило, дисперсия ошибок неизвестна и оценивается по наблюдениям одновременно с параметрами регрессии a и b . Вполне логично предположить, что оценка связана с суммой квадратов остатков регрессии. Величина является выборочной оценкой дисперсии возмущений , содержащихся в теоретической модели . Можно показать, что для модели парной регрессии

    где - отклонение фактического значения зависимой переменной от ее расчетного значения.

    Если , то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак у полностью обусловлен влиянием фактора х.

    Обычно на практике имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических . Этот разброс обусловлен как влиянием фактора х , т.е. регрессией y по х , (такую дисперсию называют объясненной, так как она объясняется уравнением регрессии),так и действием прочих причин (необъясненная вариация, случайная). Величина этих отклонений и лежит в основе расчета показателей качества уравнения.

    Согласно основному положению дисперсионного анализа общая сумма квадратов отклонений зависимой переменной y от среднего значения может быть разложена на две составляющие: объясненную уравнением регрессии и необъясненную:

    ,

    где - значения y , вычисленные по уравнению .

    Найдем отношение суммы квадратов отклонений, объясненной уравнением регрессии, к общей сумме квадратов:

    , откуда

    . (7.6)

    Отношение части дисперсии, объясненной уравнением регрессии к общей дисперсии результативного признака называется коэффициентом детерминации . Значение не может превзойти единицы и это максимальное значение будет только достигнуто при , т.е. когда каждое отклонение равно нулю и поэтому все точки диаграммы рассеяния в точности лежат на прямой.

    Коэффициент детерминации характеризует долю объясненной регрессией дисперсии в общей величине дисперсии зависимой переменной. Соответственно величина характеризует долю вариации (дисперсии) у, необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов. Чем ближе к единице, тем выше качество модели.



    При парной линейной регрессии коэффициент детерминации равен квадрату парного линейного коэффициента корреляции: .

    Корень из этого коэффициента детерминации есть коэффициент (индекс) множественной корреляции, или теоретическое корреляционное отношение.

    Для того чтобы узнать, действительно ли полученное при оценке регрессии значение коэффициента детерминации отражает истинную зависимость между y и x выполняют проверку значимости построенного уравнения в целом и отдельных параметров. Проверка значимости уравнения регрессии позволяет узнать, пригодно уравнение регрессии для практического использования, например, для прогноза или нет.

    При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная гипотеза о значимости уравнения - гипотеза о неравенстве нулю параметров регрессии или о неравенстве нулю коэффициента детерминации: .

    Для проверки значимости модели регрессии используют F- критерий Фишера, вычисляемый как отношение суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы):

    , (7.7)

    где k – число независимых переменных.

    После деления числителя и знаменателя соотношения (7.7) на общую сумму квадратов отклонений зависимой переменной, F- критерий может быть эквивалентно выражен на основе коэффициента :

    .

    Если нулевая гипотеза справедлива, то объясненная уравнением регрессии и необъясненная (остаточная) дисперсии не отличаются друг от друга.

    Расчетное значение F- критерий сравнивается с критическим значением, которое зависит от числа независимых переменных k , и от числа степеней свободы (n-k-1) . Табличное (критическое) значение F- критерия – это максимальная величина отношений дисперсий, которое может иметь место при случайном расхождении их для заданного уровня вероятности наличия нулевой гипотезы. Если расчетное значение F- критерий больше табличного при заданном уровне значимости, то нулевая гипотеза об отсутствии связи отклоняется и делается вывод о существенности этой связи, т.е. модель считается значимой.

    Для модели парной регрессии

    .

    В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его коэффициентов. Для этого определяется стандартная ошибка каждого из параметров. Стандартные ошибки коэффициентов регрессии параметров определяются по формулам:

    , (7.8)

    (7.9)

    Стандартные ошибки коэффициентов регрессии или среднеквадратические отклонения, рассчитанные по формулам (7.8,7.9), как правило, приводятся в результатах расчета модели регрессии в статистических пакетах.

    Опираясь на среднеквадратические ошибки коэффициентов регрессии, проверяют значимость этих коэффициентов используя обычную схему проверки статистических гипотез.

    В качестве основной гипотезы выдвигают гипотезу о незначимом отличии от нуля «истинного» коэффициента регрессии. Альтернативной гипотезой при этом является гипотеза обратная, т. е. о неравенстве нулю «истинного» параметра регрессии. Проверка этой гипотезы осуществляется с помощью t- статистики, имеющей t -распределение Стьюдента:

    Затем расчетные значения t- статистики сравниваются с критическими значениями t- статистики, определяемыми по таблицам распределения Стьюдента. Критическое значение определяется в зависимости от уровня значимости α и числа степеней свободы, которое равно (n-k-1), п - число наблюдений, k - число независимых переменных. В случае линейной парной регрессии число степеней свободы равно (п- 2). Критическое значение также может быть вычислено на компьютере с помощью встроенной функции СТЬЮДРАСПОБР пакета Ехсеl.

    Если расчетное значение t- статистики больше критического, то основную гипотезу отвергают и считают, что с вероятностью (1-α) «истинный» коэффициент регрессии значимо отличается от нуля, что является статистическим подтверждением существования линейной зависимости соответствующих переменных.

    Если расчетное значение t- статистики меньше критического, то нет оснований отвергать основную гипотезу, т. е. «истинный» коэффициент регрессии незначимо отличается от нуля при уровне значимости α . В этом случае фактор, соответствующий этому коэффициенту должен быть исключен из модели.

    Значимость коэффициента регрессии можно установить методом построения доверительного интервала. Доверительный интервал для параметров регрессии a и b определяют следующим образом:

    ,

    ,

    где определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы (п- 2) для парной регрессии.

    Поскольку коэффициенты регрессии в эконометрических исследованиях имеют четкую экономическую интерпретацию, доверительные интервалы не должны содержать нуль. Истинное значение коэффициента регрессии не может одновременно содержать положительные и отрицательные величины, в том числе и нуль, иначе мы получаем противоречивые результаты при экономической интерпретации коэффициентов, чего не может быть. Таким образом, коэффициент значим, если полученный доверительный интервал не накрывает нуль.

    Пример 7.4. По данным примера 7.1:

    а) Построить парную линейную модель регрессии зависимости прибыли от реализации от отпускной цены с использованием программных средств обработки данных.

    б) Оценить значимость уравнения регрессии в целом, используя F- критерий Фишера при α=0,05.

    в) Оценить значимость коэффициентов модели регрессии, используя t -критерий Стьюдента при α=0,05 и α=0,1.

    Для проведения регрессионного анализа используем стандартную офисную программу EXCEL. Построение регрессионной модели проведем с помощью инструмента РЕГРЕССИЯ настройки ПАКЕТ АНАЛИЗА (рис.7.5), запуск которого осуществляется следующим образом:

    СервисАнализ данныхРЕГРЕССИЯОК.

    Рис.7.5. Использование инструмента РЕГРЕССИЯ

    В диалоговом окне РЕГРЕССИЯ в поле Входной интервал Y необходимо ввести адрес диапазона ячеек, содержащих зависимую переменную. В поле Входной интервал Х нужно ввести адреса одного или нескольких диапазонов, содержащих значения независимых переменных Флажок Метки в первой строке – устанавливается в активное состояние, если выделены и заголовки столбцов. На рис. 7.6. показана экранная форма вычисления модели регрессии с помощью инструмента РЕГРЕССИЯ.

    Рис. 7.6. Построение модели парной регрессии с помощью

    инструмента РЕГРЕССИЯ

    В результате работы инструмента РЕГРЕСИЯ формируется следующий протокол регрессионного анализа (рис.7.7).

    Рис. 7.7. Протокол регрессионного анализа

    Уравнение зависимости прибыли от реализации от отпускной цены имеет вид:

    Оценку значимости уравнения регрессии проведем используя F- критерий Фишера. Значение F- критерий Фишера возьмем из таблицы «Дисперсионный анализ» протокола EXCEL (рис. 7.7.). Расчетное значение F- критерия 53,372. Табличное значение F- критерия при уровне значимости α=0,05 и числе степеней свободы составляет 4,964. Так как , то уравнение считается значимым.

    Расчетные значения t -критерия Стьюдента для коэффициентов уравнения регрессии приведены в результативной таблице (рис. 7.7). Табличное значение t -критерия Стьюдента при уровне значимости α=0,05 и 10 степенях свободы составляет 2,228. Для коэффициента регрессии a , следовательно коэффициент a не значим. Для коэффициента регрессии b , следовательно, коэффициент b значим.

    После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов, т.е. всего уравнения в целом. Такой анализ осуществляется на основе проверки гипотезы об общей значимости гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

    H 0: b 1 = b 2 = ... = b m = 0.

    Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных Х 1 , Х 2 , ..., Х m модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения регрессии – невысоким.

    Проверка данной гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсии.

    Н 0: (объясненная дисперсия) = (остаточная дисперсия),

    H 1: (объясненная дисперсия) > (остаточная дисперсия).

    Строится F-статистика:

    где – объясненная регрессией дисперсия;

    – остаточная дисперсия (сумма квадратов отклонений, поделённая на число степеней свободы n-m-1). При выполнении предпосылок МНК построенная F-статистика имеет распределение Фишера с числами степеней свободы n1 = m, n2 = n–m–1. Поэтому, если при требуемом уровне значимости a F набл > F a ; m ; n - m -1 = F a (где F a ; m ; n - m -1 - критическая точка распределения Фишера), то Н 0 отклоняется в пользу Н 1 . Это означает, что объяснённая регрессией дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y. Если F набл < F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

    Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R 2:



    Н 0: R 2 > 0.

    Для проверки данной гипотезы используется следующая F-статистика:

    . (8.20)

    Величина F при выполнении предпосылок МНК и при справедливости H 0 имеет распределение Фишера, аналогичное распределению F-статистики (8.19). Действительно, разделив числитель и знаменатель дроби в (8.19) на общую сумму квадратов отклонений и зная, что она распадается на сумму квадратов отклонений, объяснённую регрессией, и остаточную сумму квадратов отклонений (это является следствием, как будет показано позже, системы нормальных уравнений)

    ,

    мы получим формулу (8.20):

    Из (8.20) очевидно, что показатели F и R 2 равны или не равны нулю одновременно. Если F = 0, то R 2 = 0, и линия регрессии Y = является наилучшей по МНК, и, следовательно, величина Y линейно не зависит от Х 1 , Х 2 , ..., Х m . Для проверки нулевой гипотезы Н 0: F = 0 при заданном уровне значимости a по таблицам критических точек распределения Фишера находится критическое значение F кр = F a ; m ; n - m -1 . Нулевая гипотеза отклоняется, если F > F кр. Это равносильно тому, что R 2 > 0, т.е. R 2 статистически значим.

    Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R 2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.

    Пусть, например, при оценке регрессии с двумя объясняющими переменными X 1 i , X 2 i по 30 наблюдениям R 2 = 0,65. Тогда

    F набл = =25,07.

    По таблицам критических точек распределения Фишера найдем F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Поскольку F набл = 25,07 > F кр как при 5%–м, так и при 1%–м уровне значимости, то нулевая гипотеза в обоих случаях отклоняется.

    Если в той же ситуации R 2 = 0,4, то

    F набл = = 9.

    Предположение о незначимости связи отвергается и здесь.

    Отметим, что в случае парной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для t-статистики

    коэффициента корреляции. В этом случае F-статистика равна квадрату t-статистики. Самостоятельную значимость коэффициент R 2 приобретает в случае множественной линейной регрессии.

    8.6. Дисперсионный анализ для разложения общей суммы квадратов отклонений. Степени свободы для соответствующих сумм квадратов отклонений

    Применим изложенную выше теорию для парной линейной регрессии.

    После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

    Оценка значимости уравнения регрессии в целом даётся с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е. b = 0, и, следовательно, фактор х не оказывает влияния на результат у.

    Непосредственному расчёту F-критерия предшествует анализ дисперсии. Центральное место в нём занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части – “объяснённую” и “необъяснённую”:

    Уравнение (8.21) является следствием системы нормальных уравнений, выведенных в одной предыдущих тем.

    Доказательство выражения (8.21).

    Осталось доказать, что последнее слагаемое равно нулю.

    Если сложить от 1 до n все уравнения

    y i = a+b×x i +e i , (8.22)

    то получим åy i = a×å1+b×åx i +åe i . Так как åe i =0 и å1 =n, то получим

    Тогда .

    Если же вычесть из выражения (8.22) уравнение (8.23), то получим

    В результате получим

    Последние суммы равны нулю в силу системы двух нормальных уравнений.

    Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения вызвана влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор на оказывает никакого влияния на результат, то линия регрессии параллельна оси OX и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связана с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объяснённая регрессией, совпадает с общей суммой квадратов.

    Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъяснённая вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объяснённую вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на признак у. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

    Любая сумма квадратов связана с числом степеней свободы (df – degrees of freedom), с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется (n-1) независимых отклонений, ибо по совокупности из n единиц после расчёта среднего свободно варьируют лишь (n-1) число отклонений. Например, мы имеем ряд значений у: 1,2,3,4,5. Среднее из них равно 3, и тогда n отклонений от среднего составят: -2, -1, 0, 1, 2. Так как , то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.

    При расчёте объяснённой или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака

    Тогда сумма квадратов отклонений, обусловленных линейной регрессии, равна

    Поскольку при заданном объёме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от константы регрессии b, то данная сумма квадратов имеет только одну степень свободы.

    Существует равенство между числом степеней свободы общей, факторной и остаточной суммой квадратов отклонений. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы общей суммы квадратов определяется числом единиц варьируемых признаков, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. df общ. = n–1.

    Итак, имеем два равенства:

    Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

    ;

    ;

    .

    Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим величину F-критерия Фишера

    где F-критерий для проверки нулевой гипотезы H 0: D факт = D ост.

    Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для H 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при различных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признаётся достоверным, если оно больше табличного. Если F факт > F табл, то нулевая гипотеза H 0: D факт = D ост об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.

    Если F факт < F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

    В рассматриваемом примере из главы 3:

    = 131200 -7*144002 = 30400 – общая сумма квадратов;

    1057,878*(135,43-7*(3,92571) 2) = 28979,8 – факторная сумма квадратов;

    =30400-28979,8 = 1420,197 – остаточная сумма квадратов;

    D факт = 28979,8;

    D ост = 1420,197/(n-2) = 284,0394;

    F факт =28979,8/284,0394 = 102,0274;

    F a =0,05; 2; 5 =6,61; F a =0,01; 2; 5 = 16,26.

    Поскольку F факт > F табл как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

    Величина F-критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить как

    ,

    а остаточную сумму квадратов – как

    .

    Тогда значение F-критерия можно выразить как

    .

    Оценка значимости регрессии обычно даётся в виде таблицы дисперсионного анализа

    , его величина сравнивается с табличным значением при определённом уровне значимости α и числе степеней свободы (n-2).
    Источники вариации Число степеней свободы Сумма квадратов отклонений Дисперсия на одну степень свободы F-отношение
    фактическое Табличное при a=0,05
    Общая
    Объяснённая 28979,8 28979,8 102,0274 6,61
    Остаточная 1420,197 284,0394

    Оценка статистической значимости параметров и уравнения в целом – это обязательная процедура, которая позволяет сделать ввод о возможности использования построенного уравнения связи для принятия управленческих решений и прогнозирования.

    Оценка статистической значимости уравнения регрессии осуществляется с использованием F-критерия Фишера, который представляет собой отношение факторной и остаточных дисперсий, рассчитанных на одну степень свободы.

    Факторная дисперсия – объясненная часть вариации признака-результата, то есть обусловленная вариацией тех факторов, которые включены в анализ (в уравнение):

    где k – число факторов в уравнении регрессии (число степеней свободы факторной дисперсии); - среднее значение зависимой переменной; - теоретическое (рассчитанное по уравнению регрессии) значение зависимой переменной у i – й единицы совокупности.

    Остаточная дисперсия – необъясненная часть вариации признака-результата, то есть обусловленная вариацией прочих факторов, не включенных в анализ.

    = , (71)

    где - фактическое значение зависимой переменной у i – й единицы совокупности; n-k-1 – число степеней свободы остаточной дисперсии; n – объем совокупности.

    Сумма факторной и остаточной дисперсий, как отмечалось выше, есть общая дисперсия признака-результата.

    F-критерия Фишера рассчитывается по следующей формуле:

    F-критерий Фишера – величина, отражающая соотношение объясненной и необъясненной дисперсий, позволяет ответить на вопрос: объясняют ли включенные в анализ факторы статистическую значимую часть вариации признака-результата. F-критерий Фишера табулирован (входом в таблицу является число степеней свободы факторной и остаточной дисперсий). Если , то уравнение регрессии признается статистически значимым и, соответственно, статистически значим коэффициент детерминации. В противном случае, уравнение – статистически не значимо, т.е. не объясняет существенной части вариации признака-результата.

    Оценка статистической значимости параметров уравнения осуществляется на основе t-статистики, которая рассчитывается как отношение модуля параметров уравнения регрессии к их стандартным ошибкам ():

    , где ; (73)

    , где . (74)

    В любой статистической программе расчет параметров всегда сопровождается расчетом значений их стандартных (среднеквадратических) ошибок и t-статистики. Параметр признаются статистически значимым, если фактическое значение t-статистики больше табличного.

    Оценка параметров на основе t-статистики, по существу, является проверкой нулевой гипотезы о равенстве генеральных параметров нулю (H 0: =0; H 0: =0;), то есть о не значимости параметров уравнения регрессии. Уровень значимости принятия нулевых гипотез = 1-0,95=0,05 (0,95 – уровень вероятности, как правило, устанавливаемый в экономических расчетах). Если расчетный уровень значимости меньше 0,05 , то нулевая гипотеза отвергается и принимается альтернативная - о статистической значимости параметра.

    Проводя оценку статистической значимости уравнения регрессии и его параметров, мы можем получить различное сочетание результатов.

    · Уравнение по F-критерию статистически значимо и все параметры уравнения по t-статистике тоже статистически значимы. Данное уравнение может быть использовано как для принятия управленческих решений (на какие факторы следует воздействовать, чтобы получить желаемый результат), так и для прогнозирования поведения признака-результата при тех или иных значениях факторов.

    · По F-критерию уравнение статистически значимо, но незначимы отдельные параметры уравнения. Уравнение может быть использовано для принятия управленческих решений (касающихся тех факторов, по которым получено подтверждение статистической значимости их влияния), но уравнение не может быть использовано для прогнозирования.

    · Уравнение по F-критерию статистически незначимо. Уравнение не может быть использовано. Следует продолжить поиск значимых признаков-факторов или аналитической формы связи аргументов и отклика.

    Если подтверждена статистическая значимость уравнения и его параметров, то может быть реализован, так называемый, точечный прогноз, т.е. рассчитывается вероятное значение признака-результата (y) при тех или иных значениях факторов (x). Совершенно очевидно, что прогнозное значение зависимой переменной не будет совпадать с фактическим ее значением. Это связано, прежде всего, с самой сутью корреляционной зависимости. Одновременно на результат воздействует множество факторов, из которых только часть может быть учтена в уравнении связи. Кроме того, может быть неверно выбрана форма связи результата и факторов (тип уравнения регрессии). Между фактическими значениями признака-результата и его теоретическими (прогнозными) значениями всегда существует различие (). Графически эта ситуация выражается в том, что не все точки поля корреляции лежат на линии регрессии. Лишь при функциональной связи линия регрессии пройдет через все точки поля корреляции. Разность между фактическими и теоретическими значениями результативного признака называют отклонениями или ошибками, или остатками. На основе этих величин и рассчитывается остаточная дисперсия, являющаяся оценкой среднеквадратической ошибки уравнения регрессии. Величина стандартной ошибки используется для расчета доверительных интервалов прогнозного значения признака-результата (Y).

    После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

    Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, коэффициент регрессии равен нулю, то есть b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную» (приложение 2).

    Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества причин. Условно всю совокупность причин можно разделить на две группы:

    • · изучаемый фактор х
    • · прочие факторы

    Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси охи у = y. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

    Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, то есть регрессией у по х, так и вызванный действием прочих величин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации r 2 xy будет приближаться к единице.

    Любая сумма квадратов отклонений связана с числом степеней свободы (df - degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(y 1 -y), (y 2 -y),…,(y n -y)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов?(y-y) 2 требуется (n-1) независимых отклонений.

    При расчете объясненной или факторной суммы квадратов?(y x -y) 2 используются теоретические (расчетные) значения результативного признака y x , найденные по линии регрессии: y x =а+b*x.

    В линейной регрессии сумма квадратов отклонений, обусловленных линейной регрессией, составит: ?(y x -y) 2 =b 2 *?(x -x) 2 .

    Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К тому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака у, то есть y x . Величина y x определяется по уравнению линейной регрессии: y x =а+b*x. Параметр а можно определить как: a=y-b*x. Подставив выражение параметра а в линейную модель получим:

    y x = y-b*x+b*x= y-b*(х-х).

    Отсюда видно, что при заданном наборе переменных у и х расчетное значение y x является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

    Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку используется средняя вычисленная по данным выборки, то теряем одну степень свободы, то есть df общ = n-1.

    Итак, имеется два равенства:

    ?(у-у) 2 =?(y x -у) 2 +?(у- y x) 2 ,

    Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

    D общ =?(у-у) 2 /(n-1);

    D факт =?(y x -у) 2 /1;

    D ост =?(у- y x) 2 /(n-1).

    Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерия):

    F= D факт / D ост, где

    F - критерий для проверки нулевой гипотезы Н 0: D факт =D ост.

    Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

    Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различимом числе степеней свободы.

    Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

    Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного.

    В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: F факт >F табл. Н 0 отклоняется.

    Если же величина окажется меньше табличной F факт

    Оценку качества модели дает коэффициент детерминации. Коэффициент детерминации (R 2) -- это квадрат множественного коэффициента корреляции.

    Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

    Формула для вычисления коэффициента детерминации:

    y i -- выборочные данные, а f i -- соответствующие им значения модели.

    Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

    Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

    В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2 .

    Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока) (приложение 3).

    Функциональная связь возникает при значении равном 1, а отсутствие связи -- 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

Включайся в дискуссию
Читайте также
Салат с кукурузой и мясом: рецепт
Римские акведуки - водное начало цивилизации С какой целью строили акведуки
Мыс крестовый лиинахамари