КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
ВВЕДЕНИЕ. Современная наука исходит из взаимосвязи всех явлений природы и общества
Современная наука исходит из взаимосвязи всех явлений природы и общества. Невозможно управлять явлениями, предсказать их развитие без изучения характера, силы и других особенностей связей. Поэтому методы исследования, измерения связей составляют чрезвычайно важную часть методологии научного исследования, в том числе и статистического. Все связи, которые могут быть измерены и выражены, численно подходят под определение «статистической связи», в том числе и функциональной. Корреляционной связью называют важнейший частный случай статистической связи. Само слово корреляция ввел в употребление в статистику английский биолог и статистик Френсис Гальтон в конце XIX века. Тогда оно понималось как «corelation» (соответствие), но не просто «связь» (relarion), а «как бы связь», то есть связь, но не в привычной в то время функциональной форме. Представленные методические указания по выполнению практических и лабораторных работ по корреляционно-регрессионному анализу содержат требования по их выполнению, порядок расчетов вручную и с использованием ППП «Microstat», MS Excel, Statistica. В части IV методических указаний предлагается определить степень влияния на результативный признак факторного (факторных) признака с использованием однофакторной и многофакторной регрессионной модели, рассчитать показатели тесноты связи (теоретическое корреляционное отношение, линейный коэффициент корреляции, коэффициент детерминации, частные и парные коэффициенты корреляции), дать экономическую интерпретацию полученных моделей. Определение закономерностей причинно – следственных связей общественных процессов и явлений, устанавливаемых с помощью корреляционно – регрессионного анализа, имеет большое значение для анализа данных. ПРАКТИЧЕСКАЯ РАБОТА 6
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ. КРАТКИЕ ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ И МЕТОДИЧЕСКИЕ УКАЗАНИЯ Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных. При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обуславливающих изменение других признаков. Признаки этой группы называются факторными, а признаки, которые являются результатом влияния этих факторов, называются результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению. В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. По степени тесноты связи различают количественные критерии оценки тесноты связи. Оценка линейного коэффициента корреляции может быть произведена по таблице 1. Таблица 1 Количественные критерии оценки тесноты связи
Либо укрупнено по приведенной ниже таблице:
По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. По аналитическому выражению выделяют связи прямолинейные и криволинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной и др.), то такую связь называют криволинейной. Графически взаимосвязь двух признаков отображается с помощью поля корреляции. В системе координат по оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи. Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи. Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака x на результативный y и представляющая собой однофакторный корреляционный и регрессионный анализ. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих аналогичных исследований, или осуществляться эмпирически – перебором и оценкой функций разных типов. При изучении связи экономических показателей используют различного вида уравнения прямолинейной и криволинейной связи: - линейная функция (1) - полулогарифмическая функция (2) - показательная функция (3) - степенная функция (4) - параболическая функция (5) - гипербола (6) - экспоненциальная (7) и другие. Оценка параметров уравнений регрессии осуществляется методом наименьших квадратов (МНК), в основе которого лежит предположение о независимости наблюдений исследуемой совокупности. Сущность МНК заключается в нахождении параметров модели, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии. - для уравнения прямой. (8) Рассмотрим расчет параметров однофакторной линейной модели. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. Уравнение однофакторной линейной корреляционной связи имеет вид (1): . Система нормальных уравнений для нахождения параметров линейной регрессии методом наименьших квадратов имеет вид: , (9) где n – объем исследуемой совокупности. В уравнениях регрессии параметр a0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр a1 (в уравнении параболы и a2) – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения. Можно воспользоваться готовыми формулами нахождения параметров: (10) (11) Определив значения a0, a1 и подставив их в уравнение связи , находим значения yx, зависящие только от заданного значения x. Для практического использования моделей регрессии большое значение имеет их адекватность, т.е. соответствие фактическим статистическим данным. Значимость коэффициентов простой линейной регрессии (при n<30) осуществляется с помощью t – критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t – критерия для параметра a0: , (12) для параметра a0: , (13) где n – объем выборки; (14) - среднее квадратическое отклонение результативного признака y от выровненных значений yx; (15) или (16) - среднее квадратическое отклонение факторного признака x от общей средней . Вычисленные значения сравнивают с критическими (табличными) t, которые определяют по таблице Стьюдента с учетом принятого уровня значимости α и числом степеней свободы вариации υ = n - 2. В социально-экономических исследованиях уровень значимости α обычно принимают равным 0,05. Параметр признается значимым при условии, если tрасч>tтабл. Наряду с проверкой значимости отдельных параметров осуществляется проверка значимости уравнения регрессии в целом на основе расчета величины средней ошибки аппроксимации . Средняя ошибка аппроксимации рассчитывается по формуле: , (17) где yi – эмпирические значения результативного признака; yx – теоретические значения результативного признака. Значение средней ошибки аппроксимации не должно превышать 10-15%. Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Тесноту корреляционной связи между переменными x и y определяется с помощью теоретического корреляционного отношения (18) или . (19) Подкоренное выражение – коэффициент детерминации – показывает долю вариации результативного признака под влиянием вариации признака-фактора. Теоретическое корреляционное отношение может находиться в пределах от 0 до 1. Чем ближе корреляционное отношение к 1, тем теснее связь между признаками. Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи – линейный коэффициент корреляции. Для практических вычислений при малом числе наблюдений (n<30) его удобнее исчислять по следующей формуле: . (20) Линейный коэффициент корреляции принимает значения от –1 до +1. Отрицательные значения указывают на обратную связь, положительные – на прямую. При r=0 связь отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к 1, тем теснее связь между признаками. При r=±1 связь функциональная. Квадрат линейного коэффициента корреляции r2 называется линейным коэффициентом детерминации, его числовое значение всегда заключено в пределах от 0 до 1. Факт совпадений и несовпадений значений теоретического корреляционного отношения η и линейного коэффициента корреляции r используется для оценки формы связи. Если значения η и r совпадают, можно сделать вывод о наличии прямолинейной связи. Несовпадение этих величин свидетельствует, что связь между изучаемыми признаками не линейная, а криволинейная. Показатели тесноты связи, исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин. Это вызывает необходимость проверки их существенности, дающей возможность распространять выводы по результатам выборки на генеральную совокупность. Для оценки значимости коэффициента корреляции r используют t – критерий Стьюдента. При линейной однофакторной связи t – критерий можно рассчитать по формуле: , (21) где n-2 – число степеней свободы при заданном уровне значимости α и объеме выборки n. Полученное значение tрасч сравнивают с табличным значением t - критерия (для α=0,05 и 0,01). Если tрасч>tтабл, то коэффициент корреляции признается значимым. После проверки адекватности, установления точности и надежности построенной модели, ее необходимо проанализировать. Из уравнения регрессии следует, что при изменении факторного признака x на единицу результативный признак изменится на параметр a1. Для удобства интерпретации параметра a1 используют коэффициент эластичности. Он показывает средние изменения результативного признака при изменении факторного признака на 1%, %: . (22) Имеет смысл вычислить остатки , характеризующие отклонение i-x наблюдений от значений, которые следует ожидать в среднем. Многофакторный корреляционно-регрессионный анализ сводится к решению следующих задач: - обосновать взаимосвязи факторов, влияющих на исследуемый показатель; - определить степень влияния каждого фактора на результативный признак путем построения модели – уравнения множественной регрессии, которая позволяет устанавливать, в каком направлении и на какую величину изменится результативный показатель при изменении каждого фактора, входящего в модель; - количественно оценить тесноту связи между результативным признаком и факторными. Математически задача формулируется следующим образом. Требуется найти аналитическое выражение, наилучшим образом отражающее установленную теоретическим анализом связь независимых признаков с результативным, т.е. функцию . (23) Выбрать форму связи довольно сложно. Все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей: 1. линейная: (24) 2. степенная: (25) 3. показательная: (26) 4. параболическая: (27) 5. гиперболическая: (28) Следует отметить, что основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. В условиях использования ЭВМ выбор аппроксимирующей математической функции осуществляется перебором решений, наиболее часто применяемых в анализе корреляции уравнений регрессии. После выбора типа аппроксимирующей функции приступают к многофакторному корреляционному и регрессионному анализу, задачей которого является построение уравнения множественной регрессии и нахождение его неизвестных параметров a0, a1, …an. Параметры уравнения множественной регрессии, как и в случае парной регрессии, находят по способу наименьших квадратов. Затем с помощью корреляционного анализа осуществляют проверку адекватности полученной модели. Адекватную модель экономически интерпретируют. Построение и статистический анализ двухфакторной линейной модели (трехмерной регрессии). Для расчета параметров простейшего уравнения множественной линейной двухфакторной регрессии , (29) где - расчетные значения зависимой переменной (результативного признака), x1, x2 – независимые переменные (факторные признаки), a0, a1, a2 – параметры уравнения. Построим следующую систему нормальных уравнений: (30) Параметры этой системы могут быть найдены, например, методом К. Гаусса. После построения регрессионной модели необходимо исчислить различного рода характеристики тесноты связи между зависимой и независимой переменными: парные, частные и множественные коэффициенты корреляции, множественный коэффициент детерминации, а затем проверить адекватность данной модели. Парные коэффициенты корреляции. Для измерения тесноты связи между двумя из рассматриваемых переменных (без учета их взаимодействия с другими переменными) применяются парные коэффициенты корреляции. Методика расчета таких коэффициентов и их интерпретация аналогичны методике расчета линейного коэффициента корреляции в случае однофакторной связи. Если известны средние квадратические отклонения анализируемых величин, то парные коэффициенты корреляции можно рассчитать проще по следующим формулам: (31) (32) (33) где (34) (35) (36) или используя формулу линейного коэффициента корреляции для малых выборок. Частные коэффициенты корреляции. Однако в реальных условиях все переменные, как правило, взаимосвязаны. Теснота этой связи определяется частными коэффициентами корреляции, которые характеризуют степень и влияние одного из аргументов на функцию при условии, что остальные независимые переменные закреплены на постоянном уровне. В зависимости от количества переменных, влияние которых исключается, частные коэффициенты корреляции могут быть различного порядка: при исключении влияния одной переменной получаем частный коэффициент корреляции первого порядка; при исключении влияния двух переменных – второго порядка и т.д. Парный коэффициент корреляции между функцией и аргументом обычно не равен соответствующему частному коэффициенту. Частный коэффициент корреляции первого порядка между признаками x1 и y при исключении влияния признака x2 вычисляют по формуле: , (37) то же – зависимость y от x2 при исключении влияния x1: . (38) Можно рассчитать взаимосвязь факторных признаков при устранении влияния результативного признака: , (39) где r- парные коэффициенты корреляции между соответствующими признаками. Совокупный коэффициент множественной корреляции. Показателем тесноты связи, устанавливаемой между результативными и двумя или более факторными признаками, является совокупный коэффициент множественной корреляции . В случае линейной двухфакторной связи совокупный коэффициент множественной корреляции может быть рассчитан по формуле: , (40) где r – линейные коэффициенты корреляции (парные); подстрочные индексы показывают, между какими признаками они исчисляются. Совокупный коэффициент множественной корреляции измеряет одновременное влияние факторных признаков на результативный. Его значения находятся в пределах от –1 до +1. Чем меньше наблюдаемые значения изучаемого показателя отклоняются от линии множественной регрессии, тем корреляционная связь является более интенсивной, а следовательно, значение R ближе к единице. Совокупный коэффициент множественной детерминации. Величина R2 называется совокупным коэффициентом множественной детерминации. Она показывает, какая доля вариации изучаемого показателя объясняется влиянием факторов, включенных в уравнение множественной регрессии. значение совокупного коэффициента множественной детерминации находится в пределах от 0 до 1. Поэтому, чем ближе R2 к единице, тем вариация изучаемого показателя в большей мере характеризуется влиянием отобранных факторов. Проверку значимости уравнения регрессии производят на основе вычисления F – критерия Фишера-Снедекора: (41) или F – критерия Фишера: , (42) где ; (43) k – число факторных признаков; m – число параметров в уравнении регрессии. Полученное значение – критерия Fрасч сравнивают с критическим (табличным) для принятого уровня значимости 0,05 или 0,01 и чисел степеней свободы υ1=m-1 и υ2=n-m. Если оно окажется больше соответствующего табличного значения, то данное уравнение регрессии статистически значимо, т.е. доля вариации, обусловленная регрессией, намного превышает случайную ошибку. Для оценки значимости коэффициентов регрессии при линейной зависимости y от x1 и x2 – (двух факторов) используют t – критерий Стьюдента при n-k-1 степенях свободы: (44) (45) (46) где k – число факторных признаков; aj – значение коэффициента регрессии при факторе xi; - среднее квадратическое отклонение коэффициента регрессии; - дисперсия результативного признака.
Существенность совокупного коэффициента корреляции определяют по формуле: , (47) где k – число факторных признаков; n – число единиц совокупности.
Значения оцениваемых a1, a2, берутся по модулю. При анализе адекватности уравнения регрессии исследуемому процессу возможны следующие варианты: 1. Построенная модель на основе ее проверки по F – критерию Фишера в целом адекватна, и все ее коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов. 2. Модель по F – критерию Фишера адекватна, но часть коэффициентов регрессии незначима. Следовательно, модель пригодна для принятия некоторых решений, но не для прогнозов. 3. Модель по F – критерию Фишера адекватна, но все коэффициенты незначимы. В этом случае модель признается полностью незначимой (неадекватной). На ее основе не принимаются решения и не осуществляются прогнозы. На основе коэффициентов регрессии нельзя сказать какой из факторных признаков оказывает наибольшее влияние на результативный признак, так как коэффициенты регрессии между собой не сопоставимы, поскольку они измерены разными единицами. На их основе нельзя также установить, в развитии каких факторных признаков заложены наиболее крупные резервы изменения результативного показателя, потому что в коэффициентах регрессии не учтена вариация факторных признаков. Чтобы иметь возможность судить о сравнительной силе влияния отдельных факторов и о тех резервах, которые в них заложены, должны быть вычислены частные коэффициенты эластичности Эi, а также бета-коэффициенты βi. Различия в единицах измерения факторов устраняют с помощью частных коэффициентов эластичности, которые рассчитывают по формуле: , (48) где ai – коэффициент регрессии при i-м факторе; – среднее значение i-го фактора; – среднее значение изучаемого показателя. Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других факторов. Для определения факторов, в развитии которых заложены наиболее крупные резервы улучшения изучаемого показателя, необходимо учесть различия в степени варьирования вошедших в уравнение факторов. Это можно сделать с помощью β – коэффициентов, которые вычисляют по формуле: , (49) где - среднее квадратическое отклонение i-го фактора; - среднее квадратическое отклонение показателя; β – коэффициент показывает, на какую часть среднего квадратического отклонения изменяется результативный признак с изменением соответствующего факторного признака на величину его среднего квадратического отклонения. Исходя из соотношения и, принимая во внимание, что коэффициент множественной детерминации R2 есть доля изучаемых факторов в наличном приращении результативного показателя в анализируемой совокупности, можно сделать вывод, что произведение является показателем силы влияния соответствующего фактора на данный показатель. Поделив произведение на коэффициент множественной детерминации R2, получим коэффициент, который показывает, какова доля вклада анализируемого фактора в суммарное влияние всех отобранных факторов. Обозначив этот коэффициент Δi, получим . (50) Рассмотрим методику применения корреляционно – регрессионного анализа на примере. На основании имеющихся данных (таблица 2) определим показатели связи вначале при парной, затем множественной линейной зависимости. Таблица 2 Исходные данные
|