Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Вопрос IV




Коэффициенты корреляции и детерминации.

Одной из главных задач корреляционного анализа является определение тесноты связи между зависимой и независимой переменной.

Задача: выделить из общей вариации зависимой переменной ту ее часть, которая обусловлена действием изучаемого фактора.

На соотношении дисперсий (воспроизведенной и общей) построен и показатель, характеризующий тесноту связи между признаками:

τ2 =

Величина τ2, показывающая, какая часть общей вариации обусловлена действием изучаемого фактора, называется коэффициентом детерминации.

Корень квадратный из данного соотношения называется коэффициентом корреляции

(в случае парной линейной зависимости – коэффициентом парной корреляции rУ,Х, при множественной линейной зависимости – коэффициентом множественной корреляции , при парной криволинейной зависимости – индексом корреляции i). Во всех случаях показатель тесноты связи определяется отношением:

τ( =

 

Расчет дисперсий: -общая -средний квадрат отклонений фактических значений У от общей средней ;

-воспроизведенная - средний квадрат отклонений, вычисленных по уравнению значений от общей средней ;

-остаточная - средний квадрат отклонений фактических значенийУ от , вычисленных по уравнению связи.

Из равенства: видно, что τ находится в пределах от 0 до 1. Если , то τ = 0, т.е. связь отсутствует; если , то вся вариация зависимой переменной обусловлена выделенным признаком, т.е τ = 1, связь – функциональная.

Чем слабее воздействие аргумента на зависимую переменную, тем меньше величина τ.

Наиболее употребительной при парной линейной зависимости является следующая формула расчета парного коэффициента корреляции:

Где - среднее произведение,

- средние взаимосвязанных признаков,

- средние квадратические отклонения.

Коэффициент парной корреляции при линейной зависимости можно также определить через коэффициент регрессии:

При парной линейной зависимости коэффициент корреляции имеет или положительный, или отрицательный знак. При прямо пропорциональной зависимости rимеет положительный знак, при обратно пропорциональной – отрицательный знак. Из этого следует, что r может находиться в пределах от -1 до +1. Обратная или прямая связь считается слабой, при умеренной, при и сильной при . При связь функциональная, а при линейной связи нет, но может быть нелинейная связь, что требует дополнительной проверки.

 

Коэффициент регрессии в уравнении связи и коэффициент корреляции имеют одинаковые знаки.

 

Например, по 10 однотипным предприятиям имеются следующие данные о выпуске продукции (Х), в тыс.ед. и о расходе условного топлива (У), в тоннах.

Таблица IV.1

Х У Х2 ХУ У2
5 6 8 8 1010 140 2020 24 4 4 6 5 78 8 10 1216 25 36 64 64 100100 196 400 400576 20 24 48 40 7080 112 200 240384 3,9 4,4 5,5 5,5 6,66,6 8,8 12,1 12,114,3 16 16 36 25 4964 64 100 144256
           

Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии У по Х) и измерить тесноту зависимости между ними, предполагая, что связь линейная.

Рассматривая уравнение регрессии в форме линейной функции вида , параметры данного уравнения (а0 и а1) найдем из системы нормальных уравнений:

,

необходимые расчеты представлены в таблице IV.1.

а0 = 1,16; а1 = 0,547

Отсюда , следовательно, при увеличении выпуска продукции на 1 тыс.ед., расход условного топлива увеличится на 0,547 тонн в данных условиях.

Подставляя в решенное уравнение последовательно значения Х = 5, 6,8,10 и т.д., получаем выравненные (теоретические) значения результативного показателя.

Коэффициент эластичности: показывает, что при увеличении выпуска продукции на 1%, расход условного топлива возрастет на 0,855%.

Для измерения тесноты связи воспользуемся формулой линейного коэффициента корреляции: =

=

 

Воспользуемся еще одной формулой линейного коэффициента корреляции:

=

Коэффициент корреляции r = 0,96 показывает, что связь между признаками тесная. Коэффициент детерминации r2 = 0,962 = 0,92 свидетельствует о том, что 92% вариации расхода условного топлива обусловлено выходом продукции и 8% остаточными факторами.

Для измерения тесноты корреляционной связи между результативным признаком и несколькими факторными при линейной форме связи рассчитывается множественный коэффициент корреляции по формуле:

Где парные коэффициенты корреляции.

Парные коэффициенты корреляции показывают тесноту корреляционной связи как между факторными и результативными признаками, так и между факторами-признаками.

Для исследования тесноты корреляционной связи между признаками при построении моделей множественной регрессии применяются частные коэффициенты корреляции,которые характеризуют тесноту корреляционной связи между факторным и результативным признаками, при элиминировании влияния учтенных факторов. Они вычисляются по формулам:

Множественный коэффициент корреляции рассматривается только как положительная величина, заключенная в интервале от 0 до 1. Так как, например, с одним признаком связь может быть прямая, с другим обратная, с третьим прямая и т.д., поэтому фиксация знака множественного коэффициента корреляции не имеет смысла.

Индекс корреляции, используемый для определения тесноты корреляционной зависимости при нелинейной связи, также может изменяться в пределах от 0 до 1 и рассматривается как положительная величина, так как кривые зависимостей имеют разный наклон. При использовании индекса корреляции рекомендуется указывать, к какому типу кривой он относится.

Коэффициенты корреляции рангов

Наряду с линейным коэффициентом корреляции для измерения тесноты связи между двумя коррелируемыми признаками часто используют менее точные, но более простые по расчету непараметрические показатели. К ним относятся коэффициент Фехнера (см. вопрос II), коэффициенты корреляции рангов Спирмэна ρ и Кендэла .

Эти показатели основаны на корреляции не самих значений коррелируемых признаков, а их рангов.

При ранжировании каждой единице совокупности присваивается порядковый номер (ранг), причем при совпадении признака у нескольких единиц им дается средний ранг. Так, если у пятой и шестой единицы совокупности значения признака одинаковы, обе получают ранг, равный (5+6):2=5,5. Такие ранги называют связными.

Ранги признаков Х и У обозначают символами NX и NУ (иногда RХ и RУ). Суждение о связи между изменениями значений Х и У основано на сравнении поведения рангов по двум признакам параллельно. Если у каждой пары Х и У ранги совпадают, это характеризует максимально тесную прямую связь. Если же наблюдается полная противоположность рангов, т.е. в одном ряду ранги возрастают от1 до n, а в другом – убывают от n до 1, это максимально возможная обратная связь.

Коэффициент корреляции рангов Спирмэнарассчитывается по формуле:

Где d = NX - NУ, т.е. разность рангов каждой пары значений Х и У;

n – число наблюдений.

Коэффициент корреляции рангов Кендэлаопределяется по формуле:

Порядок расчета этого показателя следующий.

1. Значения Х и У ранжируются т.е. определяются NX и NУ.

2. Значения NX записываются строго в порядке возрастания (или, наоборот, убывания)1,2,…,n.

3. Ранги второго показателя (NУ ) располагаются в порядке, соответствующем значению Х в исходных данных.

4. Для каждого значения NУ подсчитывается число следующих за ним рангов более высокого порядка. Общая сумма таких случаев «правильного следования» последовательно для всех рангов учитывается как баллы со знаком «+» и обозначаются буквой Р.

5. Аналогично для каждого значения NУ последовательно подсчитывается число следующих за ним рангов, меньших по значению. Общая сумма таких случаев (инверсий) учитывается как баллы со знаком «-» и обозначается символом Q.

6. Определяется общая сумма баллов, которая обозначается символом S, т.е. S = P + Q.

7. Полученная сумма (S) сопоставляется с максимальной, которая равна , в случае если в обоих рядах ранги следуют строго последовательно от 1 до n.

Коэффициент Кендэла всегда меньше по значению, чем коэффициент Спирмэна .

Например, по 10 предприятиям измерить тесноту связи между объемом выпуска продукции (У), млн. руб. и стоимостью основных средств производства (Х), млн. руб. с помощью коэффициентов корреляции рангов Спирмэна и Кендэла.

Таблица IV.2

Х У NX NУ d=NX-Nу d2 Подсчет баллов
«+» «-»          
1 2 3 4 5 6 7 8
15 18 20 22 2326 30 31 35 38 39 44 38 35 4843 70 65 61 82 1 2 3 4 56 7 8 9 10 3 5 2 1 64 9 8 7 10 -2 -3 1 3 -12 -2 0 2 0 4 9 1 9 1 44 0 4 0 7 5 6 6 34 1 1 1 - 2 3 10 1 02 1 0 -
          P=35 Q=-10

Для расчета коэффициента корреляции рангов Спирмэна вначале ранжируем значения признаков в каждом ряду, т.е. каждому значению Х и У в порядке их возрастания присваиваем порядковый номер (ранг) NX и NУ (графы 3и4 таблицы), затем находим разности рангов (d), возводим их в квадрат (графа 6 таблицы) и суммируем. Полученную сумму подставляем в формулу:

=

Судя по значению полученного коэффициента, связь между признаками достаточно большая.

Для расчета коэффициента корреляции рангов Кендэла определяем S в соответствии с описанным выше порядком как сумму положительных (P) и отрицательных (Q) баллов.

Вспомогательные расчеты этих баллов показаны в графах 7 и 8 таблицы. Так как значения рангов Х идут строго в возрастающем порядке, то следим лишь за поведением рангов У. Например, после первой пары значений рангов, где Nу =3, в семи случаях идут значения NУ >3, а в двух случаях значения NУ <3(Nу = 2,1);после второй пары. Где Nу =5, наблюдается пять случаев рангов У выше рассматриваемого, а три (Nу = 2,1,4) ниже и т.д.

По результатам расчетов находим общую сумму баллов: S = Р + Q = 35 -10 = 25.

Подставляя ее в формулу коэффициента корреляции рангов Кендэла, определяем:

Вышеуказанные формулы Спирмэна и Кендэла применяются для случаев отсутствия связных рангов, а при их наличии в любом их явлений Х и У расчет значительно усложняется.

Сначала для каждого явления, где имеются связные ранги, определяется ранговая поправка Т по формуле:

Где k – количество групп с одинаковым связным рангом в явлении Х или У;

tl – количество связных рангов в группе.

Затем определяются ранговые коэффициенты корреляции по формулам:

 

Если число ранжируемых признаков (факторов) больше двух, то для измерения тесноты связи между ними можно использовать коэффициент конкордации (множественный коэффициент ранговой корреляции):

Где S – сумма квадратов отклонений суммы m рангов от их средней величины;

а) или, что по значению, то же самое,

б) , где Ri – ранг i-го показателя.

m – число ранжируемых признаков;

n – число ранжируемых единиц (число наблюдений).

Если есть связные ранги, то коэффициент конкордации рассчитывается с учетом числа таких повторяющихся (связанных) рангов по каждому фактору:

Где t – число одинаковых рангов по каждому признаку.

Например, имеются следующие условные данные по 5 предприятиям (графы 1,2,3,4 таблицы IV.3).

Таблица IV.3

Предприятие Прибыль, млн. руб.Y Стоимость основных средств, млн. руб. X Затраты на 100 руб. Продукции, руб. Z Ранжирование факторов Сумма рангов Квадраты сумм рангов
RY RX RZ        
1 2 3 4 5 6 7 8 9
1 2 3 4 5 300 950520 4801000 41 66 39 4263 80 73 72 7567 1 4 3 2 5 2 5 1 34 5 3 2 4 1 8126910 641443681100
Итого:             45 425

1). Ранжируем каждый из трех показателей (факторов) (графы 5,6,7).

2). Находим сумму рангов по каждой строке (графа 8):

3). Возводим в квадрат сумму рангов по каждой строке и находим общую сумму пяти строк (графа 9):

4). Находим S, используя приведенную выше формулу «б»: S = 425-(45)2/5 = 20.

Этот же результат получим, рассчитывая S по формуле «а»: сначала определяем , тогда

5). Рассчитаем коэффициент конкордации:

Учитывая малую величину значения коэффициента конкордации, можно сказать, что зависимость между рассматриваемыми показателями (факторами) весьма незначительна.

Коэффициент конкордации часто используется в экспертных оценках для определения согласованности мнения m экспертов в распределении мест (рангов) между n исследуемыми факторами или объектами по их приоритетности.

Рассмотрим расчет коэффициента конкордации при наличии связанных рангов.

Предположим, что два э

эксперта (m = 2) ранжировали четыре признака (n = 4), влияющие на определенный результат, по их важности.

Таблица IV.4

Экспертная оценка признаков

Факторный признак Ранг, установленный экспертом Сумма рангов по каждому признаку Квадрат суммы рангов
первым вторым    
1 2 3 4 5
Y X Z Q 1 2,5 2,5 4 1,5 1,5 4 3 2,5 4,0 6,5 7 6,25 16,0042,25 49,00
Сумма 10 10 20 113,50

Учитывая наличие связанных рангов, для расчета коэффициента конкордации используем формулу: .

В нашем примере m = 2, n = 4, следовательно, S = 113,5 - = 13,5.

Так как и у первого эксперта два связанных ранга (2,5 и 2,5) и у второго два (1,5 и 1,5), то

Подставляя все рассчитанные значения в формулу, получаем:

Показатели тесноты связи между качественными признаками.

Для установления тесноты связи двух явлений, каждое из которых выражено только двумя альтернативными признаками, применяются коэффициенты ассоциации и контингенции. Они вычисляются с помощью табл. IV.5, показывающей числовые характеристики признаков.

 

Таблица IV.5

К определению коэффициентов взаимной сопряженности

 

Явление Х и его словесные признаки Явление Y и его словесные признаки Итого
первый второй  
Первый Второй Итого: а с а + с b d b + d a + b с + d a + b + с + d

 

Коэффициенты взаимосвязи явлений, показанных в таблице IV.5, определяются по формулам:

Коэффициент ассоциации: ;

Коэффициент контингенции:

Для упрощения вычислений при значительных величинах a, b,c,d табл. IV.5 можно представить в структурном или долевом виде (табл. IV.6).

Таблица IV.6

Долевой вид табл. IV.5

Явление Х и его словесные признаки Явление Y и его словесные признаки Итого
первый второй  
Первый Второй Итого: d11 d21 d11 + d21 d12 d22 d12 + d22 d11 + d12 d21 + d22 1

 

В табл. IV.6 доли представляют собой отношения чисел каждой ячейки табл. IV.5 к ее итоговому значению в последней ячейке. Например, d21 = c/(a + b + с + d).

Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь между явлениями имеет место при или

Когда изучаемые явления выражены более чем двумя атрибутивными признаками, для установления связи явлений возможно применение коэффициентов взаимной сопряженности, вычисляемых по формулам Пирсона или Чупрова.

Для их определения необходимо построить табл. IV.7, называемую таблицей взаимной сопряженности.

Таблица IV.7

К определению коэффициентов взаимной сопряженности

Явление Х и его словесные признаки Явление Y и его словесные признаки Итого
первый второй третий и т.д.
Первый Второй Третий и т.д.Итого: … … … nY … … … nY nXYnY nX nX nXn

По данным таблицы IV.7 сначала определяется показатель взаимной сопряженности явлений по формуле

,

А затем коэффициенты взаимной сопряженности по формулам

Пирсона:

Чупрова:

Где К1, К2 – количество словесных признаков явлений X и Y.

Чем ближе коэффициенты Пирсона и Чупрова к 1, тем связь теснее. При этом коэффициент Чупрова обычно меньше коэффициента Пирсона, т. е дает более осторожную оценку тесноты взаимосвязи.

Например, По одному из факультетов ВУЗАимеется следующие данные о распределении 600 студентов-вечерников по двум признакам: характеру работы и результатам сдачи экзаменов по специальным предметам. Измерить тесноту связи между указанными признаками.

Таблица IV.8

Характер работы Сдавшие сессию без неудовлетворительных оценок Получившие неудовлетворительные оценки Всего студентов
Работающие по профилю факультета 270 а 50 b 320
Работающие не по профилю факультета 150 с 130 d 280
Всего студентов: 420 180 600

 

Для измерения тесноты зависимости между указанными признаками рассчитаем следующие показатели:

1. Коэффициент ассоциации:

2. Коэффициент контингенции:

3. Коэффициент взаимной сопряженности Пирсона:

Где ,

4. Коэффициент взаимной сопряженности Чупрова:

Все рассчитанные показатели, кроме коэффициента ассоциации, свидетельствуют о том, что зависимость между характером работы у студентов – вечерников и результатами сдачи экзаменов по специальным предметам ниже средней.


Поделиться:

Дата добавления: 2014-12-23; просмотров: 127; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты