КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Тема 74. Номинальный регрессионный и дисперсионный анализы как методы анализа данных в социологииРегрессионный анализ – методика анализа отношений между двумя и более переменными интервального уровня с целью предсказания значения одной по сравнению с другой или другими. Например, при уравнении регрессии, описывающим отношение между размером дохода и числом лет обучения, доход может быть предсказан, если известно число лет обучения. Многократный линейный регрессионный анализ используется в тех случаях, когда имеются несколько независимых переменных интервального уровня. Например, можно вывести линейное уравнение, которое связывало бы доход с годами обучения, возрастом и годами опыта работы. Простая линейная регрессия: у=b*х + а b >0 – связь прямопропорциональная, функция возрастает b <0 – связь обратнопропорциональная, функция убывает Регрессионный анализ используют в тех случаях, когда: - необходимо установить, реально ли есть взаимосвязь между переменными; - необходимо установит тесноту связи зависимых и независимых переменных; - нужно определить форму связи; - нужно предсказать значение зависимой переменной; - необходимо осуществлять контроль над независимыми переменными при определении вкладов конкретной переменной. Регрессионный анализ служит для выявления вида влияния одной переменной на другую. Корреляционный анализ устанавливает наличие зависимости, а регрессионный – вид зависимости: линейная, квадратичная, экспоненциальная и т.д. Предполагается, что связь между величинами линейная. Если мы знаем уравнение линейной регрессии, то по ответу человека на вопрос X мы можем спрогнозировать (с некоторой точностью) его ответ на вопрос Y. Для проведения регрессионного анализа необходимо следующее: -Выбор одного блока, из которого берется координатный интервал, чьи данные дают зависимую переменную регрессии. -Выбор одного или нескольких блоков, из которых аналогично берутся факторы в качестве независимых переменных регрессии. При этом необходимо, чтобы блок, дающий зависимую переменную, и все блоки, дающие независимые переменные, имели какие-либо общие координаты (обычно пространство и время), которые служат переменными развертки и дают точки, по которым проводится регрессионная кривая или поверхность. -Выбор типа и "степени" функций от независимых переменных, которые включаются в регрессию. -Задание координатных интервалов переменных сравнения, внутри которых регрессионная функция не должна значимо изменяться. -Определяется точность предсказания. Для этого находится стандартная ошибка оценки регрессии. Регрессия проводится последовательно с увеличением числа независимых переменных и степени регрессионной функции. При этом общесистемным оптимизатором находится минимум среднеквадратичного отклонения точек данных от регрессионной кривой. Для регрессионной кривой вычисляются характеристики неопределенности - показатели тесноты регрессии: кривые доверительного интервала и коэффициент детерминации. Последний может вычисляться сразу для всех комбинаций "зависимая переменная - независимая переменная". Как и корреляция, регрессия рассчитывается для фиксированных координатных интервалов каждой переменной сравнения. Проверяется устойчивость регрессии к смене координатного интервала на том же уровне иерархии. Так же как и корреляционный анализ, регрессионный имеет свои особенности и направленности. Для установления математической зависимости между двумя метрическими переменными – зависимой и независимой используется парная регрессия. Множественная регрессия используется для определения математической зависимости между двумя или больше независимыми переменными и зависимой переменной, выраженной с помощью интервальной или относительной шкал. Силу тесноты связи в данном случае измеряют с помощью коэффициента множественной детерминации (аналогично, как и при корреляции). При пошаговой регрессии независимые переменные вводят и выводят из уравнения регрессии один за другим, чтобы выбрать меньшее их количество, которое объясняет большую часть вариации. Парная регрессия отвечает на такие вопросы как: - Какова зависимость между зависимыми переменными и независимыми? - Зависит ли вариация объемов рынка от численности торгового персонала? Множественная регрессия дает ответы на вопросы: - Объясняется ли спрос на продукт с точки зрения цен, количества конкурентов и посредников на рынке? - Зависит ли доля рынка от расходов на PR-акции, рекламу и бюджета на промоакции? - Зависит ли спрос от проведения бенчмаркинга, ценовой политики конкурентов и т.д. Пример регрессионного анализа: Ошеломительным примером такого анализа является пример компании Sun Microsystems, которая обошла по продажам компанию IBM. Взяв за основу регрессионный анализ конкурентных преимуществ, компания стала лидером на рынке технологий. Регрессионный анализ проводился следующим образом: было взято три набора независимых переменных: численность специалистов в компании конкурента, расходы на рекламу и расходы на разработки. И все они использовались только благодаря проведенному ранее бенмаркингу. Зависимой переменной являлся объем сбыта. Проведение данного анализа показало, что именно из-за численности персонала страдала компания Sun Microsystems и была в лидерах IBM. Из-за большей численности персонала в компании Sun Microsystems возникала разобщенность на профессиональном уровне, и зачастую не было единого мнения по внедрению того или иного продукта, деньги на разработки выделялись, но большинство из разработок так и оставались разработками и не внедрялись. Напротив, в IBM менее крупной по численности компании разработки быстро уходили на рынок и скупались практически сразу. По итогам анализа, Sun Microsystems не решилась сокращать персонал, боясь утечки информации, а разделилась на филиалы и тем самым увеличила свои продажи, и 3 года находилась на пике в лидерах. С помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным. Концепция дисперсионного анализа предложена Р. Фишером в 1920 г. и состоит в выделении и сравнении между собой различных компонент дисперсии признака Y (отсюда и название метода). Эти компоненты выделяются посредством разложения вариации (SS) признака Y на составные части. Сравнение компонент позволяет делать вывод о значимости или незначимости влияния отдельного фактора на изменчивость признака Y. Дисперсионный анализ, возникший как метод планирования эксперимента (Р. Фишер предложил его. для обработки результатов опытов по выявлению условий, при которых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай), используется как метод анализа данных для выявления систематических различий между результатами непосредственных измерений, выполненных при тех или иных меняющихся условиях (что особенно важно для социологии). Для применения дисперсионного анализа требуется определенная структура представления исходных данных. Задачу однофакторного дисперсионного анализа можно представить как проверку связи двух признаков, один из которых измеряется по интервальной шкале, а другой – по номинальной. Эта задача является логическим обобщением сравнения средних значений в группах на ситуацию, когда групп не две, а больше. Действительно, признак, измеряемый по номинальной шкале, делит всех респондентов на группы (число групп равно числу вариантов ответа). В каждой группе можно вычислить среднее значение того признака, который измеряется по интервальной шкале. Если связи между факторами нет, то во всех группах средние значения будут равны. дисперсионный анализ проверяет более строгое условие, формулируемое как нулевая гипотеза: «Средние значения во всех группах равны». Технику проведения дисперсионного анализа рассмотрим на конкретном примере (по ходу вычислений будут даваться комментарии). Пусть у нас имеются данные о возрасте футболистов различного амплуа: защитников, полузащитников и нападающих (по 4 игрока каждой категории). Данные можно представить в виде такой таблицы:
номер защитники полузащитники нападающие 1 35 30 21 2 32 24 22 3 31 26 34 4 30 20 31
Столбец «номер» введен только для удобства восприятия данных. В остальных трех столбцах в качестве значений фигурирует возраст игрока (в годах). Первым делом средние значения надо вычислить (в каждой группе, а также в целом по выборке).
Получим общую сумму квадратов отклонений от среднего значения, т.к. дисперсия по определению – величина, равная отклонению от среднего:
Амплуа: защитник полузащитник нападающий разности 1 35-28=7 2 -7 2 32-28=4 -4 -6 3 31-28=3 -2 6 4 30-28=2 -8 3
Возводим ячейки таблицы в квадрат и суммируем:
Амплуа: защитник полузащитник нападающий Квадраты разностей 1 72=49 4 49 2 42=16 16 36 3 9 4 36 4 4 64 9 Сумма по столбцу 78 88 130 Суммируя нижнюю строку, получаем, что Sобщ=78+88+130=296 Далее требуется найти факторную сумму
Считаем факторную дисперсию, которая равна факторной сумме, деленной на (число групп - 1):
Остаточная сумма равна разности общей суммы и факторной: Sост=Sобщ-Sфакт=296-104=192. Остаточная дисперсия равна: Для проверки гипотезы о том, что средние значения во всех группах равны, используется величина F, равная отношению факторной и остаточной дисперсий: Fкрит. – по таблице вычисляется по таблице, учитывая уровень значимости и количество степеней свободы. Поскольку F< Fкрит, мы принимаем нулевую гипотезу о равенстве всех средних значений. То есть, мы делаем вывод о том, что все средние значения в группах равны, а исследуемые признаки (факторы) не связаны между собой. Если у Вас под рукой нет таблиц, но есть компьютер с наличием на нем Excel, для нахождения критического значения F по известному уровню значимости и степеням свободы можно воспользоваться функцией FРАСПОБР.
|