Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Характеристика закономерности рядов распределения (нормальное распределение, асимметрия, эксцесс)




Тема № 6. Показатели вариации

План

Понятие вариации признака

Показатели вариации

Вариация альтернативного признака

Правило сложения дисперсий

Характеристика закономерности рядов распределения (нормальное распределение, асимметрия, эксцесс)

5.5. Показатели вариации Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. К абсолютным показателям вариации относятся: • размах вариации R, • среднее линейное отклонение d , • средний квадрат отклонений (дисперсия) δ 2 , • среднее квадратическое отклонение δ , Размах вариации R является наиболее простым показателем вариации, рассчитывается по формуле: R = xmax − xmin . Этот показатель представляет собой разность между максимальным и минимальным значениями признаков и характеризует разброс элементов совокупности. Размах улавливает только крайние значения признака в совокупности, не учитывает повторяемость его промежуточных значений, а также не отражает отклонений всех вариантов значений признака. Размах часто используется в практической деятельности, например, различие между max и min пенсией, заработной платой в различных отраслях и т.д. Среднее линейное отклонение d является более строгой характеристикой вариации признака, учитывающей различия всех единиц изучаемой совокупности. Среднее линейное отклонение представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической. Этот показатель рассчитывается по формулам простой и взвешенной среднейарифметической: - для несгруппированных данных; - для сгруппированных данных. В практических расчетах среднее линейное отклонение используется для оценки ритмичности производства, равномерности поставок. Так как модули обладают плохими математическими свойствами, то на практике часто применяют другие показатели среднего отклонения от средней – дисперсию и среднее квадратическое отклонение. Дисперсия признака σ 2 представляет собой средний квадрат отклонений вариантов от их средней величины, является общепринятой мерой вариации. В зависимости от исходных данных дисперсия вычисляется по формулам простой и взвешенной средней арифметической: для несгруппированных данных для сгруппированных данных При использовании взвешенной средней для расчета дисперсии в интервальных рядах распределения в качестве вариантов значений признака используются серединные значения b (середины интервалов), не являющиеся средним значением в группе. В результате получают приближенное значение дисперсии. Существуют более простые подходы в вычислении дисперсии. Наиболее часто используется сокращенный способ расчета дисперсии (метод моментов), в соответствии с которым дисперсия σ 2 есть разница между средним из квадратов значений признака x 2 и квадратом их средней (x )2 : σ2 = x2 −(x)2 , где x 2 = ∑ xi2 - для несгруппированных данных; N x2 = ∑ x ⋅n 2 i i - для сгруппированных данных. ∑n i Этот способ позволяет вести расчет дисперсии по исходнымданным без предварительного расчета отклонений. Дисперсия как базовый показатель вариации обладает рядомвычислительных свойств, позволяющих упростить её расчет. К нимотносятся: • дисперсия постоянной величины равна 0; Формат: Список • дисперсия не меняется, если все варианты увеличить илиуменьшить на одно и то же число А; • если все варианты умножить (разделить) на число А, тодисперсия увеличится (уменьшится) в A 2 раз. 78 Размерность дисперсии соответствует квадрату размерностиисследуемого признака, поэтому данный показатель не имеетэкономической интерпретации. Для сохранения экономического смысларассчитывается ещё один показатель вариации – среднее квадратическоеотклонение. Среднее квадратическое отклонение представляет собой среднююквадратическую из отклонений отдельных значений признака от ихсредней арифметической: для несгруппированных да m ∑ (x − x) i 2 ⋅ ni для сгруппированных данных σ = i =1 m . ∑ ni i =1 Среднее квадратическое отклонение является именованнойвеличиной, имеет размерность усредняемого признака, экономическихорошо интерпретируется. Она также используется для оценкинадежности средней: чем меньше cреднее квадратическое отклонение σ ,тем надежнее cреднее значение признака x , тем лучше средняяпредставляет исследуемую совокупность. Для распределений, близких к нормальным между среднимквадратическим отклонением и средним линейным отклонениемсуществует следующая зависимость: σ ≈ 1 , 25 ⋅ d . • Относительные показатели вариации предназначены дляоценки и сравнения вариации нескольких признаков по однойсовокупности или же вариации одного и того же признака по несколькимсовокупностям. Базой для их исчисления является средняяарифметическая. Самым распространенным относительным показателемвариации является коэффициент вариации Vδ . Он представляет собойотношение среднего квадратического отклонения к среднейарифметической, выраженное в процентах: σ Vσ = ⋅ 100% . x Коэффициент вариации используется для характеристикиоднородности исследуемой совокупности. Статистическая совокупностьсчитается количественно однородной, если коэффициент вариации непревышает 33% . 79 Расчет показателей вариации рассмотрим на примере рядараспределения рабочих участка по стажу работы. Для этого составимвспомогательную таблицу: Таблица 5.4. Расчет показателей вариации для распределения рабочих по стажу работы№ Стаж работы, лет ni ni ⋅ xi Расчет Расчетгруппы среднего дисперсии линейного отклонения xiн xiв bi xi − x xi − x ⋅ ni xi2 xi2 ⋅ ni1 0 4 2 6 12 10 60 4 242 4 8 6 8 48 6 48 36 2883 8 12 10 11 110 2 22 100 11004 12 16 14 13 182 2 26 196 25485 16 20 18 6 108 6 36 324 19446 20 24 22 4 88 10 40 484 19367 24 28 26 2 52 14 28 676 1352Итого 0 28 14 50 600 - 260 - 9192 • Определение среднего стажа работы: x= ∑ x ⋅n i i = 600 = 12 лет. ∑n i 50 Таким образом, наиболее типичным для рабочих участка являетсястаж работы, равный 12 годам. • Определение размаха: R=28-0=28 лет. Размах показывает общий диапазон изменения стажа, он составляет28лет. • Среднее линейное отклонение составляетd = ∑ x − x ⋅n i i = 260 = 5,2 года. ∑n i 50 • Дисперсия для данного ряда составляет ∑x ⋅n ⎛ ∑ x i ⋅ ni 2 2 ⎞σ 2 = x 2 − (x)2 = i −⎜ ⎟ = 9192 − 12 2 = 183,84 − 144 = 39,84 лет 2 . ∑n i ⎜ ∑n ⎝ i ⎟ ⎠ 50Показатель с такой размерностью невозможно интерпретировать, поэтомурассчитаем среднее квадратическое отклонение • Среднее квадратическое отклонение составляет σ = 39,84 = 6,3года. 80Проверим соотношение между средним линейным отклонением и Формат: Список средним квадратическим отклонением: σ ≈ 1,25 ⋅ d ≈ 6,5 . Можно сделатьвывод, что распределение рабочих по стажу близко к нормальному. 6,3 • Коэффициент вариации составляет Vδ = ⋅100% ≈ 53% , что 12свидетельствует о высокой колеблемости признака в совокупности. 5.6. Правило сложения дисперсий Если изучаемая совокупность состоит из нескольких частей, тодля каждой из них можно рассчитать среднее значение признака идисперсию. Кроме этого можно рассчитать дисперсию, измеряющуювариацию признака между выделенными частями совокупности. Таким образом, с помощью разных видов дисперсии можноболее глубоко изучить вариацию признака в совокупности. Различаютследующие виды дисперсий: общая дисперсия, межгрупповая ивнутригрупповая. Общая дисперсия σ 2 измеряет вариацию признака во всейстатистической совокупности под влиянием всех факторов, вызывающихэту вариацию. Она рассчитывается по формуле: m ∑ (x − x) i 2 ⋅ ni σ 2 = i =1 . ∑n i Межгрупповая дисперсия δ 2 характеризует изменение признакаобусловленное факторами, положенными в основу группировки. Такимобразом, межгрупповая дисперсия есть дисперсия локальных средних. Еерасчет проводится по формуле: m ∑ (~ x i − x)2 δ2 = i =1 , где m ~ - локальная средняя (среднее значение признака) в каждой группе, xi m – количество групп (частей) в совокупности. Внутригрупповая дисперсия σ i2 характеризует случайнуювариацию, т.е. колебания признака, возникающие под воздействиемнеучтенных факторов и независящую от вариации признака – фактора,положенного в основу группировки. Внутригрупповая дисперсия σ i2рассчитывается для каждой однородной группы: ni ∑ (x i − ~i ) 2 x σ = i 2 i =1 . ni 81 На основании внутригрупповой дисперсии рассчитывается средняяиз внутригрупповых дисперсий (остаточная) σ i2 m ∑σ i 2 σ = i 2 i =1 . m Перечисленные виды дисперсий связаны между собойследующим отношением: σ 02 = δ 2 + σ i2 . Указанное соотношение называется правилом сложениядисперсий. Очевидно, что, чем больше величина межгрупповойдисперсии, тем более качественно проведена группировка, тем сильнеефакторный признак влияет на общую вариацию. Кроме этого, пользуясьуказанным правилом, можно по двум известным дисперсиям рассчитатьнеизвестную третью дисперсию. 5.7. Исследование формы распределения Выяснение общего характера распределения предполагает не толькооценку степени его однородности, но и исследование формыраспределения, т.е. оценку симметричности и эксцесса. Из математической статистики известно, что при увеличенииобъема статистической совокупности ( N → ∞ ) и одновременногоуменьшении интервала группировки ( xi → 0) полигон либо гистограммараспределения все более и более приближается к некоторой плавнойкривой, являющейся для указанных графиков пределом. Эта криваяназывается эмпирической кривой распределения и представляет собойграфическое изображение в виде непрерывной линии изменениячастот, функционально связанного с изменением вариант. В статистике различают следующие виды кривыхраспределения: • одновершинные кривые; Формат: Список • многовершинные кривые. Однородные совокупности описываются одновершиннымираспределениями. Многовершинность распределения свидетельствует онеоднородности изучаемой совокупности или о некачественномвыполнении группировки. Одновершинные кривые распределения делятся на симметричные,умеренно асимметричные и крайне асимметричные. Распределение называется симметричным, если частоты любых2-х вариантов, равноотстоящих в обе стороны от центрараспределения, равны между собой. В таких распределениях x = Mo = Me . Для характеристики асимметрии используют коэффициентыасимметрии. 82 Наиболее часто используются следующие из них: x − Mo • Коэффициент асимметрии Пирсона As = . σ В одновершинных распределениях величина этого показателяизменяется от -1 до +1. в симметричных распределениях As=0. При As>0 наблюдается правосторонняя асимметрия (рис.5.4). Враспределениях с правосторонней асимметрией Mo ≤ Me ≤ x . При As<0 – асимметрия отрицательная левосторонняя, Mo>Me> x . Рис. 5.4.Правосторонняя асимметрия При As<0 имеет место левосторонняя асимметрия (Рис. 5.4.).Mo>Me> x . Рис. 5.5. Левосторонняя асимметрия Чем ближе по модулю As к 1, тем асимметрия существеннее: • если |As|<0,25, то асимметрия считается незначительной; • если 0.5 <⏐As⏐<0.25 то асимметрия считается умеренной; • если |As|>0,5 – асимметрия значительна. Коэффициент асимметрии Пирсона характеризует асимметриютолько в центральной части распределения, поэтому более 83 распространенным и более точным является коэффициент асимметрии,рассчитанный на основе центрального момента 3-его порядка: μ3 As = , σ3 где μ3 - центральный момент третьего порядка; σ 3 - среднее квадратическое отклонение в третьей степени. Центральным моментом в статистике называется среднееотклонение индивидуальных значений признака от егосреднеарифметической величины. Центральный момент k-ого порядка рассчитывается как: N k ∑ ( xi − x ) μk = i =1 - для несгруппированных данных; n m ∑ (x i − x)k μk = i =1 m - для сгруппированных данных. i = 1∑ ni Соответственно формулы для определения центрального моментатретьего порядка имеют следующий вид: μ3 = ∑ (x i − x)3 - для несгруппированных данных; n μ3 = ∑ ( xi − x ) 3 ⋅ ni - для сгруппированных данных. ∑n i Для оценки существенности рассчитанного вторым способомкоэффициента асимметрии определяется его средняя квадратическаяошибка: 6 ⋅ ( N − 1) σ As = . ( N + 1) ⋅ ( N + 3) AS Если >3, асимметрия является существенной. σ AS Для одновершинных распределений рассчитывается еще одинпоказатель оценки его формы –эксцесс. Эксцесс является показателемостровершинности распределения. Он рассчитывается для симметричныхраспределений на основе центрального момента 4-ого порядка μ 4 : μ4 Ex = − 3, σ4 где μ 4 - центральный момент 4-го порядка. N ∑ (x − x) i 4 μ4 = i =1 - для несгруппированных данных; N 84 m ∑ (x − x) i 4 ⋅ ni μ4 = i =1 m - для сгруппированных данных. ∑ ni i =1 При симметричных распределениях Ех=0. если Ех>0, тораспределение относится к островершинным, если Ех<0 – кплосковершинным. Рассчитаем показатели асимметрии и эксцесса для рядараспределения рабочих по стажу работы. Ранее для данного ряда былиполучены следующие характеристики: x = 12 лет, Мо=12,9 лет, δ =6,3 года. Коэффициент асимметрии Пирсона получается равным: x − Mo 12 − 12,9 As = = ≈ −0,14 <0, что говорит о наличии незначительной σ 6,3левосторонней асимметрии в центральной части распределения. Коэффициент асимметрии, рассчитанный через центральныймомент 3-его порядка: As = μ3 = ∑ (x − x) i 3 ⋅ ni := 61,44 61,44 = = 0,24 >0. σ3 ∑n i 6,33 250 Это означает, что в целом по всему ряду наблюдаетсяправосторонняя асимметрия. Расчет центрального момента 3- его порядка μ3 приведен вовспомогательной таблице 5.6. Таблица 5.6. Расчет центральных моментов 3- его и 4-ого порядка № xi ni xi − x ( xi − x )3 ( xi − x )3 ⋅ ni ( xi − x ) 4 ( xi − x ) 4 ⋅ ni 1 2 6 -10 -1000 -6000 10000 60000 2 6 8 -6 -216 -1728 1296 10368 3 10 11 -2 -8 -88 16 176 4 14 13 2 8 104 16 208 5 18 6 6 216 1296 1296 7776 6 22 4 10 1000 4000 10000 40000 7 26 2 14 2744 5488 38416 76832 Итого 14 50 - - 3072 - 195360 85 Показатель эксцесса: μ4 195360 3907,2 Ex = −3 = ÷ 6,34 − 3 = − 3 = 2,5 − 3 = −0,5 , что δ4 50 1575,3свидетельствует о том, что распределение плосковершинное. 5.8. Теоретические распределения в анализе вариационныхрядов Эмпирические кривые распределения, построенные на основе, какправило, небольшого числа наблюдений очень трудно описатьаналитически, поэтому для выявления статистических закономерностей,сравнения и обобщения различных совокупностей аналогичных данныхиспользуются теоретические распределения. Теоретические распределения – это хорошо изученные в теориираспределения, представляющие собой зависимости между плотностямираспределения и значениями признака, отражающие закономерностираспределения. Они описываются статистическими функциями, параметрыкоторых вычисляются по статистическим характеристикам изучаемойсовокупности. Исследование формы распределения предполагает заменуэмпирического распределения известным теоретическим, близким ему поформе. При этом необходимо соблюдать условие: различия междуэмпирическим и теоретическим распределениями должны бытьминимальными. Это означает, что сумма частот эмпирическогораспределения должна соответствовать сумме частот m mтеоретического распределения, т.е. ∑ ni ≈ ∑ niT , где niT - частота i =1 i =1 теоретического распределения. Теоретическое распределение в этом случае является некоторойидеализированной моделью эмпирического распределения, и анализвариационного ряда сводится к сопоставлению эмпирического итеоретического распределений и определению различий между ними. В статистической практике наиболее широко используютследующие теоретические распределения: • Биномиальное распределение – для описания распределениядискретного альтернативного признака. Оно представляет собойраспределение вероятности исходов события, которые можно оценить какположительные или отрицательные. • Распределение Пуассона - для изучения маловероятныхсобытий в большой серии независимых испытаний (объем совокупностейn ≥ 100 , доля единиц, обладающих данным признаком q ≤ 0,1 ). Например,количество бракованных деталей в массовом производстве, число отказовавтоматических линий – т.е. в статистическом контроле. 86 Вероятность появления таких событий подчиняется Pn законуПуассона – «закону редких событий»: λn ⋅ e − λ Pn = , n! где Pn - вероятность события при одном испытании; n - частота данного события λ = n ⋅ p - среднее число появления события в одинаковых условиях; e = 2,72 - основание натурального логарифма. Распределение Пуассона обычно применяется в статистическомконтроле качества в массовом производстве. • Распределение Максвелла применяется при исследованиипризнака, для которого заранее известно, что распределение имеетположительную асимметрию. Чаще всего Распределение Максвеллаиспользуется при описании технологических характеристикпроизводственных процессов. • Распределение «Стьюдента» применяют для описанияраспределения ошибок в малых выборках ( n <30). Плотность распределения ошибок малой выборки определяется как: k +1 ⎛ t2 ⎞ 2 ϕ t = A ⋅ ⎜1 + ⎟ , ⎜ ⎝ k⎟ ⎠ ~−x x где t = - отношение Стьюдента, S ⋅ n −1 S– выборочное среднее квадратическое отклонение, ~ - выборочная средняя; x K=n-1- число степеней свободы при определении выборочнойдисперсии, ⎛ k +1⎞ γ ⋅⎜ ⎟ A= ⎝ 2 ⎠ , ⎛k⎞ γ ⋅⎜ ⎟⋅ π ⋅k ⎝2⎠ γ – значение γ функции. Распределение Стьюдента используется только при оценкеошибок выборок, взятых из генеральной совокупности с нормальнымраспределением признака. • Нормальное распределение (распределение Гаусса)применяется для описания распределения признаков, на которыедействуют множество независимых факторов, среди которых нетдоминирующих. Функция нормального распределения выглядит следующимобразом: 87 ( x− x )2 1 − ϕ ' ( x) = ⋅e 2σ 2 , σ ⋅ 2π где ϕ ' ( x) - относительная плотность распределения (ордината кривойнормального распределения); π =3,14, e = 2,72 - математические константы; x - среднее значение признака в распределении; σ- среднее квадратическое отклонение. Для конкретного распределения среднее значение признака x исреднее квадратическое отклонение σ являются постоянными величинами. Графически нормальное распределение может быть представлено ввиде симметричной колоколообразной кривой (рис. 5.6): Рис. 5.6. Нормальное распределение К основным свойствам кривой нормального распределенияотносятся: • кривая распределения является одновершинной; координаты Формат: Список 1вершины - { x ; }; σ ⋅ 2π • кривая распределения симметрична относительно оси,проходящей через центр распределения x = Mo = Me ; • кривая имеет три точки перегиба: в вершине, на левой ветви 1 1{ x −σ; }, и на правой - { x + σ ; }; σ ⋅ 2π ⋅ e σ ⋅ 2π ⋅ e 88 • кривая имеет две ветви, асимптотически приближающиеся коси абсцисс, продолжаясь до бесконечности; • если меняется значение x , кривая перемещается вдоль осиординат, при этом форма кривой не меняется; • если меняется значение σ , меняется форма распределения принеизменном положении центра распределения: при уменьшении σ -уменьшается вариация, кривая становится более пологой, увеличиваетсяэксцесс; при увеличении σ - увеличивается вариация, эксцессуменьшается; • площадь, ограниченная кривой сверху и осью абсцисс снизу,характеризует вероятность появления определенных значений признака:если всю её принять за 100%, то в пределах x ± σ находится 68,3% всехзначений признака, в пределах x ± 2σ - 95,44% значений, в пределах x ± 3σ -99,73% значений признака. Этот вывод называется правилом “трех сигм”, в соответствии, скоторым можно считать, что все возможные значения нормальнораспределенного признака укладываются в интервал x ± 3σ . Пользоваться функцией нормального распределения в еёпервоначальном виде сложно, так как для каждой пары значений x и σнеобходимо создавать свои таблицы значений. Поэтому функциюстандартизируют и затем используют для обработки рядов распределения,для чего вводится понятие стандартного отклонения ti : xi − x ti = . σ тогда: 1 ⎛ 1 ⎞ 2 t − ϕ ' ( x) = ⋅ ⎜ ⋅e 2 ⎟. σ ⎜ 2π ⎝ ⎟ ⎠ t2 1 − Выражение ϕ ' (t ) = ⋅e 2 состоит из констант, не содержит 2πпараметров, называется стандартизованной функцией нормальногораспределения. Для неё разработаны специальные таблицы, позволяющиенаходить конкретные значения ϕ ' (t ) при различных значениях аргумента ti(Приложение 1). Исходная функция нормального распределения связана состандартизированной соотношением: 1 ϕ ' ( x) = ⋅ ϕ ' (t ) . σ Стандартизованная функция является четной, т.е. ϕ ' (−t ) = ϕ ' (t ) . Для примера рассмотрим подбор теоретического распределения кряду распределения рабочих участка по стажу. 89 Данный ряд распределения характеризуется следующимипараметрами: x = 12 лет, σ =6,3 года. Для того чтобы оценить близость указанного ряда распределения кнормальному, необходимо рассчитать частоты теоретического рядараспределения ni . T x−x Для их расчета определяются стандартные отклонения t = , затем σпо таблицам значений функции Лапласа (Приложение 1) находятсязначения ϕ ' (t ) . Для получения частот теоретического распределения ni необходимо T иметь в виду, как относительная плотность распределения ϕ ' ( x) связана содной стороны с частотой ni , а с другой - со стандартизованной функциейнормального распределения ϕ ' (t ) . Эти связи выражаются следующимизависимостями: qiT niT niT ϕ ' ( x) = , qiT = , следовательно, ϕ ' ( x) = . ai N N ⋅ ai 1 С другой стороны, ϕ ' ( x) = ⋅ ϕ ' (t ) , таким образом, имеет место σравенство: niT 1 ai ⋅ N = ⋅ ϕ ' (t ) , отсюда niT = ⋅ ϕ ' (t ) ; N ⋅ ai σ σ где ai - ширина интервала, N – объем статистической совокупности, σ - среднее квадратическое отклонение, ϕ ' (t ) - стандартизованная функция нормального распределения. Полученные значения ni округляются до целых значений в T соответствии со смыслом характеристики частоты. Расчеты теоретических частот распределения рабочих по стажуприведены в таблице 5.6. Вспомогательные расчеты для построения теоретического распределения по данным о стаже работы рабочих участка. Стаж, лет Расчет χ 2 - Расчет№ критерия λ -критерия п/п ni x−x x−x ϕ ' (t ) ni − niT (ni − niT ) 2 Ni N iT N i − N iT t= δ ni интервал bi niT 1 0- 4 2 - - 0,1127 2 1,00 6 4 2 6 10 1,59 42 4- 8 6 - - 0,2541 0 0,00 14 12 2 8 6 0,95 83 8 - 12 - - 0,3790 -1 0,08 25 24 1 10 11 2 0,32 1 24 12 - 16 0,3790 +1 0,08 38 36 2 14 13 +2 +0,32 1 25 16 - 20 0,2541 -2 0,50 44 44 0 18 6 +6 +0,95 86 20 - 24 0,1127 0 0,00 48 48 0 22 4 +10 +1,59 47 24 - 28 0,0339 0 0,00 50 50 0 26 2 +14 +2,22 2Все 0 - 28 - - - 0 1,66 - - -го 14 50 5 0 Для определения близости эмпирического и теоретическогораспределений, можно построить эмпирическую и теоретическую кривыераспределения. Их сопоставление позволяет оценить степень расхождениямежду ними. Эмпирическую кривую строим по точкам с координатами { bi ,ni }, теоретическую – по точкам с координатами { bi , ni }. T Визуальное сопоставление эмпирической и теоретическойкривых распределения позволяет получить субъективную оценку ихблизости. Сравнивая графики, можно утверждать, что наблюдаетсядовольно большая близость фактических и теоретических частотраспределения. Следовательно, можно сделать вывод о том, чтоисследуемый ряд подчиняется закону нормального распределения. Для 91 получения объективной оценки расхождения между эмпирической итеоретической кривыми распределения используются специальныестатистические показатели – критерии согласия. 5.9. Оценка близости эмпирического и теоретическогораспределений Эмпирическое распределение отличается от теоретического тем, чтона значения признака в нем влияют случайные факторы. С увеличениемобъема статистической совокупности влияние случайных факторовослабевает, и эмпирическое распределение все менее отличается оттеоретического. Для оценки близости распределений используются особыепоказатели – критерии согласия. Они основаны на использованииразличных мер расстояний между эмпирическим и теоретическимраспределением. Наиболее часто на практике используются следующиекритерия согласия: • «хи-квадрат»- критерий (критерий Пирсона); Формат: Список • «лямбда»- критерий» (критерий Колмогорова). 5.9.1. «Хи-квадрат» - критерий является случайной величиной,имеющей распределение, близкое к распределению «хи-квадрат». Еговеличина определяется по формуле: m (ni − niT ) 2 χр = ∑ 2 . i =1 niT Чем меньше эмпирические и теоретические частоты в отдельныхгруппах отличаются друг от друга, тем меньше эмпирическоераспределение отличается от теоретического, то есть тем в большейстепени эмпирическое и теоретическое распределения согласуютсямежду собой. Для оценки существенности расчетной величины «хи-квадрат» - критерия оно сравнивается с табличным (критическим)значением χ k2 , определяемым по статистическим таблицам значений χ 2 -критерия. χ k2 определяют в зависимости от уровня значимости α ипараметра k=m- m1 -1, где α - вероятность ошибки, m1 - числооцененных параметров теоретического распределения по наблюдаемымзначениям признака. Уровень значимости τ выбирается таким образом, что P ( χ р > χ к2 )= α . 2 Обычно α принимается равным 0,05 или 0,01, что соответствуетвероятности 95% или 99%. 92 Если χ p ≤ χ k2 , то считают, что распределения близки друг другу, 2 различия между ними несущественны. Критерий Пирсона можно использовать можно при соблюдении Формат: Список следующих условий: • в совокупности не менее 50 единиц наблюдения ( N ≥ 50 ), • теоретические частоты ni ≥ 5 ,- если это условие не T соблюдается, то следует объединить интервалы. Рассчитаем в таблице 4.6. значения отклонений ( ni − ni ) и T фактическое значение χ 2 - критерия. По расчету χ р = 1,66 . Это значение 2 сравнивается с табличным, определенном при числе степеней свободыk=4 и уровне значимости = 0,05. Оно равно χ к2 =9,49. Таким образом χ р < χ к2 ; 2 эмпирическое и теоретическоераспределения признаются близкими друг другу с вероятностью 95%,расхождения между ними - несущественными, вызываемыми случайнойвариацией признака в совокупности. . На основе - критерия может быть рассчитан ещё один критерийсогласия – критерий Романовского: χ p − (m − 3) 2 C= . 2 ⋅ (m − 3) Эмпирическое и теоретическое распределения признаются близкимидруг другу, если С<3. 5.9.2. Критерий согласия Колмогорова основан на другой мереблизости распределений. Для оценки близости эмпирическогораспределения к нормальному используется максимальная разница междунакопленными эмпирическими и накопленными теоретическимичастотами. Расчетное значение «лямбда»- критерия» определяется поформуле: Д λр = = Д : N, m ∑n i =1 i , где Д = max{N i − N iТ } i =1, m N i - накопленная эмпирическая частота, N iT - накопленная теоретическая частота. По рассчитанному значению λ p по специальной таблицевероятностей «лямбда»- критерия» определяется вероятность того, чторассматриваемое эмпирическое распределение подчиняется законунормального распределения. 93 Для рассматриваемого примера Д=2 - в соответствии с расчетом,приведенным в таблице 4.6. 2 2 Тогда λ р = = = 0,283 . 50 7,07 По таблице вероятностей P(λ ) определяем, что λ =0,283соответствует вероятность Р( λ ), близкая к 1. Полученное значение вероятности свидетельствует о том, чторасхождение между эмпирическим и теоретическим распределенияминесущественны, вызваны случайной вариацией признака встатистической совокупности. В основе эмпирического распределениярабочих по стажу лежит закон нормального распределения. 90
Поделиться:

Дата добавления: 2015-07-26; просмотров: 98; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.008 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты