Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Описательная статистика. Классификация задач и методов анализа связей между признаками.




Описание "поведения" признака

Начальным этапом изучения эмпирических данных, при котором происходит предварительное упорядочивание первичной информации, является одномерный анализ данных, т.е. описание распределений наблюдений ("случаев") вдоль оси интересующего исследователя признака. Основным методом при этом выступает метод статистической группировки. Метод статистической группировки - распределение единиц изучаемого объекта на однородные группы по существенным для него признакам. Результатом группировки являются некие частотные распределения, которые обычно описываются тремя показателями: абсолютная частота - число объектов в выборке, обладающих определенным значением какого-либо признака; относительная частота (частость) - доля объектов, обладающих определенным значением какого-либо признака, относительно всех объектов выборки (в процентах или долях); накопленная частота - суммарная доля объектов, обладающих определенными признаками, относительно всех объектов выборки.

Для представления результатов группировки используют статистические таблицы (таблицы частотных распределений)..

Изменения (вариации признака) могут иметь разный вид: дискретный или непрерывный. Дискретной называется вариация, при которой отдельные значения признака (варианты) отличаются друг от друга на некоторую конечную величину, т.е. даны в виде прерывных чисел (номинальная и порядковая шкалы). Непрерывнойназывается вариация, при которой значения признака могут отличаться друг от друга на сколь угодно малую величину (интервальные шкалы). При непрерывном изменении значений признака частотное распределение задается по интервалам, т.е. частоты соотносят не с каждым отдельным значением признака, а с рядом значений, попадающих в определенный интервал. При этом большое значение приобретает выбор типа, количества и размеров интервалов. Общее требование к этому выбору состоит в том, чтобы группировка наиболее полно отражала существенные свойства рядов распределения. Решение этой проблемы связано, в первую очередь, с содержанием задачи, стоящей перед исследователем. Важную роль при выборе способа разбиения на интервалы играет желание сравнить собственные данные с результатами работы других исследователей. В этом случае, способы разбиения диапазонов признаков должны быть одинаковыми.

Существуют и математические методы, помогающие разбить диапазон изменения признака на интервалы. При делении диапазона значений признака на интервалы необходимо точно обозначать количественные границы группы, избегая таких обозначений границ интервалов, при которых отдельные единицы совокупности могут быть отнесены в две соседние группы. Например, при разбиении признака “доход” границы интервалов не должны включать одни и те же значения.

Не верно: Верно:
1. менее 1000 1. менее 1000
2. 1000 - 2000 2. 1000 - 2000
3. 2000 - 3000 3. 2001 - 3000
4. ... 4. ...

Помимо табличного представления частотных распределений используют также различные методы графического представления. Каждый столбик гистограммы (столбиковой диаграммы) соответствует интервалу значений переменной, причем его середина совмещается с серединой данного интервала. Высота столбика отражает частоту (абсолютную или относительную) попадания наблюдавшихся значений переменной в определенный интервал.

Для номинальных и порядковых шкал ширина каждого столбика условно равняется единице, поэтому не учитывается. Точно также строится гистограмма для шкал более высокого уровня, но только в том случае, если диапазон значений разбит на равные интервалы (например, при выделении групп по стажу работы с интервалом 5 лет - "до 5"; "от 6 до 10"; "от 11 до 15" и т.д.) Если же интервалы не равны, гистограмма строится иначе, а именно - по плотности распределения, отражающей число объектов, приходящихся на единицу интервала. Таким образом учитывается ширина соответствующего интервала, следовательно, гистограмма будет иметь другой вид.

Одним из способов графического представления распределения данных является построение эмпирической кривой распределения (полигона)- линии, соединяющей середины интервалов.

А также круговой диаграммы, каждый сектор которой соответствует группе, заданной значением одной группирующей переменной.

Отображение распределений в графическом виде позволяет: упорядочивать группы по их представительности (объему) в выборке; определять степень единодушия ответов; анализировать характер распределения для определения закона распределения данных (теоретического распределения).

Для описания одномерных признаков используют простейшие статистические закономерности - меры центральной тенденции. В социологии наиболее часто используются мода, медиана, среднее арифметическое.

Мода (Мо) - наиболее часто встречающееся значение признака, т.е. значение, с которым наиболее вероятно можно встретиться в серии зарегистрированных наблюдений (значение, имеющее наибольшую частоту).

Для номинальной и порядковой шкал модальными являются дискретные значения признака, а для интервальных - модальный интервал- интервал, содержащий моду. При его построении необходимо перейти от содержательных критериев деления на интервалы, к делению по формальным критериям. Интервалы при этом должны иметь одинаковую ширину, а их количество определяется мерой изменчивости признака.

К недостаткам моды относят:

невозможность осуществления арифметических операций со значением моды;

в интервальном вариационном ряду величина моды зависит от интервала группировки;

в вариационном ряду моды может не быть (случай отсутствия преобладающих значений) или может существовать несколько модальных значений.

Медиана - значение признака у той единицы совокупности, которая расположена в середине упорядоченного ряда.

Если в вариационном ряду четное число членов, то медиана равна среднему арифметическому из двух срединных значений признака.

Среднее арифметическое

Выделяют:

простую среднюю арифметическую - частное от деления суммы всех значений признака на их число и среднюю арифметическую взвешенную - средняя арифметическая ряда, упорядоченного при помощи группировки, определяемая с учетом весов (численности) группы.

Целесообразность использованиятого или иного типа средней величины зависит от нескольких условий: цели усреднения; вида распределения; уровня измерения признака.

Цель усреднениясвязана с содержательной трактовкой рассматриваемой задачи, т.е. с ответом на вопрос, для чего используется тот или иной показатель средней тенденции.

Вид распределения также определяет выбор среднего. Например, для унимодального симметричного распределения (половины гистограммы слева и справа от модального значения зеркально совпадают) среднее, медиана и мода будут равны между собой. Для несимметричного распределения их значения будут разными - в правостороннем асимметричном распределении медиана и мода всегда меньше среднего арифметического, в левостороннем асимметрическом распределении - больше. В том случае, если распределение переменной - признака близко к нормальному (крайние большие и малые значения встречаются редко, а средние - часто), то лучшим выбором будет среднее. В случае больших колебаний изучаемого признака следует остановиться на медиане. Этот же показатель следует использовать при нефиксированных крайних значениях интервалов вариационного ряда.

Уровень измерения признакаопределяет ограничения на содержательную интерпретацию значения среднего. Для номинальной шкалы допустимо использование лишь моды, для порядковой - моды и медианы, интервальной - моды, медианы, среднего арифметического.

Сравнение значений средних показателей - является весьма распространенным способом анализа одномерных распределений. Однако сравнение различных мер центральной тенденции, например, медианы и моды недопустимо. Объясняется это тем, что они описывают разные характеристики распределения: мода - наиболее часто встречающееся значение, а медиана - среднее положение. Два однотипных показателя средней тенденции тоже не всегда сравнимы. Средние двух распределений имеет смысл сравнивать, если распределения имеют сходную форму.

Также нельзя сравнивать две средние величины, если одно распределение симметрично, а другое скошено (имеет большие или малые значения в "хвостовых частях"). Хотя значения меры центральной тенденции в том и другом случае может быть одно и тоже, вывод о том, что анализируемая переменная распределена в обоих случаях одинаково будет неверным.

Таким образом, для корректных выводов о характере распределения признака важно знать не только то, что типично для выборки наблюдений, но и то, насколько выражены отклонения от типичных значений. Чтобы определить, насколько точно та или иная мера центральной тенденции описывает распределение, пользуются какой-либо мерой изменчивости, разброса. Иногда их называют также показателями рассеяния (вариации) признака.


Поделиться:

Дата добавления: 2015-04-18; просмотров: 237; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.008 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты