КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Ход работы. 3.1 Рассмотрим пример, относящийся к сравнительному оцениванию автомобилей ⇐ ПредыдущаяСтр 2 из 2 3.1 Рассмотрим пример, относящийся к сравнительному оцениванию автомобилей. Создадим таблицу с данными: выборочные сведения о фирме-изготовителе, название модели, а также параметры автомобиля: вес (weight), число цилиндров (cylinders), ускорение (accel), объем двигателя (displace) и мощность (horspower) (рисунок 2).
Рисунок 2 - Таблица с данными
Рассмотрим метод главных компонент. Выберем Special > Multivariate Methods > Principal Components. Появляется окно диалога для задания анализируемых переменных, выберем переменные, показанные на рисунке 3.
Рисунок 3 – Окно задания переменных для анализа
Получаем исходную сводку анализа метода ГК (рисунок 4), из которой заключаем, что анализу подвергаются переменные weight
Рисунок 4 – Исходная сводка метода главных компонент
Далее следует информация непосредственно метода ГК: собственные значения ГК, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную ГК (Percent of Variance); накопленный процент дисперсии (Cumulative Percentage). Приведенные цифры говорят о том, что уже первые две главные компоненты описывают 90,11 % дисперсии исходных данных. Нажав на правую клавишу мыши, выберем пункт Analysis Options и установим количество компонент, равное трем (рисунок 5).
Рисунок 5 – Установка числа компонент
Для более детального анализа нажмем кнопку табличных опций (вторая слева в верхнем ряду) и в соответствующем окне диалога (рисунок 6) установим флажок компонентных весов (Component Weights), после чего получим следующую таблицу (рисунок 7).
Рисунок 6 – Установка табличных опции
Как следует из полученных цифр, в первой ГК примерно одинаковые по величине положительные коэффициенты имеют вес, количество цилиндров, объем двигателя и мощность. Вместе с тем, во второй ГК превалирует только одна величина: ускорение. А в третьей ГК наблюдается сочетание веса машины и ее мощности (с положительным знаком), которому противопоставляется количество цилиндров (с отрицательным знаком). Перейдем к рассмотрению диаграммы рассеивания всей совокупности автомашин в пространстве выделенных трех первых ГК. Для этого щелкнем левой кнопкой мыши на кнопке графических опций и инициализируем данное трехмерное отображение (рисунок 8).
Рисунок 7 – Веса признаков в главных компонентах
Рисунок 8 – Проекция исследуемых автомобилей
На представленном рисунке хорошо видно, что вся исследуемая совокупность автомашин разделилась на три достаточно четко выраженные группы. Для первой, наиболее многочисленной группы характерны сравнительно небольшие вес, количество цилиндров, мощность и объем двигателя (первая группа слева). Вместе с тем, большая доля автомашин этой группы обладают хорошим ускорением (высокие значения 2-й ГК) и высоким соотношением веса и мощности к количеству цилиндров (3-я ГК). Рассмотрим применение кластерного анализа. Выберем Special > Multivariate Methods > Cluster Analysis. Появляется окно диалога для ввода данных в кластерный анализ (рисунок 9).
Рисунок 9 - Окно диалога ввода данных для кластерного анализа
Щелкнем правой кнопкой мыши — на экране появляется окно диалога для выбора параметров кластерного анализа. Установим флажок Wards, чтобы выделение кластеров происходило по методу Варда (рисунок 10).
Рисунок 10 – Окно диалога для выбора параметров кластерного анализа
Выберем отображение в виде дендрограммы (Dendrogram) (рисунок 11). Рисунок 11 - Дендрограмма, полученная методом Варда для одного кластера
Дендрограмма отображает иерархическую структуру группирования объектов. На ней отчетливо видны как минимум три группы – отсюда следует, что для более подробного рассмотрения группировок следует задать их количество равным 3 (рисунок 12). Тогда дендограмма примет вид, изображенный на рисунке 13.
Рисунок 12 – Сводка кластерного анализа Рисунок 13 - Дендрограмма, полученная методом Варда для трех кластеров
Нажмем кнопку табличных опций. Установим Membership Table (таблица принадлежности наблюдений). В данной таблице описаны выбранные параметры кластерного анализа и дается полный список всех наблюдений, их имена и номера кластеров, в которые входят указанные наблюдения (рисунок 14).
Рисунок 14 –Таблица принадлежности наблюдений кластерам
Создадим двухмерную диаграмму рассеивания (рисунок 15), выбрав по оси Х значения веса, по оси Y – мощности.
Рисунок 15 – Двухмерная диаграмма рассеивания
3.2 Рассмотрим пример, относящийся к деятельности предприятия. На рисунке 16 показана таблица, содержащая основные показатели: Y1 - производительность труда; X5 - удельный вес рабочих в составе промышленно-производственного персонала; X7 - коэффициент сменности оборудования (смен); X9 - удельный вес потерь от брака (%); X10 - фондоотдача активной части основных производственных фондов.
Рисунок 16 – Основные показатели деятельности предприятия
Проведем компонентный анализ. Выберем Special > Multivariate Methods > Principal Components. В результате (рисунок 17) получаем исходную сводку анализа метода, из которой заключаем, что анализу подвергаются переменные Y1( производительность труда, X7 (коэффициент сменности оборудования) (смен), X9 (удельный вес потерь от брака) (%);и что число объектов составляет 17.
Рисунок 17 – Сводка анализа
С помощью пункта Analysis Options установим количество компонент, равное трем. В табличных опциях установим флажок компонентных весов (Component Weights), после чего получим следующую таблицу (рисунок 18).
Рисунок 18 – Веса признаков в главных компонентах
Как следует из полученных цифр, в первой ГК примерно одинаковые по величине положительные коэффициенты имеют производительность труда (Y1), удельный вес потерь от брака (X9). Вместе с тем, во второй ГК превалирует только одна величина: коэффициент сменности оборудования (Х7). А в третьей ГК – удельный вес рабочих в составе персонала (Х5). Перейдем к рассмотрению диаграммы рассеивания. Для этого щелкнем левой кнопкой мыши на кнопке графических опций и инициализируем данное трехмерное отображение (рисунок 19).
Рисунок 19 – Проекция исследуемых предприятий в пространство трех ГК
Рассмотрим применение кластерного анализа. Выберем Special > Multivariate Methods > Cluster Analysis. В окне диалога для выбора параметров кластерного анализа установим флажок Wards, чтобы выделение кластеров происходило по методу Варда. Выберем отображение в виде дендрограммы (Dendrogram) (рисунок 20). Затем зададим количество кластеров равным трем, тогда дендограмма будет иметь вид, показанный на рисунке 21. Рисунок 20 - Дендрограмма, полученная методом Варда для одного кластера Рисунок 21 - Дендрограмма, полученная методом Варда для трех кластеров
Нажмем кнопку табличных опций. Установим Membership Table (таблица принадлежности наблюдений). В данной таблице описаны выбранные параметры кластерного анализа и дается полный список всех наблюдений, их имена и номера кластеров, в которые входят указанные наблюдения (рисунок 22).
Рисунок 22 –Таблица принадлежности наблюдений кластерам
Создадим двухмерную диаграмму рассеивания (рисунок 23), выбрав по оси Х значения коэффициента сменности оборудования, по оси Y – производительность труда.
Рисунок 23 – Двухмерная диаграмма рассеивания
Вывод В результате выполнения лабораторной работы были изучены два метода анализа данных – компонентный и кластерный. Рассмотрены две области – рынок автомобилей и деятельность предприятия. Выделены главные компоненты, выявлены наиболее характерные для них признаки, построены диаграммы рассеивания показателей, дендограммы методом Варда.
|