Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Кластерный анализ в программной среде STATISTICA




Одним из непреложных условий корректного проведения статистических исследований является требование обеспечения однородности признаков объектов. В качестве признаков, характеризующих объект, будем использовать совокупность всех переменных, т. е. изменяемых факторов ; и . Обозначим общее количество признаков .

Методика кластерного анализа состоит из следующих этапов:

1. Стандартизация исходных статистических данных.

2. Вычисление расстояний между признаками объектов и суммарное расстояние между объектами по всем признакам и составление матрицы расстояний между объектами.

3. Поиск наименьшего расстояния между объектами и объединение двух объектов с наименьшим расстоянием между ними в кластере.

4. Вычисление расстояний между объектами и формирующимися кластерами и преобразование матрицы расстояний между ними. Переход к пункту 3 и выполнение пунктов 3 и 4 до тех пор, пока не будут сгруппированы все объекты и кластеры в один общий кластер, после чего переход к пункту 5.

5. Выдача перечней объектов по выделенным кластерам и соответствующей дендрограммы с указанием расстояний между сформированными кластерами.

Расстояние от формирующегося кластера с вошедшими в него объектами до других объектов может вычисляться по следующим правилам.

1. Принцип ближайшего соседа.

, при ; (3.1.1)

,при .

2. Принцип наиболее удаленного соседа.

, при ; (3.1.2)

,при .

3.Принцип среднего расстояния.

. (3.1.3)

3. Принцип медианы.

. (3.1.4)

В формулах (3.1.1)-(3.1.4) приняты следующие обозначения:

- расстояние между q-ым кластером, к которому подсоединен еще один объект, и g-ым объектом или кластером;

- расстояние между i-ым и g-ым объектами или кластерами;

- расстояние между j-ым и g-ым объектами или кластерами;

- расстояние между i-ым и j-ым объектами или кластерами.

 

Первый этап для кластерного анализа проведем для «Кластерные усреднения & евклидова расстояния». В итоге определим Средние значения для каждого кластера:

В первой таблице указаны Средние значения для каждого кластера:

Таблица 11

В следующей таблице указаны, евклидовы расстояния и квадраты евклидовых расстояний между кластерами:

Таблица 12

В данной таблице даны евклидовы расстояния между средними кластеров (по каждому из параметров внутри кластера вычисляется среднее, получается 3 точки в пятимерном пространстве, и между ними находится расстояние). Над диагональю в таблице даны квадраты расстояний между кластерами.

Далее определим дисперсионный анализ, где например, Между SS – внутригрупповая дисперсия (изменчивость), Внутренняя SS – межгрупповая дисперсия.

 

Таблица 13

 

Граф усреднений позволяет посмотреть средние значения для каждого кластера на линейном графике (графики средних значений характеристик районов для каждого кластера).

 

Рис.5 График средних для каждого кластера

 

Описательная статистика для каждого кластера представляет электронные таблицы с описательными статистиками для каждого кластера (среднее, стандартное отклонение, дисперсия).

 

Описательная статистика для кластера 1

Таблица 14

 

Описательная статистика для кластера 2:

 

Таблица 15

Описательная статистика для кластера 3:

 

Таблица 16

Элементы каждого кластера & расстояния

Элементы первого кластера и расстояния:

 

Таблица 17

Элементы второго кластера и расстояния:

Таблица 18

 

 

Элементы третьего кластера и расстояния:

Таблица 19

 

В итоге были произведены факторный и кластерный анализы, а так же оценка полученных результатов. Для факторного анализа были сравнены результаты двух типов вращений, а именно Варимакс исходных и Биквартимакс нормализованных, в результате существенных различий не обнаружилось. Хотя, теоретический считается, что для достижения простой структуры, в которой каждая переменная характеризуется преобладающим влиянием какого-то одного фактора, целесообразно применение метода вращения «Varymax», максимизирующего разброс квадратов факторных нагрузок по каждому фактору в отдельности и приводящий к увеличению больших нагрузок и уменьшению маленьких нагрузок.

 

 


Поделиться:

Дата добавления: 2015-08-05; просмотров: 122; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты