Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Теоретические сведения




ЛАБОРАТОРНАЯ РАБОТА №2. ИЗУЧЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В СРЕДЕ STATGRAPHICS. КОМПОНЕНТНЫЙ АНАЛИЗ. КЛАСТЕРНЫЙ АНАЛИЗ.

Цель работы

Изучение особенностей применения компонентного и кластерного анализа в среде StatGraphics с целью исследования структуры данных и извлечения знаний.

Теоретические сведения

 

2.1 Компонентный анализ

 

С геометрических позиций алгоритм построения главных компонент (ГК) состоит в следующем.

Производится центрирование исходных данных (рисунок 1а); система координат переносится в центр распределения данных (центроид) (рисунок 1б).

Рисунок 1 – Формирование главных компонент

 

Затем осуществляется формирование главных компонент F1, F2,…,Fp (рисунок 1в). Линейные комбинации выбираются таким образом, что среди всех возможных комбинаций первая ГК F1(X) обладает наибольшей дисперсией. Дисперсия σ стремится к максимуму. Графически это выглядит как ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов в исходном пространстве P признаков.

Вторая ГК F2(X) перпендикулярна первой и строится исходя из предположений нахождения максимальной дисперсии среди всех оставшихся линейных комбинаций.

Графически это интерпретируется направлением наибольшей вытянутости эллипсоида рассеивания, который перпендикулярен первой главной компоненте.

Достоинства метода.

1. С точки зрения визуализации многомерных данных метод обладает свойствами наименьшего искажения структуры исходного пространства при проецировании в пространство меньшей размерности.

2 Метод применяется успешно в системе с другими методами исследования данных, например в корреляционно-регрессионном анализе.

Недостатки метода.

Возможна ситуация, когда весовые коэффициенты имеют близкие по величине значения. В этом случае результат слабо интерпретируем. Эта проблема решается применением других видов анализа, например факторного, добавлением или исключением переменных из анализа.

 

2.2 Кластерный анализ

 

Постановка задачи кластеризации. Дано: множество n объектов, характеризуемых m признаками. Необходимо выполнить разбиение заданного множества объектов на заранее неизвестное или в редких случаях заданное количество групп (кластеров) на основании некоторого математического критерия кластеризации.

Claster (гроздь, пучок, скопление) – группа элементов, которые характеризуются какими-то общими свойствами. Критерий качества кластеризации в той или иной мере должен отражать следующие неформальные требования:

1) внутри групп объекты должны быть тесно связанны между собой;

2) объекты разных групп должны быть далеки друг от друга;

3) распределение объектов по группам должно быть равномерным.

Методы кластерного анализа позволяют решать следующие задачи:

1) проведение классификации объектов с учетом множества признаков с целью углубления знаний о множестве изучаемых признаков;

2) проверка выдвигаемых предположений о наличии некоторой структуры в изучаемом множестве объектов;

3) построение новых классификаций для слабо изученных явлений, то есть поиск в изучаемом множестве заранее неизвестной структуры.

Все методы кластерного анализа делятся на две группы:

- агломеративные (объединяющие) – построены на основе последовательного объединения объектов в группы.

- дивизионные (разделяющие) – построены на основе расчленения группы на отдельные объекты.

Основные проблемы в кластерном анализе.

1 Определение мер сходства (метрики).

Метрика – мера близости между двумя объектами в m-мерном пространстве.

От выбранной метрики зависит окончательный вариант разбиения.

1) евклидово расстояние: ,

2) взвешенное евклидово расстояние: ,

3) расстояние city-block: ,

4) расстояние Минковского: ,

где – расстояние между i-м и j-м объектами;

xil, xjlзначения l-й переменной соответственно у i-го и j-го объектов;

wkвес, приписываемый k-й переменной.

Обобщенный алгоритм кластерного анализа.

Шаг 1. Задается начальное (искусственное или произвольное) разбиение на кластеры, и определяется некоторый математический критерий качества автоматической классификации.

Шаг 2. Объекты переносятся из кластера в кластер до тех пор, пока значение критерия качества не перестанет улучшаться. При этом возможен либо полный перебор вариантов, либо сокращенный на основании каких-либо эвристик.

 


Поделиться:

Дата добавления: 2015-09-14; просмотров: 55; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты