КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Теоретические сведенияСтр 1 из 2Следующая ⇒ ЛАБОРАТОРНАЯ РАБОТА №2. ИЗУЧЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В СРЕДЕ STATGRAPHICS. КОМПОНЕНТНЫЙ АНАЛИЗ. КЛАСТЕРНЫЙ АНАЛИЗ. Цель работы Изучение особенностей применения компонентного и кластерного анализа в среде StatGraphics с целью исследования структуры данных и извлечения знаний. Теоретические сведения
2.1 Компонентный анализ
С геометрических позиций алгоритм построения главных компонент (ГК) состоит в следующем. Производится центрирование исходных данных (рисунок 1а); система координат переносится в центр распределения данных (центроид) (рисунок 1б). Рисунок 1 – Формирование главных компонент
Затем осуществляется формирование главных компонент F1, F2,…,Fp (рисунок 1в). Линейные комбинации выбираются таким образом, что среди всех возможных комбинаций первая ГК F1(X) обладает наибольшей дисперсией. Дисперсия σ стремится к максимуму. Графически это выглядит как ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов в исходном пространстве P признаков. Вторая ГК F2(X) перпендикулярна первой и строится исходя из предположений нахождения максимальной дисперсии среди всех оставшихся линейных комбинаций. Графически это интерпретируется направлением наибольшей вытянутости эллипсоида рассеивания, который перпендикулярен первой главной компоненте. Достоинства метода. 1. С точки зрения визуализации многомерных данных метод обладает свойствами наименьшего искажения структуры исходного пространства при проецировании в пространство меньшей размерности. 2 Метод применяется успешно в системе с другими методами исследования данных, например в корреляционно-регрессионном анализе. Недостатки метода. Возможна ситуация, когда весовые коэффициенты имеют близкие по величине значения. В этом случае результат слабо интерпретируем. Эта проблема решается применением других видов анализа, например факторного, добавлением или исключением переменных из анализа.
2.2 Кластерный анализ
Постановка задачи кластеризации. Дано: множество n объектов, характеризуемых m признаками. Необходимо выполнить разбиение заданного множества объектов на заранее неизвестное или в редких случаях заданное количество групп (кластеров) на основании некоторого математического критерия кластеризации. Claster (гроздь, пучок, скопление) – группа элементов, которые характеризуются какими-то общими свойствами. Критерий качества кластеризации в той или иной мере должен отражать следующие неформальные требования: 1) внутри групп объекты должны быть тесно связанны между собой; 2) объекты разных групп должны быть далеки друг от друга; 3) распределение объектов по группам должно быть равномерным. Методы кластерного анализа позволяют решать следующие задачи: 1) проведение классификации объектов с учетом множества признаков с целью углубления знаний о множестве изучаемых признаков; 2) проверка выдвигаемых предположений о наличии некоторой структуры в изучаемом множестве объектов; 3) построение новых классификаций для слабо изученных явлений, то есть поиск в изучаемом множестве заранее неизвестной структуры. Все методы кластерного анализа делятся на две группы: - агломеративные (объединяющие) – построены на основе последовательного объединения объектов в группы. - дивизионные (разделяющие) – построены на основе расчленения группы на отдельные объекты. Основные проблемы в кластерном анализе. 1 Определение мер сходства (метрики). Метрика – мера близости между двумя объектами в m-мерном пространстве. От выбранной метрики зависит окончательный вариант разбиения. 1) евклидово расстояние: , 2) взвешенное евклидово расстояние: , 3) расстояние city-block: , 4) расстояние Минковского: , где – расстояние между i-м и j-м объектами; xil, xjl – значения l-й переменной соответственно у i-го и j-го объектов; wk – вес, приписываемый k-й переменной. Обобщенный алгоритм кластерного анализа. Шаг 1. Задается начальное (искусственное или произвольное) разбиение на кластеры, и определяется некоторый математический критерий качества автоматической классификации. Шаг 2. Объекты переносятся из кластера в кластер до тех пор, пока значение критерия качества не перестанет улучшаться. При этом возможен либо полный перебор вариантов, либо сокращенный на основании каких-либо эвристик.
|