КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Математическая формулировка
Модель алгоритма априори, его математическая составляющая описана в источниках [1-2]. Краткое обоснование используемых терминов и понятий дано ниже. Правило X->Y имеет поддержку s (support), если s клиентов из D, содержат пересечение множеств X и Y. Достоверность правила показывает какова вероятность того, что из X следует Y. Правило X->Y справедливо с достоверностью c (confidence), если c транзакций из D, содержащих X, также содержат Y, conf(X-> Y) = supp(X->Y)/supp(X ). Рассмотрим принятую формальную постановку задачи поиска ассоциативных связей, введем базовые термины и опишем формализмы, используемые в существующей литературе по этой проблематике. Пусть –база данных клиентов банка, – произвольный клиент, –множество всех свойств и характеристик клиентов, которые используются для обозначения объектов в базе данных клиентов множества , –подмножество свойств и признаков из множества X, и – подмножество множества данных клиентов из множества , каждая из которых содержит множество признаков в качестве подмножества. Для характеристики статистических свойств подмножества A в базе данных обычно используют отношение мощности множества к мощности всего множества клиентов .Эту величину принято называть поддержкой (support) подмножества во множестве клиентов :
Порогом уверенности = и порогом поддержки = ( , – ассоциативное правило) существуют, если справедливы следующие неравенства
где – количество клиентов во множестве , которые содержат объединение множества символов подмножеств и . Модель ассоциативного правила вида (2), принято называть моделью типа поддержка–уверенность. Подмножество элементов принято называть посылкой правила , а подмножество – его следствием. Иногда эти подмножества называют паттернами (patterns). В задачах ассоциативной классификации заключение правила может содержать только однолитерный паттерн, например, метку одного из классов. Однолитерным может быть также и паттерн . Те же обозначения и термины используются и при поиске ассоциативно или причинно связанных атрибутов. Задача поиска ассоциативных правил является здесь центральной задачей. Кроме того, стоит отметить свойство антимонотонности. Поддержка любого набора элементов не может превышать минимальной поддержки любого из его подмножеств. Данное свойство служит для снижения размерности пространства поиска. Не имей мы в наличии такого свойства, нахождение многоэлементных наборов было бы практически невыполнимой задачей в связи с экспоненциальным ростом вычислений.
|