КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Концепция и назначение хранилища данных, типовая обобщенная схема. Основные отличия от OLTP-системХранилище данных – предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Предполагают, что хранилище данных содержит сведения, поступающие из различных источников, а также накапливает и свои данные. Свойства хранилищ данных: 1. Предметная ориентированность обозначает, что хр-ще данных организуется вокруг основных субъектов, а не областей деят-ти 2. Интегрированность заключается в том, что оперативные прикладные данные поступают в хр-ще из разных источников, кот могут иметь несоглас-е предст-ние одних и тех же данных, данные могут иметь разный формат. 3. Привязка ко времени. Данные в хр-ще точны и действительны, только если они привязаны к интервалу времени. 4. Неизменяемость – данные не обновляются в оперативном режиме, а лишь пополняются за счет инф-ции из систем оперативной обработки Конечной целью создания хранилища является интегрированных корпоративных данных, обращение к которым с помощью запросов.
Основные проблемы, связанные с хранилищем данных: 1) Недооценка ресурсов, необходимая для хранения данных; 2) Скрытые проблемы источников данных – связана с источником данных и заключается в том, что некоторые поля остаются не заполнены (пропущены в процессе заполнения); 3) Отсутствие требуемых данных в имеющихся архивах; 4) Повышения требований конечных пользователей; 5) Унификация данных (при создании интегрированного представления данных разработчик может сделать акцент на подчёркивании сходств, а не отличий); 6) Высокие требования к ресурсам (требуется большой объём памяти); 7) Владение данными – создание хранилища данных может изменить статус конечных пользователей в отношении прав доступа к данным; 8) Сложность сопровождения; 9) Долговременный характер проекта (для создания проекта может потребоваться большой срок)
7. Основные способы хранения данных в OLAP-системах: MOLAP, ROLAP, HOLAP. MOLAP (Multidimensional OLAP) –— исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные. Преимущества: 1) высока производительность. 2) структура и интерфейс наилучший образом соответствуют анатомии запросов. 3) в многомерной СУБД легко включать разнообразные встроенные функции. Недостатки: 1) могут работать только под своими СУБД и явл дорогими. 2) по сравнению с реляц неэффективно использует память. 3) имеет менее эффективный механизм обработки транзакций. 4) отсутствует единый стандарт на интерфейс, языки описания и манипуляции данными. 5) не поддерживают репликацию данных
ROLAP (Relational OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных. Преимущества: 1) реляц СУБД имеют опыт раб с большими БД, развиты ср-ва администрирования. 2) идеальна в случае изменения размерности задачи, т.к. физическая реорганизация данных не трубуется. 3) обладает более высоким уровнем защиты данных и развитой системой привилегий пользователей. 4) производительность этих систем сравнима с многомерными, если тщательно разработать структуру. Недостатки: 1) ограничены возможно с точки зрения проведения анализа. 2) производительность ниже
HOLAP (Hybrid OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.
8. Реализация хранилища данных по схеме «звезда». Достоинства и недостатки
1.Таблица фактов, находится в сильно денормированной форме. Содержит суммированные данные, с помощью которых проводится анализ 2 Таблицы измерений находятся в денормированной форме и содержат описательную информацию. Это позволяет пользователю быстро переход от таблицы фактов к доп инф. Таблица фактов и таблица измерений связаны идентиф связями.
Преимущества: 1) благодаря денормализованной таблице измерений упрощается восприятие структуры данных и формул запросов. 2) ускоряется время выполнения запросов за счет уменьшения операция соединения. 3) в нек. СУБД уменьшается время выборки за счет сокращения времени выполнения запросов. Недостатки: 1) высокая избыточность данных -> дополнительные объемы памяти. 2) если агрегат хранится совместно с исходными данными, необходимо использовать дополнительный параметр - уровни иерархии
9 Реализация хранилища данных по схеме «снежинка». Достоинства и недостатки. * * 1
Схема снежинки получила свое название за свою форму, в виде которой отображается логическая схема таблиц в многомерной базе данных. Схема снежинки представлена централизованной таблицей фактов, соединенной с таблицами измерений. Здесь таблицы измерений нормализованы с рядом других связанных измерительных таблиц, — в то время как в схеме звезды таблицы измерений полностью денормализованы, и каждое измерение представлено в виде единой таблицы, без соединений на связанные таблицы в схеме снежинки. Чем больше степень нормализации таблиц измерений, тем сложнее выглядит структура схемы снежинки. Создаваемый «эффект снежинки» затрагивает только таблицы измерений, и не применим к таблицам фактов. Достоинства: 1) Экономит ресурсы памяти за счет нормализации таблицы измерений. 2) Т.к. табл нормализована, быстро выполняются запросы, связанные со структурой значений измерений. Недостаток: большое время выполнения запросов, связанных с аналитической обработкой.
|