Дизайн хранилищ данных
Существуют два архитектурных направления – нормализованные хранилища данных и размерностные хранилища. В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ – большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Размерностные хранилища используют схему "звезда" или "снежинка". При этом в центре звезды находятся данные (Таблица фактов), а размерности образуют лучи звезды. Различные таблицы фактов совместно используют таблицы размерностей, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример – факты продаж и поставок товара). Таблицы данных и соответствующие размерности образуют архитектуру "ШИНА". Размерности часто создаются в третьей нормальной форме (медленно изменяющиеся размерности), для протоколирования изменения в размерностях. Основным достоинством размерностных хранилищ является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным размерностям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение размерностей данных.
Автором концепции Хранилищ Данных (Data Warehouse) является Б. Инмон, который определил Хранилища Данных как: "предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений. В основе концепции Хранилищ Данных лежат две основополагающие идеи. 1.Интеграция ранее разъединенных детализированных данных в едином Хранилище Данных, их согласование и, возможно, агрегация: -исторических архивов; -данных из традиционных СОД; -данных из внешних источников. 2.Разделение наборов данных, используемых для операционной обработки, и наборов данных, применяемых для решения задач анализа. В области информационных технологий всегда существовали два взаимодополняющих друг друга направления развития: -системы, ориентированные на операционную обработку данных - системы обработки данных (СОД); -системы, ориентированные на анализ данных - системы поддержки принятия решений (СППР). Таблица 2. Основные требования к данным в Хранилище Данных.
Моделью данных в ХД служат гиперкубы, т.е. многомерные базы данных, в ячейках которых находятся анализируемые данные. По осям многомерного куба указываются измерители объекта с различных точек зрения. На пересечении осей измерений находятся данные, количественно характеризующие события, факты, процессы (объемы продаж, остатки товаров на складах, прибыль, затраты и т.д.). Оси измерений позволяют создавать многомерную модель данных (гиперкуб), над которым можно выполнять следующие операции: -срез; -вращение; -консолидация или детализация.
|