Классика баз данных - статьи


         

Хранилища данных


В хранилище данных накапливаются данные из одной или более баз данных. Существует множество потенциальных применений, а также подходов к организации хранилищ данных. Например, крупный магазин может поддерживать хранилище данных на основе транзакционных данных о кассовых операциях для целей добычи данных (разд. 5.3.1). В хранилище данных может сохраняться информация из многих баз данных для использования в чрезвычайных ситуациях. Например, в едином хранилище данных поддерживаются сведения о гражданской инфраструктуре (дороги, мосты, трубопроводы и т.п.), поскольку, например, после землетрясения вряд ли удастся получить эту информацию из городов, находящихся вблизи эпицентра. Еще один пример – использование хранилища данных как "материализованного представления" интегрированной информации. В 5.2.5 обсуждалась идея медиаторов, которые дают целостное представление данных, извлеченных из множества источников. Альтернативой медиаторных систем могут служить хранилища данных, обеспечивающие физическое хранение интегрированных данных. В отличие от хранилищ, медиаторы предоставляют информацию, рассылая запросы нескольким источникам, подобно тому, как это происходит при реализации представлений.

Некоторые исследовательские проблемы, касающиеся хранилищ данных, совпадают с теми, которые характерны для интеграции данных в целом, но есть и некоторые специфические проблемы.

  1. Инструменты для создания насосов данных (data pump), т.е. модулей, функционирующих над средой источников данных и поставляющих в хранилище те изменения, которые существенны с точки зрения хранилища; при этом данные должны транслироваться в соответствии с глобальной моделью и схемой хранилища.
  2. Методы "чистки данных" (data scrubbing), которые обеспечивают согласование данных, удаление элементов, соответствующих разным представлениям одного и того же объекта (например "Sally Tones" и "S.A. Tones"), а также удаление неправдоподобных значений.
  3. Средства для создания и поддержания метасловаря, информирующего пользователей о способах получения данных.



Содержание  Назад  Вперед