Классика баз данных - статьи

       

Слияние информации


"Типичным подходом к интеграции информации в масштабах предприятия является построение хранилищ (DataWarehouse) и витрин (data mart) данных на основе извлечения операционных данных, их трансформации к единой схеме и загрузки данных в хранилище (процедура ETL - extraction, transformation, loading). Этот подход пригоден для использования на предприятии с несколькими десятками операционных баз данных, находящихся под единым контролем. В Internet парадигма ETL не приемлема." Очевидно, что в этом пункте речь идет о возможности использования оперативно интегрируемых многочисленных и многообразных источников данных в целях оперативного анализа данных. Авторы отмечают, что "в связи с этим существует множество нерешенных проблем: семантическая неоднородность; неполнота и неточность данных; ограниченность доступа к конфиденциальным данным и т.д.". Безусловно, это справедливо, но, как мне кажется, существуют еще два более общих вопроса:

  1. При каком качестве интегрируемых данных можно обеспечить удовлетворительные результаты анализа данных?
  2. Будет ли этот подход воспринят в сообществе аналитиков данных? По крайней мере, основоположник хранилищ данных Билл Иннмон крайне скептически ответил на этот вопрос, заданный ему мною.



Содержание  Назад  Вперед