Классика баз данных - статьи


         

Интеллектуальный анализ данных


Идея интеллектульного анализа данных (data mining), т.е. извлечения информации из огромных массивов данных, накопленных совсем для других целей, вызывает сегодня повышенный энтузиазм. Например, авиакомпании добиваются оптимального заполнения рейсов за счет анализа накопленных ранее данных о резервировании билетов. Можно привести еще одну совершенно замечательную историю о том, как была обнаружена неожиданная корреляция между покупками пива и покупками салфеток в послеобеденный период. Владелец магазина приблизил друг к другу отделы, торгующие пивом и салфетками, а между ними поместил еще прилавки с картофельными чипсами. В результате увеличились продажи всех трех видов товара.

С запросами, характерными для систем интеллектульного анализа данных, связан ряд необычных проблем.

  1. Они включают, как правило, агрегацию огромных объемов данных.
  2. Они имеют нерегламентированный характер; их формулируют лица, ответственные за принятие решений, когда им необходимо выявить какие-либо неочевидные взаимосвязи.
  3. В приложениях, связанных, например, с торговлей ценными бумагами, очень важно малое время ответа. Суть проблемы состоит здесь в том, чтобы сократить общее время, необходимое для написания, отладки и выполнения запроса.
  4. Довольно часто пользователь не в состоянии точно сформулировать запрос – ему просто нужно обнаружить "что-нибудь любопытное".

Таким образом, с добычей данных связаны следующие исследовательские направления.

  • Методы оптимизации сложных запросов, включающих, например, агрегацию и группирование.

  • Методы поддержки "многомерных" запросов, относящихся к данным, организованным в виде "куба", в ячейках которого находятся интересующие данные (например объемы продаж). "Измерениями" такого куба могут быть дата продажи, название магазина, наименование товара, цвет, поставщик.
  • Методы оптимизаци использования третичной памяти.

  • Языки запросов очень высокого уровня, а также интерфейсы для поддержки пользователей, не являющихся экспертами, которым нужны ответы на нерегламентированные запросы.



Содержание  Назад  Вперед