Классика баз данных - статьи




Заключение


При обработке запросов проявляется тенденция к преобразованию промежуточных потоков данных таким образом, что неопределенность оценок мощности потоков быстро и радикально возрастает. Это ограничивает применимость традиционной модели стоимости на основе средней точки и приводит к потребности методов динамической оптимизации, напрямую имеющих дело с неопределенностью. Мы обнаружили, что преобладающей формой неопределенностей, порождаемых вложенными запросами, является гипербола, и разработали настроенную на гиперболу конкурентную стоимостную модель для использования в динамическом оптимизаторе DEC Rdb.

В течение динамической оптимизации во время старта операции организуется выполнение одной стратегии или конкуренция нескольких альтернативных стратегий. Параллельный прогон альтернативных стратегий сокращает неопределенность и облегчает надежный выбор наилучшего способа продолжения. На основе отзывов заказчиков мы установили адекватность динамического подхода и потребность в дальнейшем усовершенствовании конкуренции. Мы видим значительный потенциал той же самой динамической структуры для ускорения процесса сокращения неопределенности путем динамического взятия образцов и рандомизации обработки запросов.

Методы пропуска разрывов для кластеризованных и упорядоченных данных сегодня широко используются в коммерческих СУБД. Однако в литературе недостаточно освещено их распространение в процессе обработки запросов, хотя практическая важность этого подхода находится на том же уровне, что и понятия «проталкивания» ограничений и использования соединения и агрегации с хэшированием для некластеризованных неупорядоченных данных.

Параллельная обработка запросов является очевидным способом использования быстро возрастающей мощности компьютеров для работы со сверхбольшими объемами данных. Мы ожидаем, что создание динамического оптимизатора Rdb с его параллельной архитектурой будет способствовать решению проблем параллельной обработки, связанных с высоким уровнем неопределенности, скошенностью и неизвестными корреляциями.

При использовании больших объемов данных во многих областях становится важным внедрение технологии сжатия данных, включая большие тексты, пространственные объекты и традиционные структуры, такие как B-деревья. В связи с этим мы исследуем способы сжатия, обеспечивающие высокую скорость обработки сжатых данных.




Содержание  Назад  Вперед