Классика баз данных - статьи

       

параллельной реляционной СУБД nCluster компании


Описывается эффективная реализация инфраструктуры SQL/MR в массивно- параллельной реляционной СУБД nCluster компании Aster Data Systems (рис. 1). Представлены примеры приложений, которые стали возможными после появления SQL/MR. Описываемые экспериментальные результаты демонстрируют выигрыш в эффективности, обеспечиваемый SQL/MR по сравнению с "чистым" SQL.

Рис. 1. Общая схема организиции системы баз данных nCluster. Координация системы и запросов производится королевскими (queen) узлами. Данные сохраняются в рабочих (worker) узлах, в которых также производится параллельная обработка запросов. Загрузка данных ускоряется с использованием дополнительных узлов загрузки (loader).
Инфраструктура программирования MapReduce Джеффри Дина (Jeffrey Dean) и Санджая Генавата (Sanjay Ghemawat) [7] делает возможным параллельное вычисление на сотнях серверов. Эта инфраструктура разработана в расчете на использование аппаратных средств массового спроса, и в ней делается упор на отказоустойчивость, что позволяет вычислять задачи, даже если некоторые вызовы завершились аварийно. Инфрастуктура предполагает наличие распределенной файловой системы, в файлах которой находятся обрабатываемые данные, и инфраструктура обеспечивает параллелизацию вычислений над этими данными.
Мощность инфраструктуры программирования MapReduce усиливается в контексте массивно-параллельной SQL-ориентированной СУБД. Комбинация SQL/MR является исключительно эффективной:
  • она позволяет SQL эффективно выполнять реляционные операции, оставляя процедурным функциями нереляционные задачи и оптимизации, специфичные для прикладной области;

  • она обеспечивает согласованность вычислений, гарантируя, что функции имеют дело с согласованным состоянием данных;

  • она позволяет оценочному оптимизатору принимать решения о способе выполнения запроса на основе статистики данных, а не на интуиции "времени создания запросов";

  • и она дает возможность конечным пользователям компоновать собственные запросы с использованием высокоуровневых средств BI.


Содержание  Назад  Вперед