Классика баз данных - статьи

       

Со временем каталоги становятся иерархическими.


Со временем каталоги становятся иерархическими. В этой модели анализ данных производится путем поиска всех уместных файлов – открытия каждого файла, извлечения нужных данных и перехода к следующему файлу. Когда все нужные данные накапливаются в памяти (или в промежуточных файлах), программа может начать их анализировать. Выполнение такого анализа в стиле сначала фильтрация, затем анализ с применением традиционных процедурных инструментальных средств происходит все медленнее и медленнее по мере возрастания объема данных. Обычно в каждый момент времени используется один процессор и один диск, и применяются очень грубые методы поиска. Ученым требуется подход с использованием (1) разумных индексов и методов организации данных для сокращения объема поиска; (2) параллельной обработки и доступа к данным для выполнения поиска в огромных наборах данных в пределах секунд; (3) мощных средств анализа, которые можно было бы применить к поднабору анализируемых данных.

Один из подходов состоит в использовании среды параллельного программирования MPI (Message Passing Interface) для написания процедурных программ, которые прогоняют файлы сквозь массив процессоров – каждый узел массива анализирует одну часть иерархии. Это подходит для очень регулярных задач обработки массивов, но кажется не слишком пригодным для непредвиденного анализа табличных данных. В MPI и различных форматах массива файлов отсутствует поддержка методов индексирования, возможно только разделенное последовательное сканирование. В самом MPI отсутствует какое-либо понятие метаданных, кроме имен файлов.

В связи с разрастанием файловых систем до петабайтных архивов с миллиардами файлов научное сообщество должно произвести синтез на основе систем баз данных и файловых систем. Как минимум, иерархия файлов будет заменена базой данных, каталогизирующей атрибуты и происхождение каждого файла. Обработка файлов, ориентированная на множества, сделает имена файлов все более неуместными – анализ будет применяться "ко всем файлам с указанными атрибутами", а не опираться на указываемый список имен или шаблонов имен файлов/каталогов.На самом деле, неуместными могут стать и сами файлы (они представляют собой всего лишь контейнеры данных). Можно считать предвестником этой идеи подход Map-Reduce, впервые предложенный в Google. С нашей точки зрения, ключевым аспектом Map-Reduce является то, что в нем применяются тысячи процессоров и дисков для параллельного исследования больших наборов данных. В этой системе имеется очень простая модель данных, подходящая для обработки в стиле Google, но мы полагаем, что в следующем десятилетии она разовьется в достаточно общую модель.

Сообщество баз данных обеспечивает автоматическое выполнение запросов с распараллеливанием на уровнях процессорной обработки и ввода-вывода в течение более десяти лет. Это автоматическое распараллеливание сегодня дает возможность крупных корпорациям обрабатывать 100-терабайтные набора данных с использованием 1000-процессорных кластеров. Мы полагаем, что многие из этих методов применимы и к научным наборам данных.


Содержание  Назад  Вперед