Классика баз данных - статьи

       

Научные центры, управляющие научными данными


Научные центры, управляющие научными данными и обслуживающие их, возникают вокруг научных инструментов следующего поколения. Прототипами этой тенденции могут служить сообщества Всемирного телескопа, GenBank и BaBar. Одна группа ученых собирает данные и управляет этими архивами. Более крупная группа ученых исследует эти архивы таким же образом, как предыдущие поколения исследовали свои частные данные. Результаты анализа часто возвращаются в архив и добавляются в общий фонд данных.
Поскольку коллекция данных теперь отделяется от анализа данных, требуются обширные метаданные, описывающие данные в стандартных терминах, чтобы люди и программы могли понимать данные. Наличие хороших метаданных становится основным условием совместного использования данных в разных научных дисциплинах и различных средствах анализа и визуализации данных.
Имеется конвергенция зарождающихся баз данных (HDF, NetCDF, FITS,..), которые фокусируются, прежде всего, на аспектах метаданных и обмена данными, и традиционных систем управления базами данных (SQL и др.), которые ориентированы на управление и анализ сверхбольших наборов данных. Достоинствами традиционных систем являются автоматическое распараллеливание, индексирование и непроцедурный доступ, но от них требуется включение типов данных научного сообщества и обеспечение сосуществования с данными файловых систем. Мы полагаем, что этот синтез станет возможен за счет расширения систем баз данных путем объединения баз данных с языками программирования, чтобы можно было встроить в систему управления данными новый тип или связать систему с новым типом.
Для научного анализа ключевое значение будут иметь три технических достижения: (1) обширные метаданные и стандарты метаданных, которые облегчат обнаружение существования данных, понимание данных людьми и программами и отслеживание происхождения данных; (2) искусные средства анализа, которые позволят ученым легко задавать вопросы и понимать и визуализировать ответы; (3) ориентированный на множества параллельный доступ к данным, который поддерживается новыми индексными схемами и новыми алгоритмами, позволяющими в интерактивном режиме исследовать петабайтные наборы данных.

Содержание  Назад  Вперед