Почему ученые не используют базы данных сегодня

Традиционные системы баз данных отстают в поддержке основных научных типов данных, но в них имеется несколько свойств, очень сильно требуемых для выполнения анализа научных данных: анализ на основе непроцедурных запросов, автоматический параллелизм и развитые средства ассоциативного, темпорального и пространственного поиска.

Если вооружиться той дискуссионной точкой зрения, что HDF, NetCDF, FITS и Root являются зарождающимися системами баз данных, которые обеспечивают метаданные и переносимость, но в которых отсутствует анализ на основе непроцедурных запросов, автоматическое распараллеливание и развитая индексация, то можно увидеть достаточно ясный путь к интеграции этих сообществ.

Некоторые ученые используют базы данных для некоторых работ, но, как правило, большинство ученых базами данных не пользуется. Почему? Почему табличные базы данных настолько успешно используются в коммерческих приложениях и терпят такой провал в большинстве научных приложений? Когда спрашиваешь коллег-ученых, почему они не используют базы данных для управления своими данными, обычно дается один или несколько из следующих ответов:

Мы не видим в них никаких преимуществ. Как кажется, издержки на изучение инструментальных средств (определение данных, загрузка данных, запросы) того не стоят.
В них не предлагаются хорошие средства визуализации/построения диаграмм.
Я могу справиться со своими объемами данных с использованием языка программирования.
В них не поддерживаются наши типы данных (массивы, пространственные, текстовые типы и т.д.).
В них не поддерживаются наши паттерны доступа (пространственные, темпоральные и т.д.).
Мы пробовали с ними работать, но они слишком медленные.
Мы пробовали с ними работать, но как только мы загрузили свои данные, мы больше не смогли манипулировать данными с использованием наших стандартных прикладных программ.
Для их использования требуется дорогостоящие гуру (администраторы баз данных).

Все эти ответы основываются на опыте и существенных инвестициях. Часто этот опыт приобретался на основе использования устарелых систем (систем баз данных урожая 1990 г.) или чересчур молодых систем (ранней объектно-ориентированной базы данных или ранней версии Postgres или MySQL). Тем не менее, достаточно очевидно, что базы данных должны быть существенно усовершенствованы, прежде чем они заслужат повторного внимания.

Содержание Назад Вперед

Главная сайта