Классика баз данных - статьи

       

в основном используются для решения


Такие вычислительные комплексы в настоящее время в основном используются для решения расчетных задач, не требующих работы со сверхбольшими данными. Однако, гигантские объемы данных полностью исключили традиционный раннее способ работы – загрузка данных из хранилища на сервер для обработки. Причем, основная проблема состоит в стоимости каналов связи, а не хранилища. Все работы по обработке данных эксперимента требуется вести в самом хранилище с использованием вычислительных кластеров. С другой стороны, и в задачах численного моделирования появились требования к возможности сохранения текущего состояния в СУБД, например, расчет космологической эволюции Вселенной требует сотни гигабайт для сохранения одного "слепка" Вселенной. Подобные расчеты ведутся на распределенных кластерах с тысячами процессоров, и возможность работы с такими данными в СУБД позволяет проследить историю эволюции отдельных объектов Вселенной (частицы, звезды, галактики, скопления галактик…).
  • Обычно, из-за низкой производительности современных систем, исходные данные научных наблюдений хранятся вне каких-либо СУБД, и только метаданные индексируются в базе данных. Для доступа и обработки исходных данных научным коллективам приходится разрабатывать свои программные системы под каждую конкретную задачу. При таком подходе очень трудно поддерживать целостность данных, версионность данных, историю их изменений, получение научных результатов из "сырых" данных, что затрудняет поддерживание одного из основных принципов науки – повторяемости научных результатов.
  • сложная организация проектов – много участников, разные источники финансирования, что определяет необходимость поддержки определенной политики доступа к данным. С другой стороны, в науке ценят доступность данных, лицензионные ограничения на использование СУБД могут мешать свободному обмену данными. Кроме того, закрытая лицензия может мешать развитию программных средств.
  • распределенность данных – данные хранятся в разных научных центрах для локализации трафика, по физическим причинам, резервирование данных, масштабирование нагрузок;

    Содержание  Назад  Вперед