Классика баз данных - статьи

       

и скорее всего, не будет


  • На сегодняшний день нет ( и скорее всего, не будет и в будущем) технических возможностей содержать всю астрономическую информацию в одном хранилище из-за слишком больших объемов информации.
  • Создание нескольких копий информации в различных местах повышает надежность хранения информации.
  • Распределенное хранение и наличие копий снижает нагрузку на сеть и повышает скорость доступа к информации.
  • Необходимость обработки данных определенного эксперимента требует их локализации на достаточно длинный срок для быстрого доступа.
  • В некоторых случаях распределенное хранение информации возникает по "физическим" причинам: Например, в эксперименте SNAP (орбитальный телескоп) большой поток информации и отсутствие существенных объемов памяти на борту обсерватории приводит к построению распределенной системы центров по приему и дальнейшему хранению данных
    Специфика научных данных состоит в необходимости "вечного" хранения сырых данных (raw data, – это данные, полученные непосредственно с приемника и не подвергшиеся никакой обработке) , что накладывает повышенные требования к масштабируемости и защищенности систем хранения.
    Отметим общие проблемы и особенности современной науки, связанные с увеличивающимся потоком данных (сейчас это сотни терабайтов, в ближайшие 5-10 лет – это десятки-сотни петабайт):

    • количество "сырых" данных только увеличивается и их необходимо хранить вечно, так как может потребоваться их переобработка.
    • очень сложная процедура получения научных данных из "сырых" данных. Развитие сенсоров только увеличивает разрыв между "сырыми" данными и научными данным, и зачастую требуются большие вычислительные ресурсы для получения научных данных. Задача усложняется тем, что современные научные эксперименты представляют собой сложный комплекс уникальных приборов, требующих специализированных методов обработки получаемых "сырых" данных, практически всегда несовместимых друг с другом.
    • Еще одна особенность современных научных экспериментов – это сочетание распределенного хранилища данных с необходимостью доступа к высокопроизводительным вычислительным комплексам для получения научных данных и их анализа.

      Содержание  Назад  Вперед