Классика баз данных - статьи

       

очень трудно отслеживать изменяемость данных,


  • очень трудно отслеживать изменяемость данных, например, изменилась процедура обработки "сырых" данных, добавились новые данные, и т.д.; Данные должны сопровождаться информацией о происхождении (источник, автор, качество,..). Это очень важно, так как в науке нередки запросы, в которых участвуют данные из разных архивов и надо быть уверенным, что, например, устраивает качество данных. Это называется data provenance, lineage, pedigree. Очень важный аспект data provenance – это query inversion. Представим, что у вас на сайте публикуется автоматически сгенерированный по базе данных график распределения какой-то величины, и в одно прекрасное утро вы замечаете на нем важные изменения и естественное желание ученого узнать из-за чего это произошло заставляет его рыться в базе, программах, разного рода логах поступления данных, работы коллег и т.д. Это безумно тяжелая работа! Более строго можно сказать так: Найти, какие записи в БД (изменения в каких записях) повлияли на результат работы запроса, т.е. – это обратная задача к обычному запросу.
  • Аннотирование данных – это возможность хранить пометки разной степени детализации – на уровне таблицы, на уровне конкретного значения. Требуется эффективное хранение аннотаций и доступ к ним для баз данных петабайтного размера;
  • популярные задачи анализа данных, поиска зависимостей в сверхбольших базах данных являются крайне неэффективными в силу немасштабированности архитектуры классических СУБД;
  • очень большое разнообразие типов данных и запросов – трехмерные объекты, временные ряды, треки элементарных частиц и т.д.;
  • нет поддержки работы с данными,которые имеют погрешность измерений, пропущенными данными;
  • требование получения "быстрых" результатов ("Early Science");
  • Машины стали основными производителями информации и ее потребителями, поэтому требуется обеcпечить прежде всего не интерактивную работу с данными, а программный доступ к ним, чтобы можно было автоматизировать рутинные работы обработки наблюдений, поиска данных.Прежде всего это относится к проблеме эффективного хранения и доступа семантической информации в базах данных.
    Эти проблемы необходимо срочно решать в ближайшее время, так как технологии производства приемных устройств (сенсоров) непрерывно улучшаются, что приводит к дальнейшему росту данных, а следовательно, к усугублению описанных проблем.

    Содержание  Назад  Вперед