Многие ученые предпочтут выполнять свою
Многие ученые предпочтут выполнять свою аналитическую работу в центрах данных, поскольку это избавит их от необходимости управлять локальным хозяйством данных и компьютеров. Некоторые ученые могут доставлять небольшие фрагменты данных "домой" для локальной обработки, анализа и визуализации – но будет иметься возможность делать все это в центре данных, используя персональное рабочее пространство.
Если ученый желает сопоставить данные из двух разных рабочих центров, нет другого варианта, кроме как переместить часть данных из одного места в другое. Если это становится общепринятым, эти два центра данных, вероятно, образуют федерацию, чтобы обеспечивать взаимное резервное копирование, поскольку трафик передачи данных будет оправдывать затраты на это копирование.
Для работы с петабайтными наборами данных потребуется 1000-10000 дисков и тысячи вычислительных узлов. В каждый момент времени некоторые диски и узлы будут находиться в неработоспособном состоянии. В таких системах должен иметься механизм, предотвращающий потерю данных и обеспечивающий доступность даже в условиях неполной конфигурации – требуется система самовосстановления. В этом обсуждении предполагается реплицирование данных центра данных в различных географических местоположениях. Географическая репликация обеспечивает доступность данных и предотвращает их потери. Внутри центра данных избыточность можно комбинировать с разумной стратегией разделения для защиты от сбоя на уровне котроллера или сервера. При двойном сохранении данных для обеспечения избыточности можно использовать разные организации копий (например, пространственное разделение в одной копии и разделение по времени – в другой) для повышения производительности системы. Поврежденные данные должны автоматически восстанавливаться на основе избыточных копий без прерывания доступа к базе данных, во многом подобно тому, что сегодня делается в дисковых массивах RAID5.
Во всех этих сценариях постулируются простой доступ к данным, взаимообмен и интеграция.Чтобы это было возможно, данные должны быть самоописываемыми. Эти самоописания, или метаданные находятся в центре всех этих сценариев; они обеспечивают понимание данных общими инструментальными средствами и людьми.
Содержание Назад Вперед