При наличии петабайтных наборов данных требуется новый стиль работы. Сегодня типичный ученый копирует файлы на локальный сервер и оперирует наборами данных с использованием своих собственных ресурсов. Однако все чаще наборы данных являются настолько большими, а прикладные программы – настолько сложными, что гораздо экономичнее переместить программы к данным и передавать только вопросы и ответа, а не перемещать исходные данные и приложения в локальную систему пользователя.
Научные центры данных, обеспечивающие доступ как к данным, так и к приложениям, которые анализируют данные, развиваются как сервисные станции для некоторой научной области. В каждом из этих научных центров производится управление одним или несколькими массивными наборами данных, а также приложениями, обеспечивающими доступ к этим наборам данных, и поддерживается персонал, который понимает данные и постоянно пополняет и совершенствует наборы данных. Это можно видеть на примерах SDSS в Fermilab, BaBar в SLAC, BIRN в SDSC, Entrez-PubMed-GenBank в NCBI, а также многих других наборов данных. Эти центры объединяются на федеративных началах. Например, у BaBar имеется около 25 партнерских сайтов, а у CERN LHC ожидается много партнерских сайтов Tier1. Несколько партнерских сайтов имеется у NCBI, а SDSS является частью Международной виртуальной обсерватории.
Новый стиль работы в этих научных областях состоит в посылке вопросов приложениям, выполняемым в центре данных, и получении ответов, а не в массивном копировании необработанных данных на локальный сервер для дальнейшего анализа. На самом деле, имеется нарастающая тенденция к сохранению в центре данных персонального рабочего пространства (personal workspace, MyDB) и размещению в нем ответов. Это минимизирует перемещение данных и способствует сотрудничеству группы ученых, производящих совместный анализ. Эти персональные рабочие пространства также служат развитию коллаборации разных групп аналитиков данных. В долговременной перспективе персональные рабочие пространства в центре данных могли бы помогать публикации данных – как научных результатов экспериментов или исследований, так и программ, использованных для их получения – в публичных базах данных, доступных только для чтения.