Потребности в инструментальных средствах и вычислительных ресурсах для выполнения научного анализа данных возрастают даже быстрее объема данных. Это является следствием трех явлений. (1) Для многих усложненных алгоритмов для анализа каждого байта требуется большее число команд. (2) Многие алгоритмы анализа являются суперлинейными, часто требуя для обработки N точек данных N2 или N3 времени. И (3) пропускная способность ввода-вывода отстает от емкости запоминающих устройств. В последние десять лет емкость запоминающих устройств увеличилась более чем в 100 раз, а пропускная способность – только в 10 раз.
Эти три фактора – алгоритмическая сложность, нелинейность и ограничения пропускной способности – означают, что анализ выполняется все большее и большее время. Для решения этих проблем ученым потребуются улучшенные алгоритмы анализа, которые смогут работать с исключительно большими наборами данных в приближенном режиме (со временем выполнения, близким к линейному), и им потребуются параллельные алгоритмы, позволяющие использовать для решения проблемы много процессоров и много дисков, что позволит удовлетворить требования к вычислительной мощности и пропускной способности ввода-вывода.