Оптимальную эффективность обоих видов анализа обеспечило бы одновременное хранение данных обоими способами, но чем крупнее набор данных, тем более вероятно, что в двух копиях содержалось бы слишком много данных, чтобы их можно было поддерживать при наличии доступных аппаратных ресурсов.
Еще одной важной проблемой распределенных систем является надежность. Точно так же, как у самолета с четырьмя двигателями вероятность выхода из строя одного двигателя выше, чем у самолета с двумя такими же двигателями, вероятность потребности в техническом обслуживании кластера из 10 машин в 10 раз выше, чем при наличии одной машины. К сожалению, многие компоненты, тиражируемые в кластерах (блоки питания, диски, вентиляторы, кабели и т.д.) обычно бывают ненадежными. Конечно, можно сделать кластер абсолютно устойчивым к выходу из строя любого одного узла, в основном, путем репликации данных в узлах. К счастью, здесь, по-видимому, возможна некоторая синергия: данные, реплицируемые для повышения эффективности разных видов анализа, могут также обеспечить избыточность, позволяющую системе выжить при неизбежных отказах узлов. Однако снова, чем крупнее набор данных, тем сложнее поддерживать несколько копий данных.