Классика баз данных - статьи

       

Распределенная обработка как стратегия для больших данных


У любого компьютера имеется ряд абсолютных и практических ограничений: размер основной памяти, размер дисковой памяти, скорость процессора и т.д. При исчерпании ресурсов одного вида мы опираемся на ресурсы следующего вида, но за счет падения производительности: СУБД с хранением данных в основной памяти быстрее СУБД с хранением данных на диске, но при использовании персонального компьютера с двухгигабайтной основной памятью невозможно полностью хранить в памяти 100-гигабайтный набор данных. Это можно сделать на сервере со 128-гигабайтной основной памятью, но объем данных может благополучно вырасти до 200 гигабайт до появления серверов следующего поколения с удвоенным числом слотов памяти.

Тем не менее, достоинствами сегодняшней массовой компьютерной аппаратуры являются ее дешевизна и почти бесконечная тиражируемость. Сегодня намного рентабельнее купить восемь серийных серверов категории "массового спроса" с основной памятью в 128 гигабайт на каждом, чем приобрести одну систему с 64 процессорами и терабайтом основной памяти. Если архитектуры компьютеров не изменятся коренным образом, то этот общий принцип, вероятно, останется актуальным в обозримом будущем, хотя абсолютные цифры со временем будут меняться. Поэтому неудивительно, что наиболее успешной из всех известных стратегий анализа сверхбольших наборов данных является распределенная обработка.

Распределенному анализу с использованием нескольких компьютеров свойственны существенные эксплуатационные издержки: даже при использовании гигабитного и 10-гигабитного Ethernet как пропускная способность (скорость последовательного доступа), так и задержка (определяющая скорость произвольного доступа) на несколько порядков хуже, чем у основной памяти. Однако в то же время технологии высокоскоростных локальных сетей теперь превосходят большинство локально подключаемых дисковых систем по пропускной способности, а сетевые задержки, естественно, намного ниже дисковых задержек.

В результате эксплуатационные издержки хранения и выборки данных в других узлах сети сравнимы с издержками при использовании дисков (а в случае произвольного доступа они потенциально значительно меньше).

Содержание  Назад  Вперед