Обработка потоковых данных – и снова десятка

В последнее время имеется значительный интерес к обеспечению низких показателей задержки при обработке потоков сообщений с использованием высокоуровневого инструментария. Имеются коммерческие продукты, в которых применяется нотация правил (например, Apama [Apa06]), а также системы, основанные на использовании нотации SQL (например, StreamBase [Str06] и Coral8 [Cor06]). Хотя ведется некоторая полемика вокруг того, какая из парадигм в конце концов выиграет, у нотации SQL есть одно большое преимущество, а именно, то, при решении большинства проблем обработки потоковых данных требуется сохранять и производить доступ к существенным объемам информации о состоянии. Поскольку SQL является универсальной парадигмой хранения данных, естественно использовать расширенный вариант SQL для требуемой смеси данных реального времени и исторических данных.

Сегодняшние коммерческие системы происходят от академических прототипов, таких как [Aba03] и STREAM [Mot03]. К настоящему времени имеется значительный опыт представления этих коммерческих систем на рынке и сравнения их производительности с производительностью альтернативных систем, основанных на использовании самодельного кода или реляционных СУБД. В этом разделе мы также обсудим два тестовых набора, использовавшихся для сравнения специализированной системы с реляционной СУБД. Хотя было бы естественно использовать тестовый набор Linear Road [Ara04], мы предпочли воспользоваться двумя сценариями, заимствованными у реальных заказчиков.

Содержание Назад Вперед

Главная сайта