Упрощенный TPC-H

Известный эталонный тестовый набор TPC-H используется многими поставщиками для подтверждения своего превосходства в производительности хранилищ данных. Этот тестовый набор искусно строился таким образом, чтобы избежать использования схемы «снежинка» и сделать бесполезным применение материализованных приложений. При опросе двух десятков директоров по информатизации различных компаний авторы данной статьи установили, что никто из них не встречал хранилище данных, в котором бы не использовалась схема «снежинка». Поэтому Пэт О’Нейл (Pat O’Neil) упростил схему TPC-H до вида снежинки и определил над этой схемой 12 вариантов запросов TPC-H [One06]. Полученная схема приведена на рис. 4, а несколько запросов из этого набора – на рис. 5. Наконец, на рис. 6 показано время выполнения этих 12 запросов на компьютере с 4-ядерным процессором Opteron стоимостью в 2500 долларов с использованием Vertica и популярной системы с хранением данных по строкам.

Рис. 4. Схема для упрощенного тестового набора TPC-H

Рис. 5. Примеры запросов из упрощенного тестового набора TPC-H

В обеих системах использовались сжатие и горизонтальное разделение. Кроме того, хранилище по строкам оптимизировалось опытным администратором баз данных, профессией которого является настройка именно этого продукта. На рис. 6 приведены результаты, полученные при использовании двух физических схем. Первая схема называется «low space» и ориентирована на использование очень ограниченной избыточности, в то время как во второй схеме, называемой «medium space», создаются три материализованные представления, так что при выполнении запросов не требуется полное сканирование. Наконец, в данном тестовом наборе использовались объемы данных, соответствующие масштабному коэффициенту (scale factor) 100 в соответствии со спецификацией TPC-H, и объем исходных данных составлял примерно 60 гигабайт.

Рис. 6. Время выполнения запросов (в секундах) и требования к объему дисковой памяти (в гигабайтах)

Рис. 6 позволяет сравнить две системы, использующие идентичные физические схемы. Заметим, что при использовании хранения по столбцам удается добиться ускорения запросов примерно в 7 раз при использовании менее чем половины объема дисковой памяти. Можно было бы сравнить эти системы при предоставлении каждой из них одного и того же объема дисковой памяти. В этом случае система с хранением данных по столбцам оказывается намного быстрее системы с хранением по строкам. Хотя эти результаты оказываются не настолько впечатляющими, как те, что были приведены в подразделе 3.1, они аналогичны результатам, приведенным в [Sto05b].

Содержание Назад Вперед

Главная сайта