Классика баз данных - статьи

       

и поиска текста не используются


К разочарованию многих специалистов, в системах хранения и поиска текста не используются РСУБД; это замечание повторяется на большинстве конференций, посвященных СУБД. И на самом деле, в этой области не используются никакие СУБД, а предпочитается организация систем прямо над уровнем файловых систем. Один из первых сигналов о появлении этого феномена «самокрутки» («roll your own») поступил к одному из нас в середине 1990-х гг. от основателя Inktomi Эрика Брювера (Eric Brewer). Он пытался использовать коммерческую РСУБД в ранней версии своего продукта, но быстро отказался от этой идеи, когда понял, что в Inktomi всегда выполняется запрос одного и того же вида – соединение трех таблиц с использованием констант, соответствующих поисковым терминам из запроса пользователя. Этот единственный запрос можно было легко закодировать вручную, и он выполнялся в 100 раз быстрее, чем при использовании РСУБД.

Для этого различия в производительности имеется несметное число причин. Среди них (i) отсутствие потребности в блокировках транзакций, в поддержке типов данных, кроме одного текстового типа данных, в повторяющихся и полных ответах; (ii) потребность в горизонтальном разделении данных, в специализированном сжатии данных, в списках переменного размера.

Брювер [Bre04] задним числом довольно детально исследовал эти причины. Кроме того, разработчики последующих поисковых машин (например, Google, Lycos и т.д.) пришли к аналогичным заключениям и создали проприетарные поисковые машины. Более того, компания Google построила полный стек системного программного обеспечения, включающий файловую систему (GFS [Ghe03]), специальную СУБД (Bigtable [Cha06]) и соответствующие ее потребностям абстракции параллельной обработки данных (MapReduce [Dea04] and Sawzall [Pik05]). Bigtable массовым образом применяется для организации внутреннего хранения данных.

Вероятно, какая-либо поисковая компания предоставит свою систему внутреннего хранения для управления данными клиентов либо в виде специализированной системы, устанавливаемой на компьютерах заказчиков, (аналогично локальному средству поиска Google Appliance, существующему в настоящее время), либо в виде сервиса. Когда это произойдет, появится одна или несколько заметных архитектур, отличных от архитектуры РСУБД и используемых для хранения данных заказчиков.


Содержание  Назад  Вперед