Классика баз данных - статьи

       

В этой статье описываются некоторые


В этой статье описываются некоторые проекты, выполняемые в настоящее время в компании Google и относящиеся к управлению структурированными данными. Компания поощряет тесное взаимодействие исследователей с инженерными группами. В результате исследовательские проекты обычно обуславливаются реальными потребностями, с которыми сталкиваются разработчики продуктов и служб, и получаемые решения быстро тестируются и передаются в эксплуатацию. Кроме того, масштабность задач, решаемых Google, ставит перед разработчиками служб инженерные проблемы, для решения которых часто требуются исследовательские инновации.
В ранние годы Google управление структурированными данными требовалось, главным образом, для хранения и обработки данных, связанных с рекламой. Однако, по мере того, как компания переходит к поддержке размещаемых приложений (hosted application), и над потоками запросов и индексами производится все более сложный анализ, управление структурированными данными становится ключевой инфраструктурой во всех частях компании.
В статье описывается лишь часть проектов, выполняемых в настоящем время. Кроме того, помимо авторов статьи, в проектах, относящихся к управлению структурированными данными, участвуют и другие исследователи, в частности, Роберто Баярдо (Roberto Bayardo), Омар Бенжелоун (Omar Benjelloun), Вингеш Ганапати (Vignesh Ganapathy), Йосси Матиас (Yossi Matias), Роб Пайк (Rob Pike) и Рамакришнан Срикант (Ramakrishnan Srikant).
В разд. 2 и 3 описываются проекты, целью которых является обеспечение возможности поиска в коллекциях структурированных данных, уже существующих в Web. В разд. 2 описываются работы, направленные на обеспечение индексации контента, доступного только через Web-формы, а в разд. 3 – начальное состояние исследований, ориентированных на поддержку поиска в HTML-таблицах. В разд. 4 обсуждаются исследования, посвященные анализу больших коллекций данных и социальных графов. В разд. 5 и 6 описывается текущее состояние дел в области BigTable, основной инфраструктуре Google для хранения структурированных данных.

Содержание раздела