Классика баз данных - статьи

       

В Web имеются миллионы потенциально


В Web имеются миллионы потенциально полезных форм. Для любой заданной формы можно было бы привлечь эксперта, который вручную определил бы наилучшие варианты ее заполнения, но такое решение не было бы масштабируемым. Целью авторов являлось нахождение полностью автоматического решения, которое можно было бы применить к любой Web-форме на любом языке и в любой прикладной области. В настоящее время разработанная система может работать более чем с миллионом форм, представленных на более чем 50 языках и относящихся к сотням прикладных областей.

Индексировались только информационные сайты с формами. Принимались меры предосторожности во избежание любых форм, для которых требуется какая-либо персональная информация, и/или которые могут обладать какими-либо побочными эффектами. Например, не анализировались формы, в которых используется метод POST, требуется ввод паролей или содержатся такие ключевые слова, как username, login и т.д.

Хотя при использовании метода выявления скрытого контента генерируется значительный трафик к сайтам Глубокой Паутины, остается большое число форм, автоматический анализ которых представляет серьезную проблему. Например, во многих формах активизируются события JavaScript при наличии тегов onselect и onsubmit, что позволяет выполнять произвольный код JavaScript. Такие ситуации являются камнем преткновения для автоматического анализа.

Кроме того, во многих формах имеются взаимосвязанные входные данные, и для доступа к таким сайтам требуется корректно (и автоматически) определить базовые зависимости между этими данными. Эффективное решение этих и других проблем в масштабе миллионов сайтов является частью продолжающейся работы авторов по обеспечению большей доступности Глубокой Паутины для пользователей поисковых машин. В заключение авторы отмечают, что еще одним механизмом, позволяющим контент-провайдерам предоставить поисковым машинам списки URL и XML-файлы и, тем самым, раскрыть содержимое Глубокой Паутины, являются карты сайтов. Сегодня во всех основных поисковых машинах поддерживается протокол карт сайтов, описанный на сайте www.sitemaps.org.Контент, обеспечиваемый картами сайтов, дополняет контент, автоматически обнаруживаемый с помощью методов, описанных в этом разделе статьи.


Содержание  Назад  Вперед