Индексный механизм

Прежде чем ваши документы будут доступны для поиска, их необходимо проиндексировать. Объем индексной информации, полученной из текста, может быть в два раза больше чем сам тексте. А может еще больше, в случае если вы будете не оптимально использовать память. Алгоритм выглядит следующим образом.

1. Получаем документ для индексирования

2. Регистрируем его в таблице document, запоминаем полученный его уникальный id и будем его называть doc_id

3. Разбиваем документ на отдельные слова

4. Узнаем уникальные id этих слов из таблицы dictionary и будем их называть dict_id

5. Потом заносим записи с нашим одним doc_id и разными dict_id (для каждого слова в документе) в таблицу match.

Содержание раздела

Главная сайта