Реклама Быстрый поиск
InterReklama
InterReklama Advertising
Найти: на
Главная
Книги
Бесплатное
Книги и документы
 Поисковые машины
<<<НАЗАД PAGE
СЛЕДУЮЩАЯ PAGE>>>

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц. Ниже приведена сравнительная таблица основных поисковых машин. Прочерк означает неизвестные или неисследованные значения.

Тип поисковой машины

"Полнотекстовые" поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. "Абстрактные" поисковые машины создают некий экстракт каждой страницы.
Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер

Размер поисковой машины определяется количеством проиндексированных страниц. Приведенные в таблице значения не слишком точны, но могут прояснить некоторые моменты. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

Период обновления

Поскольку Веб изменяется непрерывно, поисковые машины индексируют все без учета даты. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть однодневной давности, а могут быть и месячной давности, а то и больше.
Вот некоторые причины, по которым это происходит:
  • некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы
  • другие чаще могут "ползать" по наиболее популярным страницам сети, чем по другим.
  • Дата индексирования документа

    Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой "свежести" ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.

    Указанные (submitted) страницы

    В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

    Не указанные (non-submitted) страницы

    Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

    Глубина индексирования

    Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.
    Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:
  • не слишком аккуратное использование фреймовых структур (без дублирования ссылок в управляющем (frameset) файле )
  • использование imagemap без дублирования их обычными ссылками
  • Поддержка фреймов

    Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

    Поддержка ImageMap

    Тут примерно та же проблема, что и с фреймовыми структурами серверов.

    Защищенные паролями директории и сервера

    Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

    Частота появления ссылок

    Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит тратить время на индексирование такого документа.

    "Способность к обучению"

    Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко - реже.

    Контроль индексации

    Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

    Перенаправление (redirect)

    Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

    Стоп-слова

    Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

    Влияние на алгоритм определения релевантности

    Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

    Spam-штрафы

    Все крупные поисковые системы "не любят", когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.

    Поддержка META-тагов

    По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают.

    Title

    Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

    Description

    Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

    Проверка статуса URL

    Очень полезная для вебмастера черта поисковой машины - можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.

    Удаление старых данных

    Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес. Возможны два действия: просто удалить старое содержание и переписать файл robots.txt.
  • удаление содержимого: когда поисковая машина попытается реиндексировать документы и не найдет их, старые ссылки в индексе будут удалены. В этом случае все зависит от периода обновления данных для поисковой машины.
  • robots.txt: когда поисковая машина запросит этот файл и "увидит", что сервер весь закрыт от индексации, то все ссылки на файлы этого сервера будут удалены из индекса.
  • Имя поискового робота

    В этом пункте указаны имена роботов, которыми они отвечают на HTTP-запрос. Полезно для написания robots.txt.
    <<<НАЗАД PAGE
    СЛЕДУЮЩАЯ PAGE>>>

    Go to Верх?

    Оглавление
    Введение

    Основные поисковые машины

    Основы поисковой машины


     
     
     
    Сайт создан в системе uCoz