Вкратце: Внутренние факторы, влияющие на релевантность
документа (по материалам работ Людкевича).
Внутренние динамические факторы гораздо более легки в
понимании, чем показателя авторитетности, хотя бы потому, что доступны для
просмотра любому пользователю. Они легко могут быть изменены владельцем ресурса
с целью достижения нужных позиций в результатах поиска. Именно поэтому в
настоящее время соответствие кода страницы запросу является, пожалуй, наименее
слабым фактором в алгоритмах ранжирования поисковых систем, и достичь хороших
результатов в ранжировании по серьёзным запросам, основываясь только на работе с
внутренними факторами, практически невозможно.
Я не случайно сказал именно "кода страницы", потому что помимо
собственно текста к внутренним факторам относятся также элементы форматирования
текста и служебные тэги. Итак, по порядку.
Непосредственно текст страницы оценивается поисковой системой по
двум основным характеристикам: расположение искомого текста на странице и
частота встречаемости слова из запроса в документе по сравнению с другими
словами. Что касается расположения текста на странице, то больший вес имеют
слова, расположенные ближе к началу документа и предложения. Ведь считается, что
в начале чаще располагается важная информация. Также особенно ценится
поисковиками "точное вхождение" искомой фразы в текст документа для запросов из
нескольких слов, т.е. текст, идентичный запросу, с сохранением порядка слав в
запросе. В этой связи хочется отметить вот еще что. Несмотря на то, что поиск по
стоп-словам, к которым относятся, в основном, предлоги, союзы, частицы и
междометия, не производится, при ранжировании документов они всё же
используются, что может очень серьезно повлиять на выдачу. Сравните запросы из
двух слов с союзом "и" между ними, например "бумага и картон" и "бумага картон".
Тоже можно сказать и о морфологии запроса, предпочтительно,
чтобы слова из запроса в тексте были в той же форме, что и в самом запросе.
Особенно это касается Рамблера. Для Google это имеет принципиальное значение,
так как русской морфологии он не поддерживает.
Кстати, у Рамблера есть ещё одна интересная особенность - этот
поисковик считает знаки пунктуации словами. Запятая между двумя словами
становится третьим словом.
Относительно частоты употребления слов в документе сказано
немало. Часто от новичков приходится слышать вопрос об "идеальной" плотности
ключевых слов с точностью до сотых процента. Существуют рекомендация об
использовании ключевого слова на странице в пределах 3-7%. Однако точные цифры
неизвестны. Считается, что страница со слишком часто встречающимся словом
запроса может быть сочтена спамом, и ее позиция при этом в результатах поиска
автоматически понижается. Это утверждение довольно спорно. Ведь если на странице
всего 3 слова и запрос содержит эти же 3, то плотность составит 100%, однако
такие страницы прекрасно находятся в поиске. Гораздо более вероятно, что
существуют некие пороговые значения, после достижения которых дальнейшее
увеличение частоты не влияет на релевантность документа. Представители Апорта,
например, определенно говорили о наличии в их поисковой системе подобного
порогового значения. Лично я при употреблении слов на странице руководствуюсь
прежде всего понятием разумности - пользователю должно быть удобно читать текст
- и ни разу не высчитывал эту величину для своих сайтов и сайтов конкурентов.
Кстати, не следует забывать и о том, что поисковые машины
накладывают ограничения на индексируемый объем документа. Так, Google
индексирует только первые 101 кБ, Рамблер - 200 кБ, Апорт - 128 кБ. По Яндексу у
меня такой информации, к сожалению, нет, но, я думаю, что и у него имеется
ограничение на индексируемый объем документа примерно в пределах 100-200 кБ.
Элементы форматирования текста. К таковым относятся заголовки
(<lth1>, :, <lth6>), а также тэги <ltstrong>,<ltem>, <ltb>, <lti>. Если
некоторая часть текста выделяется, значит, с точки зрения поисковой системы, в
этой части содержится более важная информация, следовательно, документ посвящен
этой теме и более релевантен запросу, если слова из него, содержатся в
выделенном тексте. Поэтому использование этих тэгов в документе желательно, но в
разумных количествах. Не стоит забывать, что они используются именно для
выделения в пределах одного документа, и слишком частое их использование для
различных слов уже не даст такого эффекта. Если весь текст страницы представить
заголовком, <lth1> например, то это будет равносильно не использованию этого
тэга вообще.
Добавлю, что Апортом тэги <lti> и <еm> игнорируются.
Служебные тэги. Ранее мета-тэги keywords и description активно
использовались многими поисковыми машинами. Но в связи с тем, что их содержимое
не видно пользователю, они стали действенным инструментом для обмана поисковых
систем, что привело к тому, что в настоящее время эти мета-тэги либо вообще не
учитываются поисковыми системами, либо влияние их мизерно по сравнению с другими
факторами.
Рамблер и Google при ранжировании документов их игнорируют
вообще. Однако Google использует содержимое мета-тэга description при построении
сниппетов - фрагментов текста, содержащих слова из запроса, выдаваемых рядом со
ссылкой на документ в результатах поиска. Апорт единственный использует мета-тэг
description, но, судя по всему, он имеет очень небольшой вес по сравнению с
другими внутренними факторами. Из тэга keywords берутся, по словам
представителей Апорта, только 16 слов, причём учитывается только одно вхождение
слова, даже если его нет в тексте страницы. На сайте Яндекса указано, что он
учитывает первые 50 слов из тэга keywords при условии, что это слово
присутствует в тексте страницы, но повторюсь, эффект от его использования крайне
мал. Мета-тэг description в расчете релевантности страницы запросу в Яндексе не
участвует, но до двухсот первых символов из него в некоторых случаях может
выводиться в результатах поиска как первая часть аннотации к ссылке. Поэтому я
бы рекомендовал использовать в тэге description текст, описывающий краткое
содержание документа: это может стать дополнительным аргументом для принятия
пользователем решения перейти на ваш сайт по ссылке с результатов поиска.
Пожалуй, наибольший эффект из страничных факторов даёт
применение тэга title - заголовка страницы. Причём использовать в нём можно даже
слова, которые не содержатся в тексте страницы - это тоже даёт эффект, хотя и
меньший, но в некоторых случаях это оправдано. К тексту внутри этого тэга
применимы те же понятия, что и для текста документа вообще: больший вес имеют
слова, расположенные ближе к началу, очень эффективно точное вхождение искомой
фразы. Судя но информации, представленной на сайтах Яндекса и Aпopтa, эти
поисковые машины не учитывают частоту вхождения слов из запроса и этом тэге, а
только факт их присутствия. Следует иметь в виду, что нецелесообразно делать
очень длинные тэга title, так как поисковые машины могут накладывать,
ограничение на длину индексируемой части этого тэга. Старайтесь использовать не
более 20-25 слов.
Атрибут alt тэга img. Необходимо упомянуть ещё об одном
атрибуте, используемом некоторыми поисковыми системами при ранжировании. Это
атрибут alt тэга img - текстовый комментарий к изображениям. Rambler учитывает
не более 8 слов из него при ранжировании, возможно, приравнивая по значимости к
тексту станицы. Этим свойством можно пользоваться при оптимизации станиц. Для
Яндекса и Апорта же этот атрибут имеет значение только при поиске по картинкам,
а при ранжировании документов в основном поиске не используется. Нами ставились
некоторые эксперименты по продвижению через картинки сайтов и их результаты,
мягко говоря, нас не удовлетворили - переходов на сайты по картинкам практически
не наблюдалось. Google учитывает содержимое этого атрибута только для
изображений, являющихся ссылками.
Часто приходится слышать вопросы о том, учитывается ли при
ранжировании содержимое атрибута title тэга а. Так вот, на данный момент, ни
одной из популярных русскоязычных поисковых машин при ранжировании содержимое
этого атрибута не учитывается.
Таким образом, общие рекомендации по оптимизации кода страницы
можно свести к следующим мероприятиям:
- Постарайтесь разместить наиболее важные ключевые фразы как можно ближе к
началу текста станицы. Обязательно используйте точное следование ключевых
слов в фразе друг за другом. По возможности, старайтесь использовать
наиболее популярные словоформы.
- Разбивайте текст на логические фрагменты, для которых используйте
заголовки и подзаголовки, выделенные с помощью тэгов <lth1>, ..., <lth6>,
причем старайтесь по возможности, использовать в них наиболее важные
ключевые фразы.
- Выделяйте в тексте наиболее важные ключевые фразы тэгами <ltstrong>, <ltem>,
<ltb>, <lti>, если идеология представления информации на сайте позволяет это
делать.
- Разместите наиболее важные ключевые фразы и тэге title. При этом он
должен представлять собой вполне читабельный связный текст длиной не более
20-25 слои, а не просто набор ключевых фраз.
- Разместите ключевые фразы в атрибуте alt тэгов img.
- Разместите не более 50 ключевых слов, встречающихся в тексте страницы, в
тэге keywords.
- Поместите краткую привлекательную для пользователя аннотацию содержимого
страницы и тэге description.
Однако, используя эти рекомендации, не забывайте, что текст
документа должен быть удобен для чтения и восприятия пользователем. Не стоит
чрезмерно пичкать его ключевыми фразами в надежде повысить их концентрацию.
Эффект, который это может принести, несоизмеримо мал по сравнению с риском
потерять пользователя, пришедшего на страницу, из-за того, что ему неудобно пли
неприятно воспринимать ее содержимое. Зачастую бывает достаточно того, чтобы
конкретная ключевая фраза хотя бы один раз встречалась в тексте документа.
Дальнейшее повышение релевантности документа этому запросу можно проводить за
счет воздействий на внешние факторы, влияющие на ранжирование.
Если у Вас появились вопросы либо по данной статье, либо
пожелания к будущим - прошу писать на почту
hitsite@nm.ru