Прежде чем начинать этот раздел, я решил ознакомить Вас с логикой работы поисковых систем. Хочу сразу отметить, что этот материал был собран мной в общем доступном для всех поиске в интернете. Я лишь немного упорядочил все те потоки информации. Конечно, это может не быть истиной, или, скажем так, быть правдой не на все 100%. Но, исходя из моего опыта и здравого смысла, думаю, что примерное, очень упрощенное понятие о принцыпах работы ПС я имею. А поэтому не сочтите за бред сумасшедшего, и ознакомьтесь с этой статьей. Критика и дискуссии в коментариях приветствуются.
Итак, поехали.
Существует несколько видов алгоритмов для ПС. Но все массовые поисковые системы (включая Rambler, Google, Yandex, Yaoho) используют в своей работе так называемый алгоритм инвертированных (обратных) индексов. Что он из себя представляет, мы сейчас рассмотрим.
То есть, на каждую страницу с контентом создается текстовый файл (а может и не текстовый), в котором перечисляются все слова и фразы нашей страницы в каком-то порядке (может алфавитном, а может и каком-то другом). Также в этом файле указано количество этих слов (фраз), и еще куча различных параметров. Каких? Я не знаю. Знают только наверное представители поисковых систем.
Этот файл особым образом зашифровывается и сжимается. Каким-то образом все эти миллиарды файлов сортируются, и хранятся на серверах поисковых систем. Таким образом, поиск осуществляется не в интернете, а по своим серверам, по таким вот файлам. Таким образом, если у Вас есть сайт, а поисковой системе он не известен, она его никогда не найдет, потому что на сервере у них он не разбит на такие вот файлы и не отсортирован.
Итак, если имеется миллиард таких файлов на серверах, то нужна какая-то математическая модель, чтобы обрабатывать эти файлы. Обрабатывать таким образом, чтобы точно указать, соответствует ли данная страница сайта определенному запросу, и, если соответствует, то в какой степени она релевантна ему. То есть, кого ставить на первое место в выдаче, кого на второе и т.д.
Так же как и с алгоритмами, существует несколько видов математических моделей. Но все массовые поисковые системы используют векторную математическую модель. В ней есть такое понятие, как вес страницы по данному запросу, по отношению к другим.
Грубая формула расчета веса страницы:
вес страницы = частота слова (фразы) на странице (то есть, как часто слово встречается на странице) умножить на редкость слова (фразы) в коллекции.
Это очень сильно упрощенная формула. В ней еще имеется куча всяких коэфициентов, о которых никто наверняка не знает (только догадываются), кроме представителей ПС. Но она является основой для векторной математической модели всех массовых поисковых систем.
Кроме всего этого, нужно добавить, что поисковик - это просто тупой робот, который, пользуясь формулой математической модели, выводит результаты поиска. А роботы в наше время особым умом и изворотливостью не отличаются, поэтому обманывали оптимизаторы (люди, которые занимаются продвижением сайтов) поисковики направо и налево. Из-за этого в любой ПС работает сотня-другая людей, которые своими собственными глазами просматривают результаты поиска и подчищают его. Подчищают не только вручную, но и составляют технические задания для разработчиков алгоритмов. Таким образом, алгоритмы ПС с каждым днем все усложняются и усложняются.
Возможно я тут слишком сложно все описал, но, поверьте мне, оптимизация и раскрутка (продвижение) сайтов - это вещь не простая, но вполне выполнимая. Далее я опишу Вам сервисы и понятия, которые сильно облегчат эту работу.
Комментарии |
|