1. Главная цель поисковых алгоритмов – выдача качественного контента по данному ключевому слову. Несмотря на все успехи искусственного интеллекта вообще и машинного обучения в частности, смысл поисковые алгоритмы пока не понимают и, соответственно, качество написанного в полной мере самостоятельно оценить не могут.
2. Поэтому наряду с формальным определением качества контента – по формальным показателям структурированности, в частности – в SEO учитываются ссылки на этот контент с других сайтов как своего рода «голоса» в поддержку этого контента.
3. В настоящий момент «подделать» формальные признаки структурированности, «зрелости» текста сложнее, чем «подделать» ссылки-голоса с внешних сайтов, поэтому последние часто оказываются объектами манипуляций. Из-за этого разработчики поисковых алгоритмов учитывают, по возможности, наименее манипулируемые ссылки, которые существуют на данном этапе технологического развития.
4. Как же определяется качество контента? Качество, «зрелость» содержимого веб-страницы, с точки зрения SEO, определяется схожестью набора формальных признаков структурированности текста, встречаемости слов, относящихся к некоторой предметной области, с аналогичными признаками у заведомо качественных текстов, на которых производится обучение поискового алгоритма.
5. Разработчики поисковых алгоритмов используют так называемое «машинное обучение с учителем»: поисковому алгоритму указываются некие эталонные статьи (или факторы для их вычленения из Интернета) и формальные признаки, подлежащие анализу. В ходе такого обучения, в числе прочего, выявляются скрытые закономерности: определяется, какие комбинации формальных признаков присущи «зрелому» контенту.
6. Знание того, в каких «коридорах» должны находиться значения некоторых определяющих признаков, позволяет отделить качественные веб-тексты от некачественных. По мере развития поисковых алгоритмов число параметров, которыми определяется качество контента, растет.
7. Таким образом, каждое актуальное обновление поискового алгоритма максимально полно для данного технологического уровня определяет качество контента по формальным признакам и учитывает наименее манипулируемые ссылки на сайт из существующих на данный момент.