Анализ содержимого web-страницы

Context Recognizer и зверинец Google

Как Вы знаете, Google натравил своих зверей на сайты сеошников по всему миру. Один из основных (и, наверно, самых важных и сложных) параметров, на которые натасканы звери - это нетематичность сайтов с которыми связан Ваш сайт входящими и исходящими ссылками.

Для защиты Ваших сайтов от взбесившихся животных, мы придумали новую фичу - Context Recognizer.

Context Recognizer поможет определить тематику текста web страницы или просто текста, который Вы укажете. Вместо того, чтобы спамить свои ссылки во все ресурсы подряд, Вы сначала можете определить тему текста страницы, на которой хотите оставить ссылку. Если на этой странице текст не подходит под тему вашего сайта, то не стоит оставлять там ссылки.

Аналогично Вы можете найти на своем сайте ссылки, и проверить тематику страниц на которые они ссылаются.

Допустим, у Вас есть база ссылок для постинга. С помощью новой фичи Context Recognizer Вы можете разбить Вашу базу на несколько баз по контексту. Потом, когда Вам нужно будет прорекламировать сайт, Вы возьмёте не полную базу, а ту, которая соответствует тематике сайта. Вы сможете постить статью про страхование машин в блог с автомобильной тематикой, а не в блог, где публикуют анонсы новых фильмов.

Можно пропарсить сайт (например, блог) и найти страницы, которые лучше всего подходят по тематике к Вашей рекламе. Оставляя релевантные комментарии и посты, Вы получите не только тематичные ссылки но больший шанс пройти модерацию, что очень важно на качественных ресурсах.

Сейчас Context Recognizer находится на стадии бэта тестирования, несмотря на это, он имеет хороший процент распознавания и мы будем его улучшать.

Использование

При настройке укажите текст для анализа. Обратите внимание, чтобы не искать текст на web странице самому, воспользуйтесь функцией выделения главного текста на web странице. Она находится в экшене «Выделение основной статьи».

Вы можете определить общую тему текста (около 20) или конкретное направление (около 250) (будет доступно чуть позже).

Далее надо настроить два фильтра:

  • укажите максимальное количество тематик, которые должен выдать анализатор;

  • укажите минимальный порог релевантности тематике, после которого тематика будет считаться неподходящей. Этот параметр изменяется от 0 до 100.

Тематика текста

Например, три тематики и не менее 30 процентов совпадения. В этом случае будет выдано не более 3-х подходящих тематик, которые соответствуют Вашему тексту не менее чем на 30.

Обратите внимание, что может быть выдано менее 3-х тематик или вообще ни одной, если анализатор не увидит сходства Вашего текста ни с одной из известных ему тематик.

В переменную будут положены тематики через запятую.

Тестирование

В панеле инструментов редактора проектов есть кнопка для тестирования Context Recognizer.

Заметьте, Context Recognizer сейчас работает только с английскими текстами.