Парсить страницу (Собрать данные со страницы)

Оглавление


Описание

Действие «Парсить данные», позволяет получить необходимую информацию из источника данных, по множеству условий, что делает поиск более гибким, а значит точным.


Как добавить действие в проект?

Через контекстное меню: Добавить действиеТабыПарсить страницу

Либо воспользуйтесь умным поиском.


Пример использования

Наглядным примером работы действия «Сбор данных со страницы», послужит требование:

- Собрать все видимые ссылки со страницы текущего домена.

В результате, получим данные в список проекта. А с помощью функции Удалить дубли оставим в списке только уникальные ссылки.


Детальный обзор окна свойства действий «Парсить данные»

Нажав, дважды левой кнопкой мыши, на действие «Парсить данные» (в рабочей области проекта), откроется окно «Свойства действий», которое, логически разделяется на 2-е части. Основой в каждом сборе данных служит источник данных (из которого, получаем данные для последующего сбора информации).

Основные источники данных

  • Переменная

  • Активная вкладка (Текущая страница браузера ZennoPoster)

Переменная

Выбрав источник данных «Переменная», появится следующий, список параметров:

  • Имя переменной - переменная проекта, в которой находится HTML-код.

  • Тип селектора - язык запросов: XPath или CSS Selector.

  • Селектор - путь, который сообщает, к конкретно какому элементу (или элементам) веб-страницы необходимо обратиться, используя язык запросов: XPath или CSS Selector.

  • Атрибут - свойство HTML-тега, которое необходимо получить в ходе сбора данных.

  • Фильтровать результат - булево значение, если установлена галочка, то можно использовать условие к объекту: Содержит, Не содержит, Regex (регулярное выражение).

  • Диапазон - условие, по которому, можно отобрать данные из массива объектов.

  • Сохранить результат - после окончания сбора данных, поместить результат в переменную или список.

Активная вкладка (текущая страница)

Выбрав источник данных «Активная вкладка», появится следующий, список параметров:

Аналогично, источнику данных «Переменная», с разницей лишь в:

  • Тип данных (источник: DOM, Html (в чём разница?)) - из которого получаем данные, для работы с объектами(ом).

  • Только видимые элементы - те объекты, которые отображены на странице.

  • Искать во всех фреймах (от англ. frame) - самостоятельный, вложенный HTML-документ, в которым могут находиться нужные данные или наоборот.


Быстрый способ сбора данных

Альтернативный способ для быстрой настройки сбора данных, располагается в контекстном меню панели «Дерево элементов» (либо клик ПКМ в браузере) → пункт «Парсить данные». В открывшемся окне, можно в несколько кликов мыши, задать параметры поиска и начать незамедлительный сбор информации, и все это в пару кликов, и да, без особых знаний языка запросов XPath или CSS Selector.


Полезные ссылки