Данные (операции с табом)

Оглавление


Описание

Данный экшен предназначен для получения данных со страницы.


Как добавить действие в проект?

Через контекстное меню Добавить действиеТабыДанные

Либо воспользуйтесь умным поиском.


Для чего это используется?

  • Найти и сохранить нужную информацию со страницы

  • Проверить, есть ли какие-то значения на странице

  • Спарсить текст со страницы

  • Взять URL страницы

Как работать с экшеном?

Что взять

Выбрать тип данных, которые необходимо взять:

  • DOM - объектная модель документа;

  • Source - исходный код страницы;

  • Text - видимый текст страницы;

  • URL - адрес ссылки из адресной строки.

Разница между Source и Dom

Source - исходный код страницы полученный с сервера.
DOM - это дерево объектов созданных браузером в памяти компьютера на основе исходного кода (Source ).

Если сильно упростить, то браузер работает следующим образом:

  1. Вы вводите в адресную строку URL и нажимаете энтер.

  2. Браузер отправляет запрос на сервер.

  3. Сервер возвращает ответ в виде исходного HTML кода страницы (Source)

  4. На основе исходного кода браузер строит DOM (Data Object Model - объектная модель документа)

    • обрабатывает ошибки (добавляет тэги html, body, head и др. если они не были написаны)

    • закрывает незакрытые тэги

    • добавляет тэг <tbody> к таблицам, если его не было. Согласно DOM у таблиц (<table>) должен быть тэг <tbody>, а в HTML его можно не использовать (это стоит учитывать при построении XPath и регулярных выражений)

    • обрабатывает скрипты на странице (которые могут добавлять новые элементы на страницу, причем делать это и после полной загрузки страницы)

  5. И в конце браузер на основе DOM отрисовывает и показывает Вам содержимое веб страницы.

DOM может содержать информацию и элементы, которых не будет в исходном коде (Source) т.к. он (DOM) включает в себя содержимое, которое может встраиваться с помощью JavaScript.

При работе с запросами (GET, POST и другими видами запросов) Вы всегда будете иметь дело с Source.

Для просмотра Source и DOM в ProjectMaker существуют два инструмента:

  • Просмотр исходного кода

     

     

  • Инструменты web-разработчика (только для движка Chrome)

     

Какая вкладка

Выбрать вкладку, с которой брать данные:

  • Активная - текущая активная вкладка;

  • Первая - если вкладок несколько, то взять первую по счёту;

  • По имени - указать имя вкладки;

  • По номеру - указать номер вкладки, если их несколько.

Обрабатывать только указанные теги

Если необходимо обрабатывать только один или несколько определённых HTML тэгов, то активировать чекбокс и выбрать нужные варианты.

Парсить результат

Если необходимо парсить полученный результат, то это можно сделать, указав нужное регулярное выражение Regex, количество и номера совпадений, а так же куда сохранять результат - в переменную или таблицу. Подобрать необходимое регулярное выражение можно с помощью Тестера регулярных выражений.

Элементы управления, которые появляются при включении настройки Парсить данные, такие же как и у Обработка текста-Regex (там найдёте более детальное описание).

Для получения данных со страницы есть более удобный инструмент - Парсить данные


Пример использования

Возьмём все ссылки на странице. Выбираем брать DOM или Source, парсить результат и указываем регулярное выражение Regex:

(?<=href=")http.*?(?=")

Брать все значения и результат положить в список.

В результате в списке получим все ссылки, имеющиеся на данной странице.


Полезные ссылки