/
Просмотр текста страницы

Просмотр текста страницы

Оглавление


Описание

С помощью данного инструмента Вы легко можете просмотреть исходный код (Source), DOM модель и отображаемый текст загруженной в браузере страницы.

В чём разница между DOM и исходным кодом страницы Вы можете прочитать в заметке Разница между Source и DOM

Если Вы работаете на движке Chrome, то в качестве альтернативы можете использовать инструменты web-разработчика


Для чего это используется?

Данный инструмент используется когда нужно более глубже понять структуру страницы:


Как открыть окно?

Кнопка включения данного окна находится правее адресной строки браузера.


Как работать с окном?

При клике по иконке открывается окно:

Выбор содержимого

Тут необходимо выбрать, что Вы хотите просматривать: DOM (по умолчанию), исходный код или видимый текст на странице (разница между Source и DOM).

Переносить по словам

При активации данной опции если строка слишком длинная, то она будет перенесена на следующую , а не скрываться за границей окна. В качестве примера скриншот того же окна, но с активной данной опцией:

 

Копировать в конструктор регулярных выражений

При клике по данной кнопке будет запущен конструктор регулярных выражений, а содержимое окна будет автоматически в него скопировано.


Пример использования

Представим, что Вам необходимо спарсить тэги <meta> с атрибутом propertyсо страницы темы на форуме ZennoLab. Через конструктор действий к ним не подберёшься, т.к. эти тэги никак не отображены. Наши действия:

  • Переходим на необходимую страницу

  • Запускаем окно просмотра кода (конкретно в этом случае можно использовать как DOM так и исходный код, это никак не отразится на итоговом результате) и смотрим на необходимые тэги (их несколько, но тут будет приведён только один):

    У всех тэгов одна и та же структура: всегда начинаются с <meta property=и заканчиваются на

    >в кавычках, сразу после property,название этого свойства, а в атрибуте content - содержимое.

  • Копируем содержимое в конструктор регулярных выражений с помощью одноимённой кнопки. На основе анализа из предыдущего шага создаём регулярку - (?<=<meta\ property=)"([a-z:]+)"\s+content="(.*?)"(?=>)

  • С помощью экшена Обработка текста и его действия Regex достаём из кода страницы нужные нам значения и сохраняем в таблицу:

     

Небольшие пояснения к скриншоту:

  • {-Page.Dom-} - в данной переменной хранится DOM вкладки. Для исходного кода - это{-Page.Source-},для текста - {-Page.Text-}. В окне переменных можно найти и другие.

  • Почему был исключён столбец под номером ноль? В регулярном выражении была использована скобочная группировка ( (?<=<meta\ property=)"([a-z:]+)"\s+content="(.*?)"(?=>) - две группы выделены красным ). При тестировании в конструкторе регулярных выражений , перейдя на вкладку Группы, Вы заметите, что было найдено три группы, несмотря на то, что у нас их две: в самой первой группе находится текст полного совпадения, а дальше уже следуют группы, которые были определены. А т.к. нумерация начинается с нуля, мы исключаем именно столбец с номер 0, а не 1.


Полезные ссылки

Related content

Окно браузера
💻
Read with this
Регулировка пула потоков процессов Chrome
Регулировка пула потоков процессов Chrome
More like this
Конструктор действий и Поиск по XPath
Конструктор действий и Поиск по XPath
Read with this
Окно дерева элементов
Окно дерева элементов
More like this
Настройки источников
Настройки источников
More like this
Имитация просмотра страницы
Имитация просмотра страницы
More like this