Обработка текста

Пожалуйста, ознакомьтесь с Правилами использования материалов на данном ресурсе

1 Описание
2 Как добавить действие в проект?
3 Где применяется обработка текста?
4 Как работать с экшеном?
- 4.1 Escape строки
- 4.2 Regex
  - 4.2.1 Поле ввода “Regex”
  - 4.2.2 Ошибка при пустом ответе
  - 4.2.3 Что брать
    - 4.2.3.1 Первое
    - 4.2.3.2 Все
    - 4.2.3.3 Одно совпадение
    - 4.2.3.4 Номера совпадений
    - 4.2.3.5 В переменные
    - 4.2.3.6 В таблицу
  - 4.2.4 Пример использования
- 4.3 Spintax
  - 4.3.1 Расширенный синтаксис спинтакса
- 4.4 Split
  - 4.4.1 Разделители
  - 4.4.2 Разрешить пустые значения
  - 4.4.3 Пример использования
- 4.5 ToChar
- 4.6 ToLower
  - 4.6.1 Все
  - 4.6.2 Начало слов
  - 4.6.3 Первый символ
- 4.7 ToUpper
  - 4.7.1 Все
  - 4.7.2 Начало слов
  - 4.7.3 Первый символ
- 4.8 Trim
  - 4.8.1 Что обрезать
  - 4.8.2 Где обрезать
- 4.9 UrlDecode
- 4.10 UrlEncode
  - 4.10.1 Кодировать только значения в переменных
- 4.11 В переменную
- 4.12 В список
  - 4.12.1 Разделитель
- 4.13 В таблицу
  - 4.13.1 Разделители
- 4.14 Замена
  - 4.14.1 Что искать
  - 4.14.2 На что заменить
  - 4.14.3 Тип поиска
  - 4.14.4 Что заменять
    - 4.14.4.1 Первое
    - 4.14.4.2 Все
    - 4.14.4.3 Одно совпадение
    - 4.14.4.4 Номера совпадений
- 4.15 Перевод
- 4.16 Подготовка JavaScript
- 4.17 Подстрока
- 4.18 Транслитерация
5 Полезные ссылки

Описание

Данный экшен служит для различных манипуляций с текстом, которые в практике требуются очень часто. Обработать спарсенный текст, очистить его от мусора, перевести на другие языки – всё это, и многое другое, может «кубик» обработки текста.

Как добавить действие в проект?

Через контекстное меню Добавить действие → Данные → Обработка текста

Либо воспользуйтесь умным поиском.

Где применяется обработка текста?

Escape строки. Для экранирования специальных символов
Regex. Поиск текста регулярным выражением
Spintax. Рандомизировать, уникализировать текст
Split. Разделить строку на несколько других через разделитель
ToChar. Преобразовать Unicode код в символ
ToLower, ToUpper. Преобразовать заглавные буквы в строчные и наоборот
Trim. Очистить текст от лишних пробельных символов
UrlEncode, UrlDecode. Кодировать \ Декодировать URL
В переменную, список, таблицу. Положить данные в переменную, список или таблицу
Замена. Произвести замену в тексте
Перевод. Выполнить перевод на другой язык
Подготовка JavaScript. Обработать текст для использования в экшене Логики (IF-ELSE) или JavaScript
Получить подстроку
Транслитерация. Сделать транслитерацию текста

Как работать с экшеном?

Окно свойств состоит в основном из трёх областей:

Входная строка – текст, переменная или их комбинация.
Действия над строкой, свойства и их настройки.
Выходная строка (результат) в переменной.

Установите курсор в области входной строки, нажмите Ctrl+Пробел и выберите из выпадающего списка полезные константы и переменные проекта. Например, так можно быстро вставить прокси проекта {-Project.Proxy-} или URL активной вкладки {-Page.Url-} (другие доступные переменные окружения Вы можете найти в статье Окно переменных )

Все возможные операции с этим «кубиком»:

Escape строки

Экранирование символов.
Этот экшен экранирует пробел и символы *+?|{[()^$.# (размещает “слэш” перед каждым указанным символом - \) . Этот метод часто используется для работы с запросами и для того чтобы обработчик регулярных выражений использовал эти символы буквально, а не как команды или метасимволы.

До применения: {"animal": "cat"}
После: \{"animal":\ "cat"}

Regex

Обработка текста регулярными выражениями.
Регулярками очень удобно парсить строки для нахождения нужной подстроки по заданному паттерну. Данный экшен позволяет спарсить не только первое найденное значение, но и всю группу и сохранить значения в переменные или таблицу.

Поле ввода “Regex”

В данное поле необходимо ввести регулярное выражение, с помощью которого будет производиться поиск по тексту. Пример - (?<=<title>).*(?=</title>)

В составлении регулярных выражений Вам может помочь Тестер регулярных выражений

Ошибка при пустом ответе

Если отмечена данная настройка и регулярное выражение ничего не нашло в тексте, то экшен завершится ошибкой (выход по красной ветке).

Обратите внимание на то, что если регулярное выражение вернёт пустую строку, то даже при включённой настройке “Ошибка при пустом ответе” экшен выйдет по зелёной ветке: например, на сайте ничего нет в теге title: <title></title>, в таком случае регулярное выражение (?<=<title>).*(?=</title>) сработает, но вернёт пустую строку - экшен завершится успехом.
А вот если бы в тексте вообще не было <title></title>, в таком случае выражение ничего не найдёт и экшен выйдет по красной ветке.

Что брать

Первое

В переменную сохранится первое найденное совпадение.

Все

Сохранить все результаты поиска в список.

Одно совпадение

Сохранить только одно совпадение.
В появившемся поле можно ввести порядковый номер совпадения (нумерация с нуля!) или выбрать Последнее либо Random (случайное) значение.

Номера совпадений

Сохранить в список только указанные номера совпадений (нумерация с нуля!, указывать через запятую).

В переменные

Данная функция используется при работе с групповыми регулярными выражениями. Пример под спойлером:

Представим, что есть следующий текст:

21.01.2003, 11:34:00.9299
11.12.2013, 01:22:55.3021
04.01.2007, 08:00:06.0032

И стоит задача его разобрать на составляющие. Для этого воспользуемся таким регулярным выражением: (\d{2}).(\d{2}).(\d{4}), (\d{2}):(\d{2}):(\d{2}).(\d{4})

Вот как результат выполнения выглядит в Тестере регулярных выражений:

Представим, что нам надо взять в переменные день, месяц и год из второй строки. Вот как это можно сделать:

Номер совпадения в нашем случае - номер строки. Т.к. нумерация тут начинается с нуля, то для того, чтобы взять вторую строку, указываем 1

Дальше надо указать номер группы и переменную, в которую сохранится результат. Тут тоже нумерация групп начинается с нуля. Но в группе 0 находится вся найденная строка (11.12.2013, 01:22:55.3021). Поэтому для дня указываем номер группы 1, для месяца - 2 и для года - 3.

В таблицу

Очень похоже на предыдущую функцию (В переменные) с тем отличием, что тут сохраняется не один результат, а все и в таблицу. Можно исключить из итогового результата некоторые найденные группы.

Используем тот же текст:

21.01.2003, 11:34:00.9299
11.12.2013, 01:22:55.3021
04.01.2007, 08:00:06.0032

Перед нами стоит задача его разобрать и сохранить в таблицу. Для этого воспользуемся таким регулярным выражением: (\d{2}).(\d{2}).(\d{4}), (\d{2}):(\d{2}):(\d{2}).(\d{4})

Вот как результат выполнения выглядит в Тестере регулярных выражений:

Так же представим, что в итоговой таблице нам не нужны секунды и миллисекунды. Вот как это может выглядеть:

В группе под индексом 0 находится всё совпадение (в нашем случае строка) поэтому исключаем. В группах 6, 7 - секунды и миллисекунды соответственно.

Пример использования

Рассмотрим на конкретном примере - парсинг ссылок регулярными выражениями, составленными с помощью конструктора.

Например, у нас есть задача - получить ссылки на профили активных пользователей форума ZennoLab. Приступаем:

С помощью кубика Взятие значения получаем HTML код элемента в котором размещены ссылки на пользователей находящихся на форуме онлайн.
Добавляем экшен “Regex”. Для составления паттерна, используемого в свойствах экшена “Regex”, используем Конструктор регулярных выражений.
В свойствах экшена на вход добавляем переменную “html“, а результат сохраняем в список “urls“.
После запуска кубика получаем в списке уникальные id, которые можно использовать для формирования URL профилей юзеров.

Spintax

Рандомизация или уникализация текста.
С помощью spintax удобно создавать синонимизацию текстов. Спинтакс - это такая конструкция из обрамляющих фигурных скобок и вертикальных слэшей, которая позволяет в случайном порядке подставлять подстроки из строки. В простейшем варианте спинтакс выглядит так: {вариант1|вариант2|вариант3}. При выполнении этого действия в результирующую переменную случайно попадет один из трёх вариантов.
Но конструкции спинтакса бывают более сложными и обладают многоуровневой вложенностью из-за чего из одного текста можно получить тысячи разных вариантов.

Расширенный синтаксис спинтакса

{Red|White|Blue} — в результирующий текст попадает одно из значений, например: «White»
[ Red| White| Blue] — в результирующий текст попадает перестановка значений, например: «White Blue Red»
[+_+Red|White|Blue] — в результирующий текст попадает перестановка значений, между которыми вставлен разделитель, например: «White_Red_Blue»

Вложенность шаблонов неограниченна (например: [+{_|-}+Red|White|Blue {1|2}] = «White-Blue 2-Red»). Спец.символы можно экранировать: [+\++Red|\[White\]|Blue] - результат «[White]+Red+Blue»

Split

Разделение текста каким-либо символом-разделителем (делиметером).
Эта обработка превращает строку в массив строк. По сути это более простой аналог RegExp для разделения строки символами.

Разделители

Здесь нужно указать символ (-ы), по которому будут разбиваться данные.

Разрешить пустые значения

Этот пункт рассмотрим на примере.

И так у нас есть строка в формате имя;фамилия;пол;год рождения Экшен может выглядеть так:

Но, если будет отсутствовать одна из составляющих, например пол (Андрей;Павлов;;1988), то год рождения запишется в переменную для пола (sex ). Вот как раз для таких случаев и создана настройка Разрешить пустые значения - если её включить, в переменную для пола запишется пустая строка, а год сохранится в правильную переменную.

Пример использования

Рассмотрим работу сплита на примере очень частой задачи – разбиение строки с прокси на составляющие части. Очень часто покупные прокси имеют такой формат: логин:пароль@хост:порт
Тут сразу два разделителя - :(двоеточие) и @. Вот как могут выглядеть настройки экшена:

В качестве разделителя здесь указаны сразу оба символа.

ToChar

Преобразует значение целого числа в символы Unicode.
Каждый символ Юникод имеет свой цифровой код и этот функционал позволяет конвертировать числовое значение в соответствующие символы. Например у символа ♛ числовое значение 9819

ToLower

Меняет регистр букв на нижний в зависимости от выбранного свойства. Для примера возьмём строку МЕНЯЕТ РЕГИСТР БУКВ НА НИЖНИЙ

Все

Заменит все символы верхнего регистра в тексте на нижний регистр.

Было	Стало

Было	Стало
МЕНЯЕТ РЕГИСТР БУКВ НА НИЖНИЙ	меняет регистр букв на нижний

Начало слов

Меняет регистр на нижний у первого символа каждого слова в тексте.

Было	Стало

Было	Стало
МЕНЯЕТ РЕГИСТР БУКВ НА НИЖНИЙ	мЕНЯЕТ рЕГИСТР бУКВ нА нИЖНИЙ

Первый символ

Меняет регистр только первого символа в переданном тексте.

Было	Стало

Было	Стало
МЕНЯЕТ РЕГИСТР БУКВ НА НИЖНИЙ	мЕНЯЕТ РЕГИСТР БУКВ НА НИЖНИЙ

ToUpper

Меняет регистр букв на верхний в зависимости от выбранного свойства. Для примера возьмём строку текст в нижнем регистре

Все

Заменит все символы нижнего регистра в тексте на верхний регистр.

Было	Стало

Было	Стало
текст в нижнем регистре	ТЕКСТ В НИЖНЕМ РЕГИСТРЕ

Начало слов

Меняет регистр на верхний у первого символа каждого слова в тексте.

Было	Стало

Было	Стало
текст в нижнем регистре	Текст В Нижнем Регистре

Первый символ

Меняет регистр только первого символа в переданном тексте.

Было	Стало

Было	Стало
текст в нижнем регистре	Текст в нижнем регистре

Trim

Эта функция используется для удаления лишних символов в начале и\или конце переданной строки.

Чаще всего используется, если нужно почистить строку от лишних пробелов, переносов строк, табуляций, которые так часто остаются в результате парсинга.

Что обрезать

Тут необходимо выбрать символы, которые нужно удалить. Это может быть либо предустановленный вариант для всех типов пробельных символов (пробел, перенос строки, табуляция), либо Вы можете указать свои символы.

Где обрезать

Где надо удалить символы - Начало строки, Конец либо Начало и Конец.

UrlDecode

Декодирует закодированную с помощью UrlEncode (описано ниже) строку.

Наиболее наглядно этот экшен выглядит при раскодировании кириллицы:
Было: %D0%9F%D1%80%D0%B8%D0%B2%D0%B5%D1%82%2C%20%D0%BC%D0%B8%D1%80%21
Стало: Привет, мир!

UrlEncode

В URL разрешается использовать лишь латинские буквы, цифры и несколько знаков пунктуации. Все остальные символы, которые передаются в HTTP-запросе, должны быть закодированы с помощью UrlEncode, иначе сервер может неправильно интерпретировать запрос.

Кодировать только значения в переменных

Очень удобно использовать при формировании HTTP запросов, т.к. адрес сайта кодировать не надо, а только параметры. Вот как могут выглядеть настройки экшена:

В переменной {-Variable.keyword-}находится текст что такое urlencode. После выполнения в переменную {-Variable.url-} запишется такая строка - https://www.google.com/search?q=%d1%87%d1%82%d0%be+%d1%82%d0%b0%d0%ba%d0%be%d0%b5+urlencode

В переменную

Это действие просто сохраняет всё что вы добавите во входное окно – переменные, текст, символы, константы проекта, в отдельную переменную.

В список

Данный экшен разбивает текст с помощью указанного в свойствах разделителя на строки и записывает их в список.

Разделитель

Enter - символ новой строки
Пробел
Свой текст - тут можно указать как единичный символ (например ;) так и несколько символов (внимание: если Вы укажите здесь несколько символов, то они будут рассматриваться как один разделитель!)
Свой Regex - использование регулярного выражения.

В таблицу

Данное действие разбивает переданный текст на строки и столбцы (согласно указанным разделителям) и помещает данные в таблицу.

Разделители

Enter - символ новой строки
Пробел
Свой текст - тут можно указать как единичный символ (например ;) так и несколько символов (внимание: если Вы укажите здесь несколько символов, то они будут рассматриваться как один разделитель!)
Свой Regex - использование регулярного выражения.

Замена

Это действие ищет в строке подстроку, заменяет её на другую и затем сохраняет результат в переменную.

Что искать

Подстрока, которую надо найти (либо регулярное выражение, если выбран тип поиска Regex).

На что заменить

Чем будет заменена найденная подстрока.

Тип поиска

Text - ищется точно такая же строка, которая была передана в поле Что искать.

Regex - в поле Что искать надо записать регулярное выражение, по которому будет искаться совпадение.

Что заменять