Этап 1. Создание проекта и сбор каптч

Это архивная статья, больше не актуальна.

Для создания собственных модулей воспользуйтесь сервисом CapMonster Cloud. Подробную инструкцию можно найти по этой ссылке - Создание пользовательского модуля

Необходимо открыть программу, создать новый проект, сохранить его под понятным Вам названием.

Сбор коллекции каптч

Первое что необходимо сделать, это собрать коллекцию каптч и их решений, на которых будет учиться и тестироваться новый модуль. Это можно сделать несколькими способами.

1. Можно собрать картинки, без ответов, любым удобным для Вас образом, и распознать их уже в самой программе.

Для этого необходимо в настройках программы указать логин и пароль одного из сервисов ручного распознавания каптч (например, RuCaptcha, AntiGate и т.п.). Сразу после загрузки каптч, необходимо выбрать соответствующий вариант распознавания. Если пользуетесь вариантом распознавания каптч через сервисы ручного распознавания, то лучше распознавать каптчи отдельными группами. Каптчи для сбора символов можно распознать обычным способом, а каптчи для обучения и теста лучше распознать со 100% вероятностью. Это когда каптча отсылается нескольким людям одновременно. У сервисов AntiGate и RuCaptcha есть такая настройка распознавания.

2. Можно создать простой шаблон в ZennoPoster по сбору и распознаванию каптч. Конечная цель на этом этапе - иметь на жёстком диске в отдельной папке собранные каптчи и их ответы в следующем формате: попарно должны быть представлены картинка с каптчей + *.txt файл в котором содержится ответ на каптчу. Имена у файлов должны быть одинаковыми, отличаться должны только расширения.

Либо название файлов каптч должно быть текстом, который на них написан. Т.е. если на каптче написано «qwe», то файл каптчи должен быть примерно таким: «qwe.jpg». Такой вариант программа тоже примет.

Сколько нужно каптч

Для простых каптч, с малым искажением символов (или вообще без искажений) - 300 штук. Для сложных каптч - 1000 штук. Все эти каптчи должны быть потом распознаны в сервисах ручного распознавания, что будет стоить от нескольких десятков центов до пары долларов.

Каптчи нужны для нескольких целей:

  • Для сбора символов. Каждого символа нужно от 3 до 150 экземпляров в зависимости от сложности каптчи. Посмотрите, сколько символов в каптче, сколько всего разновидностей символов, учтите, что иногда некоторые символы в каптче встречаются редко. А экземпляров каждого символа должно быть примерно одинаковое количество.

  • Для предотвращения ложных срабатываний (примерно в 10 раз меньше чем каптч для сбора символов).

  • Для теста модуля распознавания (примерно 100 каптч).

Разбиение каптч

После добавления, каптчи будут разбиты на указанные выше группы автоматически. Но можно задать разбиение вручную. Переразбиение в дальнейшем будет невозможно, поэтому если не знаете, лучше ничего не трогать.

Видеоинструкция по ссылке на YouTube.