Создание Бот-системы для профессиональной социальной сети LinkedIn( Часть 2: Регистрация, email-верификация, sms, капча)

test
Боты атакуют LinkedIn В продолжении цикла статей об создании Бот-системы для LinkedIn. Первая статья серии.

Предупреждение. Данная статья не является призывом к действиям, тем более противоправным. Не содержит тайн и секретов за семью замкам. Не стоит использовать ее для противоправных действий.

Введение

Итак, первым этапом в создании бота изначально является анализ и подбор подходящих и уже использовавшихся данных с их вариациями. Но это я опишу в одном из следующих материалов. В этом же мы рассмотрим как обходятся механизмы верификации человека в соц. сетях и других сервисах.

Капча

Капча существует достаточно давно, позволяет отсеять значительную часть простых ботов. Но, если цена достижения оправдана то и средства выбираются по финансам. Обходиться следующими методами:

1) сервисами распознавания капчи, такими как антикапча, антигейт и т.д. - платите за разгаданную капчу, в случае фейла через апи как и получение ответа, так же можете и отправить ошибку разгадывания и сумму вам вернут. Есть ручные сервисы, где по сути сидят и рабским трудом капчи решают индусы и т.д. Есть автоматические, где разгадыванием занимается специальный программный сервис.

2) Распознаванием звуковой капчи. Понятно что такой поразительно нужный для ограниченных в возможностях людей проще использовать, так как и распознать его машинными алгоритмами проще. В бизнесе мало святого.

3) Вы можете создать и настроить связку программы/библиотеки работы с графикой(imagemagick и т.п.) и программы/библиотеки распознавания картинок в текст/цифры. Первая нужна для приведения капчи к нужному состоянию, например отсеиванию единичных помех, Сведению цветов к минимуму, масштабирования картинки и другой более выигрышной комбинации правил. Вторая же программа, для распознавания картинок, такая как Tesseract, GOCR или, на текущий момент, одного из многочисленных онлайн сервисов. Делается это достаточно экспериментально. Те же средства используются для распознавания телефонных номеров с картинок.

SMS

В случае с SMS так же вступают в силу несколько разных сервисов которые я не буду упоминать, но вы легко их можете найти в гугле по запросу "смс активация". У таких сервисов вы платите за использование телефонного номера и через апи можете получить текст сообщения. Номера таких сервисов обновляются несколько раз в день, то есть использованный вчера номер вы повторно уже не используете. Стоит это учитывать при разработке. Так же, если текст не подошел или вообще SMS не пришла, через API предусмотрено возвращение средств. Цены весьма демократичные.

Стоит учитывать и специфики/проблемы таких сервисов:

1) Номера стоят по разному, в зависимости от сервиса на котором вы хотите использовать номер. Для популярных сервисов они стоят дороже и часто быстрее заканчиваются. Конкуренция на таких сервисах, особенно в вечернее время, зашкаливает, так что иногда один номер можно ждать несколько минут. Для сложных систем стоит использовать сразу несколько сервисов параллельно. Мы использовали 3 таких параллельно. С учетом фейловеров, мы переключались на другие сервисы если количество ошибок увеличивалось.

2) Во время смены пула номеров вы или ждете, или переключаетесь на другой сервис. Тоже периодами происходит в вечернее время, чтобы не простаивать стоит переключиться на более дорогой сервис.

3) Как уже говорил выше, использовать номер через время не получиться. У вас есть некое окно в течении которого вы залочили за собой номер, использовали его. После он может попасть к кому-то другому, на другом сервисе. Но после смены пула номеров номер уходит.

4) Стоит алгоритмически сразу учитывать таймауты при получении номера/смс и перезаказами смс если не пришло. По достижении лимита - прерывать регистрацию. На LinkedIn если вы недозаполнили профиль и снова вводите тот же email/номер - у вас может быть не регистрация, а дорегистрация. Это стоит учитывать и начинать с нужного шага.

Email

Сервисов много, в этом случае вариантов несколько:

1) Купить уже готовые Email-ы пачкой. Можно сразу купить несколько тысяч. Но, цена разная для каждого сервиса. Например почты на gmail купить можно, но они дорогие. Почта на mail.ru чаще всего на ряду с остальными СНГ сервисами по сравнению с более серьезными сервисами может изначально рассматриваться как признак спам-бота. Конечно вы вряд ли только из-за почты попадете в блокировку, но как один из косвенных признаков точно. Стоит сразу после покупки проверить сколько живых записей в списке осталось. Мы для этого создали автоматизированную проверку, в целом список проверялся за несколько минут на 1000 записей. Сразу отбраковывались те где не подходили авторизационные данные или были заблокированы. Такой список можно вернуть продавцу и он может их заменить другими.

2) Автоматически регистрировать почты самому. Вариант про ручную не рассматриваю, так как мы смотрим в сторону крупных бот-систем. Тут возникает очередной круг ада, так как почту нужно регистрировать через веб-интерфейс. Подробнее сложности опишу чуть ниже.

3) Взять несколько дешевых доменов и сразу пачкой создать столько ящиков, сколько нужно. Сложности здесь свои уже идут, такие, например, как настройка почтового сервера. Да и ваш домен проще поймать и тем более заблокировать, чем тот же mail.ru или ему подобные. Возникают сложности и общения ваших серверов с почтовыми сервисами крупных масштабов, так, если Ваш домен/сервер находиться в одном из многочисленных спам-листов или он просто новый, то письма могут как не приходить с больших сервисов, так и отбрасываться самими сервисами при отправке.

Проблемы и сложности:

  • 1) Почту может и мейл-хостер заблокировать, в этом случае вероятнее всего вы так же потеряете бота.

  • 2) По той же причине второй сложностью является проверка на живость почтового ящика, при регистрации и в процессе использования бота.

  • 3) IMAP/POP3 или веб-морда? Именно этим вопросом вы будете задаваться если нужно будет получить письмо подтверждения с ссылкой или кодом. Интерфейсы у разных сервисов разные. Настройки IMAP/POP3 могут так же отличаться. Доступ по IMAP/POP3 может быть вообще изначально отключен. Так же возникают и сложности с анонимизацией:
    • использовать прокси сервера еще и для доступа к почте?
    • Каким образом представляется почтовый клиент в случае его работы по POP3/IMAP?
    • все та же ситуация, как и с ботами, при анонимизации и уникализации веб-клиента при работе с почтой через веб-интерфейс, через тот же ZennoPoster, Selenium и другие утилиты.
    • Если Вы, как и мы, используете оба варианта - то тоже стоит учитывать что текст в веб-версии вшит в хтмл и хтмл-ом пропитан, всякими редиректами ссылок и прочим. В POP3/IMAP текст будет другим, даже если пришла HTML-версия письма.

Сразу стоит учитывать что для наших целей тор не подходит изначально, огромная часть его IP изначально видна в интернете, и только ленивые сервисы не используют блокировку или подозрительность к этим IP. Например тот же VK может вас спокойно забанить на неделю или месяц, сказав о подозрительной активности. Да и само по себе странно, если сегодня Вы сидите из Украины или другой страны СНГ, а завтра выходите из Беларуси или Венгрии, или вообще США. И такое происходит с некоторой периодичностью. Это один из косвенных признаков.

Думаю для ознакомления, текущего материала достаточно. Если у кого будут вопросы, пишите.

Категория: 
Share/Save

Делитесь с друзьями в социальных сетях! Оставляйте комментарии!

Share/Save

Это Вам так же может быть интересно!