1

Тема: Каптчи, проверка ссылок и пожелания

Собственно свое негодование я вам уже писал на счет каптчи и проверки ссылок. Но напишу еще раз, возможно писал не совсем доходчиво и понятно.

На данный момент работаю через XML, с сотней проксей, которые ваша программа проверила на валидность. И вот что мы имеем:
Постоянные "странные" ссылки с n/a. То есть ссылки то поддаются проверке, только не сразу, надо будет еще пару подходов проверки сделать, чтобы n/a превратилось в "да\нет" при проверке на индексацию. Мягко говоря "не удобно" проверять одни и те же ссылки по сто раз, чтобы дождаться заветного статуса.

Отлично, в новой версии надписи "КАПТЧА" больше нет. Теперь эту каптчу надо вводить руками. Если я вдруг сверну программу и у меня вдруг вторым окном откроется окно с яндексовской каптчей то это вообще беда. Оно само разворачивается и сворачивается и виснет, клацнуть по полю для ввода этой самой каптчи довольно таки проблематично.
Я вот не пойму, что мешает сделать человеческую антикаптчу? Ну ладно, антикаптчу не сделать, но почему бы не сделать так, чтобы если в проге вываливается статус ссылки n/a или каптча, то софт менял бы прокси по кругу до того момента, пока не проверил бы нашу ссылку без каптчи? Каптча ведь идет на прокси, а у меня несколько сотен проксей и из них множество вообще чистеньких, почему автоматически не перекидывать ссылки с проблемными статусами на них? Непонятно.

2

Re: Каптчи, проверка ссылок и пожелания

Антикапчу через соответствующие сервисы сделаем. Насчет n/a и проксей, - а что вы хотели от бесплатных проксей? Скорость через них маленькая, зачастую не доступны. Собственно, давно уже известно и очевидно - бесплатно большие объемы не проверить (еще пару месяцев назад может, но сейчас Яндекс ужесточил борьбу с парсингом).

По повторному кругу - на наш взгляд не очень рациональное решение. Используйте нормальные свои или платные прокси и таких проблем не будет.

3

Re: Каптчи, проверка ссылок и пожелания

nickspring пишет:

Антикапчу через соответствующие сервисы сделаем. Насчет n/a и проксей, - а что вы хотели от бесплатных проксей? Скорость через них маленькая, зачастую не доступны. Собственно, давно уже известно и очевидно - бесплатно большие объемы не проверить (еще пару месяцев назад может, но сейчас Яндекс ужесточил борьбу с парсингом).

По повторному кругу - на наш взгляд не очень рациональное решение. Используйте нормальные свои или платные прокси и таких проблем не будет.

Чем не рациональное то? Обоснуйте пожалуйста, а то я юзаю множество софта построенного именно на такой вот схеме и вроде как все рационально. Причем тут скорость и недоступность, также могут быть недоступны и платные прокси и я уверен те же n\a там также будут красоваться, хотя возможно в меньших кол-вах.

Собственно, давно уже известно и очевидно - бесплатно большие объемы не проверить (еще пару месяцев назад может, но сейчас Яндекс ужесточил борьбу с парсингом).

В данном случае все упирается в кол-во валидных проксей, а их к счастью достаточно. Но в том то и дело, что ваш софт покупается и юзается для проверок больших объемов, для маленьких объемов плагина винка и выделенного IPа хватет.

Хотя знаете, я наверное начинаю понимать к чему все это, сеобюджет то тоже должен кто-то юзать...

Отредактированно henzo (06.09.2010 00:03:05)

4

Re: Каптчи, проверка ссылок и пожелания

henzo пишет:

Чем не рациональное то? Обоснуйте пожалуйста, а то я юзаю множество софта построенного именно на такой вот схеме и вроде как все рационально. Причем тут скорость и недоступность, также могут быть недоступны и платные прокси и я уверен те же n\a там также будут красоваться, хотя возможно в меньших кол-вах.

В том, что платные прокси, например, от свои или уже зареганные в я.хмл от www.globatel.ru работают на ура. Мы сами используем свои прокси и знаем о чем говорим. n/a там не бывает в штатных ситуациях. Это проверенный факт. Бесплатные глючат везде, не только в нашем софте, это их особенность, а нетого или иного продукта. Насчет n/a не согласен.

О какой именно схеме Вы говорите? Об антикапче? Ее мы сделаем.
Про выпадающее окошко - подумаем что можно сделать.

Насчет распределения проксей при выпадении капчи - нужно подумать как это сделать, может быть и есть какие-то недоработки. Хотя какой смысл их переключать если сейчас капча падает на 5-10 запрос? Все равно при прямом парсинге ее остается только вводить, а не переключаться на другой прокси.

Что касается валидности бесплатных проксей - то что они при проверке были рабочими, не означает их 100% доступность в дальнейшем.

В данном случае все упирается в кол-во валидных проксей, а их к счастью достаточно. Но в том то и дело, что ваш софт покупается и юзается для проверок больших объемов, для маленьких объемов плагина винка и выделенного IPа хватет.

Плагин Винка как и наш софт с недавних пор также часто выдает капчу. Софт, повторюсь, тут не причем. Не вижу смысла подстраивать софт под кривые прокси-сервера, т.к. с их помощью сильно много ненапроверяешь (долго гонять придется их по кругу).

Хотя знаете, я наверное начинаю понимать к чему все это, сеобюджет то тоже должен кто-то юзать...

Я Вам предложил использовать свои прокси и я.хмл, а не сеобюджет. Свои прокси стоят копейки, VPS 500 р и по 20-50р за айпи в месяц.

Замечу, что прямого парсинга вообще не было изначально в CS Sape Master именно для того, чтобы не выслушивать несправедливые претензии пользователей к нам при очередном ужесточении защиты на Яндексе. Но он был сделан по многочисленным просьбам. При этом никто не гарантировал и не обещал что софт будет работать нормально с кривыми проксями или парсить Яндекс напрямую в неограниченных объемах. Почему-то для большинства пользователей это очевидный факт smile В связи с этим Ваши негодования по поводу частого выпадения капчи не будут услышаны... уж извините,  при всем уважении, ничего с этим мы сделать не можем sad