Автоматизация процесса грубого просеивания баз для AllSubmitterЭто вторая часть, почитайте первую. Характерные признаки в URL могут избавить от лишней работы.Первое, что я делаю при вхождении новой объёмной базы — разбираю её по типовым признакам URL. Помимо «классических» адресов, типа www.site.ru/add.php есть и специфические, характерные для одной CMS, например любимые многими доски объявлений Jozefina в URL имеют вхождение «/cgi-bin/do/», а непосредственно форма добавления этих досок — «add.cgi?c=». Кстати, в настоящий момент я занимаюсь структурированием соответствий характерных URL-вхождений для открытой публикации, а пока поясню, для чего нужен этот шаг:
Ответ сервера и заголовки страниц, тег title.После предварительной сортировки, откинув заведомо неактуальные формы, я перехожу к процессу проверки ответа сервера. Кстати, эти самые неактуальные формы вовсе не надо удалять, или помещать в чёрный список, с ними ещё предстоит некоторая работа, но об этом в другой статье. Для них достаточно создать отдельную категорию, поместить папки в неё, после чего корневую сделать невидимой. Вуаля, теперь они не мешаются в общем списке, не забивают BL попусту и доступны для дальнейшей обработки в любой момент. Избавившись таким образом от балласта, ответ сервера можно запрашивать из вкладки «<Все категории>». Вместе с ответом сервера необходимо запросить название сайта, тэг title. Следующий прогон через сито будет делаться, в том числе, и по названию сайта. Неожиданно? Поясню: если с ответом сервера, отличным от 200 всё более-менее ясно, то вот ответ «200» совершенно неоднозначен. Настоящим злом становятся сервисы парковки доменов («злом» — исключительно в контексте актуальности баз для AllSubmitter, а вообще данные сервисы могут быть очень даже полезными, Итак, для запаркованных доменов я создаю свою, отдельную папку, для ответов 302 и 301 завожу отдельный подкаталог, для всех остальных, отличных от 200, ещё один, с номером проверки, примерно так: Scripto > [/add?white=1] > !200 > 01 check. Однозначного ответа на вопрос, какое количество ошибочных возвратов подряд свидетельствует о необходимости окончательно поставить крест на каталоге, дать, наверное, нельзя. Практика показывает, что порой «оживление» случается и после десятка проверок. Редко, но случается. Поэтому я наращиваю нумерацию до 5, после чего сайты попадают в общую категорию «05+ check», проверку которой я осуществляю несколько реже, примерно раз в месяц. Сайты, вернувшие ответ 301 и 302 (страница перемещена навсегда/временно, соответственно), проверяются несколько позднее на полуавтомате. Иногда смена адресации происходит из-за переезда на другое доменное имя, или обновления версии CMS. Проверка индексации сайта, тИЦ и PR.Самыми мелкими ячейками в сите полностью автоматизированных процессов станет проверка сайта на индексируемость и «пузомерки». Т.е. сперва максимальная выбраковка по параметрам, не требующим для своего определения отправки запросов к ПС, а только потом — отправка этих запросов. Если хотите, можете повозиться с настройками прокси, AllSubmitter даёт возможность их использования, сам я этой вкладкой не пользуюсь, т.к. никуда не тороплюсь. При работе без прокси надо понимать, что поля для ввода лимита на количество потоков и интервал обращений к ПС при старте проверки — не просто так. ПС блокируют слишком частые обращения к ним из-за инстинкта самосохранения. Ничего страшного в этой блокировке нет, просто потребуется какое-то время (обычно — не более пары часов) вводить капчу при поиске, ну и забыть на это время про определение параметров сайтов. Google готов ответить на 700 запросов в час от одного компьютера, по поводу Яндекса у меня точной цифры нет, но, как бы там ни было — запросы в 3 потока с интервалом в 22 500 мс, как правило, им воспринимаются вполне корректно. Если база большая и планируется после определения сокращать количество каталогов — определение каждого параметра следует производить отдельно, если не планируется, или каталогов в базе столько, что аллсаб управится за ночь — то лишние манипуляции ни к чему.
Исходя из результатов проверки, сайты распределятся по группам:
Далее, смотрим на «пузомерки»:
Для меня первоочередными на следующем этапе становятся сайты в индексе обеих ПС, с ИЦ 10-50. Если их много, с PR от 1. Подготовительные этапы на этом, пожалуй, заканчиваются, далее предстоит кропотливая, самая, что ни на есть, ручная работа. Третья часть руководства по работе с базами для AllSubmitter скоро увидит свет, можете * Реферальские ссылки, упомянутые в этой статье. Всем, зарегистрировавшимся по ним, гарантирована помощь, консультации и различные бонусы. Подробности . ![]() |
добавлено 18-01-2009
|
Тэги: Soft, AllSubmitter