Автоматизация процесса грубого просеивания баз для AllSubmitter

Это вторая часть, почитайте первую.

Характерные признаки в URL могут избавить от лишней работы.

Первое, что я делаю при вхождении новой объёмной базы — разбираю её по типовым признакам URL. Помимо «классических» адресов, типа www.site.ru/add.php есть и специфические, характерные для одной CMS, например любимые многими доски объявлений Jozefina в URL имеют вхождение «/cgi-bin/do/», а непосредственно форма добавления этих досок — «add.cgi?c=».

Кстати, в настоящий момент я занимаюсь структурированием соответствий характерных URL-вхождений для открытой публикации, а пока поясню, для чего нужен этот шаг:

  • Во-первых, для первичной, грубой отбраковки не каталогов. Часто базы, лежащие в паблике, спарсеные с поисковых систем, содержат всё, что угодно, вплоть до форм регистрации пользователей, естественно, попавших в выдачу по запросу «регистрация». Форма регистрации пользователей на сайтах под управлением PHP-Nuke (и некоторых модификаций) имеет вхождение в URL строки «modules.php?name=Your_Account».
     
  • Это позволяет сразу выделить «национальные» CMS, не имеющих альтернативных локализаций и в силу этого использующиеся, преимущественно, русскими, немецкими и т.д. вебмастерами. Т.е. определив движок сайта, можно с некоторой долей вероятности определить сайты на английском языке, например. Естественно их не стоит выкидывать, разбор нужен для первичной расстановки приоритетов при последующей настройке полей под (полу)автоматическую регистрацию.
     
  • Подобная структуризация даёт возможность выбрать из общей массы сайты, CMS которых по умолчанию настроены на закрытие ссылок от индексации, требование бэклинков, либо, напротив, желанны своей безусловностью.
     
  • При выходе обновления популярного движка спустя месяц-другой может потребоваться перенастройка полей, ссылок на формы добавления, а то и репостинг, если установка обновления предполагает модификацию базы данных. Некоторые вебмастера, вдоволь намучавшись со спамом, просто ставят скрипты и базу набело.
     
  • Кроме того, в дальнейшем эта разбивка позволит отслеживать «живучесть» движка, наблюдать за массовыми выпадениями из индекса, если таковые будут иметь место.
     
  • Ну и ещё одна, немаловажная причина — когда база структурирована подобным образом, значительно проще происходит процесс распознавания форм. Достаточно пройтись по первым 10-20 сайтам из подкатегории, чтобы потом запустить процесс автоматического распознания.

Ответ сервера и заголовки страниц, тег title.

После предварительной сортировки, откинув заведомо неактуальные формы, я перехожу к процессу проверки ответа сервера. Кстати, эти самые неактуальные формы вовсе не надо удалять, или помещать в чёрный список, с ними ещё предстоит некоторая работа, но об этом в другой статье. Для них достаточно создать отдельную категорию, поместить папки в неё, после чего корневую сделать невидимой. Вуаля, теперь они не мешаются в общем списке, не забивают BL попусту и доступны для дальнейшей обработки в любой момент. Избавившись таким образом от балласта, ответ сервера можно запрашивать из вкладки «<Все категории>». Вместе с ответом сервера необходимо запросить название сайта, тэг title.

Следующий прогон через сито будет делаться, в том числе, и по названию сайта. Неожиданно? Поясню: если с ответом сервера, отличным от 200 всё более-менее ясно, то вот ответ «200» совершенно неоднозначен. Настоящим злом становятся сервисы парковки доменов («злом» — исключительно в контексте актуальности баз для AllSubmitter, а вообще данные сервисы могут быть очень даже полезными, я на одном из них зарабатываю). Благо title парковочных сервисов также обладает, как правило, характерными признаками, например, паркинг Ru-Центра в тайтле выводит доменное имя и строку «Контекстный каталог»: MyGF.ru — Контекстный каталог.

Итак, для запаркованных доменов я создаю свою, отдельную папку, для ответов 302 и 301 завожу отдельный подкаталог, для всех остальных, отличных от 200, ещё один, с номером проверки, примерно так: Scripto > [/add?white=1] > !200 > 01 check.
Раз в две недели я делаю глобальную выборку URL по маске «Категория LIKE %chek» и перезапускаю процесс проверки, по окончанию которого, соответственно, номер категории увеличивается на 1 для вновь вернувших ответ, отличный от 200, а «ожившие» возвращаются в строй.

Однозначного ответа на вопрос, какое количество ошибочных возвратов подряд свидетельствует о необходимости окончательно поставить крест на каталоге, дать, наверное, нельзя. Практика показывает, что порой «оживление» случается и после десятка проверок. Редко, но случается. Поэтому я наращиваю нумерацию до 5, после чего сайты попадают в общую категорию «05+ check», проверку которой я осуществляю несколько реже, примерно раз в месяц.

Сайты, вернувшие ответ 301 и 302 (страница перемещена навсегда/временно, соответственно), проверяются несколько позднее на полуавтомате. Иногда смена адресации происходит из-за переезда на другое доменное имя, или обновления версии CMS.

Проверка индексации сайта, тИЦ и PR.

Самыми мелкими ячейками в сите полностью автоматизированных процессов станет проверка сайта на индексируемость и «пузомерки». Т.е. сперва максимальная выбраковка по параметрам, не требующим для своего определения отправки запросов к ПС, а только потом — отправка этих запросов. Если хотите, можете повозиться с настройками прокси, AllSubmitter даёт возможность их использования, сам я этой вкладкой не пользуюсь, т.к. никуда не тороплюсь.

При работе без прокси надо понимать, что поля для ввода лимита на количество потоков и интервал обращений к ПС при старте проверки — не просто так. ПС блокируют слишком частые обращения к ним из-за инстинкта самосохранения. Ничего страшного в этой блокировке нет, просто потребуется какое-то время (обычно — не более пары часов) вводить капчу при поиске, ну и забыть на это время про определение параметров сайтов. Google готов ответить на 700 запросов в час от одного компьютера, по поводу Яндекса у меня точной цифры нет, но, как бы там ни было — запросы в 3 потока с интервалом в 22 500 мс, как правило, им воспринимаются вполне корректно.

Если база большая и планируется после определения сокращать количество каталогов — определение каждого параметра следует производить отдельно, если не планируется, или каталогов в базе столько, что аллсаб управится за ночь — то лишние манипуляции ни к чему.

* AllSubmitter позволяет не только открывать несколько вкладок с базой одновременно, но и запускать параллельно несколько проверок. Вполне можно определять количество проиндексированных страниц в Google и Яндексе на разных вкладках параллельно. Если запустить эти проверки одним заданием, то придётся подгадывать с таймлимитом, т.к. он устанавливается для запросов вообще, а не для каждого чекбокса отдельно, грубо говоря, выставив 22 500 мс и запустив проверку индексации и для Google и для Яндекс, Вы удвоите общее время проверки.

Исходя из результатов проверки, сайты распределятся по группам:

  • Сайты не индексируемые ни Яндексом, ни Google — такие отправляются в особую скрытую папку
     
  • Сайты, индексируемые только одной ПС — соответственно, пригодятся при продвижении в этой ПС
     
  • Сайты с малым количеством страниц в индексе — до 100 страниц я отправляю в конец очереди, но всё равно на них надо взглянуть

Далее, смотрим на «пузомерки»:

  • Наименее «зажравшиеся» — сайты до 50 тИЦ и до 4 PR, общий процент требующих обратную ссылку среди них меньше, чем у более «пузатых».
     
  • В то же время, полностью нулёвые сайты, являясь самой многочисленной группой, ещё и самые нежизнеспособные — «мрут» буквально пачками, с незавидной регулярностью.

Для меня первоочередными на следующем этапе становятся сайты в индексе обеих ПС, с ИЦ 10-50. Если их много, с PR от 1.

Подготовительные этапы на этом, пожалуй, заканчиваются, далее предстоит кропотливая, самая, что ни на есть, ручная работа.

Третья часть руководства по работе с базами для AllSubmitter скоро увидит свет, можете подписаться на RSS, если хотите узнать об этом первыми.


* Реферальские ссылки, упомянутые в этой статье. Всем, зарегистрировавшимся по ним, гарантирована помощь, консультации и различные бонусы. Подробности .

Паркинг доменов от Ru-Центра — на своих доменах можно неплохо заработать ещё до запуска сайта. Проверил, рекомендую.

Сайт программы AllSubmitter, если Вы его ещё не купили.

Подпишись на RSS Добавь статью в закладки: 
добавлено 18-01-2009

Тэги: Soft, AllSubmitter