10.05.2008

Парсим тайтлы и метатеги

Простыл. Отвратительное самочувствие. Надо почистить карму))) Посему вот скрипт.

Назначение: Проверка кучи сайтов (читай доров, блогов, сплогов) на "живость", у живых выдирание тайтла, метатегов keywords и description.
Поставляется эз из итд итп...
Вообще то сначала делалось для блогов проверки и идентификации своих, но в итоге оказалось что все в принципе можно так чекать.
В doors.txt кладем то что нужно обрабатывать. Выставляем некоторые настройки чо в начале скрипта, вполне, на мой взгляд, лостаточно расписаны. Жмяхаем хреначить. Наблюдаем как появляются и начинают расти doors_checked.txt и doors_checked_alive.txt - файл со всеми проверяемыми сайтами и их статусами и файл только с живыми сайтами и их тайтлами, кеями, десками (в зависимости от настроек) соответственно.
Ах да, прошу обратить внимание на то что проверка ресурса на живость, производится по следующему принципу: скачивается старница и в ее коде ищется сам проверяемый урл, если найден то жива, иначе нет. Как правило это работает, но если вы все же наткнулись на какой-нить хитровыебанный сайтец где это несработало, можно отписать тут и я возможно, когда нибудь исправлю или поправлю и добавлю.
Скрипт: life_and_info.rar

P.S. Дайте кто-нить много хостов на вордпресс мю рабочих...

Ярлыки: , ,