python-crawler:Pythonのクローラーライブラリ

Python は 生産性とコードの信頼性を重視して設計されており、フリーなオブジェクト指向プログラミング言語です。「python-crawler」では、Pythonで実装されたオープンソースのライブラリです。それを利用して、下記のようで簡単にクローラ機能を利用できます。


from crawler.crawler import Crawler

mycrawler = Crawler()
seeds = ['http://www.example.com/'] # list of url
mycrawler.add_seeds(seeds)
rules = {'^(http://.+example\.com)(.+)$':[ '^(http://.+example\.com)(.+)$' ]}
#your crawling rules: a dictionary type,
#key is the regular expressions for url,
#value is the list of regular expressions for urls which you want to follow from the url in key.
mycrawler.add_rules(rules)
mycrawler.start() # start crawling

データは全部三つのBerkeley DBに格納されます。
python-crawlerは次のURLからダウンロードできます。
http://code.google.com/p/python-crawler/

Leave a Reply

Your email address will not be published. Required fields are marked *