提问:Heritrix抓取问题

提问:Heritrix抓取问题

Heritrix应用问题 请教一下大家如何用heritrix抓取以下网站内容,需要定制么?

下面是USPTO的专利网页:
http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits
其中NextList1表示第一个50条信息的页面,NextList2,NextList3,以此类推,在这些页面中点击每条超链接得到的是针对此条专利 信息的具体页面,那么现在我如何设置heritrix,可以抓取到每页50条,一共几万条的这些具体专利信息页面到本地呢?另外可否抓取的同时将html 格式转换伪txt格式到本地?谢谢高手指点!

欢迎交流:
qq:      173635235
msn:    [email protected]
email:  [email protected]

你可能感兴趣的:(提问:Heritrix抓取问题)