scrapy爬虫

创建一个新scrapy项目:scrapy genspider boatcompany www.sofreight.com
使用scrapy爬取航司网站数据
爬取一个div中所有文字text:text = response.xpath('//div[@class="carrier_desc"]').xpath('string(.)').extract_first()

爬取链接时要注意空链接判断
使用re匹配寻找船公司官网

匹配http:
pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')  # 匹配模式
web_url = re.findall(pattern, meta_strs)

匹配以中文结尾的字符:
pattern_str = re.compile(r'%s(.+?)%s'%(':','有限公司'))
cna = re.findall(pattern_str, meta_strs)


python代理:fake_useragent

你可能感兴趣的:(Python,爬虫)