python网络爬虫 第三周日志

这周我们干了啥?

组员:赵方震、杨慧慧、王璐格格、王金曼、曹畅、白杨、白霞

爬虫的筛选信息:我们采用了XPath表达式来筛选所需要的信息。
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。
•XPath 使用路径表达式在 XML 文档中进行导航
•XPath 包含一个标准函数库
•XPath 是 XSLT 中的主要元素
•XPath 是一个 W3C 标准
python网络爬虫 第三周日志_第1张图片爬取图书:
爬取网页HTML(try-except)(王璐格格)
使用正则表达式筛选HTML中的信息
将信息写入Excel(白霞)
主程序(白霞)

爬取电影:
爬取网页HTML并转化为lxml(曹畅)
使用xpath筛选数据(杨慧慧)
获取图片URL并下载到文件夹(白杨)
判断电影是否有引言(王金曼)

你可能感兴趣的:(python网络爬虫 第三周日志)