电影排行榜单
1.肖申克的救赎
2.霸王别姬
环境搭建前准备:
python(一定要是 python3)
windows 系统
使用 Anaconda 安装 scrapy 来避免一些安装错误
下载地址:https://www.anaconda.com/download/,或者对应的镜像地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/, 下载对应的版本即可
安装时注意两点:
python
进入 python 解释器界面证明 Anaconda 安装成功。
pycharm 是python 的集成开发环境,功能比较强大
下载地址:https://www.jetbrains.com/pycharm/download,选择相应版本就好。有社区版和专业版,社区版免费,专业版需要付费,如果是自己开发,选择社区版就好。
进入 cmd 页面,使用命令:
pip install scrapy
如果因为权限原因导致安装失败,试着以管理员身份运行 cmd,再运行该命令。
如果要使用 xpath,需要先安装 lxml.
安装 lxml,打开 cmd, 使用命令:
pip install lxml
如果因为权限原因导致安装失败,就以管理员身份启动 cmd.
获取 title 元素:
在 pycharm 中新建一个项目,在项目中新建一个文件 movies.html, movies.html 文件的内容为:
电影排行
电影排行榜单
1.肖申克的救赎
2.霸王别姬
在项目路径下新建一个 xpathTest.py 文件,文件内容为:
from lxml import etree
html_selector = etree.parse("movies.html",etree.HTMLParser())
root = html_selector.xpath("/html/head/title")
print(root)
会看到控制台的显示结果为:
[
获取 title 文本内容,修改 xpathTest.py 文件,内容改为:
html_selector = etree.parse("movies.html",etree.HTMLParser())
title = html_selector.xpath("/html/head/title/text()")
print(title)
控制台输出结果为:
[‘电影排行’]
text() 为获取节点的文本
获取网页编码:
html_selector = etree.parse("movies.html",etree.HTMLParser())
meta = html_selector.xpath("//meta/@charset")
print(meta)
控制台输出结果为:
[‘UTF-8’]
// 为获取所有 meta 节点,不看位置
@ 为获取属性值