python scrapy爬虫入门(一)环境搭建及xpath 基础

1 环境搭建

环境搭建前准备:
python(一定要是 python3)
windows 系统

1.1 下载及安装 Anaconda

使用 Anaconda 安装 scrapy 来避免一些安装错误
下载地址:https://www.anaconda.com/download/,或者对应的镜像地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/, 下载对应的版本即可
安装时注意两点:

  1. 勾选Add Anaconda to my PATH environment variable复选框,将Anaconda注册到环境变量中
  2. 忽略下载VSCode,即单击Skip按钮,如图1-4所示。VSCod(e Visual Studio Code),是微软推出的一款轻量级代码编辑器,这里用不到
    验证是否安装成功:
    cmd 进入 dos 页面,输入命令
python

进入 python 解释器界面证明 Anaconda 安装成功。

1.2 下载及安装 pycharm

pycharm 是python 的集成开发环境,功能比较强大
下载地址:https://www.jetbrains.com/pycharm/download,选择相应版本就好。有社区版和专业版,社区版免费,专业版需要付费,如果是自己开发,选择社区版就好。

1.3 下载 scrapy

进入 cmd 页面,使用命令:

pip install scrapy

如果因为权限原因导致安装失败,试着以管理员身份运行 cmd,再运行该命令。

2 网络爬虫基础

2.1 lxml 安装

如果要使用 xpath,需要先安装 lxml.
安装 lxml,打开 cmd, 使用命令:

pip install lxml

如果因为权限原因导致安装失败,就以管理员身份启动 cmd.

2.2 xpath 使用示例

2.2.1 示例1

获取 title 元素:
在 pycharm 中新建一个项目,在项目中新建一个文件 movies.html, movies.html 文件的内容为:




    
    电影排行


    

电影排行榜单

1.肖申克的救赎

2.霸王别姬

在项目路径下新建一个 xpathTest.py 文件,文件内容为:

from lxml import etree

html_selector = etree.parse("movies.html",etree.HTMLParser())
root = html_selector.xpath("/html/head/title")
print(root)

会看到控制台的显示结果为:
[]

2.2.12 示例2

获取 title 文本内容,修改 xpathTest.py 文件,内容改为:

html_selector = etree.parse("movies.html",etree.HTMLParser())
title = html_selector.xpath("/html/head/title/text()")
print(title)

控制台输出结果为:
[‘电影排行’]
text() 为获取节点的文本

2.2.3 示例3

获取网页编码:

html_selector = etree.parse("movies.html",etree.HTMLParser())
meta = html_selector.xpath("//meta/@charset")
print(meta)

控制台输出结果为:
[‘UTF-8’]
// 为获取所有 meta 节点,不看位置
@ 为获取属性值

你可能感兴趣的:(爬虫,python,anaconda)