python 爬虫笔记--简单静态

不太懂网页上的专业术语。。。

1.首先查看页面源代码:查看要爬取的数据是什么样的,在哪个标签下,能不能用xpath或者bs4取出来。

2.f12此页面,刷新查看页面响应时,能看到的信息。主要是消息头里的请求网址,请求方法,host,user-agent,cookie以及参数里的数据。及时查看响应,看出现的页面是否为自己想要的。


python 爬虫笔记--简单静态_第1张图片



3.如果是post方法:要记录参数里的数据:postdata={},字典型写入看到的数据。如果是get方法,查看参数时,可以是params={},同样写入参数。

要爬取的页面网址就是请求网址。

4.写爬虫语句:

session=requests.session()
url=""
user_agent=""
headers={'User-Agent':user_agent,'Host':''}
#必要的参数也可以写上
postdata={}
params={}

html=session.post(url=url,headers=headers,cookies=cookies,data=postdata)
text=html.text
print text

html=session.get(url=url,headers=headers,cookies=cookies,params=params)

5.分析获取的网页,获取其中的数据。主要用了requests+xpath的组合,比较容易。实在不行就用正则表达式。

Tip:xpath 要获取标签中某属性值,比如a标签,可以用:x=tree.xpath('//a[@href=""]/@href')。

                 要获取标签之中的文本,可以用:x=tree.xpath('//a[@href=""]/text()')

6.数据存入数据库

简单的可以用pymssql模块

conn=pymssql.connect(数据库参数)

Tip:sql语句:要注意变量的应用,可以用%s代替。

你可能感兴趣的:(笔记)