python爬虫实验心得_Python爬虫总结

经验:

1、利用chrome的network,通过翻页操作,快速定位到获取数据的url

2、利用Postman,可以快速生成爬虫的代码

注意点:

1、导出csv时候,中文乱码

2、抓取时间时候,格式转化

代码:

1、API类

如果网站是通过API直接获取的json数据的话,那么不用分析页面dom,比较简单

result1 = []

url = "https://ecp.sgcc.com.cn/ecp2.0/ecpwcmcore//index/noteList"

headers = {'Content-Type': "application/json", 'cache-control': "no-cache"}

for page in range(1, 11):

payload = "{\"firstPageMenuId\": \"2018032700291334\", \"index\": " + str(page) + ", \"key\": \"\", \"orgId\": \"\", \"purOrgCode\": \"\", \"purOrgStatus\": \"\", \"purType\": \"\", \"size\": 20}"

response = requests.request("POST", url, data=payload, headers=headers)

你可能感兴趣的:(python爬虫实验心得)