1.requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多

因为是第三方库,所以使用前需要pip安装

pip ×××tall requests

安装完成后import一下,正常则说明可以开始使用了。

基本用法:

requests.get()用于请求目标网站,类型是一个HTTPresponse类型

 BeautifulSoup

只要目标信息的旁边或者附近有标签就可以调用 ,,不用管是几层标签(父辈 后代辈 的都可以)。

Soup.html.body.h1

Soup.body.h1

Soup.html.h1

Soup.h1

索引的效果都是同一个内容。

但是应该把重要的标签包含进去,以免过于简单爬到不想要的内容。

2.源码安装 mongodb数据库 (mkdir -p /data/db)
pip 安装 pymongo (python链接mongodb的第三方库 )
进到bin底下可以./mongo show dbs 列出数据库 use 数据库名可以进去 db.athletes.find() 可以看当前数据库的内容或者在python也可以查看pymongo 连接数据库db=pymongo.MongoClient().iaaf
for i in db.athletes.find():
print i

3.Python语言中,写入Excel文件的扩展工具。
相应的有xlrd扩展包,专门用于excel读取。用pip ×××tall xlwt下载

4.JSON 是轻量级的文本数据交换格式。是用来存储和交换文本信息的语法。)
5.爬的是一个国家运动员的一些室内室外成绩信息(https://www.iaaf.org/records/toplists/jumps/long-jump/outdoor/men/senior/2018?regionType=world&windReading=regular&page=)一共写了4个脚本,第一个脚本主要是拿到所有运动员的唯一href并存到数据库,第二个是通过h2标签确定我们需要取的室内室外成绩存到数据库,第三个主要是把所有数据取出来拼接好了回插到数据库,第四个是把数据库所有的内容存到Excel表格中
第一个脚本:
爬虫经验_第1张图片
爬虫经验_第2张图片
第二个脚本:
爬虫经验_第3张图片
爬虫经验_第4张图片
第三个脚本:
爬虫经验_第5张图片
第四个脚本:
爬虫经验_第6张图片
爬虫经验_第7张图片