使用Python3.7实现爬虫技术,获取自己想要的网站数据

第一步、

首先安装Python3环境 根据自己电脑系统,windows或liunx版本。

下载网址:https://www.python.org/downloads/

使用Python3.7实现爬虫技术,获取自己想要的网站数据_第1张图片

这块就不在介绍如何安装了,很简单。

第二步、pip安装Jupyter Notebook 这块主要是python3 ide

这里两个版本安装上jupyter notebook

python -m pip install --upgrade pip --force-reinstall

python -m pip install jupyter

安装成功后直接运行

jupyter notebook

这里有一个小技巧可以分享一下:我们每次启动jupyter notebook都需要打开在cmd输入jupyter notebook,尤其是有时候还需要cd进某文件夹。
 因此,可以新建一个txt文件,用以下语句写一个BAT脚本,保存为 jupyter notebook.bat
rem -- start_jupyter_notebook.bat ---
jupyter notebook
pause

将该BAT文件放在你想放置的文件位置中,再将文件的快捷方式发送至桌面,就可以方便启动了!

启动jupyter notebook之后,可以看到只有一个kernel存在。

使用Python3.7实现爬虫技术,获取自己想要的网站数据_第2张图片

第三步、安装几个重要的组件

1、pip install requests

地址:https://www.cnblogs.com/changpuyi/p/9439422.html

2、pip install beautifulsoup4

网址:https://blog.csdn.net/sinat_34937826/article/details/79992728

第四步、举个爬虫小列子,获取cctv官网所有的数据

使用Python3.7实现爬虫技术,获取自己想要的网站数据_第3张图片

脚本内容:

import requests
from bs4 import BeautifulSoup as bs

r = requests.get("http://www.cctv.cn/")
r.encoding = r.apparent_encoding

soup = bs(r.text)
for trr in soup.findAll('div',{'class':'wrapper'}):
    print("描述:"+trr.text)

 

如果有兴趣的同学,可以实现爬虫到的数据插入指定的数据库中,可以研究研究。

 

参考网址:

https://blog.csdn.net/Robotzzg/article/details/80348579

https://blog.csdn.net/zoulonglong/article/details/79552813

https://www.cnblogs.com/changpuyi/p/9439422.html

https://blog.csdn.net/Air_RA/article/details/85225712#commentsedit

 

 

 

 

你可能感兴趣的:(Python)