1.第一个爬虫程序,爬下一个网页

整体概述
下面是到今天位置,我接触到的一些有关电脑技术,有关编程的所有东西:

  1. tensorflow机器学习框架,我在它的中文社区,学习入门教程,学了一点点,学到MNIST进阶篇。因为在大学选的一门挑战性课程,需要我们完成一个机器学习的作业,所以才有机会接触。我照着中文社区给的教程,一步一步实现了数字识别的一个两层卷积神经网络的模型,准确率在0.984左右。

  2. 看过一个微信小程序开发教程,基本掌握了微信小程序的开发。

  3. 尝试单纯通过拼凑别人的代码,来实现一个下载几百个指定GIF图片的任务,但程序跑到一半就跑不动了,说是连接不到服务器,不知道是什么原因就通过按键精灵完成了其余的下载任务。

  4. 看过python基础语法的讲解视频,19元买的

  5. 掌握了git代码管理的基本方法,学会从GitHub上下载和上传代码,目前不觉得这个有太大用处

  6. 在学校上过C语言的课,但几乎快忘完

7.看了一本css,HTML,JavaScript,从入门到精通,稍微入门了一下

本次需要用到的python库的介绍

  1. requests

开发文档在这:

主要是用来完成对目标网站,发送请求和获取返回数据

  1. BeautifulSoup

开发文档在这:

主要是用来整理和挑选返回数据中的信息的。

本以为开发文档很难看懂,没想到其实很容易看懂,就像一般的说明书

代码思路
通过requests向网络发起请求,可以添加请求头来假装自己是个浏览器,然后就可以拿到网页的html代码

再通过BeautifulSoup来进行整理或者筛选,取出自己想要的内容,下载或者储存。

以下是我的代码,下载笔顺网上“的”字的GIF到我的本地。


import requests

import urllib3

from bs4import BeautifulSoup

word ='的'

res = requests.get("http://bishun.strokeorder.info/mandarin.php?q=" + word)

soup = BeautifulSoup(res.text, 'lxml')

x = []

for linkin soup.find_all('img'):

x = link.get('src')

print(x)

print("downloading with urllib3")

http = urllib3.PoolManager()

r = http.request('GET', x)

with open("./photo/" + word, "wb")as code:

code.write(r.data)

你可能感兴趣的:(1.第一个爬虫程序,爬下一个网页)