学习Python之网络爬虫(一)

     因为近期在学习神经网络和深度学习方面的内容,需要使用Python进行编程学习。因为之前没有学习过Python,所以就需要抓紧学起来,想要学的东西好多啊!!!

    近期通过网上的一些教程来学习Python,学习网络爬虫。本篇文章主要是讲如何抓取新浪博客中黄健翔的首页中的文章。

1.Python.exe的安装

   目前有两大版本——Python 2 && Python 3 。Python 3 的语法规则相比较 Python 2 有些许不同,我会在Python 2中现将其功能实现,再将其移植到Python 3 运行环境中。

本篇文章的网络爬虫使用的是Python 2。


2.写第一个Python程序——给定文章地址,抓取文章

2.1 首先要了解新浪博客的html语言风格,使用chrome浏览器,按【F12】就可以看到相应网页的源码信息,然后找到我们需要抓取的文章的地址,如下图所示。

学习Python之网络爬虫(一)_第1张图片

                                                                                                            图1 需要下载的第一篇文章列表和相应的html信息

2.2 编写Python 代码

#!/usr/bin/python27
import urllib  
str0 = '我的人生就是一次次世界杯串起来的'
title = str0.find(r'

3.难度递进——抓取博客列表中第一页的所有文章


        学习Python之网络爬虫(一)_第2张图片

图2 需要下载的所有文章列表和相应的html信息

#!/usr/bin/python27
#coding:utf-8

import urllib
import time
i = 0
url = ['']*50
webpage = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1362607654_0_1.html').read()

##寻找列表中的文章
title = webpage.find(r'

这样就可以把黄健翔新浪博客首页的所有文章依次下载下来,这里主要是对数组和while循环的学习和使用。


3.难度递进——抓取网页中部分信息(未完待续..............)

你可能感兴趣的:(Python)