使用beautifulshop做简单的爬虫

一.背景

首先交代使用beautifulshop的背景。小编是的策略RD,需要一些历史的语料数据做词向量的input data,因此才自己实现了一个简单的爬虫,因此,本文适合有简单文本资料需求的工程师参考,如果要实现一个较为复杂的网页爬虫,beautifulshop也有相关功能,建议阅读

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

二. 需求介绍

简单的获取网页内容

三.实现描述

1.获取网页内容:

shell版本:wget ****.html

python版本:import urllib

                      s=urllib.urlopen('http://www.**shiliao**.com')


2.解析内容:

原内容结构如下:

... ...

   

     祖光武皇帝讳秀,字文叔,南阳蔡阳人,高祖九世之孙也.......

   

...

需要获取的是中间这段

...
的文字,实现如下:

使用soup中的函数find_all首先找到div,并通过id="content",就可以找到中间这一段,这个find_all函数笔者感觉一定是用正则表达式实现的,类比于re.findall

再使用item.get_text()获取文字部分。

对了,忘了介绍了,soup对象的定义方法:

soup定义

选对工具,就是这么简单^_^.



你可能感兴趣的:(使用beautifulshop做简单的爬虫)