BeautifulSoup4需要python3,若是使用2.7,会出现html.entities报错。
1)python 升级
转载:http://www.cnblogs.com/lanxuezaipiao/archive/2012/10/21/2732864.html
首先下载源tar包
可利用linux自带下载工具wget下载,如下所示:
1 |
# wget http://www.python.org/ |
下载链接:http://www.python.org/getit/
这里我用的是第二种方法,下载的是Python-3.3.2.tar.bz2版本,下载完成后到下载目录下,解压
1 |
bunzip2 Python-3.3.2.tar.bz2 |
2 |
|
进入解压缩后的文件夹
1 |
cd Python-3.3.2 |
在编译前先在/usr/local建一个文件夹python3(作为python的安装路径,以免覆盖老的版本)
1 |
mkdir /usr/ local /python3 |
开始编译安装
1 |
./configure --prefix=/usr/ local /python3 |
2 |
make |
3 |
make install |
此时没有覆盖老版本,再将原来/usr/bin/python链接改为别的名字(这步可以不做,同时保留多个python版本)
1 |
mv /usr/bin/python /usr/bin/python_old |
再建立新版本python的链接
1 |
ln -s /usr/ local /python3/bin/python3 /usr/bin/python |
这个时候输入
1 |
python |
就会显示出python的新版本信息
1 |
Python 3.1.2 (r312:79147, Oct 21 2012, 01:03:21)) |
2 |
[GCC 3.2.2 20030222 (Red Hat Linux 3.2.2-5)] on linux2 |
3 |
Type "help" , "copyright" , "credits" or "license" for more information. |
4 |
>>> |
PS:如果不建立新安装路径python3,而是直接默认安装,则安装后的新python应该会覆盖linux下自带的老版本,也有可能不覆盖,具体看安装过程了,这个大家可以自己试验下,当然如果还想保留原来的版本,那么这种方法最好不过了。
2)安装 python中的BeautifulSoup模块
转载:http://blog.chinaunix.net/uid-22920230-id-3204848.html
python中的Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 对于Ruby,使用Rubyful Soup。
Beautiful Soup的官方中文文档地址: http://www.crummy.com/software/BeautifulSoup/documentation.zh.html
下载地址:http://www.crummy.com/software/BeautifulSoup/download/4.x/
推荐下载BeautifulSoup-4.2.1.tar.gz
解压缩:tar xvzf BeautifulSoup-4.2.1.tar.gz
进入beautifulsoup4-4.2.1文件中,
命令:python setup.py install
测试是否安装成功:
输入python,
>>from bs4 import BeautifulSoup
没有报告错误,安装成功。