如何从word开始处理html文件?以及windows上安装python lxml beautifulsoup

我的处理路径:

word->html(用ueditor.baidu.com)

html->beautifulsoup


美丽的汤是用来做html解析用的,使用了lxml(这个处理中文会好些)。

在windows下处理吧,不要linux倒来倒去的(中文文档表示受不了)

肿么办?

pip安装参考下面,

lxml安装使用

https://pypi.python.org/pypi/lxml/3.5.0#downloads

的安装包完成,但是注意,这个只支持到python3.2


问题处理:

lxml安装需要,主要需要预先安装vs2010,否则会叫

   error: Microsoft Visual C++ 10.0 is required (Unable to find vcvarsall.bat).

装了vs2010发现不行,使用

easy_install lxml

按道理都应该成功,结果这两个都报告失败。

失败原因是找不到依赖(libxml2?FIXME)




参考:

1 http://www.tuicool.com/articles/eiM3Er3

介绍如何pip install ..

2 介绍如何使用easy_install

http://blog.csdn.net/zhaokuo719/article/details/8209496

你可能感兴趣的:(如何从word开始处理html文件?以及windows上安装python lxml beautifulsoup)