前几天得到一份爬虫代码,想顺便学一下python3。中间遇到了一些问题,就做一份这两天的使用心得,以便今后查阅。
这里参考的“菜鸟教程”的教程学习安装的,直接放入链接:https://www.runoob.com/python3/python3-install.html
环境基本没怎么配置,PyCharm用的是社区免费版的,学生也可以用邮箱申请专业版的免费使用。
看了菜鸟的教程后使用PyCharm添加库出现了一些问题,其实在运行开始的时候就这么设置就会很省事。
参考链接:https://blog.csdn.net/qq_42785280/article/details/96691202
如运行产生如下错误,便需要添加库。
No module named 'requests'
我使用的爬虫中用到了excel生成方面的内容,用到了python中xlsxwriter库。这里可以使用PyCharm设置里直接添加库,但隔了堵墙总是造成安装失败,这里尝试通过第三方库下载。
添加库的具体方法:
1.Windows+R打开运行,然后输入CMD进入命令提示符。
2.输入:where python 。就会反馈出python安装地址。
3.cd C:\Users\XXX\AppData\Local\Programs\Python\Python38\Scripts(cd+安装目录下的Scripts文件夹,可以先找到文件夹,以防找错地址)
4.输入各种更新语句
更新pip:python -m pip install --upgrade pip
更新某库(如requests库):pip install requests
从豆瓣镜像更新(在更新语句后加):-i http://pypi.douban.com/simple --trusted-host=pypi.douban.com
例如
pip install requests -i http://pypi.douban.com/simple --trusted-host=pypi.douban.com
国内源:
清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
豆瓣:http://pypi.douban.com/simple/
df.to_excel(fout)
报错"openpyxl.utils.exceptions.IllegalCharacterError"(step 1) pip install xlsxwriter
(step 2) df.to_excel(fout, engine="xlsxwriter")
writer = pd.ExcelWriter(fout, engine="xlsxwriter", options={'strings_to_urls': False})
df.to_excel(writer, index=False)
writer.save()
参考链接:https://www.cnblogs.com/bymo/p/7154476.html#_label14_1
这里使用xlsxwriter库的时候(Pandas库?)爬取连接会产生错误,主要因为xlsxwriter在将爬取到的信息转化成excel的时候将链接转化成URLS,而源码中又限制URLS的长度为255,这里可以采用注释掉源码的方法(自行百度)。也可以再输出句子中加一句
, options={'strings_to_urls': False}
(实测管用,具体未学习)。
至此,爬取考研调剂信息的代码便完善了。(爬虫不是本人写的,如有需要,“灰灰考研”公众号自行寻找,不再转载)。