基于python爬虫技术的应用_基于Python爬虫技术的应用

办公自动化杂志 一、引言 本文主要是对 Python 爬虫技术进行阐述,基于 python 的爬虫与其他语言相比的有很多优势。通过爬去某个网站的所有新闻这个案例,来进一步阐释 Python 爬虫技术的简洁与先进性。 二、Python 爬虫的概念 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序; 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的 HTML 代码 /JSON 数据 / 二进制数据(图片、视频)爬到本地,进而提取自己需要的数据,存放起来使用。三、基于 python 的爬虫与其他语言相比的优势 1.抓取网页本身的接口。 2.相比与其他静态编程语言 如 java,c#,C++,python 抓取网页文档的接口更简洁;相比其他动态脚本语言,如 perl,shell,python 的 urllib2 包提供了较为完整的访问网页文档的 API。抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。我们需要模拟 user agent 的行为构造合适的请求,譬如模拟用户登陆、模拟 session/cookie 的存储和设置。在 python 里都有非常优秀的第三方,如 Requests,mechanize,一 切变得很容易。 3.网页抓取后的处理 抓取的网页需要处理,比如过滤 html 标签,提取文本等。python 的 beautifulsoap 提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。 四、爬虫的基本流程 用户获取网络数据的方式: 方式 1:浏览器提交请求→下载网页代码→解析成页面。 方式 2:模拟浏览器发送请求(获取网页代码)→提取有用的数据→存放于数据库或文件中。 爬虫要做的就是方式 2: 1.发起请求 使用 http 库向目标站点发起请求,即发送一个 Request Request 包含:请求头、请求体等。 Request 模块缺陷:不能执行 JS 和 CSS 代码。 2.获取响应内容如果服务器能正常响应,则会得到一个 Response。 Response 包含:html,json,图片,视频等。 3.解析内容 解析 html 数据:正则表达式(RE 模块),第三方解析库如 Beautifulsoup,pyquery 等。 基于 Python 爬虫技术的应用 曾晓娟 (江苏安全技术职业学院 信息工程系 徐州 221011) 摘 要 对 Python 爬虫技术进行阐述,基于 python 的爬虫与其他语言相比有很多优势。通过爬去某个网站的所有新闻这个案例,来进一步阐释 Python 爬虫技术的简洁与先进性。 关键词 Python 爬虫技术 应用 中图分类号 TP311 文献标识码 A 文章编号 6535 Application of Crawler Technology Based on Python ZENG Xiaojuan (Department of Information Engineering, Jiangsu Safety Technology Career Academy Xuzhou 221011) Abstract The Python crawler technology is elaborated. The reptiles based on Python have many advantages compared with o

你可能感兴趣的:(基于python爬虫技术的应用)