爬虫学习笔记第10页

网络爬虫学习笔记——GET方法下几种常用情况

在网页抓取的过程中，GET方法是最基础的方法，很多网站都是主要由GET方法请求组成的（当然也有很变态的，这种网站的开发人员辛苦了，一般下一个页面访问需要的参数是上个页面中源码的内容）。下面以GET方法简单介绍些常遇到的情况。1、参数提交参数提交并不是POST方法的专利，GET方法也可以实现对应的参数传递。这种主要是在请求的地址中进行传值，最常见的传值应该是翻页。如下图中在百度中搜索“csdn”,主

acm2014·2016-11-20 18:06

网络爬虫学习笔记——网络爬虫简介

网络爬虫就是通过计算机程序来模拟人类利用浏览器浏览网页的行为来获取所需的信息的行为。这样可以节省人力和避免信息的遗漏，比较贴近的估计就是在网络上寻找电影资源了。我们都尝试过需要一些老的电影的资源，一般这些资源都相对较少了。我们需要逐个网页的去浏览来获取电影的下载地址，并对地址是否有效进行甄选。网络爬虫就是可以通过程序来实现这个过程，直接把最终的地址返回给用户。正因为源于模拟浏览器的行为，我们能够更

acm2014·2016-11-15 21:42

Python爬虫学习笔记（一）

在爬取‘’小猪短租‘’中户主性别信息时，遇到需要对户主性别进行判断再return回相应性别的情况。其中通过运用代码一轻松获取了性别数据（字符串）。总结比较代码一：genders=soup.select('div.js_box.clearfix>div.member_pic>div')[0].get('class')[0]代码二：gender=soup.select('div.js_box.clea

哈尔的移动枕头·2016-11-07 14:24

Python 爬虫学习笔记之多线程爬虫

XPath的安装以及使用1.XPath的介绍刚学过正则表达式，用的正顺手，现在就把正则表达式替换掉，使用XPath，有人表示这太坑爹了，早知道刚上来就学习XPath多省事啊。其实我个人认为学习一下正则表达式是大有益处的，之所以换成XPath，我个人认为是因为它定位更准确，使用更加便捷。可能有的人对XPath和正则表达式的区别不太清楚，举个例子来说吧，用正则表达式提取我们的内容，就好比说一个人想去天

千里追风·2016-09-21 10:24

Python 爬虫学习笔记之单线程爬虫

介绍本篇文章主要介绍如何爬取麦子学院的课程信息（本爬虫仍是单线程爬虫），在开始介绍之前，先来看看结果示意图怎么样，是不是已经跃跃欲试了？首先让我们打开麦子学院的网址，然后找到麦子学院的全部课程信息，像下面这样这个时候进行翻页，观看网址的变化，首先，第一页的网址是http://www.maiziedu.com/course/list/,第二页变成了http://www.maiziedu.com/co

千里追风·2016-09-21 09:55

Python 爬虫学习笔记之正则表达式

正则表达式的使用想要学习Python爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。.的使用这个时候的点就相当于一个占位符，可以匹配任意一个字符，什么意思呢？看个例子就知道importrecontent="helloworld"b=re.findall('w.',content)printb`注意了，我们首先导入了re，这个时候大家猜一下输出结果是什么？因为.相当于一个占位符，所

千里追风·2016-09-21 08:34

Python3.x 爬虫学习笔记——判断网页的编码方式

(以后写博客尽量用MarkDown，我还是太low了)更新：后来发现这玩意没有加上headers，有些网页打不开啊，于是就加上了代码如下deffind_type(url,Headers):data1=urllib.request.urlopen(urllib.request.Request(url,headers=Headers)).read()chardit1=chardet.detect(da

ddy_w·2016-07-25 20:05

python爬虫学习笔记——使用requests库编写爬虫（1）

首先感谢http://python.jobbole.com，我是看了此站的文章之后才有写此文的想法，本人也是开始学python不久，此文仅仅是记录一些学习过程中遇到的问题，边学边写，初次写这样的博文，差错在所难免，如有差错也请指出，感激不尽。然而关于网上使用requests写爬虫的文章，在我学习过程中，感觉都很少。。。或者说不尽人意吧，大家都用的urllib，或者3.0里

ATM246800·2016-05-11 17:29

Python简单爬虫学习

本文源于慕课网爬虫学习笔记：http://www.imooc.com/learn/563爬虫：一段自动抓取互联网信息的程序。

w120246892·2016-05-04 21:00

Python开发简单爬虫学习笔记（2）

urllib2下载网页的几种实现方式#!/usr/bin/envpython#coding:utf-8importurllib2importcookieliburl="https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#beautiful-soup-4-2-0"deffirst():#直接调用urllib2的urlopen方法打开pr

Debatrix·2016-04-09 10:10

Python开发简单爬虫学习笔记（2）

urllib2下载网页的几种实现方式#!/usr/bin/envpython#coding:utf-8importurllib2importcookieliburl="https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#beautiful-soup-4-2-0"deffirst():#直接调用urllib2的urlopen方法打开pr

Debatrix·2016-04-09 10:10

Python开发简单爬虫学习笔记（1）

一个简单的爬虫可以由一下几部分构成：1.爬虫调度端启动，停止，监控运行情况，也就是整个爬虫的main。2.URL管理器管理待爬取和已爬取的URL，可以将已经获得的url保存在内存或者关系型数据库中或者缓存数据库中。内存中储存可以用set()语句可去除重复数据；用关系型数据库存储时设计两个列，其中一列记录url（主键），另一列记录是否爬取过；大公司会采取redis这种缓存数据库进行存储，使用其中的s

Debatrix·2016-04-09 09:26

Python开发简单爬虫学习笔记（1）

一个简单的爬虫可以由一下几部分构成：1.爬虫调度端启动，停止，监控运行情况，也就是整个爬虫的main。2.URL管理器管理待爬取和已爬取的URL，可以将已经获得的url保存在内存或者关系型数据库中或者缓存数据库中。内存中储存可以用set()语句可去除重复数据；用关系型数据库存储时设计两个列，其中一列记录url（主键），另一列记录是否爬取过；大公司会采取redis这种缓存数据库进行存储，使用其中的s

Debatrix·2016-04-09 09:26

Python爬虫学习笔记(2)-单线程爬虫

Python爬虫学习笔记(2)-单线程爬虫标签（空格分隔）：python爬虫单线程概要Requests介绍网页爬虫向网页提交数据实战–极客学院课程爬虫1.Requests介绍[x]Requests：HTTPforHumans

SkyeyesXY·2016-03-09 19:00

Python爬虫学习笔记(3)-XPath与多线程爬虫

Python爬虫学习笔记(3)-XPath与多线程爬虫标签（空格分隔）：python多线程爬虫概要：XPath的介绍与配置XPath的使用XPath的特殊用法Python并行化实战–百度贴吧爬虫1.XPath

SkyeyesXY·2016-03-09 00:00

【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结

1.BeautifulSoup简介 BeautifulSoup是将数据从HTML和XML文件中解析出来的一个python库，它能够提供一种符合习惯的方法去遍历搜索和修改解析树，这将大大减少爬虫程序的运行时间。 BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，BeautifulSoup

EscapePlan·2015-08-31 16:00

【Python爬虫学习笔记（2）】正则表达式（re模块）相关知识点总结

1.正则表达式正则表达式是可以匹配文本片段的模式。1.1通配符正则表达式能够匹配对于一个的字符串，可以使用特殊字符创建这类模式。（图片来自cnblogs）1.2特殊字符的转义由于在正则表达式中，有时需要将特殊字符作为普通字符处理，就需要用‘\’进行转义，例如‘python\\.org’就会匹配‘python.org’，那么为什么要用两个反斜杠呢，原因在于需要进行两层转义，首先是r

EscapePlan·2015-08-30 19:00

【Python爬虫学习笔记（1）】urllib2库相关知识点总结

1.urllib2的opener和handler概念1.1 Openers：当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。正常情况下，我们使用默认opener：通过urlopen。但你能够创建个性的openers。可以用build_opener来创建opener对象。一般可用于需要处理cookie或者不想进行redirection的应用场景（Y

EscapePlan·2015-08-21 20:00

python2.7爬虫学习笔记（一）---Urllib库的使用

扒一个网页：importurllib2 response=urllib2.urlopen("http://www.baidu.com") printresponse.read()第一行：调用了urllib2库里边的urlopen方法，传入一个url，这个方法一般接收三个参数，如下：urlopen(url,data,timeout)第一个不用解释，data是访问url时要传送的数据，timeout

SirM2z·2015-06-03 20:00

python 网络爬虫学习笔记（一）

为了方便，在Windows下我用了PyCharm，个人感觉这是一款优秀的python学习软件。爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。学习python爬虫前，先学习下其他的一些知识：（一）urlURL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的

zxt19880421·2015-05-27 16:56

Python_kad爬虫学习笔记（二）

本想着一步到位，把bug都解决后再发布，无奈碰到个问题困扰了好几天，就先发布下目前的版本吧，做下阶段备份，代码如下：#-*-coding:utf-8-*-importurllib2importreimporttimef=urllib2.urlopen('http://www.360kad.com/dymhh/allclass.shtml').read()n1=f.find(&#

互联网运营手札·2015-03-21 00:56

Python豆瓣爬虫学习笔记（六）

一周没有更新了，在阅读crossin.me中jxgx072037写的代码时发现不懂的地方太多，一点点啃下来花费了不少时间，不过收获不少，但还没有对classdefdic有进一步的了解，后期再慢慢吸收吧。在他代码的基础上进行了简单修改，也可以正常运行，先把代码贴上，比较好的技巧都在注释中提到了：#-*-coding:cp936-*-importurllib2importreimporttimef=u

互联网运营手札·2015-03-21 00:31

Python豆瓣爬虫学习笔记（五）

学习阶段五(update:2013-3-280:38):实现功能：为减少工作量，仅抓取所有tag页下前3页电影信息，不足3页，则全部抓取。代码如下：#-*-coding:cp936-*-importurllib2importreimporttimestarttime=time.time()raw_text=urllib2.urlopen('http://movie.douban.com/tag/?

互联网运营手札·2015-03-21 00:59

Python豆瓣爬虫学习笔记（四）

学习阶段四（update:2014-3-26）:实现功能：整理单个tag下的所有页面链接代码如下：#-*-coding:cp936-*-importurllib2importreraw_text=urllib2.urlopen('http://movie.douban.com/tag/cult').read()#指定打开cult标签页text0=re.findall('page="\d{1,}"'

互联网运营手札·2015-03-21 00:56

Python豆瓣爬虫学习笔记（三）

学习阶段三(update：2014-3-25)：实现功能：抓取所有tag的第一页电影的链接，名字，别名，评分，评价人数。保存到本地txt代码如下：#-*-coding:cp936-*-importurllib2importreimporttimestarttime=time.time()raw_text=urllib2.urlopen('http://movie.douban.com/tag/?v

互联网运营手札·2015-03-21 00:18

Python豆瓣爬虫学习笔记（二）

学习阶段二(update:2014-3-25)：实现功能：代码中加入for循环，批量抓取全部tag，存放到本地txt代码如下：#-*-coding:cp936-*-importurllib2importreraw_text=urllib2.urlopen('http://movie.douban.com/tag/?view=type').read()text0=re.findall('"./.*?

互联网运营手札·2015-03-21 00:08

python网络爬虫学习笔记

python网络爬虫学习笔记By 钟桓 9月42014 更新日期:9月42014文章目录1. 介绍：2. 从简单语句中开始:3. 传送数据给服务器4. HTTP头—描述数据的数据5.

u013035103·2014-03-30 19:00

C#网页爬虫学习笔记(1)

最近做的东西感觉是各种搜索，这次学习的爬虫技术。爬虫技术，又叫做网络蜘蛛（蚂蚁等），是借助计算机实现人类无法达到的速度不间断的对执行某些任务，在这里我们的目标是获取指定网站中的指定数据。既然要获取数据，我们首先要做的就是与网站取得通信建立连接，C#的System.Web为我们提供了建立通信的方法HttpWebRequestall_request=(HttpWebRequest)WebRequest

·2013-04-04 15:00

推荐频道

爬虫学习笔记

网络爬虫学习笔记——GET方法下几种常用情况

网络爬虫学习笔记——网络爬虫简介

Python爬虫学习笔记（一）

Python 爬虫学习笔记之多线程爬虫

Python 爬虫学习笔记之单线程爬虫

Python 爬虫学习笔记之正则表达式

Python3.x 爬虫学习笔记——判断网页的编码方式

python爬虫学习笔记——使用requests库编写爬虫（1）

Python简单爬虫学习

Python开发简单爬虫学习笔记（2）

Python开发简单爬虫学习笔记（2）

Python开发简单爬虫学习笔记（1）

Python开发简单爬虫学习笔记（1）

Python爬虫学习笔记(2)-单线程爬虫

Python爬虫学习笔记(3)-XPath与多线程爬虫

【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结

【Python爬虫学习笔记（2）】正则表达式（re模块）相关知识点总结

【Python爬虫学习笔记（1）】urllib2库相关知识点总结

python2.7爬虫学习笔记（一）---Urllib库的使用

python 网络爬虫学习笔记（一）

Python_kad爬虫学习笔记（二）

Python豆瓣爬虫学习笔记（六）

Python豆瓣爬虫学习笔记（五）

Python豆瓣爬虫学习笔记（四）

Python豆瓣爬虫学习笔记（三）

Python豆瓣爬虫学习笔记（二）

python网络爬虫学习笔记

C#网页爬虫学习笔记(1)