Yhen爬虫笔记第9页

python3的爬虫笔记3——GET和POST（1）

HTTP定义了与服务器交互的不同方法，最基本的方法有4种，分别是GET，POST，PUT，DELETE。URL全称是资源描述符，我们可以这样认为：一个URL地址，它用于描述一个网络上的资源，而HTTP中的GET，POST，PUT，DELETE就对应着对这个资源的查，改，增，删4个操作。其中，GET一般用于获取/查询资源信息，而POST一般用于更新资源信息，通常用于我们需要向服务器提交表单的情况。P

X_xxieRiemann·2017-04-23 15:51

Python 爬虫笔记（1）

importurllib.request访问网址，打开网页，方法：urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)其中url,可以是一个字符串string（也就是网址），也可以是一个Request对象方法一：response=urllib.re

hearthougan·2017-03-29 23:47

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

因此打算写一个Python3.x的爬虫笔记，以便后续回顾，欢迎一起交流、共同进步。一、

Jack-Cui·2017-02-28 23:35

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

因此打算写一个Python3.x的爬虫笔记，以便后续回顾，欢迎一起交流、共同进

c406495762·2017-02-28 23:00

爬虫笔记(12) scrapy源码分析

虽然爬虫的工作原理我是大概清楚的，但是scrapy毕竟是个框架，要用好这个框架务必把底层结构弄清楚。1.去重from__future__importprint_functionimportosimportloggingfromscrapy.utils.jobimportjob_dirfromscrapy.utils.requestimportrequest_fingerprintclassBase

无事扯淡·2017-02-13 22:00

爬虫笔记（11）性能问题

1.过年也没啥事干，继续捣鼓爬虫。开始是准备爬豆瓣电影的，豆瓣存在一些反爬机制，爬一会就爬不动了。当然后面是突破了这个限制，使用随机bid，设置cookie。据说会出现验证码，我爬了几万部电影也没有出现这个问题。初期的想法是使用代理ip，网络上的免费代理ip大都不靠谱，懒得捣鼓。在豆瓣电影这个爬虫中，我其实是使用两个步骤来执行。第一部分是按照年标签查找电影，从1900到2017年，将每个电影链接存

无事扯淡·2017-02-03 08:53

爬虫笔记（5）分布式

单机下面可以使用多线程和多进程来实现对机器的充分利用，但是单台机器的能力是有限的，如果采用更多机器能进一步提高爬虫的效率。这里要引入分布式爬虫。对于分布式爬虫，使用Redis来实现任务队列，这样会极大的简化系统配置。1.Redis入门启动Redisredis-server的服务器端是redis-server，可以不带参数直接启动。redis-server默认的端口号是6379，而且默认状态下不能远

无事扯淡·2016-12-21 22:13

爬虫笔记（3）并发多线程

1.单进程爬虫存在的问题我们在爬虫笔记（2）中详细的对糗事百科进行了分析，并且给出了核心代码。如果用这个代码去爬糗事百科，确实没有问题，但是就是有些慢。

无事扯淡·2016-12-15 14:35

爬虫笔记

urllib2urlopen(url,data,timeout)第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。第二三个参数是可以不传送的，data默认为空None，timeout默认为socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen

BinChasing·2016-04-11 20:00

Python爬虫笔记

地址：https://github.com/YangZhouChaoFan/spider4p1：使用urllib的获取html内容2：使用html.parser.HTMLParser解析html内容，并根据正则匹配url下载文件。测试：爬了煎蛋网xxoo页面20页的，下载其中jpg和gif图片到本地。

扬州炒饭·2015-12-22 14:00

Python爬虫笔记一

学习网络爬虫中，不断的学习。在网上看到了虫师写的关于网络爬虫的文章，看着不错就学习了一下。‘虫师日志地址：虫师-网络爬虫在windows7Python2.7下运行了该文章中的程序，可以运行，可以得到所要检索的图片。虽然程序有些不太明白，但是作为自己学习爬虫的第一步#coding=utf-8 importurllib importre defgetHtml(url): page=urllib.ur

sdtvyyb_007·2015-11-19 19:00

scrapy爬虫笔记(三)------写入源文件的爬取

开始爬取网页：(2)写入源文件的爬取　　为了使代码易于修改，更清晰高效的爬取网页，我们将代码写入源文件进行爬取。　　主要分为以下几个步骤：　　　　一.使用scrapy创建爬虫框架：　　　　二.修改并编写源代码，确定我们要爬取的网页及内容　　　　三.开始爬取并存入文件（数据库）注：为了避免冗长的叙述，更直观地理解，这里先讲具体的操作方法，如果想要深入理解其原理，具体解释在最后

·2015-11-13 03:11

scrapy爬虫笔记(一)------环境配置

前言：　　本系列文章是对爬虫的简单介绍，以及教你如何用简单的方法爬取网站上的内容。　　需要阅读者对html语言及python语言有基本的了解。　　（本系列文章也是我在学习爬虫过程中的学习笔记，随着学习的深入会不断地更新）爬虫简介：　　网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。　　网络爬虫先获取某网站的源代码，通过源码解析（如<a>&

·2015-11-13 03:10

scrapy爬虫笔记(二)------交互式爬取

开始网页爬取：(1)交互式爬取　　首先，我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url” 　　如：scrapy shell “http://www.baidu.com” 　　（注意：此处一定要写清楚传输协议，否则将无法链接到对应网站，此例中为http://）　　scrapy 会自动创建response对象，并自动将爬取下网页的源代码存入resp

·2015-11-13 03:10

python爬虫笔记

初学python爬虫，感觉光看看学不到什么，自己瞎折腾了一个爬百度贴吧小说。自己感觉不是很实用，不过还是写下来备忘下，也算留个纪念。 #! /usr/bin/env/python 27 # coding:gbk import urllib2 import re def findurl(i): pattern=re.compile('/p/\d{10}')

·2015-11-02 17:53

爬虫笔记(四)------关于BeautifulSoup4解析器与编码

前言：本机环境配置：ubuntu14.10,python2.7,BeautifulSoup4 一.解析器概述如同前几章笔记，当我们输入:soup=BeautifulSoup(response.body)对网页进行析取时，并未规定解析器，此时使用的是python内部默认的解析器“html.parser”。解析器是什么呢？BeautifulSoup做的工作就是对html标签进行解释和分类，不同的解析器

Koala's_Dream·2015-08-06 21:00

爬虫笔记

编写爬虫一般有三种方法：1.通过网站的API搜索信息，这是最快最准的。2.拼凑url请求，自己解析。3.爬网页解析，最笨最慢最不稳定的方法。N多方法，最好使用API，最不好就爬网页。共有31款Java网络爬虫开源软件，网址：http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1，其中Nutch和Heritrix

NikoTesla·2015-08-03 10:00

Scrapy爬虫笔记【1-基本框架】

一、Scrapy概览Scrapy是一款抓取网页并从中提取结构化数据的应用程序框架，它具有非常广泛的应用场景，如：数据挖掘、信息处理和历史信息归档等。尽管Scrapy最初被设计用于屏幕抓取（准确地说是网页抓取），但您也可以仅使用它的API来提取数据（就像AmazonAssociatesWebServices）或作为通用的网页爬虫来使用。下图显示了Scrapy的大体架构，其中包含了它的主要组件及系统的

yixiantian7·2014-03-08 20:00

[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识，用来解决简单的贴吧下载，绩点运算自然不在话下。不过要想批量下载大量的内容，比如知乎的所有的问答，那便显得游刃不有余了点。

请叫我汪海·2014-02-21 17:35

[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识，用来解决简单的贴吧下载，绩点运算自然不在话下。不过要想批量下载大量的内容，比如知乎的所有的问答，那便显得游刃不有余了点。

wxg694175346·2014-02-21 17:00

推荐频道

Yhen爬虫笔记

python3的爬虫笔记3——GET和POST（1）

Python 爬虫笔记（1）

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

爬虫笔记(12) scrapy源码分析

爬虫笔记（11）性能问题

爬虫笔记（5）分布式

爬虫笔记（3） 并发多线程

爬虫笔记

Python爬虫笔记

Python爬虫笔记一

scrapy爬虫笔记(三)------写入源文件的爬取

scrapy爬虫笔记(一)------环境配置

scrapy爬虫笔记(二)------交互式爬取

python爬虫笔记

爬虫笔记(四)------关于BeautifulSoup4解析器与编码

爬虫笔记

Scrapy爬虫笔记【1-基本框架】

[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

爬虫笔记（3）并发多线程