E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Yhen爬虫笔记
python3的
爬虫笔记
3——GET和POST(1)
HTTP定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个URL地址,它用于描述一个网络上的资源,而HTTP中的GET,POST,PUT,DELETE就对应着对这个资源的查,改,增,删4个操作。其中,GET一般用于获取/查询资源信息,而POST一般用于更新资源信息,通常用于我们需要向服务器提交表单的情况。P
X_xxieRiemann
·
2017-04-23 15:51
Python
爬虫笔记
(1)
importurllib.request访问网址,打开网页,方法:urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)其中url,可以是一个字符串string(也就是网址),也可以是一个Request对象方法一:response=urllib.re
hearthougan
·
2017-03-29 23:47
Python3网络爬虫(一):利用urllib进行简单的网页抓取
因此打算写一个Python3.x的
爬虫笔记
,以便后续回顾,欢迎一起交流、共同进步。一、
Jack-Cui
·
2017-02-28 23:35
Python
Python3网络爬虫入门
Python3网络爬虫(一):利用urllib进行简单的网页抓取
因此打算写一个Python3.x的
爬虫笔记
,以便后续回顾,欢迎一起交流、共同进
c406495762
·
2017-02-28 23:00
python
爬虫
sublime
python3
爬虫笔记
(12) scrapy源码分析
虽然爬虫的工作原理我是大概清楚的,但是scrapy毕竟是个框架,要用好这个框架务必把底层结构弄清楚。1.去重from__future__importprint_functionimportosimportloggingfromscrapy.utils.jobimportjob_dirfromscrapy.utils.requestimportrequest_fingerprintclassBase
无事扯淡
·
2017-02-13 22:00
爬虫笔记
(11)性能问题
1.过年也没啥事干,继续捣鼓爬虫。开始是准备爬豆瓣电影的,豆瓣存在一些反爬机制,爬一会就爬不动了。当然后面是突破了这个限制,使用随机bid,设置cookie。据说会出现验证码,我爬了几万部电影也没有出现这个问题。初期的想法是使用代理ip,网络上的免费代理ip大都不靠谱,懒得捣鼓。在豆瓣电影这个爬虫中,我其实是使用两个步骤来执行。第一部分是按照年标签查找电影,从1900到2017年,将每个电影链接存
无事扯淡
·
2017-02-03 08:53
爬虫笔记
(5)分布式
单机下面可以使用多线程和多进程来实现对机器的充分利用,但是单台机器的能力是有限的,如果采用更多机器能进一步提高爬虫的效率。这里要引入分布式爬虫。对于分布式爬虫,使用Redis来实现任务队列,这样会极大的简化系统配置。1.Redis入门启动Redisredis-server的服务器端是redis-server,可以不带参数直接启动。redis-server默认的端口号是6379,而且默认状态下不能远
无事扯淡
·
2016-12-21 22:13
爬虫笔记
(3) 并发多线程
1.单进程爬虫存在的问题我们在
爬虫笔记
(2)中详细的对糗事百科进行了分析,并且给出了核心代码。如果用这个代码去爬糗事百科,确实没有问题,但是就是有些慢。
无事扯淡
·
2016-12-15 14:35
爬虫笔记
urllib2urlopen(url,data,timeout)第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。 第二三个参数是可以不传送的,data默认为空None,timeout默认为socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen
BinChasing
·
2016-04-11 20:00
爬虫
python
url
笔记
urllib2
Python
爬虫笔记
地址:https://github.com/YangZhouChaoFan/spider4p1:使用urllib的获取html内容2:使用html.parser.HTMLParser解析html内容,并根据正则匹配url下载文件。测试:爬了煎蛋网xxoo页面20页的,下载其中jpg和gif图片到本地。
扬州炒饭
·
2015-12-22 14:00
Python
爬虫笔记
一
学习网络爬虫中,不断的学习。在网上看到了虫师写的关于网络爬虫的文章,看着不错就学习了一下。‘虫师日志地址:虫师-网络爬虫在windows7Python2.7下运行了该文章中的程序,可以运行,可以得到所要检索的图片。虽然程序有些不太明白,但是作为自己学习爬虫的第一步#coding=utf-8 importurllib importre defgetHtml(url): page=urllib.ur
sdtvyyb_007
·
2015-11-19 19:00
python
爬虫
网络爬虫
scrapy
爬虫笔记
(三)------写入源文件的爬取
开始爬取网页:(2)写入源文件的爬取 为了使代码易于修改,更清晰高效的爬取网页,我们将代码写入源文件进行爬取。 主要分为以下几个步骤: 一.使用scrapy创建爬虫框架: 二.修改并编写源代码,确定我们要爬取的网页及内容 三.开始爬取并存入文件(数据库) 注:为了避免冗长的叙述,更直观地理解,这里先讲具体的操作方法,如果想要深入理解其原理,具体解释在最后
·
2015-11-13 03:11
scrapy
scrapy
爬虫笔记
(一)------环境配置
前言: 本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。 需要阅读者对html语言及python语言有基本的了解。 (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新) 爬虫简介: 网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。 网络爬虫先获取某网站的源代码,通过源码解析(如<a>&
·
2015-11-13 03:10
scrapy
scrapy
爬虫笔记
(二)------交互式爬取
开始网页爬取:(1)交互式爬取 首先,我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url” 如:scrapy shell “http://www.baidu.com” (注意:此处一定要写清楚传输协议,否则将无法链接到对应网站,此例中为http://) scrapy 会自动创建response对象,并自动将爬取下网页的源代码存入resp
·
2015-11-13 03:10
scrapy
python
爬虫笔记
初学python爬虫,感觉光看看学不到什么,自己瞎折腾了一个爬百度贴吧小说。 自己感觉不是很实用,不过还是写下来备忘下,也算留个纪念。 #! /usr/bin/env/python 27 # coding:gbk import urllib2 import re def findurl(i): pattern=re.compile('/p/\d{10}')
·
2015-11-02 17:53
python
爬虫笔记
(四)------关于BeautifulSoup4解析器与编码
前言:本机环境配置:ubuntu14.10,python2.7,BeautifulSoup4 一.解析器概述如同前几章笔记,当我们输入:soup=BeautifulSoup(response.body)对网页进行析取时,并未规定解析器,此时使用的是python内部默认的解析器“html.parser”。解析器是什么呢?BeautifulSoup做的工作就是对html标签进行解释和分类,不同的解析器
Koala's_Dream
·
2015-08-06 21:00
爬虫笔记
编写爬虫一般有三种方法:1.通过网站的API搜索信息,这是最快最准的。2.拼凑url请求,自己解析。3.爬网页解析,最笨最慢最不稳定的方法。N多方法,最好使用API,最不好就爬网页。共有31款Java网络爬虫开源软件,网址:http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1,其中Nutch和Heritrix
NikoTesla
·
2015-08-03 10:00
爬虫
Scrapy
爬虫笔记
【1-基本框架】
一、Scrapy概览Scrapy是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等。尽管Scrapy最初被设计用于屏幕抓取(准确地说是网页抓取),但您也可以仅使用它的API来提取数据(就像AmazonAssociatesWebServices)或作为通用的网页爬虫来使用。下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的
yixiantian7
·
2014-03-08 20:00
框架
scrapy
笔记
[Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!
前面十章
爬虫笔记
陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。
请叫我汪海
·
2014-02-21 17:35
Python
爬虫
Python爬虫入门教程
[Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!
前面十章
爬虫笔记
陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。
wxg694175346
·
2014-02-21 17:00
爬虫
python
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他