E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
爬虫笔记
Python
爬虫笔记
(十二)——Scrapy官方文档阅读——Feed exports
Feedexports用于处理数据的存储Scrapy提供了开箱即用的数据存储格式:JSON使用的Feed_exports:JsonItemExporterJSONlines使用Feed_exports:JsonLinesItemExporterCSV使用Feed_exports:CsvItemExporterXML使用Feed_exports:XmlItemExporter通过设置,Scrapy可
菜到怀疑人生
·
2018-08-09 20:49
crawler
python爬虫
Python
爬虫笔记
(十)——Scrapy官方文档阅读——Scrapy shell
Scrapyshell用于测试Xpath和css表达式,查看它们提取的数据,Scrapy可以使用ipython、bpython、标准的pythonshell中的一个,可以通过设置SCRAPY_PYTHON_SHELL的值来决定,也可以在scrapy.cfg中定义:[settings]shell=bpython启动scrapyshell启动scrapyshell的命令:scrapyshellurl是
菜到怀疑人生
·
2018-08-09 07:20
crawler
python爬虫
python
爬虫笔记
(七)——scrapy文档阅读(一)——scrapy的基本使用
一、创建一个新的爬虫项目:scrapystartprojecttutorial创建的项目目录如下:tutorial/scrapy.cfg#deployconfigurationfiletutorial/#project'sPythonmodule,you'llimportyourcodefromhere__init__.pyitems.py#projectitemsdefinitionfilemi
菜到怀疑人生
·
2018-08-06 20:35
crawler
python爬虫
python
爬虫笔记
(六)——应对反爬策略
以下总结的全是单机爬取的应对反爬策略1、设置爬取速度,由于爬虫发送请求的速度比较快,会对服务器造成一定的影响,尽可能控制爬取速度,做到文明爬取2、重启路由器。并不是指物理上的插拔路由器,而是指模拟路由器重启时发送的表单。登陆自己的路由器,一般路由器会提供重启路由器的选项,根据路由器的重启特点进行模拟,如果觉得模拟请求麻烦,那就通过selenium+chromedriver直接点击重启,前提是路由器
菜到怀疑人生
·
2018-08-04 14:49
crawler
python爬虫
Python
爬虫笔记
(四)——动态页面的处理(上篇)
什么是动态页面我们知道js可以操纵DOM,可以请求后台,因此我们最终看到的html页面可能是js执行的结果,如果我们单纯用爬虫获取动态页面的html,看到的可能就是一堆js动态页面的处理我自己总结了两种方式,1、获取后台接口,2、通过selenium+chromdriver,这篇博客先介绍第一种,这两种方式各有优劣方式一:动态页面有一个特点,它所需要的数据需要自己去请求后台,不是写死在html中的
菜到怀疑人生
·
2018-08-02 15:46
crawler
python爬虫
Python
爬虫笔记
(三)——表单登陆
python版本为3.6表单登陆一般来说,各个网站表单登陆的方式是比较灵活的,在这里只介绍两种,这两种登陆方式的区别在于Content-Type的值方式一:multipart/form-datamultipart/form-data:指定传输数据为二进制类型,比如图片、mp3、文件此时账号与密码在body部分,boundary表示分割线,用于分割数据方式二:application/x-www-fo
菜到怀疑人生
·
2018-08-01 19:07
crawler
python爬虫
Python
爬虫笔记
(二)——多线程爬虫、正则表达式、多进程爬虫
正则表达式首先先简单介绍一下正则表达式(关于正则表达式的原理以及算法,等以后有时间在写)python中常使用以下函数来返回正则表达式匹配的项目(使用前先importre)://pattern为正则表达式,string为待匹配的字符串,返回的是列表findall(pattern,string,flags=0)爬虫中常用的正则表达式:.表示任意字符^表示匹配行开头部分,在方括号表达式中使用,此时它表示
菜到怀疑人生
·
2018-07-20 20:06
crawler
python爬虫
爬虫笔记
一之概念了解
爬虫爬虫的错误认识所谓的爬虫只是一段自动抓取所需要的信息的程序,所以爬虫不是只能使用python语音编写,也可以使用java、C语音等。爬虫的简单架构由于URL管理器不断的把URL传输给网页下载器,网页下载器又不断的传输字符串给网页解析器,网页解析器解析字符串,不断得到有价值的数据和新的URL,并将新的URL传给URL管理器,所以三者不断的循环,爬虫也就一直在工作了。爬虫的运行流程图片解析第一步:
山上农夫
·
2018-07-19 20:16
python
爬虫
python
爬虫
python简单
爬虫笔记
python模拟游览器爬取相关页面importurllib.requesturl="https://blog.51cto.com/itstyle/2146899"#模拟浏览器headers=("User-Agent","Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/55.0.2883.87Safar
吴流
·
2018-07-18 22:44
python
简单
爬虫
python爬虫
python网络
爬虫笔记
三
一、Scrapy爬虫框架常用命令命令说明格式startproject创建一个新工程scrapystartproject[dir]genspider创建一个爬虫scrapygenspider[options]settings获取爬虫配置信息scrapysettings[options]crawl运行一个爬虫scrapycrawllist列出工程中所有爬虫scrapylistshell启动URL调试命
肖一二三四
·
2018-07-16 00:46
Python
爬虫笔记
(一)——基础知识简单整理
登陆时候的用户名和密码可以放在http的头部也可以放在http的body部分。 HTTPS是否可以抓取由于https运用的加密策略是公开的,所以即使网站使用https加密仍然可以获得数据,但是类似于微信这样的app,它自己实现了一套加密算法,想要抓取数据就变得比较困难。 制作爬虫时需要注意的HTTP字段HTTP请求头部分字段解释:accept:表明请求的资源类型accept-charset:表示请
菜到怀疑人生
·
2018-07-08 00:00
crawler
python爬虫
【
爬虫笔记
】使用Selenium打开网页
1.Selenium的安装非常简单pipinstallselenium就可以了使用selenium打开浏览器也是非常简单的,直接执行以下代码即可:fromseleniumimportwebdriverdriver=webdriver.Firefox()driver.get("http://www.baidu.com/")什么?出现错误了?自然。之前的版本不会这样,自从升级新版本之后就出现了这个问题
Jaborie203
·
2018-05-29 22:26
爬虫笔记
python
爬虫笔记
-weki数据传入数据库
#fromurllibimportrequestfromurllib.requestimporturlopen#fromurllib.requestimportRequestfromurllibimportparsefrombs4importBeautifulSoupimportreimportpymysql.cursorsresp=urlopen("https://en.wikipedia.or
SWJTU_CC
·
2018-04-15 20:10
python
爬虫笔记
-SQL查询weki数据
统计表格中的条数#导入开发包importpymysql.cursors#获取链接connection=pymysql.connect(host='localhost',user='root',password='123456',db='wikiurl',charset='utf8mb4')try:#获取会话指针withconnection.cursor()ascursor:#查询语句:统计表格中的
SWJTU_CC
·
2018-04-15 11:20
python
爬虫笔记
-weikipedia数据爬取
#fromurllibimportrequestfromurllib.requestimporturlopen#fromurllib.requestimportRequestfromurllibimportparsefrombs4importBeautifulSoupimportre#请求url并把结果用UTF-8编码resp=urlopen("https://en.wikipedia.org/w
SWJTU_CC
·
2018-04-14 12:47
python
爬虫笔记
-BeautifulSoup
BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。使用BeautifulSoup解析这段代码,能够得到一个BeautifulSoup的对象,并能按照标准的缩进格式的结构输出参考链接:https://www.crummy.com/
SWJTU_CC
·
2018-04-12 12:16
python
爬虫笔记
-urllib
urllib提供了一系列用于操作URL的功能。fromurllibimportrequest#引用urllibresp=request.urlopen("http://www.baidu.com")#打开网页,可以直接urlopen也可以先传入Request再传入urlopenprint(resp.read().decode("UTF-8"))#读取内容设置编码模式fromurllibimport
SWJTU_CC
·
2018-04-11 20:17
Python
爬虫笔记
1 一(简单开场)
学习爬虫记笔记实例:#!/usr/bin/envpython3#coding:utf-8importurllib.requestimporturllib.parseurl="http://www.baidu.com"res=urllib.request.urlopen(url)data=res.read()#print(data)#保存data到内存withopen(r'/Users/dinglp
leo_ding
·
2018-03-23 18:03
urilib2检验代理IP
爬虫笔记
---IP代理检验#!
IT__LS
·
2018-03-09 23:04
Python爬虫之路
python
爬虫笔记
-持续更新
爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包importurllib2调用urllib2中的urlopen方法链接网站,代码如下repr=urllib2.urlopen("XXXXXX"),
进阶的小橙子
·
2018-01-26 17:38
python网络
爬虫笔记
一
一、requests库的使用入门requests.request()构造一个请求,支撑以下各方法requests.get()获取HTML网页的主要方法,对应于HTTP的GRTrequests.head()获取HTML网页头信息requests.post()对应于HTTP的POSTrequests.put()对应于HTTP的PUTrequests.patch()向HTML提交局部修改请求reques
肖一二三四
·
2018-01-23 11:47
java爬虫-基于jsoup的简单爬虫实现(从智联获取工作信息)
先看效果,好的话就点个赞,jar包上个
爬虫笔记
中有链接先来一个热热身:packagecom.demo.test;importjava.io.IOException;importorg.jsoup.Jsoup
蓝星花
·
2018-01-04 11:43
其他学习
Python
爬虫笔记
讲道理,还是应该先把正则学一下的,不过因为任务简单,我就简单的尝试用了BeautifulSoup,还是很好用的。任务1:获取康奈尔图书馆的论文的题目、日期、摘要信息。图书馆地址:https://arxiv.org/github代码:https://github.com/leiseraiesecqd/Python-crawler/blob/master/for%20paper%20info.py==
No_limit
·
2017-12-11 13:42
Python
爬虫笔记
二——爬取爱因斯坦名言
这次的笔记主要和大家分享BeautifulSoup的一些用法。数据定位查找BS一个很大的作用就是可以对HTML中的tag进行定位。其中最常用的函数就是find()和findAll(),这两个函数其实功能相仿,差距在于一个只寻找最近的tag,另一个会查找所有的标签。其主要参数如下:tag:所要查找的tag,格式为字符串或列表(一系列tag)attributes:所要查找tag的attributes,
ironbeak_owl
·
2017-12-04 14:54
爬虫笔记
-使用python爬取豆瓣短评
遇到的问题:如果不模拟登陆的话只能爬取200条评论,但是实现模拟登陆之后也只能爬取500条数据#-*-encoding:utf-8-*-importrequestsfrombs4importBeautifulSoupimportreimportrandomimporttime#使用session来保存登陆信息s=requests.session()#获取动态ip,防止ip被封defget_ip_l
hustllx
·
2017-11-28 09:05
python网络
爬虫笔记
之信息提取
信息组织与提取一、信息标记HTML:通过预定义的标签形式来组织不同类型的信息信息标记的种类有三种Xml,JSON,YAMLXml:扩展标记语言,与html格式很像通过标签形式来构造所有的信息,如果标签中有内容时我们用一对标签来表达:...如果标签中没有内容时,我们用一对尖括号来表达同时可以增加注释:JSON:采用有类型键值的方式:“key”:"value"如果对应的值的部分有多个,则采用方括号:"
哈哈哈哈士奇VIP
·
2017-11-04 11:56
python
爬虫笔记
(三)
爬虫结果入库图:代码如下:#!/user/bin/python#-*-coding:UTF-8-*-importurllibimporturllib2importlxmlimportMySQLdbfrombs4importBeautifulSoupimporthttplibhttplib.HTTPConnection._http_vsn=10httplib.HTTPConnection._http
后打开撒打发了
·
2017-08-24 11:03
python
【Python爬虫】从零开始玩转爬虫——Top电影信息爬取
本次来搞搞Top电影排行榜的电影信息,同样这属于一篇学习性的文章,希望能够分享在学习过程中遇到的坑与学到的新技术,试图用最简单的话来阐述我所记录的Python
爬虫笔记
。
Mr.late
·
2017-08-16 17:27
爬虫系列学习
python
爬虫
爬虫笔记
-01-爬虫介绍和BeautifulSoup
介绍一直想有时间学习爬虫技术,现在来吧,跟着OReilly出版的WebScrapingwithPython这本书来学习。环境准备因为本书推荐Python3为例,去官网下载Python3.x版本的Python安装包,直接安装就好了。安装的时候注意勾选加入path。话说我还没有学Python呢亲(⊙o⊙)!,没关系先稀里糊涂的用吧~~~不行了再说第一只爬虫书中首先做了一些介绍,主要内容是网络传输的过程
2MuchT
·
2017-06-26 13:37
python3的
爬虫笔记
11——Selenium和浏览器的一些设置
自从用了Selenium的方法,就停不下来了。毕竟稍微正式点的网站,都是JS动态加载数据。requests虽然速度快,但能用的范围还是有限。在不追求极至效率的情况下,Selenium使用方便简单并且强大。这里总结一些比较实用的Selenium和PhantomJS、Chrome的设置。后续跟进更新,会把我以后用到的觉得还算实用的方法放进来。1.限制页面加载时间seleniumwebdriver在ge
X_xxieRiemann
·
2017-05-22 18:42
python3的
爬虫笔记
9——Selenium的用法
继续介绍下selenium的用法,一共以两个例子来呈现。分别对应的是QQ空间模拟登录(如何传送登录信息和确认,iframe如何切换),爬取7日热门(页面如何拉到底)。浏览器用的是chrome。(1)QQ空间模拟登录(如何传送登录信息和确认,iframe如何切换)网址:http://user.qzone.qq.com/我们是如何一般登录的:第一步:点击账号密码登录第二步:输入账号密码第三步:点击登录
X_xxieRiemann
·
2017-05-06 23:44
python3的
爬虫笔记
6——COOKIE登录
我们经常有这样的上网经历,就是如果你采用用户名密码登陆一个网站之后,如果在一段不长的时间内,再次访问这个本来需要你登陆的网站,你会很轻易地访问,而不需要再次输入用户名密码。这种“免登陆”的体验无疑给用户带来了非常好的体验,那为什么会“免登陆”呢?是什么在起作用呢?答案就是Cookie。当我们在浏览器内输入url,浏览器会向服务器发送一个HTTP请求,相应的,服务器会响应这个请求,向浏览器返回响应的
X_xxieRiemann
·
2017-04-24 12:09
python3的
爬虫笔记
3——GET和POST(1)
HTTP定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个URL地址,它用于描述一个网络上的资源,而HTTP中的GET,POST,PUT,DELETE就对应着对这个资源的查,改,增,删4个操作。其中,GET一般用于获取/查询资源信息,而POST一般用于更新资源信息,通常用于我们需要向服务器提交表单的情况。P
X_xxieRiemann
·
2017-04-23 15:51
Python
爬虫笔记
(1)
importurllib.request访问网址,打开网页,方法:urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)其中url,可以是一个字符串string(也就是网址),也可以是一个Request对象方法一:response=urllib.re
hearthougan
·
2017-03-29 23:47
Python3网络爬虫(一):利用urllib进行简单的网页抓取
因此打算写一个Python3.x的
爬虫笔记
,以便后续回顾,欢迎一起交流、共同进步。一、
Jack-Cui
·
2017-02-28 23:35
Python
Python3网络爬虫入门
Python3网络爬虫(一):利用urllib进行简单的网页抓取
因此打算写一个Python3.x的
爬虫笔记
,以便后续回顾,欢迎一起交流、共同进
c406495762
·
2017-02-28 23:00
python
爬虫
sublime
python3
爬虫笔记
(12) scrapy源码分析
虽然爬虫的工作原理我是大概清楚的,但是scrapy毕竟是个框架,要用好这个框架务必把底层结构弄清楚。1.去重from__future__importprint_functionimportosimportloggingfromscrapy.utils.jobimportjob_dirfromscrapy.utils.requestimportrequest_fingerprintclassBase
无事扯淡
·
2017-02-13 22:00
爬虫笔记
(11)性能问题
1.过年也没啥事干,继续捣鼓爬虫。开始是准备爬豆瓣电影的,豆瓣存在一些反爬机制,爬一会就爬不动了。当然后面是突破了这个限制,使用随机bid,设置cookie。据说会出现验证码,我爬了几万部电影也没有出现这个问题。初期的想法是使用代理ip,网络上的免费代理ip大都不靠谱,懒得捣鼓。在豆瓣电影这个爬虫中,我其实是使用两个步骤来执行。第一部分是按照年标签查找电影,从1900到2017年,将每个电影链接存
无事扯淡
·
2017-02-03 08:53
爬虫笔记
(5)分布式
单机下面可以使用多线程和多进程来实现对机器的充分利用,但是单台机器的能力是有限的,如果采用更多机器能进一步提高爬虫的效率。这里要引入分布式爬虫。对于分布式爬虫,使用Redis来实现任务队列,这样会极大的简化系统配置。1.Redis入门启动Redisredis-server的服务器端是redis-server,可以不带参数直接启动。redis-server默认的端口号是6379,而且默认状态下不能远
无事扯淡
·
2016-12-21 22:13
爬虫笔记
(3) 并发多线程
1.单进程爬虫存在的问题我们在
爬虫笔记
(2)中详细的对糗事百科进行了分析,并且给出了核心代码。如果用这个代码去爬糗事百科,确实没有问题,但是就是有些慢。
无事扯淡
·
2016-12-15 14:35
爬虫笔记
urllib2urlopen(url,data,timeout)第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。 第二三个参数是可以不传送的,data默认为空None,timeout默认为socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen
BinChasing
·
2016-04-11 20:00
爬虫
python
url
笔记
urllib2
Python
爬虫笔记
地址:https://github.com/YangZhouChaoFan/spider4p1:使用urllib的获取html内容2:使用html.parser.HTMLParser解析html内容,并根据正则匹配url下载文件。测试:爬了煎蛋网xxoo页面20页的,下载其中jpg和gif图片到本地。
扬州炒饭
·
2015-12-22 14:00
Python
爬虫笔记
一
学习网络爬虫中,不断的学习。在网上看到了虫师写的关于网络爬虫的文章,看着不错就学习了一下。‘虫师日志地址:虫师-网络爬虫在windows7Python2.7下运行了该文章中的程序,可以运行,可以得到所要检索的图片。虽然程序有些不太明白,但是作为自己学习爬虫的第一步#coding=utf-8 importurllib importre defgetHtml(url): page=urllib.ur
sdtvyyb_007
·
2015-11-19 19:00
python
爬虫
网络爬虫
scrapy
爬虫笔记
(三)------写入源文件的爬取
开始爬取网页:(2)写入源文件的爬取 为了使代码易于修改,更清晰高效的爬取网页,我们将代码写入源文件进行爬取。 主要分为以下几个步骤: 一.使用scrapy创建爬虫框架: 二.修改并编写源代码,确定我们要爬取的网页及内容 三.开始爬取并存入文件(数据库) 注:为了避免冗长的叙述,更直观地理解,这里先讲具体的操作方法,如果想要深入理解其原理,具体解释在最后
·
2015-11-13 03:11
scrapy
scrapy
爬虫笔记
(一)------环境配置
前言: 本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。 需要阅读者对html语言及python语言有基本的了解。 (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新) 爬虫简介: 网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。 网络爬虫先获取某网站的源代码,通过源码解析(如<a>&
·
2015-11-13 03:10
scrapy
scrapy
爬虫笔记
(二)------交互式爬取
开始网页爬取:(1)交互式爬取 首先,我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url” 如:scrapy shell “http://www.baidu.com” (注意:此处一定要写清楚传输协议,否则将无法链接到对应网站,此例中为http://) scrapy 会自动创建response对象,并自动将爬取下网页的源代码存入resp
·
2015-11-13 03:10
scrapy
python
爬虫笔记
初学python爬虫,感觉光看看学不到什么,自己瞎折腾了一个爬百度贴吧小说。 自己感觉不是很实用,不过还是写下来备忘下,也算留个纪念。 #! /usr/bin/env/python 27 # coding:gbk import urllib2 import re def findurl(i): pattern=re.compile('/p/\d{10}')
·
2015-11-02 17:53
python
爬虫笔记
(四)------关于BeautifulSoup4解析器与编码
前言:本机环境配置:ubuntu14.10,python2.7,BeautifulSoup4 一.解析器概述如同前几章笔记,当我们输入:soup=BeautifulSoup(response.body)对网页进行析取时,并未规定解析器,此时使用的是python内部默认的解析器“html.parser”。解析器是什么呢?BeautifulSoup做的工作就是对html标签进行解释和分类,不同的解析器
Koala's_Dream
·
2015-08-06 21:00
爬虫笔记
编写爬虫一般有三种方法:1.通过网站的API搜索信息,这是最快最准的。2.拼凑url请求,自己解析。3.爬网页解析,最笨最慢最不稳定的方法。N多方法,最好使用API,最不好就爬网页。共有31款Java网络爬虫开源软件,网址:http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1,其中Nutch和Heritrix
NikoTesla
·
2015-08-03 10:00
爬虫
Scrapy
爬虫笔记
【1-基本框架】
一、Scrapy概览Scrapy是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等。尽管Scrapy最初被设计用于屏幕抓取(准确地说是网页抓取),但您也可以仅使用它的API来提取数据(就像AmazonAssociatesWebServices)或作为通用的网页爬虫来使用。下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的
yixiantian7
·
2014-03-08 20:00
框架
scrapy
笔记
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他