E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Yhen爬虫笔记
Python
爬虫笔记
(9):多进程爬取瓜子二手车信息,简单的matplotlib绘图
本次利用pyquery和multiprocessing多进程爬取了瓜子二手车1万多条数据,存入MySQL数据库,并做简单的matplotlib绘图分析。代码如下:importrequestsfrompyqueryimportPyQueryaspqfrommultiprocessingimportPoolimportreimportpymysqldb=pymysql.connect('localho
坐下等雨
·
2020-01-04 10:11
爬虫笔记
(2):Urllib库与URLError异常处理
什么是Urllib库:是Python提供的一个用于操作URL的模块,2与3不太一样:见#581;快速使用Urllib爬取网页:#导入包In[1]:importurllib.request#打开并爬取In[2]:file=urllib.request.urlopen("http://www.baidu.com")#读取全部内容;read会把读取到的内容赋给一个字符串变量,readlines会赋给一个
WeirdoSu
·
2019-12-23 07:57
认识爬虫
前言我的
爬虫笔记
经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。
靳晓阳s
·
2019-12-20 18:13
爬虫笔记
(七) - Scrapy_redis 分布式爬虫尝试
本次只是Scrapy_redis的一次尝试,对于分布式爬虫,还是个小白,如果有什么不对的地方请留言分布式爬虫代码cuiqingcai_redis目标站点:www.cuiqingcai.com(作者不会打我吧~~~)不说那么多废话,我们直接开始简单的拓扑图简单拓扑图环境需要installscrapy==1.3.3pymysql==0.7.11scrapy_redis==0.6.8其实除了上面的pyt
Spareribs
·
2019-12-13 01:21
1000粉丝记
我在这里写了约26k+字,一开始是我的Python
爬虫笔记
,后来是Web开发笔记,然后是一年的沉寂,这段时间刚好是我的研一
徐洲更hoptop
·
2019-12-08 13:30
【小白学
爬虫笔记
】持久连接、非持久连接
1.对比HTTP0.9已过时HTTP1.0:非持续连接,每个连接只处理一个请求响应事务,有些服务器端甚至还在用此,可以在一定时间内复用连接,具体复用时间的长短可以由服务器控制,一般在15s左右。HTTP1.1默认使用持续连接,不必为每一个WEB对象建立一个新的连接,一个连接可以传送多个对象,但是服务器端可能还是会设置一个限制,太长时间没有读写事件,服务器可能关闭之。HTTP2.0多路复用(一个域只
麒麟楚庄王
·
2019-12-07 05:34
爬虫笔记
(五) - 关于Scrapy 全站遍历Crawlspider
首先要感谢小白进阶之Scrapy第二篇(登录篇)笔者是爬取了www.haoduofuli.wang,可惜挂掉了。所以我转移了目标~~~目标站点:www.cuiqingcai.com代码已经上存到github下载导入库假设你会使用scrapy创建项目,我们直接开始,再spider文件夹下面新建一个blog.py的文件#CrawlSpider与Rule配合使用可以起到历遍全站的作用、Request干啥
Spareribs
·
2019-12-06 16:14
【Python
爬虫笔记
】urlib库1~20
1.urlib库是Python自带的访问网络的模块。在Python2中和Python3中有区别,最大的差别:python2中:urlib库分为urlib和urlib2这2个库;Python3中:统一为urlib模块了,其中urlib.request约等于python2中的urlib库,urlib.parse约等于python2中的urlib2库。2.urlib.request中常用的有2个方法:u
TensorFlow开发者
·
2019-12-06 07:44
分布式
爬虫笔记
(一)- 非框架实现的Crawlspider
不久前写过一篇使用Scrapy框架写的Crawlspider
爬虫笔记
(五)-关于Scrapy全站遍历Crawlspider,本次我再次沿用上次的网站实现全站爬虫,希望目标网址的小伙伴原谅我~~~目标站点
Spareribs
·
2019-12-01 15:03
爬虫笔记
(6)实战
网站分析今天的目标是www.dy2018.com:电影天堂可以直接从首页进行爬,实际上点击导航条中的“动作片”,可以进入一个栏目分类列表中:Paste_Image.png打开F12,可以看到这些栏目地址形式是"/0/","/1/"..."/20/"。那么是不是可以直接从这些栏目爬到所有电影呢?有必要先试试。测试访问>>>importrequests>>>frombs4importBeautiful
无事扯淡
·
2019-11-30 10:03
爬虫笔记
(三) - 关于Scrapy去重逻辑分析
默认的去重逻辑#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2017/5/722:43#@Author:Aries#@File:scrapy_filter.py#@Software:PyCharmimportscrapyfromscrapy.http.requestimportRequestclassFilterSpider(scrapy.Spider
Spareribs
·
2019-11-06 01:05
python3的
爬虫笔记
7——验证码登录
(1)方法一手动输入验证码对于需要验证码登录的情况,采用先下载验证码图片,手动输入后,利用cookie保持在线,从而获取网页信息,这是一种比较简单的方法。这里以登录厦门大学选课系统为例。我们先随便输入帐号密码然后记得把Fiddler插件clear下,点击登录,看下需要post哪些信息。我们得到了实际登录url:RequestURL,需要传送的数据分别是验证码(checkCode),密码(passw
X_xxieRiemann
·
2019-11-03 06:23
爬虫笔记
(八) - 正则表达式
二话不说,我们直接进入正题,首先分享两个比较好的网站:图形化显示Regulex:点击跳转正则表达式的在线测试:点击跳转常用的正则表达语言常用符号用法^匹配输入字符串的开始位置$匹配输入字符串的结尾位置*匹配前面的子表达式零次或多次?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符+匹配前面的子表达式一次或多次{n}n是一个非负整数。匹配确定的n次{n,}n是一个非负整数。至少匹配n次{n,m}
Spareribs
·
2019-11-02 10:26
分布式
爬虫笔记
(二)- 多线程&多进程爬虫
这一次分析主要是针对上分布式
爬虫笔记
(一)-非框架实现的Crawlspider的一次改进,从单机的爬虫改成多线程和多进程爬虫~~~多线程和多进程的区别参考文章单线程、多线程和多进程的效率对比测试1多线程核心点说明这一次对爬虫代码的修改其实主要是
Spareribs
·
2019-10-31 11:32
python3的
爬虫笔记
2——伪装浏览器
有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我们还可以在headers中加入referer。以谷歌浏览器的开发者工具为例(右键检查或Ctrl+Shift+I),刷新页面,在Network模块中我们点开左边name中项目,可以看到一些信
X_xxieRiemann
·
2019-10-31 06:05
Python
爬虫笔记
| 使用pip安装requests模块及其后续问题
使用python版本:3.7.064-bit关于requests模块网页爬虫必备模块之一,用于下载网页源代码、文本、图片甚至是音频等。首先安装pip首先下载安装pip:https://pypi.org/project/pip/#downloads点击“Downloadfiles”,选择红框中的文件,下载安装。使用pip安装requests模块快捷键“win+r”打开运行命令窗口,输入:|安装命令:
MUYUN友逹
·
2019-10-21 21:00
Python爬虫笔记
Scrapy通用
爬虫笔记
—配置文件与配置加载
Scrapy通用爬虫个人理解就是针对一系列相似的站点建立一个爬虫框架,包含基本的框架代码,不同点可能在于各个站点的数据形式、爬取规则、页面解析形式。将爬取各个站点所需要的代码分开保存,爬取时再在框架中导入即可。1.配置文件配置文件内容:简单点就是针对要爬取的站点所需要的独有的信息,参数都应该写进去。可以包括该爬虫的信息,起始链接和域名,爬虫设置(settings),爬取规则(Rule),以及后面p
Duke_LH
·
2019-09-26 18:02
爬虫
零基础写python爬虫之爬虫框架Scrapy安装配置
前面十章
爬虫笔记
陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。
·
2019-09-23 19:57
python
爬虫笔记
(一)
python爬虫中主要分为两个方面:数据获取和数据处理:首先是数据获取利用python中requests模块:在cmd中直接用pip指令安装:pipinstallrequests安装后在py文件中导入模块importrequests首先设置头部文件:头部文件主要包括cookie和User-Agent还有Referer三部分cookie:主要负责导入登录信息,储存账号密码之类,网上介绍很多,这里不多
月光如春风拂面
·
2019-09-12 10:43
python学习
python
Python
爬虫笔记
爬虫-scrawler分类网页爬虫从PC端访问网站从而爬取内容,大部分是html格式(所以耗费流量和时延较多,同时由于html结构经常变化,维护成本高),可能需要以下技能点正则表达式用于简单的定位元素XPATH来定位dom元素用于定位复杂的元素selenium通过自动化浏览器交互来定位元素js语法搭配selenium使用,一般在处理动态生成的dom或模拟动态事件使用,一些情况下需要使用seleni
超哥__
·
2019-07-29 19:37
Python
爬虫笔记
1.概述2.网页解析2.1获取网页数据defparse_url:base_url='https://www.ygdy8.com/html/gndy/rihan/list_6_'req_headers={'User-Agent':'Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132Sa
shaoyang_v
·
2019-06-16 20:42
SCRAPY
爬虫笔记
SCRAPY
爬虫笔记
WINDOWS下载安装scrapy(1)直接在Anaconda(开源的Python包管理器)上下载下载完成后在Environment中选择uninstall搜索scrapy点击安装下载完成后打开
流风回雪Allen
·
2019-05-23 14:11
Python
scrapy
爬虫笔记
-Session和Cookies
1、静态网页和动态网页静态网页:网页的内容是HTML代码编写的,文字、图片等内容均是通过写好的HTML代码来指定的,这种页面叫做静态网页。优点是访问速度快,缺点点可维护性差动态网页:动态解析URL中参数的变化,关联数据库并动态通过xml、ajax等呈现不同的页面内容。2、无状态HTTPHTTP的无状态是指HTTP协议对事务处理是没有记忆能力的,也就是说服务器不知道客户端是什么状态。即客户端访问服务
雍飞宇
·
2019-04-19 13:29
爬虫
Python
爬虫笔记
5-JSON格式数据的提取和保存
环境:python-3.6.5JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。Python中自带了json模块,直接importjson即可使用官方文档:http://docs.python.org/librar...Json
mori_d
·
2019-03-21 00:00
python
基础
爬虫笔记
注册CSDN当好挺久了,但一直没有写过什么,主要是没啥可写的(本人太菜),另外也是因为CSDN写文章看起来挺麻烦的,被吓到了。我最近在看《python爬虫开发与项目实战》,把实战项目:基础爬虫这章的代码敲过并调试通过后,感觉好像可以写一写,顺便学习一下久仰大名的markdown编辑器。以下,权当对该章节的内容做个笔记,并针对代码做了些许改动以便于在python3.7中运行,并且能够输出满意的结果
不知名小厮
·
2019-03-20 22:03
python
基础爬虫
python
爬虫
Python
爬虫笔记
4-BeautifulSoup使用
BeautifulSoup介绍与lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML数据。几种解析工具的对比工具速度难度正则表达式最快困难BeautifulSoup慢最简单lxml快简单lxml只会局部遍历,而BeautifulSoup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低
mori_d
·
2019-03-15 00:00
网页爬虫
beautifulsoup
python
Python
爬虫笔记
3-解析库Xpath的使用
当爬取到Html数据后,可以用正则对数据进行提取,但有时候正则表达式编写起来不方便,而且万一写错了,可能导致匹配失败。这时候就需要借助其他解析工具了。XML引入什么是XML?XML指可扩展标记语言(EXtensibleMarkupLanguage)XML是一种标记语言,很类似HTMLXML的设计宗旨是传输数据,而非显示数据XML的标签需要我们自行定义。XML被设计为具有自我描述性。XML是W3C的
mori_d
·
2019-02-22 00:00
python
xpath
Python
爬虫笔记
1-爬虫背景了解
学习python爬虫的背景了解。大数据时代数据获取方式如今,人类社会已经进入了大数据时代,数据已经成为必不可少的部分,可见数据的获取非常重要,而数据的获取的方式大概有下面几种。企业生产的数据,大型互联网公司有海量的用户,所以他们积累数据有天然的优势数据管理资讯公司政府/机构提供的公开数据第三方数据平台购买数据爬虫爬取数据互联网数据指数百度指数阿里指数腾讯指数新浪指数政府机构数据中华国家统计局世界银
mori_d
·
2019-02-07 00:00
python
【4】基于python的网路
爬虫笔记
(HTTP请求的各个关键字)
上一章讲到如何实战,下载图片,这一章来讲一些理论但却必须知道的东西。(摘自《python3网络爬虫开发实战》)1.请求方法常见的请求方法有两种:GET和POST。在浏览器中直接输入URL井回车,这便发起了一个GET请求,请求的参数会直接包含到URL里。例如,在百度中搜索Python,这就是一个GET请求,链接为htψs://www.baidu.corn/s?wd=Python,其中URL中包含了请
killuaZold
·
2019-01-28 14:52
爬虫
【2】基于python的网路
爬虫笔记
(实战)
上一章讲了如何通过使用pyhthon的方法实现代理访问,这一章讲进行实战,比一个网站的图片自动化下载下来目标网站:自己寻找任何一个图片网站,下面直讲解方法1.分析网站元素,通过浏览器的审查元素查看首先每张图片都有一个指向这组图的链接,要获取这个链接添加都一个列表里,然后在一个个遍历去下载对应链接里的图片,这里用get_page_num_1(url)来处理进到每组图里,不会一页显示完所有的图片,此时
killuaZold
·
2019-01-27 17:29
爬虫
【2】基于python的网路
爬虫笔记
(代理)
上一章讲了urllib.request.Request与urllib.request.urlopen方法,如何使用这两个函数访问URL,并提交data注:本章将介绍如何使用代理访问目标URL,防止在爬虫时一个IP短时间内多次访问服务器,而被服务器ban掉,仍然是属于urllib.request模块中的方法,因此以下仍然从urllib.request开始。1.1urllib.request模块url
killuaZold
·
2019-01-26 00:01
爬虫
【1】基于python的网路
爬虫笔记
1.urllib包Urllib是一个收集多个模块以使用URL的包,有一下模块:urllib.request用于打开和读取URLurllib.error包含urllib.request引发的异常urllib.parse用于分析URLurllib.robotparser用于分析robots.txt文件本章介绍urllib.request中简单方法1.1urllib.request模块urllib.re
killuaZold
·
2019-01-24 17:55
爬虫
爬虫笔记
3:requests库使用
requests库概述Python内置的urllib库在对于Cookies,登录验证,代理方面等操作太繁琐。而requests库在这些方面却做得很好!请求方法:get(),返回一个Response对象参数:url,data,headers,proxies,verity,timeout 1、url:请求的URL 2、data:模拟表单,参数是传一个字典 3、headers:请求头,伪装成浏览器
Orange_7
·
2019-01-15 15:27
爬虫
requests
Python
爬虫笔记
爬虫笔记
2:urllib库的使用
urllib概述urllib是Python内置的HTTP请求库,是Python自带的库,只要安装了Python就有了。urllib主要包含4个模块:request,error,parse,robotparser。request模块request是提供了实现请求的方法:urlopen(),返回的是HTTPResponse对象。urlopen()通过传参可以构造一个完整的请求,比较常用的参数有url,
Orange_7
·
2019-01-12 16:39
爬虫
Python
urllib
爬虫笔记
爬虫笔记
1:Python爬虫常用库
请求库:1、urllib:urllib库是Python3自带的库(Python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。2、requests:requests属于第三方库,使用起来比urllib要简单不少,且功能更加强大,是最常用的请求库。3、Selenium:Selenium属于第三方库,它是一个自动化测试工具,可以利用它自动完成浏览器的
Orange_7
·
2019-01-11 21:18
爬虫
Python
爬虫笔记
千峰Python
爬虫笔记
day01
爬虫工作流程:1.将种子URL放入队列2.从队列获取URL,模拟浏览器访问URL,抓取内容3.解析抓取的内容,将需要进一步抓取的URL放入工作队列,存储解析后的内容。(可以用文件、MySQL、SQLite、MongoDB等存储)ps:去重:Hash表,bloom过滤器抓取策略:深度优先、广度优先、PageRank(SEO干的事儿)、大站优先爬虫口头协议-robots协议,如www.taobao.c
月光白魔鬼
·
2019-01-09 23:06
Python
爬虫笔记
importos“”"有一个文件UTF-8的文本格式的文件,大小都为100G,计算UTF-8编码格式文件中的字符个数,计算机内存为128M“”"char_nums=0withopen(’./test’,‘r’,encoding=‘utf8’)asf:whileTrue:ret=f.read(1024)#这值可以再优化psutilossysifnotret:breakchar_nums+=len(r
血色橄榄枝
·
2018-12-04 08:44
Java
爬虫笔记
今天的目标是从学习OJ爬取后台数据,拿到了一个链接的接口,修改题目编号和操作码就能下载数据,但是需要登录账号的Cookie所以记录一下用HttpClient发送网络请求,并下载文件publicstaticvoiddoPostWithParam(StringpostUrl,Mapparams,Mapheaders,StringsaveDir,StringfileName)throwsExceptio
LinzhiQQQ
·
2018-12-02 10:43
Java
python
爬虫笔记
-day8
爬虫项目项目名字request+selenium爬虫项目周期项目介绍爬了XXXXX,XXX,XXX,等网站,获取网站上的XXX,XXX,XXX,数据,每个月定时抓取XXX数据,使用该数据实现了XXX,XXX,XX,开发环境linux+pycharm+requests+mongodb+redis+crontab+scrapy_redis+scarpy+mysql+gevent+celery+thre
czbkzmj
·
2018-11-26 17:00
Python
python
爬虫笔记
-day7
crawlspider的使用常见爬虫scrapygenspider-tcrawl爬虫名allow_domain指定start_url,对应的响应会进过rules提取url地址完善rules,添加RuleRule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+.htm'),callback='parse_item'),注意点:url地址不完整,cra
czbkzmj
·
2018-11-26 17:57
Python
python
爬虫笔记
-day6
mongodbmysqlredis的区别和使用场景mysql是关系型数据库,支持事物mongodb,redis非关系型数据库,不支持事物mysql,mongodb,redis的使用根据如何方便进行选择希望速度快的时候,选择mongodb或者是redis数据量过大的时候,选择频繁使用的数据存入redis,其他的存入mongodbmongodb不用提前建表建数据库,使用方便,字段数量不确定的时候使用m
czbkzmj
·
2018-11-26 17:31
Python
python
爬虫笔记
-day5
mongodb插入数据db.collecion.insert({})插入数据,_id存在就报错db.collection.save({})插入数据,_id存在会更新mongodb的更新操作db.test1000.update({name:"xiaowang"},{name:"xiaozhao"})把name为xiaowang的数据替换为{name:"xiaozhao"}db.test1000.up
czbkzmj
·
2018-11-26 16:48
Python
python
爬虫笔记
-day3
正则使用的注意点re.findall("a(.*?)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r,待匹配字符串中有反斜杠的时候,使用r能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n\s能够匹配空白字符,不仅仅包含空格,还有\t|\r\nxpath学习重点使用xpathhelper或者是chrome中的copyxpath都是从element中提取的
czbkzmj
·
2018-11-23 16:01
Python
Python
爬虫笔记
(5):scrapy之CrawlSpider的使用
CrawlSpider基础crawlspider,适合爬取那些具有一定规则的网站,它基于Spider并有一些独特属性:rules:是Rule对象的集合,用于匹配目标网站并排除干扰parse_start_url:用于爬取起始响应,必须要返回Item,Request中的一个。因为rules是Rule对象的集合,所以这里也要介绍一下Rule。它有几个参数:link_extractor、callback=
坐下等雨
·
2018-11-17 20:23
Python
爬虫笔记
(4):利用scrapy爬取豆瓣电影250
在网上阅读有关scrapy的教程也有一段时间了,可是一直没能真正写出能爬出数据的代码。。。今天趁着有点时间,赶快实战一下吧!目标:豆瓣电影250为啥选它呢,因为网上有关爬取豆瓣电影的教程多呀,可以很容易的复刻他人的代码,少走弯路。可是,可是,万万没想到的是,这次的写爬虫过程中我几乎把能踩的坑全踩个遍,菜鸟的烦恼~。~同时我也明白了,人家的以前写的代码,搁到现在未必全部适用。先把写的流程过一下,然后
坐下等雨
·
2018-11-10 02:39
Python 网络
爬虫笔记
9 -- Scrapy爬虫框架
Python网络
爬虫笔记
9–Scrapy爬虫框架Python网络爬虫系列笔记是笔者在学习嵩天老师的《Python网络爬虫与信息提取》课程及笔者实践网络爬虫的笔记。
Wang_Jiankun
·
2018-11-06 14:53
Python
网络爬虫
python
网络爬虫
Scrapy框架
Scrapy常用命令
爬虫笔记
(正则与Beautiful Soup对比实现)
爬虫概述通俗的讲,爬虫就是模拟浏览器,向服务器发出请求,获取到服务器返回的内容,再挑出我们想要的内容保存下来。所以,写爬虫主要分为三步:1.发出请求2.解析页面3.保存数据一、发出请求最基础的HTTP库有urllib,reuests首先介绍urllib1.1urllib的使用urllib主要有四个模块,request,error,parse,robotparserrequest:最基本的HTTP请
飞翔_e503
·
2018-10-26 22:23
Scrapy通用
爬虫笔记
—配置文件与配置加载
Scrapy通用爬虫个人理解就是针对一系列相似的站点建立一个爬虫框架,包含基本的框架代码,不同点可能在于各个站点的数据形式、爬取规则、页面解析形式。将爬取各个站点所需要的代码分开保存,爬取时再在框架中导入即可。1.配置文件配置文件内容:简单点就是针对要爬取的站点所需要的独有的信息,参数都应该写进去。可以包括该爬虫的信息,起始链接和域名,爬虫设置(settings),爬取规则(Rule),以及后面p
Duke_LH
·
2018-10-09 17:52
爬虫
Scrapy通用
爬虫笔记
— CrawlSpider和Item Loader
CrawlSpiderCrawlSpider:继承自Spider类,有两个重要的属性和方法。process_start_url():当start_urls里的Request执行下载得到Response后,执行该函数进行解析,必须返回Item或者新的Request。rules:定义爬取规则的属性,是一个包含一个或多个Rule规则的列表。通过定义的Rule可以筛选出符合我们要求的链接。通过Rule来定
Duke_LH
·
2018-10-07 12:58
爬虫
【转载】崔庆才
爬虫笔记
https://blog.csdn.net/Arise007/article/details/79349504
weixin_41399020
·
2018-10-07 10:28
爬虫基础
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他