E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
爬虫笔记
python
爬虫笔记
(一)
python爬虫中主要分为两个方面:数据获取和数据处理:首先是数据获取利用python中requests模块:在cmd中直接用pip指令安装:pipinstallrequests安装后在py文件中导入模块importrequests首先设置头部文件:头部文件主要包括cookie和User-Agent还有Referer三部分cookie:主要负责导入登录信息,储存账号密码之类,网上介绍很多,这里不多
月光如春风拂面
·
2019-09-12 10:43
python学习
python
Python
爬虫笔记
爬虫-scrawler分类网页爬虫从PC端访问网站从而爬取内容,大部分是html格式(所以耗费流量和时延较多,同时由于html结构经常变化,维护成本高),可能需要以下技能点正则表达式用于简单的定位元素XPATH来定位dom元素用于定位复杂的元素selenium通过自动化浏览器交互来定位元素js语法搭配selenium使用,一般在处理动态生成的dom或模拟动态事件使用,一些情况下需要使用seleni
超哥__
·
2019-07-29 19:37
Python
爬虫笔记
1.概述2.网页解析2.1获取网页数据defparse_url:base_url='https://www.ygdy8.com/html/gndy/rihan/list_6_'req_headers={'User-Agent':'Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132Sa
shaoyang_v
·
2019-06-16 20:42
SCRAPY
爬虫笔记
SCRAPY
爬虫笔记
WINDOWS下载安装scrapy(1)直接在Anaconda(开源的Python包管理器)上下载下载完成后在Environment中选择uninstall搜索scrapy点击安装下载完成后打开
流风回雪Allen
·
2019-05-23 14:11
Python
scrapy
爬虫笔记
-Session和Cookies
1、静态网页和动态网页静态网页:网页的内容是HTML代码编写的,文字、图片等内容均是通过写好的HTML代码来指定的,这种页面叫做静态网页。优点是访问速度快,缺点点可维护性差动态网页:动态解析URL中参数的变化,关联数据库并动态通过xml、ajax等呈现不同的页面内容。2、无状态HTTPHTTP的无状态是指HTTP协议对事务处理是没有记忆能力的,也就是说服务器不知道客户端是什么状态。即客户端访问服务
雍飞宇
·
2019-04-19 13:29
爬虫
Python
爬虫笔记
5-JSON格式数据的提取和保存
环境:python-3.6.5JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。Python中自带了json模块,直接importjson即可使用官方文档:http://docs.python.org/librar...Json
mori_d
·
2019-03-21 00:00
python
基础
爬虫笔记
注册CSDN当好挺久了,但一直没有写过什么,主要是没啥可写的(本人太菜),另外也是因为CSDN写文章看起来挺麻烦的,被吓到了。我最近在看《python爬虫开发与项目实战》,把实战项目:基础爬虫这章的代码敲过并调试通过后,感觉好像可以写一写,顺便学习一下久仰大名的markdown编辑器。以下,权当对该章节的内容做个笔记,并针对代码做了些许改动以便于在python3.7中运行,并且能够输出满意的结果
不知名小厮
·
2019-03-20 22:03
python
基础爬虫
python
爬虫
Python
爬虫笔记
4-BeautifulSoup使用
BeautifulSoup介绍与lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML数据。几种解析工具的对比工具速度难度正则表达式最快困难BeautifulSoup慢最简单lxml快简单lxml只会局部遍历,而BeautifulSoup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低
mori_d
·
2019-03-15 00:00
网页爬虫
beautifulsoup
python
Python
爬虫笔记
3-解析库Xpath的使用
当爬取到Html数据后,可以用正则对数据进行提取,但有时候正则表达式编写起来不方便,而且万一写错了,可能导致匹配失败。这时候就需要借助其他解析工具了。XML引入什么是XML?XML指可扩展标记语言(EXtensibleMarkupLanguage)XML是一种标记语言,很类似HTMLXML的设计宗旨是传输数据,而非显示数据XML的标签需要我们自行定义。XML被设计为具有自我描述性。XML是W3C的
mori_d
·
2019-02-22 00:00
python
xpath
Python
爬虫笔记
1-爬虫背景了解
学习python爬虫的背景了解。大数据时代数据获取方式如今,人类社会已经进入了大数据时代,数据已经成为必不可少的部分,可见数据的获取非常重要,而数据的获取的方式大概有下面几种。企业生产的数据,大型互联网公司有海量的用户,所以他们积累数据有天然的优势数据管理资讯公司政府/机构提供的公开数据第三方数据平台购买数据爬虫爬取数据互联网数据指数百度指数阿里指数腾讯指数新浪指数政府机构数据中华国家统计局世界银
mori_d
·
2019-02-07 00:00
python
【4】基于python的网路
爬虫笔记
(HTTP请求的各个关键字)
上一章讲到如何实战,下载图片,这一章来讲一些理论但却必须知道的东西。(摘自《python3网络爬虫开发实战》)1.请求方法常见的请求方法有两种:GET和POST。在浏览器中直接输入URL井回车,这便发起了一个GET请求,请求的参数会直接包含到URL里。例如,在百度中搜索Python,这就是一个GET请求,链接为htψs://www.baidu.corn/s?wd=Python,其中URL中包含了请
killuaZold
·
2019-01-28 14:52
爬虫
【2】基于python的网路
爬虫笔记
(实战)
上一章讲了如何通过使用pyhthon的方法实现代理访问,这一章讲进行实战,比一个网站的图片自动化下载下来目标网站:自己寻找任何一个图片网站,下面直讲解方法1.分析网站元素,通过浏览器的审查元素查看首先每张图片都有一个指向这组图的链接,要获取这个链接添加都一个列表里,然后在一个个遍历去下载对应链接里的图片,这里用get_page_num_1(url)来处理进到每组图里,不会一页显示完所有的图片,此时
killuaZold
·
2019-01-27 17:29
爬虫
【2】基于python的网路
爬虫笔记
(代理)
上一章讲了urllib.request.Request与urllib.request.urlopen方法,如何使用这两个函数访问URL,并提交data注:本章将介绍如何使用代理访问目标URL,防止在爬虫时一个IP短时间内多次访问服务器,而被服务器ban掉,仍然是属于urllib.request模块中的方法,因此以下仍然从urllib.request开始。1.1urllib.request模块url
killuaZold
·
2019-01-26 00:01
爬虫
【1】基于python的网路
爬虫笔记
1.urllib包Urllib是一个收集多个模块以使用URL的包,有一下模块:urllib.request用于打开和读取URLurllib.error包含urllib.request引发的异常urllib.parse用于分析URLurllib.robotparser用于分析robots.txt文件本章介绍urllib.request中简单方法1.1urllib.request模块urllib.re
killuaZold
·
2019-01-24 17:55
爬虫
爬虫笔记
3:requests库使用
requests库概述Python内置的urllib库在对于Cookies,登录验证,代理方面等操作太繁琐。而requests库在这些方面却做得很好!请求方法:get(),返回一个Response对象参数:url,data,headers,proxies,verity,timeout 1、url:请求的URL 2、data:模拟表单,参数是传一个字典 3、headers:请求头,伪装成浏览器
Orange_7
·
2019-01-15 15:27
爬虫
requests
Python
爬虫笔记
爬虫笔记
2:urllib库的使用
urllib概述urllib是Python内置的HTTP请求库,是Python自带的库,只要安装了Python就有了。urllib主要包含4个模块:request,error,parse,robotparser。request模块request是提供了实现请求的方法:urlopen(),返回的是HTTPResponse对象。urlopen()通过传参可以构造一个完整的请求,比较常用的参数有url,
Orange_7
·
2019-01-12 16:39
爬虫
Python
urllib
爬虫笔记
爬虫笔记
1:Python爬虫常用库
请求库:1、urllib:urllib库是Python3自带的库(Python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。2、requests:requests属于第三方库,使用起来比urllib要简单不少,且功能更加强大,是最常用的请求库。3、Selenium:Selenium属于第三方库,它是一个自动化测试工具,可以利用它自动完成浏览器的
Orange_7
·
2019-01-11 21:18
爬虫
Python
爬虫笔记
千峰Python
爬虫笔记
day01
爬虫工作流程:1.将种子URL放入队列2.从队列获取URL,模拟浏览器访问URL,抓取内容3.解析抓取的内容,将需要进一步抓取的URL放入工作队列,存储解析后的内容。(可以用文件、MySQL、SQLite、MongoDB等存储)ps:去重:Hash表,bloom过滤器抓取策略:深度优先、广度优先、PageRank(SEO干的事儿)、大站优先爬虫口头协议-robots协议,如www.taobao.c
月光白魔鬼
·
2019-01-09 23:06
Python
爬虫笔记
importos“”"有一个文件UTF-8的文本格式的文件,大小都为100G,计算UTF-8编码格式文件中的字符个数,计算机内存为128M“”"char_nums=0withopen(’./test’,‘r’,encoding=‘utf8’)asf:whileTrue:ret=f.read(1024)#这值可以再优化psutilossysifnotret:breakchar_nums+=len(r
血色橄榄枝
·
2018-12-04 08:44
Java
爬虫笔记
今天的目标是从学习OJ爬取后台数据,拿到了一个链接的接口,修改题目编号和操作码就能下载数据,但是需要登录账号的Cookie所以记录一下用HttpClient发送网络请求,并下载文件publicstaticvoiddoPostWithParam(StringpostUrl,Mapparams,Mapheaders,StringsaveDir,StringfileName)throwsExceptio
LinzhiQQQ
·
2018-12-02 10:43
Java
python
爬虫笔记
-day8
爬虫项目项目名字request+selenium爬虫项目周期项目介绍爬了XXXXX,XXX,XXX,等网站,获取网站上的XXX,XXX,XXX,数据,每个月定时抓取XXX数据,使用该数据实现了XXX,XXX,XX,开发环境linux+pycharm+requests+mongodb+redis+crontab+scrapy_redis+scarpy+mysql+gevent+celery+thre
czbkzmj
·
2018-11-26 17:00
Python
python
爬虫笔记
-day7
crawlspider的使用常见爬虫scrapygenspider-tcrawl爬虫名allow_domain指定start_url,对应的响应会进过rules提取url地址完善rules,添加RuleRule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+.htm'),callback='parse_item'),注意点:url地址不完整,cra
czbkzmj
·
2018-11-26 17:57
Python
python
爬虫笔记
-day6
mongodbmysqlredis的区别和使用场景mysql是关系型数据库,支持事物mongodb,redis非关系型数据库,不支持事物mysql,mongodb,redis的使用根据如何方便进行选择希望速度快的时候,选择mongodb或者是redis数据量过大的时候,选择频繁使用的数据存入redis,其他的存入mongodbmongodb不用提前建表建数据库,使用方便,字段数量不确定的时候使用m
czbkzmj
·
2018-11-26 17:31
Python
python
爬虫笔记
-day5
mongodb插入数据db.collecion.insert({})插入数据,_id存在就报错db.collection.save({})插入数据,_id存在会更新mongodb的更新操作db.test1000.update({name:"xiaowang"},{name:"xiaozhao"})把name为xiaowang的数据替换为{name:"xiaozhao"}db.test1000.up
czbkzmj
·
2018-11-26 16:48
Python
python
爬虫笔记
-day3
正则使用的注意点re.findall("a(.*?)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r,待匹配字符串中有反斜杠的时候,使用r能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n\s能够匹配空白字符,不仅仅包含空格,还有\t|\r\nxpath学习重点使用xpathhelper或者是chrome中的copyxpath都是从element中提取的
czbkzmj
·
2018-11-23 16:01
Python
Python
爬虫笔记
(5):scrapy之CrawlSpider的使用
CrawlSpider基础crawlspider,适合爬取那些具有一定规则的网站,它基于Spider并有一些独特属性:rules:是Rule对象的集合,用于匹配目标网站并排除干扰parse_start_url:用于爬取起始响应,必须要返回Item,Request中的一个。因为rules是Rule对象的集合,所以这里也要介绍一下Rule。它有几个参数:link_extractor、callback=
坐下等雨
·
2018-11-17 20:23
Python
爬虫笔记
(4):利用scrapy爬取豆瓣电影250
在网上阅读有关scrapy的教程也有一段时间了,可是一直没能真正写出能爬出数据的代码。。。今天趁着有点时间,赶快实战一下吧!目标:豆瓣电影250为啥选它呢,因为网上有关爬取豆瓣电影的教程多呀,可以很容易的复刻他人的代码,少走弯路。可是,可是,万万没想到的是,这次的写爬虫过程中我几乎把能踩的坑全踩个遍,菜鸟的烦恼~。~同时我也明白了,人家的以前写的代码,搁到现在未必全部适用。先把写的流程过一下,然后
坐下等雨
·
2018-11-10 02:39
Python 网络
爬虫笔记
9 -- Scrapy爬虫框架
Python网络
爬虫笔记
9–Scrapy爬虫框架Python网络爬虫系列笔记是笔者在学习嵩天老师的《Python网络爬虫与信息提取》课程及笔者实践网络爬虫的笔记。
Wang_Jiankun
·
2018-11-06 14:53
Python
网络爬虫
python
网络爬虫
Scrapy框架
Scrapy常用命令
爬虫笔记
(正则与Beautiful Soup对比实现)
爬虫概述通俗的讲,爬虫就是模拟浏览器,向服务器发出请求,获取到服务器返回的内容,再挑出我们想要的内容保存下来。所以,写爬虫主要分为三步:1.发出请求2.解析页面3.保存数据一、发出请求最基础的HTTP库有urllib,reuests首先介绍urllib1.1urllib的使用urllib主要有四个模块,request,error,parse,robotparserrequest:最基本的HTTP请
飞翔_e503
·
2018-10-26 22:23
Scrapy通用
爬虫笔记
—配置文件与配置加载
Scrapy通用爬虫个人理解就是针对一系列相似的站点建立一个爬虫框架,包含基本的框架代码,不同点可能在于各个站点的数据形式、爬取规则、页面解析形式。将爬取各个站点所需要的代码分开保存,爬取时再在框架中导入即可。1.配置文件配置文件内容:简单点就是针对要爬取的站点所需要的独有的信息,参数都应该写进去。可以包括该爬虫的信息,起始链接和域名,爬虫设置(settings),爬取规则(Rule),以及后面p
Duke_LH
·
2018-10-09 17:52
爬虫
Scrapy通用
爬虫笔记
— CrawlSpider和Item Loader
CrawlSpiderCrawlSpider:继承自Spider类,有两个重要的属性和方法。process_start_url():当start_urls里的Request执行下载得到Response后,执行该函数进行解析,必须返回Item或者新的Request。rules:定义爬取规则的属性,是一个包含一个或多个Rule规则的列表。通过定义的Rule可以筛选出符合我们要求的链接。通过Rule来定
Duke_LH
·
2018-10-07 12:58
爬虫
【转载】崔庆才
爬虫笔记
https://blog.csdn.net/Arise007/article/details/79349504
weixin_41399020
·
2018-10-07 10:28
爬虫基础
【小白学
爬虫笔记
】HTTP0.9 HTTP1.0 HTTP1.1 HTTP/2
一、浮光掠影1.HTTP0.9只接受GET一种请求方法,没有在通讯中指定版本号,不支持请求头。不支持POST方法,所以客户端无法向服务器传递太多信息。2.HTTP1.0RFC194560页1996年3.HTTP1.1RFC2616176页1999年4.HTTP/2原名HTTP/2.0RFC7540/75412015年5月15日网站首页加载需要下载的数据量增加,超过1.9MB,平均每个页面为完成显示
麒麟楚庄王
·
2018-09-01 17:08
python笔记之
爬虫笔记
(一)——自建小型ip池以及mysql数据库的简单运用
前言:最近在爬取知乎的资料时,无奈在测试的时候一直频繁访问,导致IP被封(被封的提示为:))于是在多次提取无果以后,如果购买代理不划算啊,刚好最近学了mysql数据库,为何不自建一个小型的ip代理池呢,顺便做个小项目练练手,供个人获取数据应该是够了,自力更生,丰衣足食。废话就不说了,直接上正文一、寻找代理网站提供的几十个免费代理。像西刺代理,百度一抓一大把,一般选择一个就行了,选择一个合适的sta
华山论健
·
2018-08-30 23:04
python笔记之爬虫笔记
网络
爬虫笔记
(Day9)——初识Scrapy
爬虫步骤:分析需求获取网页的URL下载网页内容(Downloader下载器)定位元素位置,获取特定的信息(Spiders蜘蛛)存储信息(ItemPipeline,一条一条从管里传输)队列存储(Scheduler调度器)Scrapy:学习文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html首先,Spiders给我们一个初始的URL,Sp
甜瓜黍叔
·
2018-08-23 19:56
网络爬虫
网络
爬虫笔记
(Day9)——初识Scrapy
爬虫步骤:分析需求获取网页的URL下载网页内容(Downloader下载器)定位元素位置,获取特定的信息(Spiders蜘蛛)存储信息(ItemPipeline,一条一条从管里传输)队列存储(Scheduler调度器)Scrapy:学习文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html首先,Spiders给我们一个初始的URL,Sp
甜瓜黍叔
·
2018-08-23 19:56
网络爬虫
网络
爬虫笔记
(Day8)——BeautifulSoup
BeautifulSoup我们到网站上爬取数据,需要知道什么样的数据是我们想要爬取的,什么样的数据是网页上不会变化的。BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup自动将输入文档转换为Unicode编码,输出
甜瓜黍叔
·
2018-08-23 19:33
网络爬虫
网络
爬虫笔记
(Day8)——BeautifulSoup
BeautifulSoup我们到网站上爬取数据,需要知道什么样的数据是我们想要爬取的,什么样的数据是网页上不会变化的。BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup自动将输入文档转换为Unicode编码,输出
甜瓜黍叔
·
2018-08-23 19:33
网络爬虫
网络
爬虫笔记
(Day7)——Selenium
首先下载chromedriver将其放入Python运行环境下,然后再去pip安装selenium。最简单的结构代码如下:fromseleniumimportwebdriver#----------------------不打开浏览器窗口-------------------------option_chrome=webdriver.ChromeOptions()option_chrome.add
甜瓜黍叔
·
2018-08-22 09:33
网络爬虫
网络
爬虫笔记
(Day5)——链家
注意:请不要爬取过多信息,仅供学习。分析:业务需求分析......(此例为住房信息...)查找相关网页信息(以链家为例)分析URL,查找我们需要的内容,建立连接定位数据存储数据首先进入链家网首页,点击租房,F12检查网页,查找我们需要的信息。如图:第一页url:https://bj.lianjia.com/zufang/第二页url:https://bj.lianjia.com/zufang/pg
甜瓜黍叔
·
2018-08-17 17:34
网络爬虫
网络
爬虫笔记
(Day4)
爬取今日头条图集进入今日头条首页:https://www.toutiao.com/步骤:1、查看网页,查找我们需要的URL,分析URL2、获取网页内容,分析内容3、定位我们需要的内容4、将数据存储在搜素框输入要搜索的内容(例如:街拍),然后选择图集,F12检查,查看Ajax请求:第一次Ajax请求:再往下拉,触发第二次、第三次Ajax请求:(下图第二次Ajax请求)分析URL后发现发现规律只有of
甜瓜黍叔
·
2018-08-16 22:47
网络爬虫
网络
爬虫笔记
(Day4)
爬取今日头条图集进入今日头条首页:https://www.toutiao.com/步骤:1、查看网页,查找我们需要的URL,分析URL2、获取网页内容,分析内容3、定位我们需要的内容4、将数据存储在搜素框输入要搜索的内容(例如:街拍),然后选择图集,F12检查,查看Ajax请求:第一次Ajax请求:再往下拉,触发第二次、第三次Ajax请求:(下图第二次Ajax请求)分析URL后发现发现规律只有of
甜瓜黍叔
·
2018-08-16 22:47
网络爬虫
爬虫_糗事百科(scrapy)
糗事百科scrapy
爬虫笔记
1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据2.提取出来的数据,是一个
MARK+
·
2018-08-16 16:00
网络
爬虫笔记
(Day3)
首先分析雪球网https://xueqiu.com/#/property第一次进去后,第一次Ajax请求得到的是若下图所示的max_id=-1,count=10。然后往下拉,第二次Ajax请求,如下图;发现URL里面就max_id和count不同,max_id为前一次Ajax的最后一条数据的id,以后的每次请求都是count=15,故我需要对url进行拼接。URL拼接代码如下:url='https
甜瓜黍叔
·
2018-08-15 21:07
网络爬虫
网络
爬虫笔记
(Day3)
首先分析雪球网https://xueqiu.com/#/property第一次进去后,第一次Ajax请求得到的是若下图所示的max_id=-1,count=10。然后往下拉,第二次Ajax请求,如下图;发现URL里面就max_id和count不同,max_id为前一次Ajax的最后一条数据的id,以后的每次请求都是count=15,故我需要对url进行拼接。URL拼接代码如下:url='https
甜瓜黍叔
·
2018-08-15 21:07
网络爬虫
网络
爬虫笔记
(Day2)
爬取个人人人主页的代码:首先用最原始的方法进行,可以看出这样写代码,比较麻烦,重复代码很多:fromurllibimportrequest,parseurl='http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018721913553'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0
甜瓜黍叔
·
2018-08-14 21:04
网络爬虫
网络
爬虫笔记
(Day1)
Day1爬虫的过程1.首先需要了解业务需求2.根据需求,寻找网站3.将网站数据获取到本地(可以通过urllib,requests等包)4.定位数据(rexpathcssjson等)5.存储数据(mysqlredis文件格式)最简单的爬虫结构fromurllibimportrequesturl='http://www.baidu.com'response=request.urlopen(url)in
甜瓜黍叔
·
2018-08-13 19:14
网络爬虫
Python
爬虫笔记
(八)——Scrapy官方文档阅读——Scrapy常用命令集锦
#在project_dir目录下创建名为project_name的爬虫项目,如果不指定project_dir,默认目录名为项目名称scrapystartproject[project_dir]#获得可用命令集锦scrapy-h#查看某条命令如何使用scrapy-h#使用模板创建一个爬虫(注意是爬虫,即包含有爬虫代码的文件,不是爬虫项目,一个爬虫项目包含有许多文件,其中就包括包含爬虫代码的文件)sc
菜到怀疑人生
·
2018-08-12 08:42
crawler
python爬虫
Python
爬虫笔记
(十四)——Scrapy官方文档阅读——Selector
Scrapy的Selector用于提取数据,基于lxml实现,两者的效率相差不多下列代码均针对该html文本:ExamplewebsiteName:Myimage1Name:Myimage2Name:Myimage3Name:Myimage4Name:Myimage5使用selector构造selector:Scrapy的selector是Selector类的实例,通过text(html文本)或是
菜到怀疑人生
·
2018-08-12 08:39
crawler
python爬虫
Python
爬虫笔记
(十二)——Scrapy官方文档阅读笔记——request与response
Request和Response对象用于爬取网站Request对象Request对象代表HTTP请求,通常由Spider生成,由Downloader执行发送,然后由Downloader生成返回Response对象__init__:构造函数,常用参数:url:请求的urlcallback:用于处理response的函数,如果没有指定,scrapy默认使用parse函数method:HTTP请求的方法
菜到怀疑人生
·
2018-08-10 14:49
crawler
python爬虫
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他