E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
爬虫系列
爬虫系列
(三十五):处理规范文字
你要处理的大多数文字都是比较干净、格式规范的。格式规范的文字通常可以满足一些需求,不过究竟什么是“格式混乱”,什么算“格式规范”,确实因人而异。通常,格式规范的文字具有以下特点:使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)•虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点排列整齐,没有歪歪斜斜的字没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘文字的一些格式问题在图片
文子轩
·
2019-12-16 09:44
【
爬虫系列
】- 初识爬虫
几年前由于互联网和大数据的火热,于是之前一直隐藏于黑暗中的爬虫也跟着走近了大众的视野……爬虫在互联网上无处不在,国内外的各大搜索引擎都是基于爬虫抓取信息后检索的,所以说“互联网上50%的流量都是爬虫创造的”这一点都不为过。大家对于爬虫可以说是既熟悉又陌生,几乎每天大家的工作或生活中都会直接或间接使用到爬虫,可是它看不到摸不着,又不清楚它到底是什么!此外,公众号里面有许多测试童鞋,当开发技术到达一定
测试开发栈
·
2019-12-16 08:57
Python爬虫的起点
爬虫系列
文章的第一篇,猪哥便为大家讲解了HTTP原理,很多人好奇:好好的讲爬虫和HTTP有什么关系?其实我们常说
猪哥66
·
2019-12-14 16:01
Python爬虫的概括以及实战
爬虫系列
文章的第一篇,猪哥便为大家讲解了HTTP原理,很多人好奇:好好的讲爬虫和HTTP有什么关系?其实我们常说的爬虫(也叫网络爬虫)就是使用一些网络协议发起的网络请求,而目前使用最多的网络
Python学习啊
·
2019-12-14 13:00
Python爬虫的概括以及实战
爬虫系列
文章的第一篇,猪哥便为大家讲解了HTTP原理,很多人好奇:好好的讲爬虫和HTTP有什么关系?其实我们常说的爬虫(也叫网络爬虫)就是使用一些网络协议发起的网络请求,而目前使用最多的网络
Python学习啊
·
2019-12-14 13:00
Python学习教程:这里是Python爬虫的起点,抢占资源啦
在这里插入图片描述
爬虫系列
文章的第一篇,这里便为大家讲解了HTTP原理,很多人好奇:好好的讲爬虫和HTTP有什么关系?
EchoPython
·
2019-12-08 18:00
node爬虫之路(一)
所以写一个node
爬虫系列
,记录我的爬虫之路,感兴趣的同学可以跟着一起学。反正我也是刚开始学,我会从零基础的角度来写这个系列,自己也会慢慢去摸索然后分享给大家。
隔壁老樊啊
·
2019-11-24 22:00
科普系列:Cookie起源与发展
一、诞生背景
爬虫系列
教程的第一篇:HTTP详解中我们便说过HTTP的五大特点,而其中之一便是:无状态HTTP无状态:服务器无法知道两个请求是否来自同一个浏览器,即
千锋IJava
·
2019-11-18 15:57
Cookie
搜狗微信采集 —— python
爬虫系列
一
前言:一觉睡醒,发现原有的搜狗微信爬虫失效了,网上查找一翻发现10月29日搜狗微信改版了,无法通过搜索公众号名字获取对应文章了,不过通过搜索主题获取对应文章还是可以的,问题不大,开搞!目的:获取搜狗微信中搜索主题返回的文章。涉及反爬机制:cookie设置,js加密。完整代码已上传本人github,仅供参考。如果对您有帮助,劳烦看客大人给个星星!进入正题。流程一:正常套路流程打开搜狗微信,在搜索框输
hyonline
·
2019-11-07 16:00
爬虫系列
(十三):JSON
JSONjson简单说就是javascript中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构1.对象:对象在js中表示为{}括起来的内容,数据结构为{key:value,key:value,...}的键值对的结构,在面向对象的语言中,key为对象的属性,value为对应的属性值,所以很容易理解,取值方法为对象.key获取属性值,这个属性值的类型可以是数字
文子轩
·
2019-11-07 01:31
Stata连享会-
爬虫系列
之:爬取必胜客
2019暑期Stata现场班,7.17-26日,北京,连玉君+刘瑞明主讲 Stata与R:好基友作者:游万海(福州大学)Stata连享会:知乎||码云Stata连享会精品专题||精彩推文 连享会Stata爬虫和文本分析系列推文:Stata:正则表达式和文本分析背景爬虫之工具:R,Stata和Python统计计量软件众多,例如R,Stata和python等,每个软件都有自己的优点和缺点。就爬虫而
stata连享会
·
2019-11-06 08:32
爬虫系列
番外篇(一):公开课
本系列是一些趣味性的爬虫案例实践以及一些趣味知识点总结,希望你能学的轻松的同时,也能获取到你想要的知识点!快乐学习,知识始终是令人兴奋的!(项目案例源码:https://github.com/yangge11/scrapy_pro)蓝奏云网盘信息抓取课程声明:本课程为爬虫兴趣课程,针对出现在蓝奏云网盘上的资源文件,进行爬虫采集,纯粹技术学习交流,切勿用作它用!爬虫开发四部曲:确定要抓取的数据来源确
taczeng
·
2019-11-05 11:33
爬虫小白从入门到精通
详解 python3 urllib
图片来自unsplash本文是
爬虫系列
文章的第一篇,主要讲解Python3中的urllib库的用法。urllib是Python标准库中用于网络请求的库。
猴哥Yuri
·
2019-11-04 08:44
python
爬虫系列
之数据的存储(一):json库的使用
在上一篇文章里我们讲了xpath写法的问题还以爬取我的文章信息写了示例,但是在上一篇中我们只是爬取并打印了信息,并没有对信息进行保存。实际应用中爬取到的信息肯定是需要保存到本地的。保存信息的方式有数据库和文件的形式,数据库我们后面再讲,现在让我们先看看怎么把信息保存到文件里。这里我们主要讲讲将数据保存为json格式和csv格式,这就要用到两个库json库和csv库,这两个库都是python自带的库
渔父歌
·
2019-10-31 06:12
2019基于python的网络
爬虫系列
,爬取糗事百科
**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!**废话不多说,直接上代码。为了方便提取数据,我用的是beautifulsoup库和requests``##具体代码如下```imp
chenXSSX
·
2019-10-17 15:00
Java 多线程爬虫及分布式爬虫架构探索
这是Java
爬虫系列
博文的第五篇,在上一篇Java爬虫服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是IP被封及其对应办法。
平头哥的技术博文
·
2019-10-16 09:00
Java 多线程爬虫及分布式爬虫架构探索
这是Java
爬虫系列
博文的第五篇,在上一篇Java爬虫服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是IP被封及其对应办法。
平头哥的技术博文
·
2019-10-16 09:02
Java
Python3
爬虫系列
之urllib库
Python3爬虫之urllib库基本介绍最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据,在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request库上urlopen函数示例resp=request.urlopen('http://www.baidu.com')print(resp.read())源码返回值h
JunSIr_deCp
·
2019-10-15 23:19
ava 爬虫服务器被屏蔽,不要慌,咱们换一台服务器
这是Java
爬虫系列
博文的第四篇,在上一篇Java爬虫遇上数据异步加载,试试这两种办法!中,我们从内置浏览器内核和反向解析法两个角度简单的聊了聊关于处理数据异步加载问题。
fsgrgs
·
2019-10-15 14:31
Java
Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器
这是Java
爬虫系列
博文的第四篇,在上一篇Java爬虫遇上数据异步加载,试试这两种办法!中,我们从内置浏览器内核和反向解析法两个角度简单的聊了聊关于处理数据异步加载问题。
平头哥的技术博文
·
2019-10-15 12:00
Java 爬虫遇上数据异步加载,试试这两种办法!
这是Java
爬虫系列
博文的第三篇,在上一篇Java爬虫遇到需要登录的网站,该怎么办?)
平头哥的技术博文
·
2019-10-15 05:23
ajax
网页爬虫
java
Java 爬虫遇上数据异步加载,试试这两种办法!
这是Java
爬虫系列
博文的第三篇,在上一篇Java爬虫遇到需要登录的网站,该怎么办?
平头哥的技术博文
·
2019-10-12 14:00
Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器
这是Java
爬虫系列
博文的第四篇,在上一篇Java爬虫遇上数据异步加载,试试这两种办法!中,我们从内置浏览器内核和反向解析法两个角度简单的聊了聊关于处理数据异步加载问题。
平头哥的技术博文
·
2019-10-12 09:36
Java
Java 爬虫遇到需要登录的网站,该怎么办?
原文链接:https://www.cnblogs.com/jamaler/p/11645569.html这是Java网络
爬虫系列
博文的第二篇,在上一篇Java网络爬虫,就是这么的简单中,我们简单的学习了一下如何利用
顾思鸣
·
2019-10-10 14:02
Java 爬虫遇到需要登录的网站,该怎么办?
原文链接:https://www.cnblogs.com/jamaler/p/11645569.html在这里插入代码片```这是Java网络
爬虫系列
博文的第二篇,在上一篇Java网络爬虫,就是这么的简单中
xiaqingting
·
2019-10-10 10:24
爬虫篇 | Python爬虫学前普及
原文链接:http://www.hqwx.com/web_news/html/2019-10/15706028521165.html【摘要】最近整理一个
爬虫系列
方面的文章,不管大家的基础如何,我从头开始整一个
爬虫系列
方面的文章
python之光
·
2019-10-10 09:18
编程
程序员
Java 爬虫遇到需要登录的网站,该怎么办?
这是Java网络
爬虫系列
博文的第二篇,在上一篇Java网络爬虫,就是这么的简单中,我们简单的学习了一下如何利用Java进行网络爬虫。
平头哥的技术博文
·
2019-10-10 07:00
Java 爬虫遇上数据异步加载,试试这两种办法!
这是Java
爬虫系列
博文的第三篇,在上一篇Java爬虫遇到需要登录的网站,该怎么办?
平头哥的技术博文
·
2019-10-10 06:16
java
爬虫
爬虫
数据异步加载
Java
selenium
Java
Java 网络爬虫,就是这么的简单
这是Java网络
爬虫系列
文章的第一篇,如果你还不知道Java网络
爬虫系列
文章,请参看学Java网络爬虫,需要哪些基础知识。
平头哥的技术博文
·
2019-10-09 10:00
Java 爬虫遇到需要登录的网站,该怎么办?
这是Java网络
爬虫系列
博文的第二篇,在上一篇Java网络爬虫,就是这么的简单中,我们简单的学习了一下如何利用Java进行网络爬虫。
平头哥的技术博文
·
2019-10-09 09:24
Java
Java 网络爬虫,就是这么的简单
这是Java网络
爬虫系列
文章的第一篇,如果你还不知道Java网络
爬虫系列
文章,请参看学Java网络爬虫,需要哪些基础知识。
平头哥的技术博文
·
2019-10-08 08:43
Java爬虫
爬虫
jsoup
正则表达式
网络爬虫
Java
进阶的
爬虫系列
——贴吧爬取术
原文链接:https://blog.csdn.net/ppter_zhang/article/details/80427988进阶的
爬虫系列
——不得不说的贴吧爬取术感谢各位能点开我的这篇博文,才开始写,
奋斗吧穷孩子
·
2019-09-07 22:22
爬虫
一、通过Requests模块获取网页内容并使用BeautifulSoup进行解析
这是Python
爬虫系列
文章第一篇首先列一下爬虫的四个基本步骤1.获取数据2.解析数据3.提取数据4.存储数据下面从最基本的获取数据开始讲起1、获取内容importrequestsresponse=requests.get
liusuxilinyue
·
2019-09-02 11:39
Python爬虫
python
爬虫系列
(4)- 提取网页数据(正则表达式、bs4、xpath)
python爬虫常见流程.jpg记录提取网页数据(正则表达式、bs4、xpath)一些常用方法和使用样板。就永恒君使用经验来说,bs4、xpath比较容易上手但是功能有限,正则比较晦涩难懂但是功能超级强大。简介正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。re模块使Python语言拥有全部的正则表达式功能。importrepattern=re.comp
永恒君的百宝箱
·
2019-08-12 23:20
Cendertron,动态爬虫的滑动验证码绕过策略
Cendertron,动态爬虫的滑动验证码绕过策略在Cendertron安全动态
爬虫系列
中我们依次介绍了安全爬虫的设计、爬虫的集群搭建,本篇则是讨论有关于滑动验证码的绕过策略。
王下邀月熊_Chevalier
·
2019-07-31 00:00
网页爬虫
node.js
Cookie起源与发展
一、诞生背景
爬虫系列
教程的第一篇:HTT
猪哥66
·
2019-07-17 18:00
Java
爬虫系列
之实战:爬取酷狗音乐网 TOP500 的歌曲(附源码)
Java
爬虫系列
之实战:爬取酷狗音乐网TOP500的歌曲(附源码)在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例:Java
爬虫系列
二:使用HttpClient抓取页面
JAVA开发老菜鸟
·
2019-05-27 22:00
Java爬虫
Java
爬虫系列
三:使用Jsoup解析HTML
Java
爬虫系列
三:使用Jsoup解析HTML在上一篇随笔《Java
爬虫系列
二:使用HttpClient抓取页面HTML》中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步
JAVA开发老菜鸟
·
2019-05-25 16:00
Java爬虫
Java
爬虫系列
:使用HttpClient抓取页面HTML
今天就来介绍下抓取html内容的工具:HttpClient。围绕下面几个点展开:1.什么是HttpClient2.HttpClient入门实例3.复杂应用4.结束语一、什么是HttpClient度娘说:HttpClient是ApacheJakartaCommon下的子项目,可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。以下列出的是
梦想编程
·
2019-05-23 14:36
Java
爬虫系列
二:使用HttpClient抓取页面HTML
Java
爬虫系列
二:使用HttpClient抓取页面HTML爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容。
JAVA开发老菜鸟
·
2019-05-23 06:00
Java爬虫
Java
爬虫系列
一:写在开始前
Java
爬虫系列
一:写在开始前最近在研究Java爬虫,小有收获,打算一边学一边跟大家分享下,在干货开始前想先跟大家啰嗦几句。
JAVA开发老菜鸟
·
2019-05-22 21:00
Java爬虫
Python
爬虫系列
教程一爬取批量百度图片
Python
爬虫系列
教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198很久之前就学习了Python的爬虫了,也用来做过一些项目
长缨缚苍龙
·
2019-05-15 10:43
爬虫
python
爬虫系列
(三)
常用正则表达式如果没猜错的话当大家看了我写的python
爬虫系列
二的话我想你们心中一定有千万匹马儿跑过,其实我想说的是关于上篇表达式的内容你们只需要了解一下即可因为上篇主要是为了引入一些概念来解释爬虫爬的到底是啥
FUTEROX
·
2019-05-13 13:49
学习笔记
python学习教程笔记
学习教程
python
爬虫系列
(一)
前言关于python爬虫目前有两个主流的库一个是urllib和requests在python3中urllib2已经没有了,取而代之的是urllib.request。这里的话我将首先介绍urllib.request的使用。之后我再介绍request,我本人是打算做一个系列的爬虫教程不仅仅包括入门还有实战进阶所以我希望浏览我写的博客时可以按顺序浏览学习。那么废话不多说奉上名言成功没有偶然。即便有些胜利
FUTEROX
·
2019-05-11 21:29
学习笔记
python学习教程笔记
java
爬虫系列
第五讲-如何使用代理防止爬虫被屏蔽?
本文内容1、分析一下爬虫存在的问题及解决方案2、webmagic中代理的使用3、目前市面上一些比较好用的代理服务器存在的问题我们在使用爬虫过程中,大多都会遇到这样的问题:突然某一天爬虫爬不到内容了,目标网站直接返回404或者其他错误信息,这说明我们的爬虫被目标网站给屏蔽了。爬虫被屏蔽的原因1、爬虫大量请求对对目标服务器造成了压力2、爬虫采集目标网站有价值的内容到处传播,对目标网站造成了不良影响出于
路人甲Java
·
2019-04-23 11:00
java
爬虫系列
第三讲-获取页面中绝对路径的各种方法
在使用webmgiac的过程中,很多时候我们需要抓取连接的绝对路径,总结了几种方法,示例代码放在最后。以和讯网的一个页面为例:xpath方式获取log.info("{}",page.getHtml().xpath("//div[@id='cyldata']").links().all());log.info("{}",page.getHtml().xpath("//div[@id='cyldata
路人甲Java
·
2019-04-22 11:00
java
爬虫系列
第二讲-爬取最新动作电影《海王》迅雷下载地址
1.目标使用webmagic爬取动作电影列表信息爬取电影《海王》详细信息【电影名称、电影迅雷下载地址列表】2.爬取最新动作片列表获取电影列表页面数据来源地址访问http://m.ady01.com/rs/film/list/1/1,F12开发者模式中找到页面数据来源地址地址是:http://m.ady01.com/rs/film/listJson/1/1访问:http://m.ady01.com/
路人甲Java
·
2019-04-21 14:00
java
爬虫系列
第二讲-爬取最新动作电影《海王》迅雷下载地址
1.目标使用webmagic爬取动作电影列表信息爬取电影**《海王》**详细信息【电影名称、电影迅雷下载地址列表】2.爬取最新动作片列表获取电影列表页面数据来源地址访问http://m.ady01.com/rs/film/list/1/1,F12开发者模式中找到页面数据来源地址地址是:http://m.ady01.com/rs/film/listJson/1/1访问:http://m.ady01.
路人甲Java
·
2019-04-21 14:22
java爬虫系列
java
爬虫系列
第一讲-爬虫入门
1.概述java
爬虫系列
包含哪些内容?
路人甲Java
·
2019-04-21 11:00
java
爬虫系列
第一讲-爬虫入门(爬取动作片列表)
1.概述java
爬虫系列
包含哪些内容?
路人甲Java
·
2019-04-20 12:02
java爬虫系列
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他