E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Java爬虫
java爬虫
爬取百度图片
java爬虫
实现按照关键词爬取图片,并在下载在指定目录下。
machong_mc
·
2017-04-18 15:57
java开发
java 爬虫技术---上
简单分析了需求之后,开始进行技术选型,
java爬虫
也是有很多种类的,可以使用比较成熟的框架。我这里使用的是jsoup,简单粗暴的一种技术。
追寻free
·
2017-03-30 16:23
爬虫
Java爬虫
爬取代理ip
publicclassGetIpAddressUtil{ publicstaticMapgetIpAddress(){ Mapmaps=newHashMap(); for(inti=1;i<20;++i){ try{ Documentdoc=Jsoup.connect("http://www.xicidaili.com/nn/"+i) .data("query","Java") .userAgen
TyroneRenekton
·
2017-03-16 20:00
java
爬虫
网络爬虫,
Java爬虫
,信息抓取的实现
一:介绍网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站.样子好像一只大蜘蛛.当人们在网络上(如google)搜索关键字时,其实就是比对数据库中的内容,找出与用户相符合的.网络爬虫程序的质量决定了搜索引擎的能力,如google的搜索引擎明显要比百度好,就是因为它的网络爬虫程序高效,编程结构好.二:java通过jsoup抓
vampire2777
·
2017-03-15 19:03
Java
Java爬虫
入门笔记
今天一天都在想怎么爬到我需要的数据,然后用Java代码实现了一下。以前只是知道正则表达式很强大,但是看起来头晕,所以也懒得去看。然后突然要爬数据,看到别人写的例子,一大堆的正则表达式,所以硬着头皮也去入了一个门。附上参考网站,很给力的正则学习,30分钟真能入门。正则表达式30分钟入门教程1需求:比如要从这样一个网页上抓取数据http://map.baidu.com/detail?qt=ninf&f
带着天使反上帝
·
2017-03-14 20:26
java
爬虫
正则表达式
java笔记(杂)
项目实践
知乎爬虫web系统
web系统知乎爬虫web系统一pazhihu简介二项目源代码下载三启动说明四界面功能展示五类层次模块设计搜索模块注册登录模块关注管理模块邮件模块六待解决问题一、pazhihu简介“爬知乎”是一个可以利用
java
CoderLim
·
2017-02-16 01:21
Java练习项目
知识体系/图谱简介
80%E6%9C%AF%E4%BD%93%E7%B3%BBjava知识树-http://lib.csdn.net/litao0942051021/chart/Java%E5%AD%A6%E4%B9%A0
java
ShareUs
·
2017-01-25 10:00
听说你会Java?来看看这几个开源项目
今天小编就推荐几个优秀的开源
JAVA爬虫
项目,希望能救救程序员。
众致科技
·
2017-01-19 14:51
java爬虫
(使用jsoup设置代理,抓取网页内容)
jsoup简介jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下:1.从一个URL,文件或字符串中解析HTML;2.使用DOM或CSS选择器来查找、取出数据;3.可操作HTML元素、属性、文本;需要使用的是jsoup-1.7.3.jar包如
qq_21439971
·
2016-12-28 16:13
java
Java爬虫
爬取360doc个人图书馆
然后我就用Jsoup把想要的爬下来了。Documentdoc=Jsoup.connect("http://www.360doc.com/content/13/1210/01/1956846_335862874.shtml").data("query","Java").userAgent("Mozilla").cookie("auth","token").timeout(3000).get();El
JaTomy
·
2016-11-14 16:47
JavaWeb
Java爬虫
(3)——拼接url抓取“加载更多”内容
Java爬虫
(3)——拼接url抓取“加载更多”内容上期我们说到phantomjs可模拟点击按钮行为,通过点击完所有”加载更多”按钮来抓所有内容。
乔的天然呆
·
2016-11-13 20:39
java
java爬虫
入门实战
爬虫百度百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫的实质,就是获取静态数据,并对此进行分析从而获取对我们有价值的数据,从中可见,最重要的就是分析数据这一部分。数据的格式有json,xml,html等等,在此我们就分析链家网的ht
JeffCoding
·
2016-11-11 22:18
Java基础
java爬虫
Gecco工具抓取新闻实例
最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象。抓取HTML节点通过像Jquery选择器一样选择节点,非常方便,Gecco代码主要利用注解实现来实现URL匹配,看起来比较简洁美观。添加Maven依赖com.geccocrawlergecco1.0.8编写抓取
赵侠客
·
2016-10-28 11:19
java爬虫
之基于httpclient的简单Demo(二)
延续demo1的
java爬虫
的2种爬取方式(HTTP||Socket)简单Demo(一),demo2出炉啦,大家想学爬虫都可以从这个网盘学习哦:https://pan.baidu.com/s/1pJJrcqJ
ACLewis
·
2016-10-19 17:15
Java
-----爬虫相关-----
Java爬虫
抓取视频网站下载链接
本篇文章抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中。这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/)。本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接。一原理简介其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,如果不对这些标签加以取舍的话,
pangfc
·
2016-10-19 12:17
Java爬虫
实战抓取一个网站上的全部链接
前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫。一算法简介程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历。具体实现上使用了Map,键
pangfc
·
2016-10-19 11:49
Java爬虫
(webmagic)
webMaigc学习地址(强烈推荐):http://www.oschina.net/p/webmagic本人项目案例:http://blog.csdn.net/u012385190/article/details/53393805本篇博客只是整理笔记。webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计
俺就不起网名
·
2016-10-18 16:00
爬虫
java
爬虫
java爬虫
的2种爬取方式(HTTP||Socket)简单Demo(一)
最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣。这里自己找了一个教程,这一次写的是基于Socket和http方式爬取.小项目结构图:(1)SystemContorl类,实现整个爬虫任务调度,爬取任务packagecom.simple.control;importcom.simple.Level.TaskLevel;importcom.simpl
ACLewis
·
2016-10-16 11:24
Java
-----爬虫相关-----
Java爬虫
——phantomjs抓取ajax动态加载网页
(说好的第二期终于来了>_<)1、phantomjs介绍phantomjs实现了一个无界面的webkit浏览器。虽然没有界面,但dom渲染、js运行、网络访问、canvas/svg绘制等功能都很完备,在页面抓取、页面输出、自动化测试等方面有广泛的应用。官网:http://phantomjs.org/2、问题分析上期采用CloseableHttpClient未能抓取到我们想要的天猫价格,是因为这个价
乔的天然呆
·
2016-10-02 01:28
java
java爬虫
实现数据抓取
这篇博客我们将用java来实现基本的爬虫数据抓取操作,基本思路就是通过java访问url,然后拿到返回的html文档,并用jsoup解析。首先我们来看下需要抓取的页面,以我自己的csdn博客列表页面为例。我们将每篇博客的链接地址,文章标题以及摘要抓取出来。下面是代码实现:publicclassWhxCsdnCrawler{publicstaticvoidmain(String[]args){Str
hx_wang007
·
2016-09-12 21:58
java
Java爬虫
信息抓取的实现
今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就能知道怎么用了:Documentdoc=Jsoup.connect("http://www.oschina.net/").data(
鸿洋_
·
2016-09-07 10:56
关于
java爬虫
与python爬虫
前言很多人说学习数据挖掘,先从爬虫入手。接触了大大小小的项目后,发现数据的获取是数据建模前的一项非常重要的活儿。在此,我需要先总结一些爬虫的流程,分别有python版的以及java版的。url请求java版的代码如下:publicStringcall(Stringurl){Stringcontent="";BufferedReaderin=null;try{URLrealUrl=newURL(ur
Quincy1994
·
2016-09-06 17:00
数据挖掘
福利贴——爬取美女图片的
Java爬虫
小程序代码
自己做的一个
Java爬虫
小程序废话不多说,先上图。文件夹命名是用标签缩写,如果大家看得不顺眼可以等下载完成后手动改一下,比如像有强迫症的我一样。。。
hotace_c
·
2016-08-28 10:07
JavaSE
Java爬虫
到一些总结和心得
最近做了很多关于爬虫到项目,写点感想,以后查询1.请求http连接,并保存内容,catch不同到exception进行反爬处理int countUrl=0; public String getOneHtml(String htmlurl,String encoding,String cookie) throws IOException, InterruptedExceptio
leaderway
·
2016-08-22 01:49
爬虫
Java爬虫
框架WebMagic的使用总结
最近,项目做一个公司新闻网站,分为PC&移动端(h5),数据来源是从HSZX与huanqiu2个网站爬取,主要使用java编写的WebMagic作为爬虫框架,数据分为批量抓取、增量抓取,批量抓当前所有历史数据,增量需要每10分钟定时抓取一次,由于从2个网站抓取,并且频道很多,数据量大,更新频繁;开发过程中遇到很多的坑,今天腾出时间,感觉有必要做以总结。工具说明:1、WebMagic是一个简单灵活的
成长中的大牛
·
2016-08-15 20:59
Java
java爬虫
简单实现
原文链接:http://www.cnblogs.com/Vcanccc/p/5703298.html以下为源码packageWebSpider;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.MalformedURLException;impo
anglizhi2854
·
2016-07-25 14:00
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
·
2016-07-18 11:00
dynamicgecco
jd
全部
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
xtuhcy
·
2016-07-18 11:00
gecco
爬虫
javassist
classloader
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
xtuhcy
·
2016-07-18 11:00
gecco
爬虫
javassist
classloader
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
·
2016-07-18 03:00
jd
商品
dynamicgecco
java爬虫
之下载txt小说
最近迷上了天蚕土豆写的《大主宰》这本玄幻小说,无奈找不到下载链接。于是就萌生了自己爬取小说章节的想法,代码其实很简单,主要在于分析网页结构、正则匹配以及文件保存.1.分析网页结构爬取小说主要需要爬取章节、正文,以及能保证爬取到所有的章节。以《大主宰》为例,其网页结构如下:可以看到小说正文包含在一个id为content的div里,这极大的帮助了我们的爬取.章节名称保存在一个名为readtitle的j
请叫我林小李
·
2016-06-30 23:28
java
爬虫
正则
java基础
爬虫
java爬虫
(Jsoup)爬取某站点评论
本文是基于这一篇的:http://blog.csdn.net/disiwei1012/article/details/51614492在上一篇中,我们抓取到了新闻的标题,超链接和摘要,这次我们通过新闻的超链接,进入新闻的评论页,然后爬取评论!注:http://www.wumaow.com,这个网站的标签写的太混乱了,而且还有js报错,到处都是广告。要是不是外国评论翻译的及时,我就去看龙腾网了htt
javaduqing
·
2016-06-15 10:33
python/java爬虫
java爬虫
(Jsoup)爬取某新闻站点标题
需要一个包:jsoup-1.7.3.jar有一定的java和js基础的人,一看就懂了!一个不错的Jsoup中文文档下载地址:http://download.csdn.net/detail/apache2011/4517327importjava.io.IOException;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg
javaduqing
·
2016-06-08 17:39
python/java爬虫
Java爬虫
,信息抓取的实现
今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就能知道怎么用了:[java]viewplaincopyDocument doc = Jsoup.connect("http://ww
jiang314
·
2016-06-03 09:00
爬虫
JSoup
java爬虫
数据抓取
爬虫开发
Java网络编程(一) - Java网页爬虫 - 爬取自己的CSDN博客标题和阅读数(附源码)
版权声明:本文地址http://blog.csdn.net/caib1109/article/details/51518790欢迎非商业目的的转载,作者保留一切权利什么是爬虫一个
Java爬虫
需要哪些技术基于
程序员小蔡
·
2016-05-29 12:05
java
网络编程
Java网络编程(一) - Java网页爬虫 - 爬取自己的CSDN博客标题和阅读数(附源码)
版权声明:本文地址http://blog.csdn.net/caib1109/article/details/51518790欢迎非商业目的的转载,作者保留一切权利什么是爬虫一个
Java爬虫
需要哪些技术基于
caib1109
·
2016-05-29 12:00
java
spring
爬虫
网络编程
java爬虫
抓取网络上的图片
工具介绍jsoup分析html文本的强大工具httpclientjava处理http请求的开源库代码已做注释,应该很容易就会看懂publicclassHTMLparser{privatestaticfinalStringcategory="D:/JAVA/Projects/";privatefinalstaticString[]useragent={"Mozilla/5.0(WindowsNT6.
nvnnv
·
2016-05-17 22:07
httpclient应用
JAVA
基于webmagic的爬虫小应用--爬取知乎用户信息
这里推荐大家一个大牛做的
java爬虫
框架【WebMag
antgan
·
2016-05-03 14:53
爬虫
基于WebMagic写的一个csdn博客小爬虫
但是这次我选择了室友@antgan推荐的
java爬虫
框架WebMagic。该框架容易上手,可定制可扩展,非常适合想用java做爬虫的小伙伴们。先看一下官方教程,里面写得很详细,也有不少参考案例。
李奕锋
·
2016-04-30 20:22
爬虫
Java
【java】学习---爬虫
git项目------------------------------------------------http://webmagic.io/docs/zh/index.htmlgithub上优秀的
java
ncutlh
·
2016-04-29 14:00
java
爬虫
java爬虫
学习日记2-宽度优先爬虫代码实现
爬虫两种方式--宽度优先和带偏好爬虫先复习下上次学了什么:URL和URI的结构组成根据指定网址爬取网站内容(get方式和post方式) 上一日记中学到了抓取单个页面内容的方法,但实际项目中则需要爬虫遍历互联网,把互联网中相关的页面都抓取回来。那么爬虫是怎样遍历互联网,把页面抓取下来的呢?首先互联网可以开成是一个"图",每个页面可以看作一个节点,链接可以看作是"有向边"。因此能够通过图的方式对互联网
yiqiuqiuqiu
·
2016-04-26 14:24
java
爬虫
宽度优先
java爬虫
学习日记1-基本爬虫原理介绍
理解URL一、URI什么是uri?web上每种可用资源,如html文档、图像、视频、程序等都是由一个通用资源标志符URI(UniversalResourceIdentifer)进行定位。URI通常由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称,由路径表示。如下面的URI:http://www.webmonkey.com.cn/html/html40/我们可以这样理解:这是一个通
yiqiuqiuqiu
·
2016-04-22 17:12
java
爬虫
网络爬虫
爬虫
java爬虫
学习日记1-基本爬虫原理介绍
理解URL一、URI什么是uri?web上每种可用资源,如html文档、图像、视频、程序等都是由一个通用资源标志符URI(UniversalResourceIdentifer)进行定位。URI通常由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称,由路径表示。如下面的URI: http://www.webmonkey.com.cn/html/html40/我们可以这样理解:这
yiqiuqiuqiu
·
2016-04-22 17:12
java
爬虫
网络爬虫
Java爬虫
,信息抓取的实现 [转]
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就
qq1175421841
·
2016-04-18 21:00
CSDN客户端实现
本文主要讲解实现了一个CSDN的安卓客户端,主要知识点如下
java爬虫
获取网页数据将java程序打包成jar包Fragment+viewpager+TabPageIndicator实现Tab效果gestureImageView
whuhan2013
·
2016-04-17 20:00
java
android
csdn
java爬虫
之 搜狐新闻爬虫(三)
有了上两篇的文章,这篇简单的将两篇文章结合起来,得到一个可以抓取,搜狐新闻首页的所有新闻。packagecom.sohu; importjava.io.IOException; importjava.util.*; importorg.jsoup.*; importorg.jsoup.nodes.Document; importorg.jsoup.nodes.Element; importorg
u012315428
·
2016-04-15 18:00
java
爬虫
新闻
搜狐
java爬虫
之 搜狐新闻爬虫(二)
我们可以发现搜狐新闻的新闻页都是有规律的比如:http://news.sohu.com/20160415/n444266195.shtml在浏览器中右键检查元素可以找到锁定文章标题,时间,来源的标签那么经过分析确定标签可以得到下面的代码:Elementsh=doc.select("h1[itemprop]");//标题 System.out.println(h.text()); Element
u012315428
·
2016-04-15 18:00
java
爬虫
新闻
搜狐
java爬虫
之 搜狐新闻爬虫(一)
最近开始学习
java爬虫
,网上很多教程,自己找的时候花了好久的时间去理解别人的思路。打算将自己最近的学习进度稍作整理,理清思路。
u012315428
·
2016-04-15 18:00
001.自我学习-IT技术学习
1.吴超:Hadoop大数据相关 2.陈超:Spark 3.传智播客:JAVA-Net-C-C++-php 4.燕十八:php-MySQL 5.杨尚川:
JAVA爬虫
分词 6.奇猫学堂:Python 7.
江中炼
·
2016-04-13 20:00
自我学习-IT技术学习
利用
java爬虫
QDU教务课表
前言前几天有个做校园app的同学让我研究一下怎么爬个人的教务课表,就像课程格子那样导入课程。这里我放出初步的获取课表页html代码的程序,有需要的同学可以拿去用,Bytheway听说有个叫Jsoup的开源java库可以解析html代码,你们可以去试试。代码解释这里就不解释了吧,我代码里写了注释了,可以直接看注释,另有一部分代码是copy的别人的,自己改了一些,主要是main函数代码HttpRequ
Dodd9199
·
2016-04-07 23:32
爬虫
java
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他