E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
java爬虫
Java爬虫
信息抓取的实现
今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就能知道怎么用了:Documentdoc=Jsoup.connect("http://www.oschina.net/").data(
鸿洋_
·
2016-09-07 10:56
关于
java爬虫
与python爬虫
前言很多人说学习数据挖掘,先从爬虫入手。接触了大大小小的项目后,发现数据的获取是数据建模前的一项非常重要的活儿。在此,我需要先总结一些爬虫的流程,分别有python版的以及java版的。url请求java版的代码如下:publicStringcall(Stringurl){Stringcontent="";BufferedReaderin=null;try{URLrealUrl=newURL(ur
Quincy1994
·
2016-09-06 17:00
数据挖掘
福利贴——爬取美女图片的
Java爬虫
小程序代码
自己做的一个
Java爬虫
小程序废话不多说,先上图。文件夹命名是用标签缩写,如果大家看得不顺眼可以等下载完成后手动改一下,比如像有强迫症的我一样。。。
hotace_c
·
2016-08-28 10:07
JavaSE
Java爬虫
到一些总结和心得
最近做了很多关于爬虫到项目,写点感想,以后查询1.请求http连接,并保存内容,catch不同到exception进行反爬处理int countUrl=0; public String getOneHtml(String htmlurl,String encoding,String cookie) throws IOException, InterruptedExceptio
leaderway
·
2016-08-22 01:49
爬虫
Java爬虫
框架WebMagic的使用总结
最近,项目做一个公司新闻网站,分为PC&移动端(h5),数据来源是从HSZX与huanqiu2个网站爬取,主要使用java编写的WebMagic作为爬虫框架,数据分为批量抓取、增量抓取,批量抓当前所有历史数据,增量需要每10分钟定时抓取一次,由于从2个网站抓取,并且频道很多,数据量大,更新频繁;开发过程中遇到很多的坑,今天腾出时间,感觉有必要做以总结。工具说明:1、WebMagic是一个简单灵活的
成长中的大牛
·
2016-08-15 20:59
Java
java爬虫
简单实现
原文链接:http://www.cnblogs.com/Vcanccc/p/5703298.html以下为源码packageWebSpider;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.MalformedURLException;impo
anglizhi2854
·
2016-07-25 14:00
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
·
2016-07-18 11:00
dynamicgecco
jd
全部
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
xtuhcy
·
2016-07-18 11:00
gecco
爬虫
javassist
classloader
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
xtuhcy
·
2016-07-18 11:00
gecco
爬虫
javassist
classloader
教您使用DynamicGecco抓取JD全部商品信息
之前有一篇文章《教您使用
java爬虫
gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。
·
2016-07-18 03:00
jd
商品
dynamicgecco
java爬虫
之下载txt小说
最近迷上了天蚕土豆写的《大主宰》这本玄幻小说,无奈找不到下载链接。于是就萌生了自己爬取小说章节的想法,代码其实很简单,主要在于分析网页结构、正则匹配以及文件保存.1.分析网页结构爬取小说主要需要爬取章节、正文,以及能保证爬取到所有的章节。以《大主宰》为例,其网页结构如下:可以看到小说正文包含在一个id为content的div里,这极大的帮助了我们的爬取.章节名称保存在一个名为readtitle的j
请叫我林小李
·
2016-06-30 23:28
java
爬虫
正则
java基础
爬虫
java爬虫
(Jsoup)爬取某站点评论
本文是基于这一篇的:http://blog.csdn.net/disiwei1012/article/details/51614492在上一篇中,我们抓取到了新闻的标题,超链接和摘要,这次我们通过新闻的超链接,进入新闻的评论页,然后爬取评论!注:http://www.wumaow.com,这个网站的标签写的太混乱了,而且还有js报错,到处都是广告。要是不是外国评论翻译的及时,我就去看龙腾网了htt
javaduqing
·
2016-06-15 10:33
python/java爬虫
java爬虫
(Jsoup)爬取某新闻站点标题
需要一个包:jsoup-1.7.3.jar有一定的java和js基础的人,一看就懂了!一个不错的Jsoup中文文档下载地址:http://download.csdn.net/detail/apache2011/4517327importjava.io.IOException;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg
javaduqing
·
2016-06-08 17:39
python/java爬虫
Java爬虫
,信息抓取的实现
今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就能知道怎么用了:[java]viewplaincopyDocument doc = Jsoup.connect("http://ww
jiang314
·
2016-06-03 09:00
爬虫
JSoup
java爬虫
数据抓取
爬虫开发
Java网络编程(一) - Java网页爬虫 - 爬取自己的CSDN博客标题和阅读数(附源码)
版权声明:本文地址http://blog.csdn.net/caib1109/article/details/51518790欢迎非商业目的的转载,作者保留一切权利什么是爬虫一个
Java爬虫
需要哪些技术基于
程序员小蔡
·
2016-05-29 12:05
java
网络编程
Java网络编程(一) - Java网页爬虫 - 爬取自己的CSDN博客标题和阅读数(附源码)
版权声明:本文地址http://blog.csdn.net/caib1109/article/details/51518790欢迎非商业目的的转载,作者保留一切权利什么是爬虫一个
Java爬虫
需要哪些技术基于
caib1109
·
2016-05-29 12:00
java
spring
爬虫
网络编程
java爬虫
抓取网络上的图片
工具介绍jsoup分析html文本的强大工具httpclientjava处理http请求的开源库代码已做注释,应该很容易就会看懂publicclassHTMLparser{privatestaticfinalStringcategory="D:/JAVA/Projects/";privatefinalstaticString[]useragent={"Mozilla/5.0(WindowsNT6.
nvnnv
·
2016-05-17 22:07
httpclient应用
JAVA
基于webmagic的爬虫小应用--爬取知乎用户信息
这里推荐大家一个大牛做的
java爬虫
框架【WebMag
antgan
·
2016-05-03 14:53
爬虫
基于WebMagic写的一个csdn博客小爬虫
但是这次我选择了室友@antgan推荐的
java爬虫
框架WebMagic。该框架容易上手,可定制可扩展,非常适合想用java做爬虫的小伙伴们。先看一下官方教程,里面写得很详细,也有不少参考案例。
李奕锋
·
2016-04-30 20:22
爬虫
Java
【java】学习---爬虫
git项目------------------------------------------------http://webmagic.io/docs/zh/index.htmlgithub上优秀的
java
ncutlh
·
2016-04-29 14:00
java
爬虫
java爬虫
学习日记2-宽度优先爬虫代码实现
爬虫两种方式--宽度优先和带偏好爬虫先复习下上次学了什么:URL和URI的结构组成根据指定网址爬取网站内容(get方式和post方式) 上一日记中学到了抓取单个页面内容的方法,但实际项目中则需要爬虫遍历互联网,把互联网中相关的页面都抓取回来。那么爬虫是怎样遍历互联网,把页面抓取下来的呢?首先互联网可以开成是一个"图",每个页面可以看作一个节点,链接可以看作是"有向边"。因此能够通过图的方式对互联网
yiqiuqiuqiu
·
2016-04-26 14:24
java
爬虫
宽度优先
java爬虫
学习日记1-基本爬虫原理介绍
理解URL一、URI什么是uri?web上每种可用资源,如html文档、图像、视频、程序等都是由一个通用资源标志符URI(UniversalResourceIdentifer)进行定位。URI通常由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称,由路径表示。如下面的URI:http://www.webmonkey.com.cn/html/html40/我们可以这样理解:这是一个通
yiqiuqiuqiu
·
2016-04-22 17:12
java
爬虫
网络爬虫
爬虫
java爬虫
学习日记1-基本爬虫原理介绍
理解URL一、URI什么是uri?web上每种可用资源,如html文档、图像、视频、程序等都是由一个通用资源标志符URI(UniversalResourceIdentifer)进行定位。URI通常由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称,由路径表示。如下面的URI: http://www.webmonkey.com.cn/html/html40/我们可以这样理解:这
yiqiuqiuqiu
·
2016-04-22 17:12
java
爬虫
网络爬虫
Java爬虫
,信息抓取的实现 [转]
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就
qq1175421841
·
2016-04-18 21:00
CSDN客户端实现
本文主要讲解实现了一个CSDN的安卓客户端,主要知识点如下
java爬虫
获取网页数据将java程序打包成jar包Fragment+viewpager+TabPageIndicator实现Tab效果gestureImageView
whuhan2013
·
2016-04-17 20:00
java
android
csdn
java爬虫
之 搜狐新闻爬虫(三)
有了上两篇的文章,这篇简单的将两篇文章结合起来,得到一个可以抓取,搜狐新闻首页的所有新闻。packagecom.sohu; importjava.io.IOException; importjava.util.*; importorg.jsoup.*; importorg.jsoup.nodes.Document; importorg.jsoup.nodes.Element; importorg
u012315428
·
2016-04-15 18:00
java
爬虫
新闻
搜狐
java爬虫
之 搜狐新闻爬虫(二)
我们可以发现搜狐新闻的新闻页都是有规律的比如:http://news.sohu.com/20160415/n444266195.shtml在浏览器中右键检查元素可以找到锁定文章标题,时间,来源的标签那么经过分析确定标签可以得到下面的代码:Elementsh=doc.select("h1[itemprop]");//标题 System.out.println(h.text()); Element
u012315428
·
2016-04-15 18:00
java
爬虫
新闻
搜狐
java爬虫
之 搜狐新闻爬虫(一)
最近开始学习
java爬虫
,网上很多教程,自己找的时候花了好久的时间去理解别人的思路。打算将自己最近的学习进度稍作整理,理清思路。
u012315428
·
2016-04-15 18:00
001.自我学习-IT技术学习
1.吴超:Hadoop大数据相关 2.陈超:Spark 3.传智播客:JAVA-Net-C-C++-php 4.燕十八:php-MySQL 5.杨尚川:
JAVA爬虫
分词 6.奇猫学堂:Python 7.
江中炼
·
2016-04-13 20:00
自我学习-IT技术学习
利用
java爬虫
QDU教务课表
前言前几天有个做校园app的同学让我研究一下怎么爬个人的教务课表,就像课程格子那样导入课程。这里我放出初步的获取课表页html代码的程序,有需要的同学可以拿去用,Bytheway听说有个叫Jsoup的开源java库可以解析html代码,你们可以去试试。代码解释这里就不解释了吧,我代码里写了注释了,可以直接看注释,另有一部分代码是copy的别人的,自己改了一些,主要是main函数代码HttpRequ
Dodd9199
·
2016-04-07 23:32
爬虫
java
Java爬虫
(一)利用GET和POST发送请求,获取服务器返回信息
本人所使用软件eclipsefiddleUC浏览器分析请求信息以知乎(https://www.zhihu.com)为例,模拟登陆请求,获取登陆后首页,首先就是分析请求信息。用UC浏览器F12,点击Network,按F5刷新。使用自己账号登陆知乎后,点www.zhihu.com网址后,出现以下界面在General中,看到请求方式是GET,在fiddle里请求构造中,方法选定GET。下拉后,看到Req
TringBtb
·
2016-04-04 15:46
Java爬虫
(一)利用GET和POST发送请求,获取服务器返回信息
本人所使用软件eclipsefiddleUC浏览器分析请求信息以知乎(https://www.zhihu.com)为例,模拟登陆请求,获取登陆后首页,首先就是分析请求信息。用UC浏览器F12,点击Network,按F5刷新。使用自己账号登陆知乎后,点www.zhihu.com网址后,出现以下界面在General中,看到请求方式是GET,在fiddle里请求构造中,方法选定GET。下拉后,看到Req
TringBtb
·
2016-04-04 15:00
java
爬虫
服务器
爬虫初探(一)crawler4j的robots
最近刚刚开始研究爬虫,身为小白的我不知道应该从何处下手,网上查了查,发现主要的开源
java爬虫
有nutch apache/nutch·GitHub,Heritrix internetarchive
lvzhongjian
·
2016-03-31 21:00
java爬虫
gecco的稳定性测试
java爬虫
gecco的稳定性测试最近对开源的
java爬虫
Gecco做了一个稳定性测试,测试环境:一台爬虫+web应用服务器,一台mongodb服务器。
xtuhcy
·
2016-03-28 11:00
java
爬虫
稳定性测试
gecco
MinerUtil.java 爬虫工具类
阅读更多MinerUtil.
java爬虫
工具类packagecom.iteye.injavawetrust.miner;importjava.io.File;importjava.io.FileNotFoundException
InJavaWeTrust
·
2016-03-27 09:00
java
jsoup
网络爬虫
MinerUtil.java 爬虫工具类
MinerUtil.
java爬虫
工具类packagecom.iteye.injavawetrust.miner; importjava.io.File; importjava.io.FileNotFoundException
InJavaWeTrust
·
2016-03-27 09:00
java
JSoup
网络爬虫
MinerUtil.java 爬虫工具类
阅读更多MinerUtil.
java爬虫
工具类packagecom.iteye.injavawetrust.miner;importjava.io.File;importjava.io.FileNotFoundException
InJavaWeTrust
·
2016-03-27 09:00
java
jsoup
网络爬虫
java爬虫
gecco监控来了,不再裸奔
java爬虫
gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合
xtuhcy
·
2016-03-23 07:37
java
爬虫
jolokia
gecco
jmxutils
java爬虫
gecco监控来了,不再裸奔
阅读更多
java爬虫
gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring
xtuhcy
·
2016-03-21 10:00
java
爬虫
gecco
jmxutils
jolokia
【详解01】猫眼电影_简单
Java爬虫
【需求】1.爬取猫眼电影http://m.maoyan.com/网页,要求使用JAVA2.将影片ID、影片名称,插入数据库【新建数据库】需要注意的点:1.如图,尽量不要动information_schema和mysql两个系统库。防止出现不必要的问题。2.我们这里可以使用test库。但本例为了杜绝中文乱码的诸多问题,我们自己新建了一个新库ttt。新建的过程中格外注意,把编码格式都设置为utf8。【
AKAK714
·
2016-03-14 19:38
JAVA
CRAWLER
java爬虫
gecco支持htmlunit
java爬虫
gecco支持htmlunit
java爬虫
gecco发布了1.0.5版本,增加了对htmlunit的支持。
xtuhcy
·
2016-03-07 15:05
java
爬虫
selenium
htmlunit
gecco
java爬虫
gecco支持htmlunit
阅读更多
java爬虫
gecco支持htmlunit
java爬虫
gecco发布了1.0.5版本,增加了对htmlunit的支持。
xtuhcy
·
2016-03-07 10:00
java
爬虫
gecco
htmlunit
selenium
用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
简介:WebCollector是一个无须配置、便于二次开发的
JAVA爬虫
框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
chaishen10000
·
2016-03-01 23:00
java爬虫
抓取js/ajax动态生成的网页
最近一段时间,公司要写一个爬虫项目,遇到一些js或者ajax动态生成的网页,在网上找了一下,发现webdriver比较靠谱,至于htmlunit测试了一些网站直接抛异常,可能对于js支持的不是特别好。WebDriver一般来说有两方式:本地diver和远程diver。由于爬虫最终会部署到linux服务器,只能在命令行运行,好像是装不了浏览器,所以本地driver的流程走不通,只能尝试远程drive
shotbear
·
2016-03-01 18:34
教您使用
java爬虫
gecco抓取JD全部商品信息(三)
阅读更多教您使用
java爬虫
gecco抓取JD全部商品信息(二)详情页抓取商品的基本信息抓取完成后,就要针对每个商品的详情页进行抓取,可以看到详情页的地址格式一般如下:http://item.jd.com
xtuhcy
·
2016-02-26 11:00
java
爬虫
gecco
京东
教您使用
java爬虫
gecco抓取JD全部商品信息(三)
教您使用
java爬虫
gecco抓取JD全部商品信息(二)详情页抓取商品的基本信息抓取完成后,就要针对每个商品的详情页进行抓取,可以看到详情页的地址格式一般如下:http://item.jd.com/1861098
xtuhcy
·
2016-02-26 11:00
java
爬虫
京东
gecco
教您使用
java爬虫
gecco抓取JD全部商品信息(一)
教您使用
java爬虫
gecco抓取JD全部商品信息(一)gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。
xtuhcy
·
2016-02-26 08:20
java
爬虫
京东
gecco
教您使用
java爬虫
gecco抓取JD全部商品信息(二)
教您使用
java爬虫
gecco抓取JD全部商品信息(一)抓取商品列表信息AllSortPipeline已经将需要进一步抓取的商品列表信息的链接提取出来了,可以看到链接的格式是:http://list.jd.com
xtuhcy
·
2016-02-26 07:04
java
爬虫
京东
gecco
教您使用
java爬虫
gecco抓取JD全部商品信息(二)
阅读更多教您使用
java爬虫
gecco抓取JD全部商品信息(一)抓取商品列表信息AllSortPipeline已经将需要进一步抓取的商品列表信息的链接提取出来了,可以看到链接的格式是:http://list.jd.com
xtuhcy
·
2016-02-25 10:00
java
爬虫
gecco
京东
教您使用
java爬虫
gecco抓取JD全部商品信息(一)
阅读更多教您使用
java爬虫
gecco抓取JD全部商品信息(一)gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。
xtuhcy
·
2016-02-24 16:00
java
爬虫
gecco
京东
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他