E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Java爬虫:Jsoup
利用
jsoup
来爬取网站匿名IP实践
解决思路是通过
jsoup
包去解析html,从而获取匿名IP地址,再通过设置IP地址以及端口号去访问一个网址从而验证匿名IP地址是否可用。
6点A君
·
2017-07-25 19:47
网络爬虫学习
WebMagic简明教程(一)
WebMagic简明教程(一)前言做项目需要爬取一些数据,不想用Python,就尝试了下webmagic这个爬虫框架,总的来说上手还是比较简单的,这里来总结一下.webmagic是一个简单灵活的
Java
chenxiaokang97
·
2017-07-23 01:48
java
Jsoup
-- 网络爬虫解析器
需要下载
jsoup
-1.8.1.jar包
jsoup
是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。
遇见美好
·
2017-07-17 21:59
jsoup
教务系统,验证码识别,异步加载,
java爬虫
06
上一篇介绍了Python的selenium,今天终于把selenium的java环境弄好了.遇到ajax异步加载的网页还真有点点头疼,普通的爬虫会遇到登录的网页和加载的验证码不一致,不过selenium还真是神器,可以模拟浏览器,实现加载的网页一致性,爬取网页无所不能.环境selenium3.4的jar包和依赖包下载:http://pan.baidu.com/s/1jI1ewNc同时需要Phant
m0_37681914
·
2017-07-14 11:24
java爬虫
java爬虫
教务信息门户(
java爬虫
04)
我从去年12月开始接触爬虫,现在已有足足7个月了,中间一直没搞懂cookie和http协议,时隔这么久,总算弄明白了,也总算爬进去了!!!昨天开始学习的httpClient,今天用它练手爬一下学校的信息门户吧!http://myportal.sxu.edu.cn/login.portal1.抓包以下信息是通过charm浏览器抓包(快捷键F12)获得的:1.http://myportal.sxu.e
m0_37681914
·
2017-07-10 11:25
java爬虫
java爬虫
教程01
学习本教程前,先得了解http协议.心血来潮,来搞点事情.本教程基于:httpcomponents-client,主要根据官方文档讲解.http://hc.apache.org/httpcomponents-client-5.0.x/examples.html本人使用的是4.5.3版,下载地址:http://hc.apache.org/downloads.cgi一个简单的爬虫主要步骤:1.Clos
m0_37681914
·
2017-07-09 11:13
java爬虫
Java爬虫
爬取图片脚本
importjava.io.*;importjava.net.URL;importjava.net.URLConnection;importjava.util.ArrayList;importjava.util.Date;importjava.util.List;importjava.util.regex.Matcher;importjava.util.regex.Pattern;publiccl
东京八十万萝莉教头
·
2017-07-07 18:04
简单的
java爬虫
代码
packagecom.html;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.HttpUR
babyha
·
2017-07-03 22:22
简单入门代码
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
爬虫+模拟登录
本文用到的主要技术手段包括Selenium+Phantomjs+
Jsoup
。WebDrive
DataResearcher
·
2017-06-29 22:06
java
爬虫
爬虫相关
java爬取国内飞机航班轨迹数据
jsoup
的探索
接到一个爬虫项目,java编写的调用
jsoup
。来调取国内民航的轨迹。第一步,先进行根据飞机所属于的航空公司,然后根据改航空公司爬出所有的的航班号。第二步,根据查询出的航班号进行飞行轨迹的的数据爬去。
juezhanangle
·
2017-06-29 22:55
Android平台利用OkHttp3模拟登录实现教务平台
做这个东西学校肯定不会主动给你提供接口什么的,然后研究了一下发现
Jsoup
是一个好东西,用它可以从html里筛选出想要的
超凡梨
·
2017-06-25 08:09
Android
HtmlUnit+
Jsoup
简单爬虫获取网页数据
技术上使用了
Jsoup
+HtmlUnit:采用htmlunit获取网页(官网地址http://htmlunit.sourceforge.net/)采用
jsoup
解析网页,获取数据和链接.(
chenmoquan2964
·
2017-06-24 14:00
爬虫
java
开发工具
使用Gecco写Java简单爬虫
偶然情况下,接触Gecco这个
Java爬虫
框架,尝试用了一下,感觉非常不错,用起来非常简单,非常适合不太懂爬虫基础,又想快速写个爬虫来爬取数据的人。开发环境简单说明 (1)环境说明: –JDK
wjljsbk
·
2017-06-24 09:56
爬虫
[
Jsoup
] 模拟浏览器:post方式模拟登陆获取网页数据(二)
从一个URL获取Document对象的其他姊妹章:模拟浏览器:get方式简单获取网页数据(一)模拟浏览器:post方式模拟登陆获取网页数据(二)模拟浏览器:
Jsoup
工具类的使用及失败重试的retry策略
bluetata
·
2017-06-22 17:29
[01]
网络爬虫
[01]
Jsoup
[Jsoup]
in
action
Jsoup
库,HTML的解析
http://www.open-open.com/
jsoup
/parsing-a-document.htm解析和遍历一个HTML文档如何解析一个HTML文档:Stringhtml="Firstparse
快乐的神经病
·
2017-06-21 08:39
Jsoup
HTML解析
java
iText7根据html表格(table)代码生成表格、解决跨行跨列问题
由于要解析html代码,所以我还用了一个第三方的插件
jsoup
,可以自己百度一下,或者点击这里下载API,免费的。。
Lawliet丶
·
2017-06-18 16:58
个人
iText
一种解决HTTP抓取网页超时设置无效的方法
阅读更多今天发现superword在获取单词定义的时候,对于不常见单词,网页打开很慢,超过10秒,经检查,发现是利用
Jsoup
来抓取单词定义的时候,设置的超时3秒无效,_getContent方法的执行时间超过
yangshangchuan
·
2017-06-17 20:00
superword
jsoup
java
英语
一种解决HTTP抓取网页超时设置无效的方法
阅读更多今天发现superword在获取单词定义的时候,对于不常见单词,网页打开很慢,超过10秒,经检查,发现是利用
Jsoup
来抓取单词定义的时候,设置的超时3秒无效,_getContent方法的执行时间超过
yangshangchuan
·
2017-06-17 20:00
superword
jsoup
java
英语
手把手教学Android用
jsoup
解析html实例
1.
jsoup
介绍很多时候,我们需要从各种网页上面抓取数据,而
jsoup
是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。
四会歌神陈子豪
·
2017-06-17 16:08
通过
Jsoup
+Html.fromHtml显示网页指定的内容
需要显示的html文本我们需要显示的是http://www.shouyihuo.com/view/10931.html页面中的一部分内容,需要显示的html代码片段如下image.png通过
Jsoup
提取所需要的标签文本
虚幻的城堡
·
2017-06-12 23:56
Jsoup
爬虫使用记录
背景学习Android到一段时间,想自己做一些项目练练手,需要数据怎么办呢?-自己造数据-少量的假数据利用数组或者集合来存储少量数据。-大量的后台数据这里的数据是指,自己获取数据,然后自己实现一个后台管理系统,通过这个系统去操作(增删改查)这些大量的数据。用第三方的API接口聚合数据(欠我一份广告费)大量的接口数据,有免费的有收费的。干货集中营代码家大神在维护,种类不多,但是接口格式很标准,使用起
_龙衣
·
2017-06-11 17:42
java解析json
StringkeyAddress="紫金大厦";DocumentdocFirst=null;docFirst=
Jsoup
.connect("http://waimai.baidu.com/waimai?
st4024589553
·
2017-06-07 19:45
Jsoup
1.解析attribute中值packagecom.xxx.parser.qy;importorg.
jsoup
.
Jsoup
;importjava.util.ArrayList;importjava.util.HashMap
Mr_码客
·
2017-06-06 11:28
[Java]中的HttpClient对象实现简单的爬虫,抓取妹子图片
笔者之前没接触过爬虫的,参考网上的例子,模仿这写了第一个
Java爬虫
的例子,用来抓取http://www.mmjpg.com/网站的妹子图片,先看结果:第一次抓取到网上的图片还是有点小欣慰的。
阿彡
·
2017-05-24 22:31
Java
python爬虫初步-与
java爬虫
的比较
相比较java来说,python的http库类更佳丰富,用java需要几十行代码才能完成的事情,python往往只需要十几行,例如打开并且存储一个网页java代码:importjava.io.BufferedReader;importjava.io.FileOutputStream;importjava.io.FileWriter;importjava.io.IOException;importj
冯子玉
·
2017-05-24 17:15
爬虫
java
python
爬虫
java 爬虫详解及简单实例
Java爬虫
一、代码爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
饭饭_fan
·
2017-05-24 08:46
Java 爬取信息存入数据库
这里我选取的新闻来源是一点资讯(主要是他的API比较容易获取),抓取和解析选取
Jsoup
+Gson.运行采取Schedul定时运行爬虫脚本。
草鸡无名
·
2017-05-23 20:35
Spring
Boot
http编程系列(二)——
java爬虫
实现刷个人博客的访问量
实现功能这里实现的功能是一个根据个人博客主页,搜索出所有的个人博文链接,然后一个一个去访问,从而增加访问量。这里我发现一个问题,csdn既没有做接口ip访问量的限制,访问量统计时也没有做同一ip相同时间段的重复访问重复计数的处理。这也时这个程序能够刷访问量的原因。思路进入个人博客主页,如我的博客:”http://blog.csdn.net/luo4105”,它会出来一个博客的列表(blogList
逝兮诚
·
2017-05-20 18:36
网络编程
开发爬虫时所用到的页面元素分析利器
Jsoup
jsoup
是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Loving....
·
2017-05-16 16:21
JAVA
Android反编译之36kr.app
背景 昨天做项目的时候因为没有数据源,就想着用
jsoup
去爬点数据用用(别问我为什么不用python,因为不会)。首选爬的对象就是36kr。但是这个网站做了脚本处理,用script去动态加载页面。
Darkness_hades
·
2017-05-16 15:09
Android反编译
Java开源爬虫框架WebCollector爬取CSDN博客
一些开发者利用HttpClient和
Jsoup
等工具也可以实现这个需求,但大多数实现的是一个单线程爬虫,并且在URL去重和断点爬取这些功能上控制地不好,爬虫框架可以很好地解决这些问题,
你可拉倒吧
·
2017-05-11 20:07
Java开源爬虫框架WebCollector 2.x入门教程——基本概念
WebCollector2.x入门教程——基本概念bybriefcopy·Published2016年4月25日·Updated2016年12月11日WebCollector是一个无须配置、便于二次开发的
JAVA
你可拉倒吧
·
2017-05-11 18:53
Java 爬虫工具
Jsoup
详解
Java爬虫
工具
Jsoup
详解
Jsoup
是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。
Smile_Miracle
·
2017-05-11 09:35
Java爬虫
实战(一):抓取一个网站上的全部链接
前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测试用例就是自动抓取我的博客网站(http://www.zifangsky.cn)的所有链接。一算法简介程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式
Star Love Leaf
·
2017-05-11 08:33
Java爬虫
实战(二):抓取一个视频网站上2015年所有电影的下载链接
前言:这是
Java爬虫
实战的第二篇文章,在第一篇文章仅仅只是抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中。
Star Love Leaf
·
2017-05-11 08:14
JS爬虫,
Java爬虫
,Python爬虫与反爬虫(工具或框架,脚本)
>JS爬虫,
Java爬虫
与反爬虫?
desaco
·
2017-05-10 18:55
Java爬虫
爬取python百度百科词条及相关词条页面
Java爬虫
爬取python百度百科词条及相关词条页面本实例爬取关于python词条页面及关联词条页面的简介,把词条的简介写入txt文本中,本实例效果:实例基于使用第三方jar包
Jsoup
1首先分析python
Coder_py
·
2017-05-01 10:20
Java学习
使用
Jsoup
加代理发送get请求
publicstaticStringget(Stringuri){System.setProperty("https.proxySet","true");System.getProperties().put("https.proxyHost",ip);System.getProperties().put("https.proxyPort",port);Documentdoc=null;String
程序员小董
·
2017-04-26 22:24
Java爬虫
进阶-Selenium+PhantomJs的运用
seleniumSelenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、MozillaSuite等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建衰退测试检验软件功能和用户需求。支持自动录制动作和自动
Smile_Miracle
·
2017-04-26 18:16
Java爬虫
JAVA爬虫实践
Java爬虫
进阶-HtmlUnit使用解析
大家在做爬虫、网页采集、通过网页自动写入数据时基本上都接触过这两个组件(权且称之为组件吧),网上入门资料已经很多了,我想从实际的应用角度谈谈我对于这两个组件的看法,并记录在博客中,以便日后翻阅,欢迎大家批评指正。本文主要比较两者的优劣性以及介绍应用中的使用技巧,推荐一些入门资料以及非常实用的辅助工具,希望能对大家有所帮助。大家有任何疑问或者建议希望留言给我,一起交流学习。下面我们首先来看下2个组件
Smile_Miracle
·
2017-04-25 17:19
Java爬虫
JAVA爬虫实践
Java爬虫
进阶-
Jsoup
+httpclient获取动态生成的数据
前面我们详细讲了一下
Jsoup
发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-
Jsoup
爬虫详解,但是很多时候网站为了防止数据被恶意爬取做了很多遮掩
Smile_Miracle
·
2017-04-25 16:44
Java爬虫
JAVA爬虫实践
Java 爬虫工具
Jsoup
解析
Jsoup
是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Smile_Miracle
·
2017-04-25 10:49
Java爬虫
JAVA爬虫实践
学习简单的
Java爬虫
的心得
简单的
Java爬虫
原理:我们需要在应用程序上获得网页上的数据,这个过程就是应用程序与URL的一种通信。而这种通信可以通过URLConnection实现连接。
shmily995
·
2017-04-23 00:56
上一页
45
46
47
48
49
50
51
52
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他