E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Java爬虫
基于JSoup库的
java爬虫
开发学习——小步快跑
因某需求,需要使用java从网页上爬取一些数据来使用,花了点时间看了一下JSoup,简单介绍一下jsoupisaJavalibraryforworkingwithreal-worldHTML.ItprovidesaveryconvenientAPIforextractingandmanipulatingdata,usingthebestofDOM,CSS,andjquery-likemethods
CosmosRay
·
2020-08-12 17:55
Java
HTML5
Java爬虫
----有道翻译初步
目标:http://fanyi.youdao.com/用爬虫实现翻译功能。利用f12查看网页Network,可以发现有关翻译的表单请求通过http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule来发送其返回是一个JSON字符串。内部数据为要翻译的信息和被翻译的信息,参考JSON解析和正则表达式(可不用正则),对网页信
weixin_33964094
·
2020-08-12 13:15
Java爬虫
:通过有道翻译获取单词和词组意思
注意:这个不是调用有道翻译的api而是使用爬虫进行信息爬取的。经测试有道对于手机网页版的单词的查询并没有设置时间间隔的反爬虫机制(so速度还是很快的);使用HttpClient-4.5.5进行请求,使用jsoup-1.11.2进行解析。下面附上调用函数:publicstaticStringgetTranslate(Stringword)throwsException{word=word.repla
mumoing
·
2020-08-12 11:04
使用webmagic搭建一个简单的爬虫
WebMagic是一个简单灵活的
Java爬虫
框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。
N3verL4nd
·
2020-08-12 11:30
超简单的
JAVA爬虫
爬取晋江小说的简介和评论
Java爬取晋江书城的某个分类下小说的简介和评论写在前面,一开始是因为书荒又找不到自己喜欢的,就打算去晋江书城看看,结果排在前面的也不是我的菜,一本本挑又嫌太麻烦就打算把数据爬下来慢慢的看。分析了一下晋江的网页,发现可以爬下来的数据有书名、作者、类型、简介、标签、收藏、下载、点赞数、评论等,而我已经在晋江的网页上做过分类筛选,且萝卜白菜各有所爱,收藏和下载量高的也不能代表就是我喜欢的,所以我最后选
石桥半寸
·
2020-08-12 11:07
Java爬虫
百度首页
新入
Java爬虫
,记录一下爬取http://site.baidu.com/并分类存储的思路和实现代码。项目环境Idea+maven+jdk1.8+tomcat8+mysql8未采用框架。
airenLe
·
2020-08-12 10:13
爬虫
java爬虫
实现翻译接口本地调用
关于有道翻译接口的爬取目录结构–TranSpider.java(用于主要的爬取相关–TranBean.java(爬取之后的存储结构–Test.java(用于测试TranBean.java相关packagecom.lilutong.trans;importjava.sql.Timestamp;importjava.text.SimpleDateFormat;importjava.util.Array
猫儿飞
·
2020-08-12 10:47
Java
Java 多线程爬虫及分布式爬虫架构探索(六)
这是
Java爬虫
系列博文的第五篇,在上一篇
Java爬虫
服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是IP被封及其对应办法。
u4110122855
·
2020-08-11 06:19
爬虫
Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器(五)
这是
Java爬虫
系列博文的第四篇,在上一篇
Java爬虫
遇上数据异步加载,试试这两种办法!中,我们从内置浏览器内核和反向解析法两个角度简单的聊了聊关于处理数据异步加载问题。
u4110122855
·
2020-08-11 06:18
爬虫
Java 爬虫遇上数据异步加载,试试这两种办法(四)
这是
Java爬虫
系列博文的第三篇,在上一篇
Java爬虫
遇到需要登录的网站,该怎么办?
u4110122855
·
2020-08-11 06:18
爬虫
利用
java爬虫
的学习心得
一、相关概念Maven:Maven是一种用于Java的,可以管理Jar包集成调用的工具。用它可以搭建SpringMVC;爬虫的框架数据处理层db主方法层main对象领域层爬虫框架url分析层parseUtil(html)处理层Pom核心思路:(1)main方法,将url传递给util,获得HTML文件;util将HTML传递给parse进行解析,获得需求数据;将获得的数据放入集合中,通过main的
工程师学徒AYG
·
2020-08-11 04:38
JavaSE开发
[
Java爬虫
-WebMagic]-01-初识爬虫框架WebMagic
什么是WebmagicWebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。扩展部分(webmagic-extension)提供一
Timeless小帅
·
2020-08-11 03:39
Java爬虫-Webmagic
Java爬虫
之宽度优先爬虫
在实际应用中,使用网络爬虫遍历互联网,把网络中我们感兴趣的网页全部抓取过来。为便于理解,我们把整个Internet看做一个超级大图,每个页面作为图中的一个节点,页面中的超链接可看做图中的有向边。爬虫在抓取网页过程中有两种遍历方式:深度优先遍历和宽度优先遍历。由于在深度优先遍历中,随着遍历深度的增加,可能抓取到的网页与主题的相关性降低,所以一般不采用这种遍历方式。在实际中开发者总喜欢将相关主题的链接
漫长学习路
·
2020-08-11 03:36
Java爬取王者荣耀全英雄全皮肤图片
利用
Java爬虫
的话,分析HTML文档结构是十分有必要的,你会发现它全是利用dom文档里面的属性和文本来获取数据。而jsoup.jar包的作用说白了就是提供了操作文档对
发光吖
·
2020-08-10 20:19
JAVA
基于Java JFrame的登录界面+Mysql(一:登录窗口)
最近有
java爬虫
的项目,对于一个刚刚学习java的小白来说看网上各类层出不穷的爬虫框架、项目工程...完全看不懂,为此刻意学习了一下有关URL和Sql的知识。
Tianwell
·
2020-08-10 20:33
登录界面+爬虫项目
Java爬虫
——B站弹幕爬取
如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034还有弹幕序号,cid=14295428弹幕存放位置为http://comment.bilibili.com/14295428.xml获得该链接内容即可。1packageBiliBili弹幕爬取;23importorg.apache.http.HttpEntity;4
weixin_34319999
·
2020-08-10 07:19
Java爬虫
入门到精通(十三)——WebMagic爬虫小案例
废话不多说,因为相较于HttpClient的爬虫会比较简单,直接上代码,代码中会有注释项目是爬去51job.com有关java的招聘信息目录结构:pom.xml4.0.0org.springframework.bootspring-boot-starter-parent2.2.5.RELEASEorg.examplecrawler-51job1.0-SNAPSHOT1.8org.springfra
zzdreamz
·
2020-08-09 15:07
Java爬虫入门到精通
一篇文章教你用
java爬虫
下载全站视频
环境:jdk1.8、win10、科学上网、eclipse一直想学下写爬虫,满足一下自己的小愿望。正好过年有时间,就研究了一下,网上的资料良莠不齐,于是我决定自己整理一份,按照我的步骤做,一定是可以的,成功了记得回来点赞。案例里爬了一个小型视频网站,最终的效果可以达到自动下载该网站的全部视频,且每个视频都有他该有的名字。如果你要用来爬其他网站,代码里很多地方(比如url,url的解析,字符串的截取,
jwwKngiht
·
2020-08-09 15:47
java爬虫
酷狗音乐
1.pom.xml有些依赖与本项目无关4.0.0com.zpctimor0.0.1-SNAPSHOTjartimorzpcprojectforSpringBootorg.springframework.bootspring-boot-starter-parent2.0.3.RELEASEUTF-8UTF-81.8org.springframework.bootspring-boot-starter
盼超师兄
·
2020-08-09 14:59
爬虫
Java爬虫
——爬取网易云歌单音乐添加到QQ音乐
此博客仅为学习交流,如触及第三方利益,请及时联系本人删除一、前言看标题大家可能会有点疑惑,为什么要写这个看起来没什么作用的爬虫,两个音乐软件换着用不香吗?基于此问题,我以我个人感受罗列了网易和QQ音乐以下几个优缺点:网易云QQ音乐优点1.推荐功能2.用户评论3.有很多优秀的原创音乐人入驻1.非常强大的版权库2.QQ黏性缺点1.版权问题2.功能越来越杂1.界面花里胡哨2.推荐功能有所欠缺我最开始用网
qq_41770939
·
2020-08-09 11:21
Java爬虫
Java爬虫
实战第四篇:手机安装证书
以iPhone8PLUS为例1、在第二篇的基础上,我么手机浏览器访问:192.168.0.23:8888;跳转到FiddlerEchoService证书下载页。2、点击FiddlerRootcertificate下载并安装;弹出“此网页正尝试下载一个配置描述文件,您要允许吗?”点击允许!3、已下载描述文件,若要安装,请先在“设置”App中查看描述文件打开设置,在首页会有“已下载描述文件”(或者“设
小达哥的垃圾桶
·
2020-08-09 10:38
Java爬虫
Java调用https服务报错unable to find valid certification path to requested target的解决方法
解决:
Java爬虫
遇到的httpclient之https报错unabletofindvalidcertificationpathtorequestedtarget的问题1、下载证书去你程序要访问的网站,
小达哥的垃圾桶
·
2020-08-09 10:38
https
Java爬虫
证书
java爬虫
——爬取抖音排行榜上的音乐
这次的目的是:将抖音排行榜上的音乐爬取下来第一件事:分析网站的结构分析之后得出的结论是:排行榜每首歌曲页面的地址都如下:https://www.douyin.com/cnl_music/music_detail/?id=2每首歌曲的页面只是id的值不同,前面都是一样的然后,我们需要拿到歌曲的名称和歌曲的地址,那么我们只需要取到id为vedio和id为musicName这两个元素即可第二件事,爬取歌
XTU熊大
·
2020-08-09 10:28
java
Java爬虫
实战案例五之 Jsoup Select
Java爬虫
实战案例五之JsoupSelect本位主要讲解Jsoup包中的select方法的使用。
LawsonAbs
·
2020-08-09 09:12
#
Java
几十行代码实现
Java爬虫
,结合jsoup爬取网名昵称
原文链接:点击打开链接crawler4j是一个开源爬虫框架(https://github.com/yasserg/crawler4j),我们可以使用它进行爬虫。以爬取http://www.nibaku.com这个网站为例,展示如何使用crawler4j+jsoup爬取网名昵称。1.crawler4j(1)引入maven仓库edu.uci.icscrawler4j4.4.0(2)编写WebCrawl
kaiscript
·
2020-08-09 07:52
java
Java爬虫
系列之实战:爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例:
Java爬虫
系列二:使用HttpClient抓取页面HTML
Java爬虫
系列三:使用Jsoup解析HTML今天就来实战下
weixin_30817749
·
2020-08-09 05:32
Java爬虫
项目实战案例四之Jsoup使用
Java爬虫
项目实战案例四之Jsoup使用1.Jsoup简介Jsoup是一款java的HTML解析器,可直接解析某个URL地址,HTML文本内容。
LawsonAbs
·
2020-08-09 05:55
#
Java
一篇实战博客入门之--
Java爬虫
(一)
1.实战计划1.入门程序2.网络爬虫介绍3.HttpClient抓取数据4.Jsoup解析数据5.爬虫案例2.网络爬虫网络爬虫(Webcrawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本2.1.爬虫爬虫入门程序2.1.1.环境准备JDK1.8IntelliJIDEAIDEA自带的Maven2.1.2.环境准备创建Maven工程demo-crawler-first并给pom.x
Dream_ling
·
2020-08-09 04:55
java
java爬虫
程序放到linux云服务器上执行
为了防止自己忘记,就写了下来。首先建立了java项目文件后,将jsoup包复制到项目中,然后右键将其添加到项目中,我们现在抓取今日头条的12377的电话号码,右键审查元素,发现举报电话使用的是class="tel",查看源码,发现tel对应的class只有一项,这里只有一个Element,因此代码如下:Documentdocument=Jsoup.connect(url).get();Elemen
风子林
·
2020-08-08 17:15
爬虫
云服务器
爬虫爬取的网易云热门歌单
2019独角兽企业重金招聘Python工程师标准>>>介绍从网上看到了一个
java爬虫
的教学,觉得挺有意思,就用来爬取一下网易云歌单,看一下什么歌单播放次数最多。
weixin_33921089
·
2020-08-07 20:58
一口气说出 9种 分布式ID生成方式,面试官一脸懵
你可以这样怼他3万字总结,Mysql优化之精髓为了不复制粘贴,我被逼着学会了
JAVA爬虫
技术部突然宣布:JAVA开发人员全部要会接口自动化测试框架Redis5种数据结构及对应使用场景,
程序员内点事
·
2020-08-05 11:21
分布式
Java爬虫
历险记 -- (2)爬取数据并存放到mysql
本文是对博客下雨天没带伞–JAVA实现网页爬虫及将数据写入数据库–http://blog.csdn.net/sinat_38224744/article/details/70652767中代码的理解和补充,并使用NavicatforMySQL软件实现对数据的可视化操作。代码分成两部分:Web.java+Jdbc.java一、Web.java/***原博客:http://blog.csdn.net/
wjiafan
·
2020-08-05 11:00
java爬虫
爬虫
java爬虫
之使用HttpClient模拟浏览器发送请求方法详解
0.摘要0.1添加依赖org.apache.httpcomponentshttpclient4.5.20.2代码//1.打开浏览器创建httpclient对象CloseableHttpClienthttpClient=HttpClients.createDefault();//2.输入网址HttpGethttpGet=newHttpGet("http://www.baidu.com");//3.发
·
2020-08-05 11:44
java爬虫
的几个实例
单个网页爬取packageredis.list;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.select.Elements;/***访问单个新闻页:*http://www.huxiu.com/article/102062/1.html需要:标题,内容*/publicclassSingleArticle{p
_Wanananan
·
2020-08-04 22:14
claw
VSCrawler爬虫项目介绍
VSCrawler是virjar大神写的一个
java爬虫
项目,VSCrawler接入了dungproxy作为网络层API,本身自带代理服务。
nudt_qxx
·
2020-08-04 22:08
java
VSCrawler
爬虫
Java爬虫
入门(一)
package爬虫;importjava.io.*;importjava.net.*;publicclasspachong1{publicstaticvoidmain(String[]args){//设置爬取网页的网址Stringstrurl="https://www.w3cschool.cn/java/java-tutorial.html";try{//先拿到这个urlURLurl=newURL
易海涛
·
2020-08-04 21:23
Java爬虫入门到实战
使用IDEA创建Meaven项目(
Java爬虫
系统)
一、创建Meaven项目:开始前:首先打开IDEA后点击settings,然后在VMOptions内添加-DarchetypeCatalog=internal运行参数1.点击file新建项目2.3.groupid和artifactId被统称为“坐标”是为了保证项目唯一性而提出的,如果你要把你项目弄到maven本地仓库去,你想要找到你的项目就必须根据这两个id去查找。groupId一般分为多个段,这
mosanger1
·
2020-08-04 15:07
学习
我用java玩爬虫之第一次爬CSDN就是这么简单!
关注专栏
Java爬虫
【寻职网项目实战】目录你的第一次1.爬虫入门程序1.1.环境准备1.2.入门demo2.掌握HttpClient2.1Get请求2.2.Pos
戴着眼镜看不清
·
2020-08-04 15:37
Java爬虫【寻职网项目实战】
java爬虫
系列(四)——动态网页爬虫升级版
项目地址项目介绍框架结构快速启动修改配置文件WebDriverPool.javaApp.javaComicDriver.javaComicContentService.javacomic.sql同系列文章我之前推荐过大家使用seimiagent+seimicrawler,但是经过我多次试验,在爬取任务过多,比如线程数超过几十的时候,seimiagent会经常崩溃,当然这也和启动seimiagent
Mr_OOO
·
2020-08-04 12:37
爬虫
入门专栏
最简单的java爬虫
Java爬虫
入门【两种请求方式爬取,设置相关配置参数以及封装HttpClient工具】
Java爬虫
入门Java网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分。
bfhonor
·
2020-08-04 11:27
#
网络爬虫
网络
java
http
HttpClient
爬虫
EasyCrawler-使用WebMagic注解爬取早呀日报
背景WebMagic作为一个
Java爬虫
社区比较活跃的开源框架,肯定有不少东西可以学习的,而且最重要的是有使用手册(http://webmagic.io/docs/zh/)。
艾V古斯
·
2020-08-03 14:53
Java
爬虫
WebMagic
Java爬虫
-WebCollector爬虫Demo微讲解
Java爬虫
-WebCollector爬虫Demo微讲解工作三年,第一次有时间并且有兴致写博客,文笔可能不太好并且个人是个青铜级别开发,有错误的地方请及时帮忙纠正一下,谢谢。
艾V古斯
·
2020-08-03 14:22
如何从网站爬取图片?
工具WebCollector:https://www.oschina.net/p/webcollector概述突然想把xx网站的图片下载下来,但是一张一张的去另存为很是不爽,于是乎上网找了一个
java爬虫
CSDNRGY
·
2020-08-03 05:43
java爬虫
java的jsoup介绍--
java爬虫
与java解析html
最近的工作需要从网上抓取些信息,奈何不会python,暂时又没时间去研究它,只好用java来搞了。事实证明,做爬虫不一定要用python,java一样能做到。jsoup是java的文档解析工具,很方便,很强大。它可以将html文件、字符串或URL转化为Document对象,然后可以通过DOM、CSS和类似jQuery的操作方式,取出或设置属性和内容。它还可以清理不受信任的html,以防止XSS攻击
坚持是一种态度
·
2020-08-03 05:10
java
Java爬虫
Ins博主所有帖子的点赞和评论导出excel
前言某天朋友说,能不能帮忙扒下ins的博主帖子,要所有帖子的点赞和评论,我本来准备让会python的同事写的,最后还是自己顺手写了,本来一开始准备用nodejs或者js写的,想着前端本地测试代理和导excel比较麻烦还是用Java吧,正好好久没写Java了,就当回忆一波吧。注意点ss梯子大家自己准备好,不然连不上ins的,还有ins的一些反扒规则等等我就不一一列举了,下面说下大概的几个点:inst
_双眸
·
2020-08-03 05:26
JAVA
【初学】
java爬虫
并抓取图片保存
这是我参考了网上一些资料写的第一个
java爬虫
程序本来是想获取煎蛋网无聊图的图片,但是网络返回码一直是503,所以换了网站/**网络爬虫取数据***/publicclassJianDan{publicstaticStringGetUrl
smilecjw
·
2020-08-03 04:29
java
Java爬虫
-- HttpClient的使用说明
在第一个爬虫的基础上继续(主要是配置maven和日志)GET请求(无参数)新建HttpGetTest类第一个爬虫中写的就是无参数的GET请求方法不同的是第一个爬虫里处理异常是直接抛出,这里用了try…catch…同时还增加了释放资源publicstaticvoidmain(String[]args){CloseableHttpClienthttpClient=HttpClients.createD
喫茶店のうさぎ
·
2020-08-03 04:07
Java
Java爬虫
--第一个爬虫
新建maven项目在pom.xml中添加坐标首先在maven存储库搜索用来抓数据的HttpClient的坐标org.apache.httpcomponentshttpclient4.5.2还有ApacheLog4j(日志)org.slf4jslf4j-log4j121.7.25test-->将这两个坐标添加到中然后在main>resources中新建log4j.properties并在这个文件中写
喫茶店のうさぎ
·
2020-08-03 04:07
Java
Java网络爬虫之Webmagic快速入门
Webmagic简介WebMagic是一个简单灵活的
Java爬虫
框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。
_清欢
·
2020-08-03 03:47
java爬虫
项目实战(2)-----爬取研招网调剂信息
java爬虫
项目实战(2)------爬取研招网调剂信息1.前言复试咨询信息只是大概地能够获取那些院校招收调剂,但是对于每个院校具体招收多少个调剂一般招生办老师不会公布,因此可以在复试调剂之前,通过爬虫爬取相关专业院校发布地调剂信息
Kevin JYW
·
2020-08-02 14:25
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他