E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
java爬虫
Java爬虫
入门简介(四)——抓包工具的使用以及使用HttpClient模拟用户登录的访问
原文地址:http://www.datalearner.com/blog/1051509365677137网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录。我们会以CSDN的用户登录为例,讲述如何使用抓包工具获取登录方式并使用HttpClient工具模拟登陆访问。
数据学习(Datalearner)
·
2017-10-31 21:50
网络爬虫
爬虫
java
爬虫
深入了解
Java爬虫
的运用技术
首先我们需要知道关于爬虫的一些基本概念,下面我来做一些简单的介绍。1.爬虫是什么?爬虫又叫网络爬虫,是一种运行在互联网上为了获取数据的自动化程序或脚本2.爬虫解决了什么问题爬虫解决了获取数据的问题3.爬虫爬取的数据有什么用和搜索引擎结合使用,对数据进行分析,提取有价值的信息,得到数据的商业价值4.爬虫的简单分类•通用爬虫:百度爬取互联网所有数据的爬虫叫做通用爬虫•垂直爬虫:为做数据分析而爬取特定数
likemebee
·
2017-10-19 21:57
java爬虫
java爬虫
绕过登录页面
转自:http://blog.csdn.net/jiangsanfeng1111/article/details/51282966当我们在写爬虫的时候,往往会遇到很多反爬的问题。比如:在登录页面设置验证码、扫描二维码登录、滑动鼠标登录、手机短信验证码登录等等。这里介绍一种个人已经实现的方法——绕过登录页面。这里的绕过不是说真的可以绕过登录,除非这个系统本来就有问题,这是这个系统天大的bug。这里说
一身气质范
·
2017-10-16 15:40
java
爬虫
java 使用webmagic 爬虫框架爬取博客园数据存入数据库
java使用webmagic爬虫框架爬取博客园数据存入数据库webmagic简介:WebMagic是一个简单灵活的
Java爬虫
框架。你可以快速开发出一个高效、易维护的爬虫。
a906423355
·
2017-10-12 16:21
Java爬虫
技术之绕过百度云防护抓取网站内容
大家好,我是Coody最近做文章采集,碰到一个有经过百度云加速的网站,由于打开浏览器需要安全检查,所以针对相关机制做了一下研究,故此封装了一个HTTP工具。本文已发布之开源中国,由于csdn用户量巨大且易于搜索引擎收录,故此分享出来希望对特定的友友有所帮助。直接贴代码,copy下来可以直接使用如图:输入图片说明首先需要一个Http工具类:HttpHandlepackageorg.coody.rob
Coodyer
·
2017-10-08 22:18
JAVA
java爬虫
爬取美女图片
前言:抓住国庆假期的小尾巴,分享一波福利。if(!existUrl(cache,saveUrl)){//插入数据库Picpic=newPic(title,tag,tiAdd,newDate(),saveUrl,img);picList.add(pic);//插入缓存cache.put(newnet.sf.ehcache.Element(saveUrl,saveUrl));logger.info("
艳学网
·
2017-10-08 09:21
java工具
java爬虫
,破解JS加密的Cookie
一序:因为爬取数据需要,代理跟验证码识别属于不可避免的问题。本文总结了下因为爬取免费代理IP数据遇到的js加密cookie问题。二问题:对于常见的静态页面来说,jsoup的解析是比较常见的。但是这个网站如果直接用jsoup去抓取,会报错。org.jsoup.HttpStatusException:HTTPerrorfetchingURL.Status=521,URL=http://www.kuai
bohu83
·
2017-09-25 14:16
J2EE
java爬虫
--jsoup简单的表单抓取案例
分析需求:某农产品网站的农产品价格抓取网站链接:点击打开链接页面展示如上:标签展示如上:分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据。软件环境:eclipse,Jsoup包下载地址:点击打开链接密码:bmrr抓取表单比较简单,直接用select选择标签即可。实现:完整代码如下:packagecom.jsoup;importjava.io.Bu
Beeman_xia
·
2017-09-25 09:43
java
WebCollector 网页爬虫
爬虫简介:WebCollector是一个无须配置、便于二次开发的
Java爬虫
框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
尹文辉
·
2017-09-23 09:22
爬虫
Java爬虫
入门简介(三)——HttpClient保存使用Cookie登录
其他爬虫博客:
Java爬虫
入门简介(一)——HttpClient请求及其详细使用
Java爬虫
入门简介(二)——Jsoup解析HTML页面
Java爬虫
入门简介(三)——HttpClient保存和使用Cookie
数据学习(Datalearner)
·
2017-09-22 20:37
爬虫
码云推荐 | 那些优秀的网络爬虫工具介绍
一、强力
Java爬虫
|Spiderman项目简介:Spiderman是一个Java开源Web数据抽取工具。
zicochan
·
2017-09-20 09:17
使用PhantomJS实现模拟登陆(
Java爬虫
)
PhantomJS介绍最近开发爬虫的时候,遇到.aspx后缀的网页需要去模拟登陆然后获取cookie,本来计划通过selenium进行登陆,但是效果很不好红色警告很多,似乎selenium对于JavaScript支持不是很好。在查过资料之后,发现了PhantomJS这一大杀器,基本满足爬虫很多需要,便决定使用PhantomJS进行开发模拟登陆。以下是对于PhantomJS的介绍(1)一个基于web
Nightmare_Zero
·
2017-09-18 21:00
PhantomJS
PhantomJS
Java爬虫
爬取网站图片
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取。在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片。同时将文件名,路径,URL插入数据库,便于索引。第一步,创建持久层类,用来存储文件名,路径以及URL。 packageorg.amuxia.demo; importjava.sql.Connection; importjava.
hzp666
·
2017-09-13 10:45
Java
Java爬虫
入门简介(二) —— Jsoup解析HTML页面
Java爬虫
入门简介(二)——Jsoup解析HTML页面原文链接:http://blog.csdn.net/df19900725/article/details/77587318上一节我们获取了http
葡小萄家的猫
·
2017-09-08 22:35
java爬虫
一(分析要爬取数据的网站)
一、获取你想要抓取的网站地址:http://www.zhaopin.com/然后打开控制台,F12,打开。我用的是Chrome浏览器,跟个人更喜欢Chrome的控制台字体。找到搜索栏对应的html标签:http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%B7%B1%E5%9C%B3&kw=Java&sm=0&p=1也可以直接在地址栏输入这个网址
柴丝言
·
2017-09-07 10:20
java
爬虫
简易
JAVA爬虫
练习,为新手总结的三种爬虫方法
这是想学习
java爬虫
的新手必经之路,也是最简单的几种
JAVA爬虫
爬取网页信息的方法,当然,这几种方法爬取的网页有限,对于需要登录的网页则还需进行更复杂的操作,这里就不做多余的解释,毕竟是写给新手的,希望对刚学习
Ronsssss
·
2017-08-31 18:21
爬虫
编程语言
后端
java
Java爬虫
--页面跳转爬数据
刚来老板(导师)公司实习,接到任务是用java做一个爬虫,来搜索中关村中手机的参数,功能是输入一个关键字,然后可以输出相关手机的CPU型号,操作系统,蓝牙版本。比如:输入s6,就要输出s6手机的相关参数。嗯,我还不怎么会Java语言,借这个机会可以好好学学,就是这样!下面开始学习吧…首先需要搞清楚需求是什么,先把过程模拟一遍,就不上图了,自己脑补一下,首先在百度主页面中输入关键字s6,然后需要有页
NineLi
·
2017-08-29 19:17
爬虫学习
Java爬虫
初体验:简单抓取IT之家热评(整合Spring Boot+Elasticsearch+Redis+Mybatis)
爬取主程序使用Jsoup解析网页源代码@ComponentpublicclassWebCrawler{privatestaticfinalStringencoding="utf-8";@AutowiredprivateHotCommentMapperhotCommentMapper;@AutowiredprivateRedisServiceredisService;@Autowiredprivat
赖小明
·
2017-08-27 17:22
Backend
Mybatis
Redis
Freemarker
Spring
Boot
Elasticsearch
Java爬虫
入门简介(二) —— Jsoup解析HTML页面
博客系列
Java爬虫
入门简介(一)——HttpClient请求(本文)
Java爬虫
入门简介(二)——Jsoup解析HTML页面(本文)上一篇博客我们已经介绍了如何使用HttpClient模拟客户端请求页面了
数据学习(Datalearner)
·
2017-08-25 22:51
爬虫
行政区划官方数据--java对象或json-
java爬虫
获取
今天需要用到行政区划的数据,之前爬取过,但是没有保留。上各家API看了下,,都要收费或者key。。好吧,,自己动手。。webmagic框架。以下代码可以获取到所有的行政区划code和汉字。。这是一个list,,集合有了,,json还远吗?剩下的父子关系其实很好处理。。就是判断是否省市县,处理就好。先贴获取区划的代码:publicclassCityZoneSpiderimplementsPagePr
梦醉天下
·
2017-08-08 16:36
java
Java爬虫
实战——利用jsoup爬取网页资源
前言最近沉寂了几周,那是因为小编在埋头farming,学习新技术,思考人生……我一直认为分享的目的在于自我成长并造福他人,我们曾经和现在在网路上搜索的资料和方案又何尝不是别人分享和总结的呢?感谢有那么多人在默默分享和付出……今天给大家分享一个小爬虫方案,小编很久很久之前就想深入爬虫的世界,可是放眼大都是Python系列,虽然用Python很爽很优雅,但一直在Java栈里,暂时不想额外去学Pytho
测试开发栈
·
2017-08-05 13:37
Java爬虫
入门简介(一) —— HttpClient请求及其使用方法
博客系列
Java爬虫
入门简介(一)——HttpClient请求(本文)
Java爬虫
入门简介(二)——Jsoup解析HTML页面博客系列一环境的准备二创建工程三第一个示例四HttpClient的详细使用博客系列首先
数据学习(Datalearner)
·
2017-07-27 21:48
爬虫
WebMagic简明教程(一)
WebMagic简明教程(一)前言做项目需要爬取一些数据,不想用Python,就尝试了下webmagic这个爬虫框架,总的来说上手还是比较简单的,这里来总结一下.webmagic是一个简单灵活的
Java
chenxiaokang97
·
2017-07-23 01:48
java
教务系统,验证码识别,异步加载,
java爬虫
06
上一篇介绍了Python的selenium,今天终于把selenium的java环境弄好了.遇到ajax异步加载的网页还真有点点头疼,普通的爬虫会遇到登录的网页和加载的验证码不一致,不过selenium还真是神器,可以模拟浏览器,实现加载的网页一致性,爬取网页无所不能.环境selenium3.4的jar包和依赖包下载:http://pan.baidu.com/s/1jI1ewNc同时需要Phant
m0_37681914
·
2017-07-14 11:24
java爬虫
java爬虫
教务信息门户(
java爬虫
04)
我从去年12月开始接触爬虫,现在已有足足7个月了,中间一直没搞懂cookie和http协议,时隔这么久,总算弄明白了,也总算爬进去了!!!昨天开始学习的httpClient,今天用它练手爬一下学校的信息门户吧!http://myportal.sxu.edu.cn/login.portal1.抓包以下信息是通过charm浏览器抓包(快捷键F12)获得的:1.http://myportal.sxu.e
m0_37681914
·
2017-07-10 11:25
java爬虫
java爬虫
教程01
学习本教程前,先得了解http协议.心血来潮,来搞点事情.本教程基于:httpcomponents-client,主要根据官方文档讲解.http://hc.apache.org/httpcomponents-client-5.0.x/examples.html本人使用的是4.5.3版,下载地址:http://hc.apache.org/downloads.cgi一个简单的爬虫主要步骤:1.Clos
m0_37681914
·
2017-07-09 11:13
java爬虫
Java爬虫
爬取图片脚本
importjava.io.*;importjava.net.URL;importjava.net.URLConnection;importjava.util.ArrayList;importjava.util.Date;importjava.util.List;importjava.util.regex.Matcher;importjava.util.regex.Pattern;publiccl
东京八十万萝莉教头
·
2017-07-07 18:04
简单的
java爬虫
代码
packagecom.html;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.HttpUR
babyha
·
2017-07-03 22:22
简单入门代码
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用webmagic编写
Java爬虫
获取博客园文章内容
先导知识官方教程简单爬虫编写Maven配置第一个爬虫:博客园特别注意无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。1.先导知识Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。Maven:Maven被id
CieloSun
·
2017-07-02 14:19
使用Gecco写Java简单爬虫
偶然情况下,接触Gecco这个
Java爬虫
框架,尝试用了一下,感觉非常不错,用起来非常简单,非常适合不太懂爬虫基础,又想快速写个爬虫来爬取数据的人。开发环境简单说明 (1)环境说明: –JDK
wjljsbk
·
2017-06-24 09:56
爬虫
[Java]中的HttpClient对象实现简单的爬虫,抓取妹子图片
笔者之前没接触过爬虫的,参考网上的例子,模仿这写了第一个
Java爬虫
的例子,用来抓取http://www.mmjpg.com/网站的妹子图片,先看结果:第一次抓取到网上的图片还是有点小欣慰的。
阿彡
·
2017-05-24 22:31
Java
python爬虫初步-与
java爬虫
的比较
相比较java来说,python的http库类更佳丰富,用java需要几十行代码才能完成的事情,python往往只需要十几行,例如打开并且存储一个网页java代码:importjava.io.BufferedReader;importjava.io.FileOutputStream;importjava.io.FileWriter;importjava.io.IOException;importj
冯子玉
·
2017-05-24 17:15
爬虫
java
python
爬虫
java 爬虫详解及简单实例
Java爬虫
一、代码爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
饭饭_fan
·
2017-05-24 08:46
http编程系列(二)——
java爬虫
实现刷个人博客的访问量
实现功能这里实现的功能是一个根据个人博客主页,搜索出所有的个人博文链接,然后一个一个去访问,从而增加访问量。这里我发现一个问题,csdn既没有做接口ip访问量的限制,访问量统计时也没有做同一ip相同时间段的重复访问重复计数的处理。这也时这个程序能够刷访问量的原因。思路进入个人博客主页,如我的博客:”http://blog.csdn.net/luo4105”,它会出来一个博客的列表(blogList
逝兮诚
·
2017-05-20 18:36
网络编程
Java开源爬虫框架WebCollector 2.x入门教程——基本概念
WebCollector2.x入门教程——基本概念bybriefcopy·Published2016年4月25日·Updated2016年12月11日WebCollector是一个无须配置、便于二次开发的
JAVA
你可拉倒吧
·
2017-05-11 18:53
Java 爬虫工具Jsoup详解
Java爬虫
工具Jsoup详解Jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。
Smile_Miracle
·
2017-05-11 09:35
Java爬虫
实战(一):抓取一个网站上的全部链接
前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测试用例就是自动抓取我的博客网站(http://www.zifangsky.cn)的所有链接。一算法简介程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式
Star Love Leaf
·
2017-05-11 08:33
Java爬虫
实战(二):抓取一个视频网站上2015年所有电影的下载链接
前言:这是
Java爬虫
实战的第二篇文章,在第一篇文章仅仅只是抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中。
Star Love Leaf
·
2017-05-11 08:14
JS爬虫,
Java爬虫
,Python爬虫与反爬虫(工具或框架,脚本)
>JS爬虫,
Java爬虫
与反爬虫?
desaco
·
2017-05-10 18:55
Java爬虫
爬取python百度百科词条及相关词条页面
Java爬虫
爬取python百度百科词条及相关词条页面本实例爬取关于python词条页面及关联词条页面的简介,把词条的简介写入txt文本中,本实例效果:实例基于使用第三方jar包Jsoup1首先分析python
Coder_py
·
2017-05-01 10:20
Java学习
Java爬虫
进阶-Selenium+PhantomJs的运用
seleniumSelenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、MozillaSuite等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建衰退测试检验软件功能和用户需求。支持自动录制动作和自动
Smile_Miracle
·
2017-04-26 18:16
Java爬虫
JAVA爬虫实践
Java爬虫
进阶-HtmlUnit使用解析
大家在做爬虫、网页采集、通过网页自动写入数据时基本上都接触过这两个组件(权且称之为组件吧),网上入门资料已经很多了,我想从实际的应用角度谈谈我对于这两个组件的看法,并记录在博客中,以便日后翻阅,欢迎大家批评指正。本文主要比较两者的优劣性以及介绍应用中的使用技巧,推荐一些入门资料以及非常实用的辅助工具,希望能对大家有所帮助。大家有任何疑问或者建议希望留言给我,一起交流学习。下面我们首先来看下2个组件
Smile_Miracle
·
2017-04-25 17:19
Java爬虫
JAVA爬虫实践
Java爬虫
进阶-Jsoup+httpclient获取动态生成的数据
前面我们详细讲了一下Jsoup发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-Jsoup爬虫详解,但是很多时候网站为了防止数据被恶意爬取做了很多遮掩,比如说加密啊动态加载啊,这无形中给我们写的爬虫程序造成了很大的困扰,那么我们如何来突破这个梗获取我们急需的数据呢,下面我们来详细讲解一下如何获取StringstartPage="https://i
Smile_Miracle
·
2017-04-25 16:44
Java爬虫
JAVA爬虫实践
学习简单的
Java爬虫
的心得
简单的
Java爬虫
原理:我们需要在应用程序上获得网页上的数据,这个过程就是应用程序与URL的一种通信。而这种通信可以通过URLConnection实现连接。
shmily995
·
2017-04-23 00:56
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他