爬虫概念与编程学习之如何爬取网页源代码(一)

 

    直接,去看一个网页的源代码,这个很简单!

爬虫概念与编程学习之如何爬取网页源代码(一)_第1张图片

 

 

 

 爬虫概念与编程学习之如何爬取网页源代码(一)_第2张图片

 

 

 

1、新建maven项目

爬虫概念与编程学习之如何爬取网页源代码(一)_第3张图片

 

2、选择代码保存位置

爬虫概念与编程学习之如何爬取网页源代码(一)_第4张图片

 

3、选择quickstart

爬虫概念与编程学习之如何爬取网页源代码(一)_第5张图片

 

4、设置Group Id和Artifact Id

爬虫概念与编程学习之如何爬取网页源代码(一)_第6张图片

 

5、得到新建好的maven项目

爬虫概念与编程学习之如何爬取网页源代码(一)_第7张图片

 爬虫概念与编程学习之如何爬取网页源代码(一)_第8张图片

爬虫概念与编程学习之如何爬取网页源代码(一)_第9张图片

     pom.xml里需要自行添加(httpclient 4.4   、htmlcleaner 2.10 )

 

爬虫概念与编程学习之如何爬取网页源代码(一)_第10张图片

爬虫概念与编程学习之如何爬取网页源代码(一)_第11张图片

爬虫概念与编程学习之如何爬取网页源代码(一)_第12张图片

爬虫概念与编程学习之如何爬取网页源代码(一)_第13张图片

 

设置好pom.xml配置文件

爬虫概念与编程学习之如何爬取网页源代码(一)_第14张图片

 

 

 

 

 

最后的pom.xml文件为

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
4.0.0

zhouls.bigdata
mySpider
0.0.1-SNAPSHOT
jar

mySpider
http://maven.apache.org


UTF-8



junit
junit
3.8.1
test



org.apache.httpcomponents
httpclient
4.4



net.sourceforge.htmlcleaner
htmlcleaner
2.10


 

 

当然,这个配置文件,以后自行可以去修改。

 

爬虫概念与编程学习之如何爬取网页源代码(一)_第15张图片

 

 

新建包zhouls.bigdata.mySpider.util

爬虫概念与编程学习之如何爬取网页源代码(一)_第16张图片

爬虫概念与编程学习之如何爬取网页源代码(一)_第17张图片

 

 

 

编写代码

爬虫概念与编程学习之如何爬取网页源代码(一)_第18张图片

 

 

 

运行

爬虫概念与编程学习之如何爬取网页源代码(一)_第19张图片

《微微一笑很倾城》30集全—大陆—电视剧—优酷网,视频高清在线观看—又名:《A Smile Is Beautiful》《微微一笑很倾城电视剧版》




微微一笑很倾城
独播
超清
  • 剧集:微微一笑很倾城2016
  • 30集全
  • 别名:微微一笑很倾城电视剧版/A Smile Is Beautiful
  • 2015-12-21
  • 2016-08-22
  • 评分: 9.9
  • 主演:杨洋/郑爽/毛晓彤
  • 导演:林玉芬
  • 地区:大陆
  • 类型:剧情/都市/言情
  • 总播放数:16,951,241,809
  • 评论:1,254,497
  • 顶:13,741,333
  • 指数:
  • 简介:美女学霸贝微微,立志成为游戏工程师,化名“芦苇微微”跻身网游高手,因拒绝上传真实照片而惨遭侠侣“真水无香”无情抛弃,却意外得到江湖第一高手“一笑奈何”的垂青。为了赢得“侠侣挑战赛”,贝微微欣然答应与“一笑奈何”结盟并组队参赛。两人一路闯荡江湖早已心灵相通,可贝微微做梦也没想到,一路出生入死的伙伴竟然就是同校风云人物——师兄...简介:美女学霸贝微微,立志成为游戏工程师,化名“芦苇微微”跻身网游高手,因拒绝上传真实照片而惨遭侠侣“真水无香”无情抛弃,却意外得到江湖第一高手“一笑奈何”的垂青。为了赢得“侠侣挑战赛”,贝微微欣然答应与“一笑奈何”结盟并组队参赛。两人一路闯荡江湖早已心灵相通,可贝微微做梦也没想到,一路出生入死的伙伴竟然就是同校风云人物——师兄肖奈。无论线上还是线下,肖奈都是能力出众的“大神”,更巧的是,他竟然就是游戏开发测试的负责人。线上是侠侣队友,线下是工作伙伴,缘分就是这么妙不可言。当贝微微发现这一真相的时候,两人就自然而然地在一起了。 查看详情
演职员表
更多演员

 

 

 

 

 

 

 

 

 

 

 

 新建页面下载工具类PageDownLoadUtil 

附上代码:

package zhouls.bigdata.mySpider.util;

import java.io.IOException;

import org.apache.http.HttpEntity;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

 


/**
*
* @author zhouls
* created by 2017/1/11
*
*/
public class PageDownLoadUtil {
public static String getPageContent(String url){
HttpClientBuilder builder = HttpClients.custom(); //这是使用HttpClient来构造登录信息, 好的博客,见https://segmentfault.com/a/1190000003013451
CloseableHttpClient client = builder.build();

HttpGet request = new HttpGet(url);//创建一个get请求
String content = null;
try {
CloseableHttpResponse response = client.execute(request);
HttpEntity entity = response.getEntity();//获取HttpGet
content = EntityUtils.toString(entity,"utf-8");//将HttpGet转换成string
} catch (ClientProtocolException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return content;//这个值,就是我们需要的页面内容

}

public static void main(String[] args) {
String url = "http://list.youku.com/show/id_z9cd2277647d311e5b692.html?spm=a2h0j.8191423.sMain.5~5~A!2.iCUyO9";
String content = PageDownLoadUtil.getPageContent(url);
System.out.println(content);
}
}

 

 

 

成功,爬取到网页的源代码!

你可能感兴趣的:(爬虫,javascript,java)