Java爬虫入门学习

爬虫入门学习(Updating)


文章目录

  • 爬虫入门学习(Updating)
  • 爬虫简单了解
  • 一、准备工作
    • 环境搭建
    • F12-network-headers
    • 案例实现
  • 二、案例(AcFun)
    • 1.引入库
    • 2.读入数据
  • 三、 总结


爬虫简单了解

网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本

一、准备工作

一、环境准备

环境搭建

  • JDK1.8
  • Eclipse 2018 64位
  • Eclipse自带的Maven
    pom.xml中加入依赖httpclient、slf4j-log4j12
  • 本地仓库

二、F12开发者工具相关知识

F12-network-headers

  1. 例:使用chrome浏览器自带的开发者工具查看http头的方法
    1)F12打开chrome自带的调试工具;
    2)选择network标签, 刷新网页或网页上操作(在打开调试工具的情况下刷新);
    3)刷新后在左边找到该网页url,点击 后右边选择headers,就可以看到当前网页的http头了

  2. General

Request Method:HTTP方法
Status Code:响应状态码
200(状态码) OK
301 -资源(网页等)被永久转移到其它URL
404 - 请求的资源(网页等)不存在
500 - 内部服务器错误

  1. HTTP request header )

Accept:客户端能接收的资源类型
Accept-Encoding:gzip, deflate(客户端能接收的压缩数据的类型)
Accept-Language:en-US,en;q=0.8 客户端接收的语言类型
Cache-Control:no-cache服务端禁止客户端缓存页面数据
Connection:keep-alive 维护客户端和服务端的连接关系
Cookie:客户端暂存服务端的信息
Host:www.jnshu.com 连接的目标主机和端口号
Pragma:no-cache 服务端禁止客户端缓存页面数据
Referer:http://www.jnshu.com/daily/15052 来于哪里
User-Agent: 客户端版本号的名字

  1. Response Headers

Date 服务器端时间
Server 服务器端的服务器软件 Apache/2.2.6
Etag 文件标识符
Content-Encoding传送启用了GZIP压缩 gzip
Content-Length 内容长度
Content-Type 内容类型

三、思路

案例实现

1.模拟登陆(无需验证码)
2.爬取数据
3.解析数据
4.遍历去重
5.保存数据

二、案例(AcFun)

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


三、 总结

提示:这里对文章进行总结

你可能感兴趣的:(Java学习)