一转眼开学了……

开学修了一门楼sir的Java应用技术,上学期选课的时候谁特么跟我说这门课是零基础的TAT

只能够边学暑期的清华课程边做作业了……

第二次作业——爬网页:

作业:网页信息提取

读取网页,去除广告等无关部分,主要内容在屏幕显示或将其以TXT文件方式存盘。

要求:不使用第三方工具,自己作String处理。

本次作业经验总结:

1. 一开始爬下来是乱码,感觉是编码问题,但是workspace里面默认UTF-8,没有GBK。我想,结果网上搜了一下,直接在设置中(workspace)填入GBK,结果就可以了~


一转眼开学了……_第1张图片
图0

初步结果如下图所示:


一转眼开学了……_第2张图片
图1

所用到的技术:

1. try-catch 结构

    用于处理异常:


一转眼开学了……_第3张图片
图2

2. URL数据类型,String数据类型,以及缓冲的处理(这一部分上课时候楼sir讲过)


一转眼开学了……_第4张图片
图3

3. Pattern类,Matcher类——用于过滤出制定标签内的正文。

我首先用它来过滤出通知的标题(标题用

修饰)


一转眼开学了……_第5张图片
图4

4. 使用String类中的replace方法来把超链接()及其中间的内容全部过滤掉。


图5

基本上就是用了这些方法。

你可能感兴趣的:(一转眼开学了……)