---------------------- 路漫漫其修远兮,吾将上下而求索。学无止境!----------------------
正则表达式
是一种专门用于操作字符串的规则。通过一些符号来表示,简化对字符串的复杂操作。
弊端:阅读性差
常见操作:
1.匹配: String matches(regex)
2.查找: Pattern,Matcher
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(String);
while(m.find){
System.out.println9m.group);
}
3.切割:String split(regex);
4.替换:String replaceAll(regex,str);
eg:
String regex = "\\d{5,}";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(String);
while(m.find()){
String s = m.group();
s.replaceAll(regex,"#");//将符合规则的片段替换成#
}
网页爬虫:
通过网络以及io读取网页的源文件,并通过规则获取网页中符合规则的数据,比如mail爬虫:
String mailreg = "[a-zA-Z0-9_]{6,12}@[a-zA-Z0-9]+(\\.[a-zA-Z])+";
正则表达式中组的含义:
将部分规则进行封装以便于重用。\\num反向引用指定组
html:超文本标记语言
html中的数据都会封装在标签当中,因为可以通过改变标签中的属性值对封装在标签内的数据进行操作确定html的范围,
head:该网页的属性信息,比如:标题。
body:网页显示的数据。
标签特点:对于数据进行封装,那么就有开始标签和结束标签,但是也有一些标签只体现单一更能,所以不需要结束标签,规范中要求 标签必须要结束,所以这样的标签在内部结束。
如:
标签格式:<标签名.属性名="属性值">数据标签名>
<标签名 属性名="属性值"/>
创建标签:
1.字体:
数据
特殊部分:如果在页面显示一些特殊符号,需要进行转义。
<: <
>: >
&: &
空格:
标题:
2.列表标签
上层项目:
下层项目:
项目符号标签:
这两个标签中的列表项都由
3.图像标签:
4.表格标签: 表格由行所组成,行由单元格组成。 标题标签: 表格是常用的标签,用于对数据进行格式化。 http://www.baidu.com" target="_blank" title="这是什么样子的呢?">走进百度 当被点击后,会启动引擎对应的解析程序。去查找指定主机。 a.先找本地主机的hosts文件。如果没有找到该主机对应的ip地址。 mailto:[email protected][email protected]">联系我们 当点击超链接时,就会出现邮件相关联的解析程序,本机默认的是outlook。 定位标记: 该标签是可以和服务器端进行交互的。
表格中默认都有一个tbody标签。
cellspacing="0">
b.去公网DNS服务器上找相应的ip地址。
超链接的另一个作用:
6.表单标签: