在整个大数据技术分层中,数据来源之一就是爬虫。而想要爬取更多数据,对Web的学习必不可少。
Web知识主要分三大类,Html和Css、JavaScript、框架。
今天主要讲关于Html的知识
HTML全名是超文本标记语言,Hyper Text Markup Language。它是一门语言,用于文本,其中标记是它的基础。后续大家就可以看到Html主要是各类标记元素嵌套来展示数据。
本身它也有自己的格式,后缀以.hml .htm结束的就是html页面,大家打开浏览器,ctl+s,保存的就是打开网页的html文件。
<html>
<head>
<meta charset="UTF-8">
<title>title>
head>
<body>
body>
html>
<p>
段落内容或者其他标签元素,注意html中的元素是可以并列展示或者多层嵌套的。具体参见xml,一样的用法。或者说大家可以想象成俄罗斯套娃,可以无限套,不过可读性和性能起见,一般都会控制嵌套层数。
p>
<br/>
<hr/>
ps:
<div>
div>
<span>
span>
<font>
font>
<h1>
一级标题,最大
h1>
<h2>
二级标题
h2>
<h3>
三级标题
h3>
<h4>
四级标题
h4>
<h5>
五级标题
h5>
<h6>
六级标题,最小
h6>
<ul>
<li>第一行li>
<li>第二行li>
<li>第三行li>
ul>
<ol>
<li>第一行li>
<li>第二行li>
<li>第三行li>
ol>
经常说的图文并茂,作为描述文本为主的标记性语言,图片肯定不可或缺。
<img src="本地或者网络路径" style="width:100px; height:100px;"/>
ps:
最新的浏览器等已经不再支持直接读取硬盘中的图片文件路径,所以需要测试,要把图片资源拷贝到自己的web项目中进行访问
a,就是表示一个连接,属性设置就是href,可以看错是hyper reference link
<a href="//www.baidu.com/">
简单教程
a>
表格,table
<table border="1">
<caption>表格标题caption>
<th>表头1th>
<th>表头2th>
<tr>
<td>row 1, cell 1td>
<td>row 1, cell 2td>
tr>
<tr>
<td>row 2, cell 1td>
<td>row 2, cell 2td>
tr>
table>
表单,form
<form>
圣墟: <input type="text" name="不详"><br>
我的师兄太稳健了: <input type="text" name="稳教">
form>
select就是一个下拉自定义的表格,option则是每个自定义选项的元素。
<select>
<option value="神船笔记本">神舟option>
<option value="蓝天模具笔记本">蓝天自定义option>
<option value="败家之眼笔记本">华硕option>
<option value="外星人贵笔记本">戴尔option>
select>
html优点,简洁明了,使用标记来展示出不同文本类型和数据。对比如word、ppt、excel等格式要轻量很多很多,也利于网络传输和解析读取。最早期的互联网的硬件和网络都能很好承载。
html不足,从自身体验来看,还是显得有些臃肿,出现错误定位对比编译性的编程语言也比较麻烦。如果一个复杂网页,html文件一般会显得相对庞大.
具体可以看一下京东首页的html文件,进入浏览器之后,ctrl + s,保存的就是html页面文件,大家可以看一下层级是非常深的,额比较复杂。所以淘宝,京东都已经开发出无人化的html页面生成技术来提升维护效率。
京东首页
本质其实就是使用标记来区分各种类型的展示元素,并且允许嵌套,这样就可以带来非常丰富的样式变种。至于每个元素则使用不同的属性如style等来修饰,整体非常轻量级,利于使用浏览器引擎解析和渲染。
从整体来看,当时设计时,可能并没有设想到随着现实业务发展,html网页会变得比互联网初期时复杂那么多,这样也使得浏览器的引擎必须持续迭代来保证渲染性能和体验。