爬虫基础和HTML(前端知识简介)

本节中的内容比较零散,都是为以后爬虫做了解,大家理解性记忆就好了。

什么是爬虫
自动获取互联网上的信息,比如说,自己关注的微博博主发了文章会给你提示,这个在微博中已经有了。教务信息系统自动登录教务系统。
爬虫能干什么
数据监控,数据收集,信息集合,资源采集
豆瓣电影,有反爬机制
浏览网页的过程
1.输入网址 2.浏览器向dns服务商发送请求 3.找到对应服务器 4.服务器解析请求 5.服务器处理请求得到最终结果发回去
6.浏览器解析返回的数据 7.展示给用户
关于域名的知识
http://movie.douban.com/subject/4920389/?from = showing
douban 是一级域名,如何判断是哪个是一级域名,二级域名,三级域名等都是自己可以可以命名的,阿里云可以购买一级域名
防骗,看一级域名
/后面接的东西 from = showing 网址参数
爬取策略:1.从页面开始不断爬取页面上的链接(1)深度优先搜索(2)广度优先搜索
从第一个节点一层一层找下去,先到最深的地方;广度优先一层一层的
2.观察网址的规律(经常看网址)其他都是相同的只有数字是不一样的

前端入门
什么是前端什么是后端,前端是在你的浏览器中渲染出来的,后端是在别人家服务器中运行的
前端开发用什么Chrome
网页三个部分,html,CSS,JavaScript
HTML(hypertext Markup Language)网页最基本的要素,通过标记语言的方式来组织内容(文字、图片、视频)
查看网页源代码
head body
body 是正式内容的部分
HTML元素解析

这是一个段

开始标签 内容元素 结束标签 可以添加属性

这是一个文段

这是一个段落

嵌套标签

CSS指层叠样式表(Cascading Style Sheets)
它定义了一个网页该如何显示里面的元素,比如这个段落该靠在浏览器的左边还是右边还是中间,这段文字的字体该是什么颜色,字体,大小该是什么等等都有CSS定义。
新建一个文件
p{
color:blue;
}
p叫做选择器

CSS解析 p,h1{ color:blue; font-family:KaiTi;}
苹果公司的源码
id 和 class

欢迎来到每颗豆创客学院

每颗豆官网 id在每个html中只能有一个 class 可以有多个(就像是身份证号和民族) #welcome-link{} .link{}

盒子模型:
(此处假如图片)
margin border padding
内容及盒子边框中间是padding,及内边距
边框和边框外其他元素之间是margin,及外边距
爬虫基础和HTML(前端知识简介)_第1张图片

JavaScript
一种编程语言,主要用于前端的一种编程语言,为网站提供动态交互效果
新建文件叫做index.js和index.html放在同一个目录下
alert()是一个函数
JavaScript解析
调用

每颗豆创客

作业:创建一个简单的html页面理解html个元素的含义

去了解学习前端知识

你可能感兴趣的:(有道精品课之python)