爬虫(bilibili热门课程记录)

什么是爬虫?程序蜘蛛,沿着互联网获取相关信息,收集目标信息。

一、python环境安装

1、先从Download Python | Python.org中下载最新版本的python解释器

2、再从Download PyCharm: Python IDE for Professional Developers by JetBrains中下载community版本的pycharm(免费且够用)

    pycharm安装中文插件(安装后重启pycharm即可)

爬虫(bilibili热门课程记录)_第1张图片

3、如果向博主一样需要直接打开文件运行,可能需要添加一下解释器

 二 爬虫的流程

1、获取网页内容(浏览器会将内容渲染成更直观的页面,而程序获得的网页是一串代码)

http请求(python request实现)

2、解析网页内容(在全面的内容中把想要的数据提取出来)

html格式 (python Beautiful Soup库)

3、储存或分析数据 

注意事项

1、请求数量和频率不要太高(无异于DDoS攻击)

2、有反爬限制(例如验证码)就不要强行突破

爬虫(bilibili热门课程记录)_第2张图片

 三、什么事HTTP请求和响应

HTTP(Hypertext Transfer Protocol超文本传输协议)

HTTP请求

GET方法:获得数据

POST方法:创建数据

七、什么是HTML网页结构

网页三大要素:

(1)HTML定义网页的结构和信息(爬虫最需要关心的)

(2)CSS  定义网页的样式 //网站背景 样式

(3)JavaScript 定义用户和网页的交互逻辑



    
        

这是一个标题

这是一段文字这是一段文字这是一段文字

显示网页源代码

mac用户 先在safari高级选项中设置,然后在开发中打开

 七、HTML常见标签

7.1 标题 数字越小,字号越大

这是一个一级标题

这是一个二级标题

这是一个三级标题

这是一个四级标题

这是一个五级标题
这是一个六级标题

7.2 文本段落

给岁月
以文明

而不是给文明以岁月


//是强制换行 //加粗 //斜体 //下划线 //图片 我的主页 //超链接

7.3 容器

爬虫(bilibili热门课程记录)_第3张图片

爬虫(bilibili热门课程记录)_第4张图片 爬虫(bilibili热门课程记录)_第5张图片

 7.4 有序列表ordered list/无序列表unordered list

    //有序列表
  1. 语文
  2. 数学
  3. 英语
    //无序列表
  • 语文
  • 数学
  • 英语

7.5 表格行

爬虫(bilibili热门课程记录)_第6张图片

7.6 class属性

爬虫(bilibili热门课程记录)_第7张图片

你可能感兴趣的:(爬虫)