爬虫学习笔记

1.爬虫的过程:
(1)通过一个程序,根据url进行爬取网页,获取有用信息
(2)使用程序模拟浏览器,取向服务器发送请求,获取响应信息
2.爬虫核心:
爬取网页,包括网页中内容
解析数据,对网页中得到的数据进行分析
难点:爬虫与反爬虫的博弈
3.爬虫的用途:
数据分析、人工数据集
社交软件冷启动
舆情监控
竞争对手监控

4.urllib库(Python自带,不需安装)

5.url的组成
http80 https443 mysql3306 oracle1521 redis6379 mongdb27017

舞蹈兼职,教课兼职,会计兼职,(注册会计师、教师资格证,舞蹈工作室)
ctrl+alt+l可以将一行很长的数据变成多行
crrl+/一键加#

shutil.move()方法将文件或目录(源)递归移动到另一个位置(目标)并返回目标。
用法: shutil.move(source, destination, copy_function = copy2)
source: 代表源文件路径的字符串。
destination: 代表目标目录路径的字符串。
copy_function(可选):此参数的默认值为copy2。我们可以为该参数使用其他复制函数,例如复制,复制树等。

python中的OS模块提供了与操作系统进行交互的函数。操作系统属于Python的标准实用程序模块。该模块提供了使用依赖于操作系统的函数的便携式方法。
os.system()方法在子shell中执行命令(字符串)。该方法是通过调用标准C函数system()来实现的,并且具有相同的限制。如果命令生成任何输出,则将其发送到解释器标准输出流。无论何时使用此方法,都将打开操作系统的相应 shell 并在其上执行命令。
用法: os.system(command)
参数:
command: 它是字符串类型,告诉执行哪个命令。

basename:获取文件指定路径的名称

Python 中的isinstance()函数,isinstance()是Python中的一个内建函数。是用来判断一个对象的变量类型。
“glob.glob函数的参数是字符串,查找文件只用到三个匹配符:"“, “?”, “[ ]”。其中,”"表示匹配任意字符串… 用于匹配文件路径,返回所有匹配的…

5.cookie中携带着你的登录信息,如果有登录之后的cookie 那么就可以携带cookie进入任何页面。
referer判断当前路径是不是上一个路径进来的,一般是图片防盗链
‘referer’:‘https://weibo.cn/’

6.Handle处理器
7.代理proxies

你可能感兴趣的:(爬虫,学习,python)