面试相关问题----Python 爬虫项目内容

内容

爬虫,数据分析可视化项目
岗位数据分析可视化
通过Python进行招聘数据的抓取,并对数据进行储存和数据的处理,以及数据分析的可视化
涉及知识点:
1.Python 基础语法、数据类型、流程控制、函数
2. 爬虫的请求过程、requests库的安装和使用、Http请求与POST
3. 爬虫与反爬、请求头Headers、Cookie
4. Json数据的处理及储存、jieba分词、词频统计
5. pyecharts 的使用以及图表的绘制

爬虫

Q : 对拉勾网进行数据抓取,而不是在智能招聘、boss直聘这些需要登录和验证码处理的网站进行,是你抓取不了吗?
A : 因为当时的项目需要数据时间给的比较少,是为了尽量减少经济和时间成本是在拉勾网进行的。如果实在需要登录和验证码处理的网站可以借助第三方验证平台,当然也可以利用图像识别抓取,但是会有较大的误差,还是更建议使用第三方验证平台。

技术问题

Q:http 和 https 的区别:
A:http协议传输的数据都是未加密的,也就是明文的,因此使用http协议传输隐私信息非常不安全,为了保证这些隐私数据能够加密传输,于是网景公司设置了SSL (Secure Sockets Layer) 协议用于对http协议传输的数据进行加密,从而就诞生了https。简单来说,https协议就是http+ssl协议构建的可进行加密传输、身份认证的网络协议,要比http协议安全。
https 和 http 的区别主要如下:
1、https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用。
2、http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议。
3、http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。
4、http的连接很简单,是无状态的;HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,比http协议安全。

Q : 遇到反爬虫时的应对策略有哪些:
A : 方法一 :
添加header信息 :

1> 添加User-Agent
2> 添加Referer
3> 添加Cookie
4> 以上三步还不成功就将添加所有的headers信息:注意将gzip(压缩命令)注释

方法二 :降低请求频率,减少对对方服务器的压力
方法三 : 添加代理池

Q : 进程与线程的关系:
他们的关系:一个进程内至少有一个主线程,还可以有多个子线程,一个进程崩溃,整个线程就崩溃,在同一个进程内的线程是可以创建另外的线程,这些线程之间数据共享,适用于需要同时进行又要共享某些变量的并发操作

关于笔试和面试的详细内容见牛客网!

你可能感兴趣的:(面试相关)