python爬虫面试真题及答案_Python面试题爬虫篇(附答案)

0|1第一部分 必答题

注意:第31题1分,其他题均每题3分。

1,了解哪些基于爬虫相关的模块?- 网络请求:urllib,requests,aiohttp

- 数据解析:re,xpath,bs4,pyquery

- selenium

- js逆向:pyexcJs

2,常见的数据解析方式?- re、lxml、bs4

3,列举在爬虫过程中遇到的哪些比较难的反爬机制?

- 动态加载的数据

- 动态变化的请求参数

- js加密

- 代理

- cookie

4,简述如何抓取动态加载数据?- 基于抓包工具进行全局搜索

- 如果动态加载的数据是密文,则全局搜索是搜索不到

5,移动端数据如何抓取?- fiddler,appnium,网络配置

6,抓取过哪些类型的数据,量级多少?- 电商,医疗器械,彩妆,新闻资讯,金融,体育赛事(参考hao123网站)

- 量级:

- 最好不要超过100w。自己计算(页数,一页显示多少数据)

7,了解哪些爬虫框架?- scrapy,pyspider

8,谈谈对scrapy的了解?- 功能:数据解析,持久化存储,深度爬取,分布式,关键件<

你可能感兴趣的:(python爬虫面试真题及答案)