网络爬虫从业者的一些常见问题:
- OCR 爬虫开发成本高不高?
- Selenium 会被直接检测出来吗?
- puppeteer-extra-plugin-stealth会被检测出来吗?
- 最高强度的爬虫对抗手段是什么?
- 爬虫违法吗?
- 爬虫的难点到底在哪里?
- 爬虫到底有哪些应用场景?
- 网络爬虫用什么编程比较好呢?
- 有没有解决上面问题的方案?
问:OCR 爬虫开发成本高不高?
答:OCR 爬虫的开发成本,首先取决于爬虫本身的开发成本。OCR 部分相对不高,因为可用的第三方库、API 太多了。现在也可以直接用成熟开源项目:
有哪些针对电商采集开发的 RPA 产品?
问:Selenium 会被直接检测出来吗?
答:是的,直接使用 selenium 会被直接检测出来。具体可见:
Selenium做爬虫的时候被很多网站屏蔽,可以自己做一个类似selenium自动化工具吗?
问:puppeteer-extra-plugin-stealth 会被检测出来吗?
答:puppeteer-extra,apify/crawlee 这样的工具,提供了 WebDriver 隐身特性,一定程度上缓解了这个问题,但仍然没有完全解决。
- 没有解决访问轨迹跟踪问题
- Headless 模式能够被检测出来。云端爬虫通常以 headless 模式运行,即使做了 WebDriver 隐身, headless 模式也能够被检测出来
- 其他爬虫对抗问题
爬虫对抗中的更多问题可以参考:
Selenium做爬虫的时候被很多网站屏蔽,可以自己做一个类似selenium自动化工具吗?
问:最高强度的爬虫对抗手段是什么?
答:反爬虫的天花板,是某餐饮点评网站。
- 常规反爬:Cookie跟踪,IP跟踪,访问频率限制,访问轨迹跟踪等
- 浏览器自动化工具检测
- 动态自定义字体
动态自定义字体是终极大招,可以简单理解为每个页面上的每个“文字”都用不同的算法显示,而实际传输的“文本”或者“字符串”是一堆乱码。
即使是这样强度的爬虫对抗,有没有办法解决呢?有的。
一个终极方案是,雇佣 1 万个初中水平的人,挤在房间里刷手机,把读下来的内容填到 Excel 表格里。
比终极方案稍稍靠谱一点的方案是,把这 1 万个人换成人形机器人,其他流程不变。
上面两个方案成本过于高昂,还有一些原理类似,成本低廉的方案:使用分布式 RPA 技术,模拟 1 万个用户,同时浏览 1 万个网页,登录网页,下拉页面,点击展开,等等。最后把读到的内容截屏保存转文字。
上述方案成本几何,可以估算一下,能不能迫使对方放弃。
问:爬虫违法吗?
答:采集、分析和融合非隐私公开数据有利于行业发展、数据要素流通和技术进步。行业内几乎每家大数据公司都高度依赖采集和分析其他网站的数据,如果爬虫全部违法,大数据这个行业也就不存在了。国内各大招募网站每天活跃的爬虫工程师近 1000 个,如果爬虫全部违法,这些公司的业务都会受到严重影响甚至直接倒闭。
问:爬虫的难点到底在哪里?
答:总体拥有成本。
爬虫的难点在于数据规模、数据质量、综合性能、人力维护成本、硬件支出等,这些难题构成了总体拥有成本的难题。
具体来看:
- 数据能采集到(难)
- 数据质量和调度质量保证(难难)
- 运行性能和机器成本(难难难)
- 业务和数据分析(难)
- 大批量站点的信息抽取(难难难)
- 构建知识图谱(难难难难)
谈几个具体一点的难点:
- 如何正确轮换IP?如何设置触发条件?事实上,仅轮换IP不够,需要“隐私上下文轮换”
- 如何使用单台机器每天提取数千万数据点?
- 如何保证数据准确性?
- 如何保证调度准确性?
- 如何保证分布式系统弹性?
- 如何正确提取 CSS 混淆 的字段,它的 CSSPath/XPath/Regex 每个网页都不同,怎么解决?
- 如何采集数百个电商站点并避免爬虫失效?
问:爬虫到底有哪些应用场景?
答:从行业应用场景角度看:
- 认知智能:高精度结构化全体网页,为认知智能提供基础知识图谱
- 情感分析:从社交媒体平台、新闻和评论等数据源提取信息,以量化和解读公司、品牌、产品的声誉,跟踪竞争对手,或者收集政务舆情,及时了解任何可能重要的突发事件
- 价格情报:电商网站更改价格越来越频繁,竞争对手定价和库存监控变得越来越重要。监控竞争对手的定价有助于企业调整自身产品的市价率。品牌商也通过渠道巡检来监控渠道定价,以确保分销商遵守定价政策
- 供应链管理:使用网络数据进行需求预测、销量预测,以帮助管理物流、采购、库存等。譬如帮助电商对产品销量进行预测,从而制定补货计划,优化库存;航空公司监控市场并调整其定价和航线;而食品公司则通过跟踪农产品原产地气候变化,来预测农产品质量并选择供应商
- 市场营销:收集有关竞争对手的信息、识别销售线;从新闻、社交媒体和评论中收集信息并进行分析,跟踪需要客服和支持的问题,并进一步制定产品开发和市场进入策略。网络数据还可用于潜在客户生成,识别可能成为特定服务或产品目标的个人或公司
- 经济与投资研究:从网络数据中生成可分析数据,并通过API 直接交付到投资公司模型,可以近乎实时地推动投资决策。投资公司使用测量移动位置、交通模式、天气、卫星图像、财务报表、宏观经济指标等数据集来帮助制定投资决策。市场数据汇总也被广泛应用于直接投资决策。对一些缺乏行业数据的新兴行业,从网络中获得自身数据指标可能是获得影响未来规划的关键见解的唯一机会
- 风险管理:使用网络数据增强风险管理措施,如对员工、供应商、交易对手进行背景调查以控制风险,或者用于监控地缘政治风险和检测欺诈
具体可以参见:
网络数据管理的应用场景,核心难题和解决方案
以及
Opimas Research 报告 - WEB DATA INTEGRATION – LEVERAGING THE ULTIMATE DATASET
问:网络爬虫用什么编程比较好呢?
答:各种语言都可以,譬如 Java, Kotlin, Javascript, Python, Go, C++ 等。随着网站变得越来越复杂,页面变动越来越频繁,越来越多的网站由 Vue,React 等技术动态生成,我们建议网络爬虫直接从浏览器自动化工具开始,譬如 Selenium,Playwright,Puppeteer,Crawlee,PulsarRPA 等。这些工具本身由某一种语言编写,但往往对使用者提供了多种语言绑定。不要再用 Requests, Scrapy 等原始工具了,不要陷入花里胡哨、无穷无尽的爬虫对抗中。
网络爬虫用什么编程比较好呢?
问:有没有解决上面问题的方案?
答:有的。
PulsarRPA(国内镜像)为解决网络数据管理、多源异构数据融合、数据采集等问题,开发了一系列基础设施和前沿技术:支持高质量的大规模数据采集和处理,支持网络即数据库范式,支持浏览器渲染并将其作为数据采集的首要方法,支持 RPA 采集,支持退化的单一资源采集,并计划支持最前沿的信息提取技术,提供了人工智能网页提取的预览版本。
- PulsarRPA 支持高质量的大规模数据采集和处理。 PulsarRPA 开发了一系列基础设施和前沿技术,来保证即使是大规模数据采集场景,也能达到最高标准的性能、质量和总体拥有成本。
- PulsarRPA 支持网络即数据库范式。 PulsarRPA 像对待内部数据库一样对待外部网络,如果需要的数据不在本地存储中,或者现存版本不满足分析需要,则系统会从互联网上采集该数据的最新版本。我们还开发了 X-SQL 来直接查询互联网,并将网页转换成表格和图表。
- PulsarRPA 支持浏览器渲染并将其作为数据采集的首要方法。 将浏览器渲染作为数据采集的首要方法,我们在数据点规模、数据质量、人力成本和硬件成本之间实现了最佳平衡,并实现了最低的总体拥有成本。通过优化,如屏蔽不相关的资源文件,浏览器渲染的性能甚至可以与传统的单一资源采集方法相媲美。
- PulsarRPA 支持 RPA 采集。 PulsarRPA 包含一个 RPA 子系统,来实现网页交互:滚动、打字、屏幕捕获、鼠标拖放、点击等。该子系统和大家所熟知的 selenium, playwright, puppeteer 是类似的,但对所有行为进行了优化,譬如更真实的模拟操作,更好的执行性能,更好的并行性,更好的容错处理,等等。
- PulsarRPA 支持退化的单一资源采集。 PulsarRPA 的默认采集方式是通过浏览器渲染来采集完整的网页数据,如果您需要的数据可以通过单一接口获取,譬如可以通过某个 ajax 接口返回,也可以调用 PulsarRPA 的资源采集方法进行高速采集。
- PulsarRPA 计划支持最前沿的信息提取技术。 我们计划发布一个先进的人工智能,以显著的精度自动提取所有网页(譬如商品详情页)中的每一个字段,目前我们提供了一个预览版本,国内镜像。