进化论:通用人工智能设计爬取应用市场应用描述

过去我们爬取内容都讲究性能要好、爬取要精准、效率要高,但这其实背离了通用人工智能的路线,有时候我们宁愿牺牲掉计算成本,设计一个可以进化的人工智能抓取(阅读)。

首先,我们来看一下各大市场对于应用描述的态度:

进化论:通用人工智能设计爬取应用市场应用描述_第1张图片
图片发自App

进化论:通用人工智能设计爬取应用市场应用描述_第2张图片
图片发自App

进化论:通用人工智能设计爬取应用市场应用描述_第3张图片
图片发自App

进化论:通用人工智能设计爬取应用市场应用描述_第4张图片
图片发自App

进化论:通用人工智能设计爬取应用市场应用描述_第5张图片
图片发自App

进化论:通用人工智能设计爬取应用市场应用描述_第6张图片
图片发自App

进化论:通用人工智能设计爬取应用市场应用描述_第7张图片
图片发自App

进化论:通用人工智能设计爬取应用市场应用描述_第8张图片
图片发自App

在经过识别后我们发现了以下特征:

并非所有都包含应用介绍小标题、大多数采用折叠、不同市场不一样、目前版本都在选宣介图之下……

从通用角度,我们需要进行第一次尝试,产生思维记忆:

抓取宣介图图片下方段落文字,在屏幕可滑动区域[top,bottom]内,图片bottom以下:

若出现"应用介绍"则下一段文字即是介绍,单机后展开即可。

若无小标题,直接点击图片选介下,包含展开、更多字眼的可点击区域,获取当前屏幕显示最长text。

--------工具化实现,下一步机器学习化改造

机器学习改造的两个方向:

一、基于前后变化和关联性的理解

对比折叠前的文本和折叠打开后的长文本,进行文本重合度理解,并加入进入页面前点击入口text及当前页面title

二、基于历史经验变化的关联性理解

在有固定路径后,对全文本提取的描述和过去版本提取的描述进行特征词、关键词匹配,确定相似度,超过阈值则读取为新版描述,当确认后提取描述全特征,比如位置、宽高,校验x%完成之后生成最优读取方案进行爬取。

综上:加大机器阅读量,加大模糊匹配,以概率为智能评测基准,对变化进行重分戏确定最短路径。

机器学习记录工具化重复工作的操作环境属性,比如滑动多少,点击位置,获取文本长度等等,最终找出规律,边写工具2与工具1执行同样指令验收结果,当验收结果与工具1高度一直且性能更高,则使用工具2替换工具1,往复循环直至最优解出现。

--------机器学习化完成,通用智能化改造

通用智能化改造要像机器学习化一样,将上一代产生的优秀结果当做自己的工具。从沟通指令:帮我收集一下各大市场竞品的描述信息。

在理解这一块时,可以当做和4岁小孩子对话。帮、我、收集、一下、各大、市场、竞品、的、描述、信息。

一和二阶段改造,工具已经具备了描述的特征;收集的方法。智能对"各大""的理解可能是top5-top10;市场影射太泛,你将图形icon指给他看,产生市场和应用市场和图标的关联等等。

这时候我们重新审视工具化阶段,我们其实是用编程语言教会了智能掌握了某项技能,通过技能机器学习模块优化,他变成了一个熟练工,接着通过对语义的理解,智能会像邻居家4岁小孩一样问你:竞品是什么意思?我不太明白。

这时候你就要"教会"智能理解什么是竞品,当我们抽象化我们周遭的事物,我们最终会发现,信息的联系构成了我们对事物的理解,而过去一段时间的记忆沉积为经验,伴随我们未来一段时间的做事方式,以联系(智能)使用技能(深度学习)操作工具(工具化),将是未来5年非大数据智能化的普遍方向。

--------源码待优化后放出

你可能感兴趣的:(进化论:通用人工智能设计爬取应用市场应用描述)