FinTech(5): 结构化一切数据

信息技术最直接的成果就是产生了更快的计算,以及更大的数据储存能力。这几乎成为了技术的本能,想必所有人身边都有一两个喜欢收集一切信息,爬取所有数据的技术人员。如果说为什么要这么做的话,只会有这样的回答“因为数据在那里”。

数据储存

数据储存是最早解决的问题,从早期的KB级储存单位到现在的TB级储存单位,已经有了长足的进步。与之同时提高的是数据的访问速度。但尽管如此,对于

数据收集

数据收集也不是一个老的话题,从早期的人口统计、地形图绘制开始,这也是数据控所喜欢的活动。在信息技术时代的早期,数据收集是通过将社会活动电子化备份进行的,比如除了提供纸质收据之外,系统里有一份电子收据的留存。在现在,很多数据收集通过信息技术本身进行,比如消费记录、浏览记录等等,这些数据都是通过网站数据收集进行;而现在已经开始通过O2O将一部分线下行为也通过互联网进行,比如共享单车的使用记录。现在正在探索的是通过物联网将更多的线下物理行为和物流转换的数据收集起来。

数据结构化

仅仅将所有数据都存在硬盘里并不能满足技术。技术还希望能够将数据分门别类放好,我称之为数据的结构化。这个实际上的意义是为了方便数据的检索,但根本上的原因恐怕还是为了满足技术的美感。分类学诞生也比信息技术要早,早在18世纪林奈就建立比较完善的植物分类学。这是一种树状的结构。现在知识图谱、社交网络都在建立一个图状的结构来将所以实体连接起来,并希望能够从中产生出更智能的应用。

数据检索

快速的获取数据在数据收集之后成为一个问题。第一点困难在于计算能力不足以快速扫描上亿条数据,这一点通过数据库建立索引表可以一定程度解决,但这需要明确的查询脚本来实现。第二点困难在于处理模糊的查询,这是一个介于人工智能的问答系统和明确的查询脚本之间的问题,通常的解决方案是将模糊的查询转换为若干明确的查询脚本,早期的谷歌搜索引擎就是这样解决这个问题的。

应用

技术的这一本能可能是金融最早应用,也是收益最多的,可能也是金融的本能之一。这一本能主要是为了提升估值精度,当然也提高了专职于这一功能的金融节点(如审计、分析师、监管)的效率。通过收集更多的信息,对标的物、对行业和公关经济的评估都会更准确。征信系统本质上也是通过对人的各个数据进行收集,来判断此人的信用情况。

技术方面也有了大量的实践,比如电子账目、商务智能、搜索引擎等。但这方面依然有大量的可能性。比如Orbital

Insight通过卫星获得地面图像,来获得物流、农业数据。对文本也依然停留在检索阶段,尚未进入理解阶段。对人流、交通的数据刚进入采集阶段。对物流、电流的数据采集还在物联网的试验阶段。

你可能感兴趣的:(FinTech(5): 结构化一切数据)