本文主要摘录于全书正文,部分解释是博主根据自己生活体验增加的理解,欢迎大家共同讨论更正~
机器学习爱好者交流QQ群:1023 119 142
为新手提供机器学习资料,也欢迎大佬来分享知识。
第一章:数据—人类创造文明的基石
现象、数据、信息、知识
数据的作用:文明的基石
相关性:使用数据的钥匙
数学模型:数据驱动方法的基础
第二章:大数据和机器智能
什么是机器智能
鸟飞派:人工智能1.0
另辟蹊径:统计+数据
数据创造奇迹:量变到质变
大数据的特征
变智能问题为数据问题
第三章:思维的革命
思维方式决定科学成就:从欧几里得、托勒密到牛顿
工业革命,机械思维的结果
世界的不确定性
熵—一种新的世界观
大数据的本质
从因果关系到强相关关系
数据公司Google
第四章:大数据和商业
从大数据中找规律
巨大的商业利好:相关性、时效性和个性化的重要性
大数据商业的共同点—尽在数据流
把控每一个细节
重新认识穷举法—完备性带来的结果
从历史经验看大数据的作用
技术改变商业模式
加(+)大数据缔造新产业
第五章:大数据和智能革命的技术挑战
技术的拐点
数据收集:看似简单的难题
数据存储的压力和数据表示的难题
并行计算和实时处理:并非增加机器那么简单
数据挖掘:机器智能的关键
数据安全的技术
保护隐私:靠大数据长期挣钱的必要条件
第六章:未来智能化产业
未来的农业
未来的体育
未来的制造业
未来的医疗
未来的律师业
未来的记者和编辑
第七章:智能革命和未来社会
智能化社会
精细化社会
无隐私社会
机器抢调人的饭碗
争当2%的人
数据>信息>知识 一步一步提炼升华的结果
数据的相关性—发掘信息价值的钥匙
结论D,可以通过数据A,经过B ,C的关联性找到D.这种关联性,有的是常识性的有的是非常识性的。
传统统计学,大的数据量+有代表性的样本得出的结果才有意义。
但获取大量数据和建立代表性数据样本很难
大量数据+多个简单模型组合 可以代替一个复杂的模型。
Eg: 德国直接用高制造技术制造高水平镜头,但不能量产。
日本通过过镜头组合可以实现参不多效果,但是可量产,价格更便宜。
模型选择~模型调参 对于问题拟合两个比较重要的要素。
切比雪夫不等式(正态分布)
概率论上:当观察到足够多的数据时,随机性和噪声可以忽略不计
图灵测试,一种对人工智能的定义。
人工智能1.0 鸟飞派 主要以模仿人类来设计人工智能进行特征提取
是一个专家的时代,并且某些特征覆盖并不是很全。
与之对应的是现代的方法,数据驱动。
机器智能最重要的是能够理解人脑解决的问题,而不在于是否采用和人一样的方法。
贾里尼克区别于传统特征提取方法,把语音识别作为一个通信问题
人脑发声—信息源 声波空气传播—信道 耳朵接受—解码
使用马尔科夫模型描述信源和信道,使用数据驱动,而不是传统的语言学家根据经验进行特征提取,随着数据量加大,系统就会更好。
数据驱动,数据的重要性就相当大。
现在深度学习的 感觉其实也是一种结合,神经网络也有一定的仿生意味,加上了大量的数据训练,得到的结果远远好于传统方式。数据驱动激活了神经网络。
在CV ,NLP领域,通过技术进步,每年大约能改进0.5%
大数据特征
多样性-多维度 是数据有效的,有信息量,有价值的关键
(大数据驱动区别于传统问卷调查更具有真实性,因为人们是在没有压力情况下主动提供的数据)
大量-完备性 大数据可以做到样本即是全集,通过覆盖面,让数据更精准
(预测美国大选,有个最无脑的方法,就是知道每个州每个人在想什么。可以通过互联网爬取相关信息,进行统计,只要知道了大概比例(抽样的思想,但比问卷更真实),就可以推断结果)
及时性 不是必须,但在特定领域(智能交通)等方便很重要
NLP领域,难回答的问题是 WHY,HOW. 容易的是WHAT WHERE WHEN WHICH WHO
从信息论的角度,数据中的信息可以消除不确定性,数据之间的相关性可以取代原来的因果性。
机械思维,逻辑推理,让人们感到确定性的放心,一种自信。
托勒密方法论:
找到一个数学元模型,这个模型要和历史数据吻合。
缺陷,整体模型复杂,因为用了基础的圆来拼接模型
确定性假设,一旦模型确定,即认为真理。
笛卡尔方法论,大胆假设,小心求证。(很科学)
这个也是目前科学还在沿用的。
牛顿的机械思维:
1世界变化规律是确定的
2可以用简单的公式和语言描述
3这种规律应该是通用的
也就是科学是一层一层推理出来的。
获取数据信息知识,这个过程需要很多代人的积累。
机械思维取得巨大成就,第一次工业革命,蒸汽。第二次工业革命,电力。极大的推动了人类社会的进步。
看问题要看本质,瓦特改良蒸汽机的动机不仅仅是设计一个机器,而是要通用的为工业提供动力。
机械思维的核心:确定性和因果性。
因果性:
医学药理上,找到真正的致病原因,然后针对这个原因找到解决方案。
分析找到原因,根据原因找到结果。
问题出现:
并不是所有的事情都是可以用简单的原来描述。
在目前信息时代,简单的因果规律都已经被发现了,想要和以前一样找到简单的因果关系,很难。
不确定性的时代:
不确定性原因:
信息论:信息熵
信息的度量就等于不确定性的多少。
把智能问题转化为消除不确定性的问题。数据的关联性,提供信息,帮助消除不确定性。
交叉熵常用来度量一致性
从因果关系到强相关关系
医药行业,由于研发周期长,投入大,但有效的专利保护期相对较短,导致特效药很贵。
强相关思维,现有处方药和现有疾病进行一一匹配,如果A药对B病有效,再进入验证期,如果通过验证期,时间3年左右,开发成本只是传统的1/10.只要保证验证合格就行。
例如以前治心脏的药,反而能治疗男性疾病。
大胆假设,小心求证的思想。
这种思维,前提是需要有足够多的数据支持。
数据发掘出 强相关性 ≈ 因果性
非确定世界 确定世界
辩证看因果和强相关的关系
能找到直接因果当然更好,不是否定因果。只是有时发现因果需要一定的灵感和运气(比如牛顿,爱因斯坦发现的物理学公理,又有多少人可以发掘)
能通过机械思维直接发现 确定性和因果性当然是最好的,只是数据驱动提供一种补充。
数据驱动的强相关关系,相当于一种捷径,让我们不会因为运气而被问题难倒。
关注原来无法关注的细节,主要原因是原理人工关注成本太高,然后从数据中发现异常。
(具体用电细节监控,帮助美国发现室内种植大麻的房子。帮助发现偷税漏税)
数据也能够帮助发现特殊行为,比如商家通过数据分析,精准向孕妇群体推送不同时段所需的商品。
通过牺牲现在有的计算资源,重新认识穷举法的意义,也是大数据完备性的意义。
谷歌无人汽车有个细节,就是在街景收集过的地方表现得会更好,前往一段未知的路,就会表现差。因为在通过已有街景数据的道路时,大部分数据已经提前处理过。实时只需要处理少部分信息即可。如果全部靠实时采集数据再处理,计算量过大,实时性可能无法保障。
这种方式就是通过事前提供完备性来解决一些难题。虽然只能走在走过的路很傻,但现在的技术水平以及道路水平,是支持收录所有道路数据的,这也就是穷举法的一个应用吧。这就是机械思维下暂时找不到完美解,但通过数据可以弥补这个不足。
现有产业 + NEW = 新产业
现有产业 + 大数据 = 新产业
现有产业 + 机器智能 = 新产业
大数据现在其实分两部分,一部分是在大量数据下,通过传统方法进行数据分析,发掘数据价值。另一部分是,只是把大数据整理成养料,来投喂给机器智能,训练发掘出新的能力。
安迪-比尔定律:比尔要拿走安迪所给的。软件功能的增加和改进要不断吃掉硬件性能的提升,整个行业才能平稳发展下去。
+大数据 等于很多新产业
小米前期卖手机给自己的定位就不是制造企业而是互联网企业。小米卖手机并不是只满足于挣卖手机的钱,而是吸纳用户,从用户身上获取长久的收益。
每一次技术革命除了生产力的发展,还需要很多技术准备,只有这些技术都成熟了,技术革命才可能成功。
目前的现状
1数据的产生:目前数据增量很大
1电脑本身
2传感器
3现存的数据,包括非数字化数据。
2信息的存储:
一个是容量问题,一个是读写速度(数据量大了后的检索速度问题)
SSD的出现暂时满足了需求。
3传输的技术:
数据从采集端到收集端的通信问题。
目前5G已经有很好的解决
4信息的处理:
大数据情况下,计算量将相当庞大。相对于莫尔定律的硬件速度增加,简单的检索NLOGN会随着数据大量增加,让计算能力远远跟不上。
目前解决方案,分布式计算。分布式存储与任务分解运算。
各阶段的技术难题:
数据收集:
大数据的优点在于避免了统计学的采样之苦。
看似简单,但收集到具有多样性和完备性的数据需要很大代价,目前都是大公司通过智能设备收集。
好多廉价的智能设备其实并不廉价,他们都有一个隐藏任务,收集用户使用数据。
数据存储和表示:
目前数据量的增加还是对存储带来很大压力,由于数据安全性考虑,每份数据还不能只留一份,因此数量量尽管通过压缩,但还是要多留4倍,以考虑物理安全性。(没办法,只能硬存)
区别于传统的数据,大数据的多维度让关系型数据库已经不再适合,各种不同的数据结构,失去了数据格式的统一性,给后续调用使用带来很大问题。(开发非关系型数据库,提倡统一的大数据表示格式,例如GOOGLE的 protocol Buffer)
并行计算和实时处理:
并行计算并不是简单机器叠加,有些计算并不具备并行处理特性。
并行比例占95%,通过增加处理器的 数量,最多只能加速20倍。
并行比例占50%,最多只能加到2倍。
计算任务成功拆分,由于子任务计算难度也不一样,最后并行计算时间会取决于最后完成的子任务时间。
因此,目前分布式计算主要是解决了规模问题,至少让大模型跑起来,但在时间上,加速有限。
由于分布式计算时间并不是想象中那么短,实际上反而很长,因此事实上对大数据实时处理是几乎做不到的。
数据挖掘:机器智能的关键
从传统网页上的数据,结构不一样,分析起来很难,需要很好的NLP要不根本处理不了。
大数据在使用前含有噪声,通常要进行降噪处理,损失一部分数据,提高信噪比。
由于机器学习都是不断迭代的过程(期望值最大化),不断迭代加上大量数据,导致计算复杂度过高。
在计算能力有限的时候,采用大数据+浅层模型,小数据+复杂模型,这样才能平衡计算量
从理论上讲,使用大数据加上深度模型,效果一定会很好,但现实计算有限。
在某些特定的问题上,某些机器学习模型确实表现比其他的好,但总体上来讲,大部分机器学习算法是等效的,只有量的差别,没有质的差别,而量的差别可以通过规模计算和数据来弥补。
由于目前机器学习特性,为了机器学习服务将由特定公司提供。这种数据聚集,牵扯出安全问题。
数据安全问题:
好多数据安全事件,制度设计和系统上没有问题,就是人员在实际操作为了方便没有执行
可以通过异常业务流程和行为习惯发现系统是否被他人使用。
保护隐私:
大数据最尖锐的问题之一。
大数据时代,由于大数据的多维度和全面性的特点,简单屏蔽掉很多信息是可以从其他维度利用全面性恢复的。因此需要很多新技术。
保护隐私最好的方法就是要让侵犯隐私的人拿自己的隐私来换(数据标识使用人信息)
总体上来讲,还是很难的呀,仅仅只能通过协议限制,不能完全技术手段规避。
未来农业:精准用水,精细化管理(只是部分地区会用,毕竟水有些地方不缺,虽然只需要用几十分之一的水,但管理成本可能更高)
未来体育:大数据战略分析,动作分析,协助日常训练
勇士队通过大数据分析,发现进攻型得分效率很低,3分球是最好的得分手段,主力培养神射手库里等)
未来制造业:大量机器人取代人工。
未来医疗:降级医疗成本,包括医生和药物的资源。
医生上,通过人工智能辅助,帮助提高效率。合理分配医生资源,让最紧急的病人得到最需要的医生,而不是医疗资源(专家号)被小病患者占据。有限制的医疗诊断机器人也能在一定程度上解决偏远地区,医疗资源少地区的医疗问题。机器人医疗机器人—达芬奇手术台,有些操作比人类还精细,能大大提高顶级外科医生的数量。
药物上,特别是目前绝症的治疗上,通过大数据穷举,降低个性化医疗的成本。
对于癌症,关键是杀死癌细胞。但癌细胞是因为基因错误复制产生,有第一次就有可能第二次,这种针对性药物可能就突然失效。
理论上,只有新药的研制速度快于癌细胞的变异速度,人就可以和癌细胞长期共存。但事实上在传统医药行业,新药开发时间长,成本高,世界上没有几个人能享受这样的资源。
利用大数据的无穷理解。所有可能的恶性基因复制错误和癌症的组合,不过几百万到上千万的可能,这个数量级在IT领域是很小的,但在医学上几乎无穷大。如果能为每种组合找到一种对应的药物编上号,以后只有检测出病变方向,就可以很简单的使用药物治疗。
药物上可以摆脱以前大众药才能审批通过的思想,就算药只对部分人有用,能够找到具体的受用人群,他也是有价值的。
未来律师,记者,编辑都会受到挑战。
智能化社会,智能交通等
(有些明显改善用户体验的方向可以研究,比如出现早出发5分钟,可以早到半小时;晚出发半小时,也只会晚到5分钟)
借助RFID识别出校园外来人员,用在更大区域可以用来反恐。
区块链用来追踪每一次交易,用来防伪。
从标准化到个性化服务,更好的利用资源。
隐私的重要性:
可能简单的数据使用就是推荐产品,有的人可能说我又不做坏事,数据拿去没用。
公司拿数据进行大数据杀熟还能接受的话,涉及到自己的医疗和健康就会让很多人失去公平的医疗资源。比如保险公司用数据分析觉得你未来得重病几率接近100,他就会给你拒保。但这样的话,医疗保险存在就没有任何意义了,只是保险公司挣钱的工具。
人们为什么会忽略大数据对个人隐私的威胁:
1不知道大数据的威力
2 把隐私的保护寄托给公司的善意
大数据可能会产生一个老大哥,即超级权利体。
工业革命受益人
第一:企业,精英阶级
第二:中心区域
第三:全球
工业革命会带来很大的副作用,需要半个世纪消化。
信息时代在美国普通家庭收入增加并不大,大的是TOP5%的人。
工业革命造成的剩余劳动力,只能慢慢等待他们退出劳动力市场,一般能加入新行业的比例极低。为了国家稳定,一般就是国家出钱养着这些人。有些国家不肯淘汰过剩产能,就是为了消化这些无所事事的人,根本解决路径就是耗。耗上两代,社会问题就解决啦。
信息时代更难受,不像前两次工业革命,可以开拓新的市场。如今的全球化,很少有市场可以开拓(非洲?)。
虽然现在的人工智能很傻,不能达到人的那种状态,但在某些领域甚至能达到专家水平,这就不仅仅是取代一些体力劳动者,部分脑力劳动者也会有危险(为了社会稳定,估计也是和专家辅助配合,消化劳动力)
当社会不去创造财富而只考虑分配财富,经济就开始衰退。社会公平只能体现在机会平等,而不是结果的平等,只要还有上升途径,就要努力加入他们而不是天天抱怨。