1、大数据是什么?
(1)大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
(2)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
(3)大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
2、大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
3、大数据能做什么?
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
(4)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
(5)为成千上万的快递车辆规划实时交通路线,躲避拥堵。
(6)分析所有SKU,以利润最大化为目标来定价和清理库存。
(7)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
(8)从大量客户中快速识别出金牌客户。
(9)使用点击流分析和数据挖掘来规避欺诈行为。
4、什么是智能?
智能,是智慧和能力的总称
什么是人工智能?
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
5、人工智能的场景实例
金融
银行用人工智能系统组织运作,金融投资和管理财产。银行使用协助顾客服务系统;帮助核对帐目,发行信用卡和恢复密码等。
医院和医药
医学临床可用人工智能系统组织病床计划;提供医学信息。
计算机帮助解析医学图像。这样系统帮助扫描数据图像,从计算X光断层图发现疾病,典型应用是发现肿块、
心脏声音分析。
重工业
在工业中已普遍应用机器人。它们常做对人是危险的工作。全世界日本是利用和生产机器人的先进国
顾客服务
人工智能是自动上线的好助手,可减少操作,使用的主要是自然语言加工系统。
运输
汽车的变速箱已使用模糊逻辑控制器。
音乐
现正集中在研究作曲,演奏,音乐理论,声加
工等。
教育
计算机辅助教学(CAI)即利用计算机代替教师进行教学,把教学内容编成各种“课件”,学习者可以根据自己的程度选择不同的内容进行学习,从而使教学内容多样化、形象化,便于因材施教。如各种教学软件、试题库、专家系统等。零售
大数据责采集与分析消费者行为信息,为企业反向定制、零售商精准营销提供基础支持;云计算打破各个网点间的数据孤岛,为制造端与供应链输出廉价的解决方案与计算能力;物联网形成线下网点、线下与线上网点间的快速联动协作,促成生产端、销售端及物流端的无缝对联与接续驳多维度创设消费场景与逼真的虚拟体验,助推网购决策快速形成。
智慧门店:基于RFID技术,为每件商品贴上标签,从而实现自动结账收款。店内配备监控系统、远程客服、语音智能等技术,并搭载人脸识别技术、动作识别防盗系统、动态货架和智能商品识别等信息技术,通过卷积神经网络、深度学习、机器视觉、生物识别、生物支付等前沿技术,可以实现利用消费者生物特征绑定支付宝、微信进行支付。当前,人手皮下血管结构支付、体态识别的误识度低至十亿分之三,顾客走入便利店,立刻被人脸识别系统锁定,选购时,通过鱼眼做热点图,分析客户对商品的喜好,支付时,收银台上方摄像头对客户进行人脸识别,通过POS机让用户的“人脸ID”与消费行为挂钩,进行客户年龄、表情判定、顾客离店、通过表情展示的“喜怒哀乐”了解顾客的购物满意度,以此调整未来提供商品、服务的具体策略。
6、人工智能和机器学习、深度学习的关系是什么?
人工智能目标是让机器像我们人类一样思考和行动,既包括增强我们人类脑力也包括增强我们体力的研究领域。 而学习只是实现人工智能的手段之一,并且,只是增强我们人类脑力的方法之一。 所以,人工智能包含机器学习。 机器学习又包含了深度学习
7、什么是机器学习?
机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。
8、监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出。如果尝试去预测已知数据的输出,则使用监督式学习。监督式学习采用分类和回归技术开发预测模型。
无监督学习从输入数据中找出隐藏模式或内在结构。这种技术可根据未做标记的输入数据集得到推论。聚类是一种最常用的无监督学习技术。
在以下情况下选择监督式学习:需要训练模型进行预测(例如温度和股价等连续变量的值)或者分类(例如根据网络摄像头的录像片段确定汽车的技术细节)。
在以下情况下选择无监督学习:需要深入了解数据并希望训练模型找到好的内部表示形式,例如将数据拆分到集群中。
9、分类技术可预测离散的响应 — 例如,电子邮件是不是垃圾邮件,肿瘤是恶性还是良性的。分类模型可将输入数据划分成不同类别。典型的应用包括医学成像、语音识别和信用评估。
如果您的数据能进行标记、分类或分为特定的组或类,则使用分类。例如,笔迹识别的应用程序使用分类来识别字母和数字。在图像处理和计算机视觉中,无监督模式识别技术用于对象检测和图像分割。
回归技术可预测连续的响应 — 例如,温度的变化或电力需求中的波动。典型的应用包括电力系统负荷预测和算法交易。
如果您在处理一个数据范围,或您的响应性质是一个实数(比如温度,或一件设备发生故障前的运行时间),则使用回归方法。
聚类是一种最常用的无监督学习技术。这种技术可通过探索性数据分析发现数据中隐藏的模式或分组。聚类分析的应用包括基因序列分析、市场调查和对象识别。
例如,如果移动电话公司想优化他们手机信号塔的建立位置,则可以使用机器学习来估算依赖这些信号塔的人群数量。一部电话一次只能与一个信号塔通信,所以,该团队使用聚类算法设计蜂窝塔的最佳布局,优化他们的客户群组或集群的信号接收。
特征降维
在实际应用中,当特征个数增加到某一个临界点后,继续增加反而会导致分类器的性能变差——“维度灾难”
降维实际上就是降低特征的个数,最终的结果就是特征和特征之间不相关。
降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
特征向量往往是包含冗余信息的!
有些特征可能与分类问题无关
特征之间存在着很强的相关性
降低维度的方法
•特征组合:把几个特征组合在一起,形成新的特征
•特征选择:选择现有特征集的一个子集