神经网络 深度神经网络,深度神经网络应用实例

神经网络 深度神经网络,深度神经网络应用实例_第1张图片

深度学习在现实生活中到底有什么作用?会给生活带来什么变化?

其实咱们的实际生活中已经有很多应用深度学习技术的案例了。

比如电商行业,在浏览淘宝时,页面中有很多都是符合你的爱好并且最近有意向购买的商品,这种个性化推荐中就涉及到深度学习技术,还有就是在购物界面能和你进行对话,解决疑问的淘宝智能机器人,也涉及深度学习技术。

比如交通领域,通过深度学习技术能监测到车辆停车、逆行等行为,甚至精确识别车辆的车牌号、颜色、车型、车辆里的人物等来辅助交通执法,甚至在发生交通事故和交通拥堵时进行报警等。

比如金融行业,银行通过深度学习技术能对数以百万的消费者数据(年龄,职业,婚姻状况等)、金融借款和保险情况(是否有违约记录,还款时间,车辆事故记录等)进行分析进而判断出是否能进行贷款服务。

比如家居行业,智能家居的应用也用到了深度学习技术,比如智能冰箱通过图像识别等技术记录食材种类和用户日常饮食数据,进而分析用户的饮食习惯,并根据多维度给出最全面的健康膳食建议。

比如制造行业,机器视觉已经长期应用在工业自动化系统中,如仪表板智能集成测试、金属板表面自动控伤、汽车车身检测、纸币印刷质量检测、金相分析、流水线生产检测等等,机器视觉自动化设备可以代替人工不知疲倦的进行重复性的工作,且在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合,机器视觉可替代人工视觉。

还有教育行业、医疗行业等,深度学习技术已经渗透到各个行业和领域。

谷歌人工智能写作项目:小发猫

神经网络完成芯片设计仅几小时,完成了什么样的突破?

美国科学家团队汇报机器学习工具已能够有效地加快计算机芯片设计rbsci

科学研究表明,该方式能得出可行的芯片设计,且芯片性能不逊于我们技术工程师的设计,而全部设计全过程只需好多个钟头,而不是好多个月,这为将来的每一代计算机芯片设计节约千余钟头的人力资源。

这类方式早已被谷歌用于设计下一代人工智能计算机软件。不一样元件在计算机芯片上的合理布局,是决策芯片总体性能的重要。

设计计算机芯片的物理布局既繁杂又用时,难度系数十分大,必须技术专业我们设计技术工程师投入很多工作中。

而虽然已因此开展很多年的试着,芯片布局整体规划一直都没法完成自动化技术,必须设计技术工程师们耗费数月的勤奋才可以生产制造可供经营规模生产制造的合理布局。

在坐落于美国加州的谷歌研究所内,人工智能权威专家阿泽利亚·米尔侯赛尼、莉娅·戈迪耶以及朋友全新的研究表明,机器学习工具早已能够用于加快这一名为“合理布局整体规划”的步骤。

科学研究团队将芯片布局整体规划设计成一个增强学习难题,并开发设计了一种能得出可行芯片设计的神经元网络。

她们训练了一个增强学习智能体,让这一智能体把合理布局整体规划当作一种棋牌手游:元件是“棋盘”,置放元件的蒙版是“旗盘”,“获得胜利结果”则是依据一系列评定指标值评选的最佳性能(评定根据一个包括1万例芯片布局的参照数据)。

科学研究工作人员强调,这类方式能在6钟头内设计出与我们权威专家旗鼓相当或者更强的可行芯片布局,有希望为将来的每一代计算机芯片设计节约千余钟头的人力资源。

美国加州大学圣迭戈校区科学家安德鲁·康在一篇与此同时发布的新闻报道与见解文章内容中写到,“开发设计出比当今方式更强、更快、更划算的自动化技术芯片设计方式,有利于持续高端芯片的‘颠覆性创新’”。

这儿的颠覆性创新,就是指每片芯片的元件总数大概每2年会翻一番。

安德鲁·康与此同时表明,在这里一科学研究中,团队风采展示的合理布局计划方案早已被用于设计谷歌的下一代AICPU,这也表明出其设计品质可用以大规模生产。

总编圈点在不上6钟头的时间里,一个深度神经网络加强方式,能够自动生成芯片设计的全部重要指标值,包含功能损耗、性能和芯片总面积,且得出的布局都好于或可与我们设计的芯片布局图对比肩。

这毫无疑问是人工智能助推我们完成更强、更快、更强总体目标的案例。有趣的是,这一人工智能如今又被拿来设计下一代人工智能,这是我们见到一种相互依存——更强劲的人工智能设计硬件配置,已经促进人工智能的发展。

深度:如何将深度学习和自动驾驶结合在一起

以下是演讲内容的整理:我是来自于底线线机器人汽车业务的负责人李星宇,地平线机器人成立有一年的时间,创始人余凯是百度深度学习研究院的院长,也算是国内第一个深度学习的研究院是他建立的。

他成立了地平线这家公司,专注于深度学习技术的开发,所以在今天我想跟大家分享的主题就是:《如何将深度学习和自动驾驶结合在一起?》。

|背景:复杂的驾驶环境正是深度学习的机会应该说在今年的AlphaGo和李世石的对决当中,大家对于机器人的关注已经到了一个非常高的水准,其实自动学习已经有不少的时间。

今年丰田有做过一个Demo的系统,他做了是8辆车并没有被教任何的驾驶规则,就是随意往前开,这8辆车会置于一个训练系统之下,经过八个小时的训练之后,八个小时下来没有碰撞,这真是了不起的事情。

通过资本界我们来看,这些10亿美元的投入都能真金白银地证明整个业界对于深度学习和增强学习技术的看好。为什么我们需要把这样一个技术运用在自动驾驶领域?千言万语可以归结为一句话就是复杂性。

我们看到很多人在很多时候会质疑自动驾驶这件事情,其实他的质疑觉得就是复杂,你可以看到在十字路口,非常复杂的路况。

包括中国进入汽车社会不久,驾驶技术有待提高的特殊的国情,变道非常频繁,拐弯很多时候也很暴力。这样一个场景其实对于传统的ADAS有很大的挑战性,而这种复杂性恰恰是深度学习的一个优势。

当然很多人也会问,在自动驾驶领域是不是人就没有作用了?我们很长一段时间在自动驾驶领域,人和车的关系其实并不是一个简单的服务与被服务的关系,而是人和马之间的关系。意味着是什么?

其实马并不知道在一个大的方向该怎么走,是快一点还是慢一点,这个是需要人来控制和调节。

而马能做的就是,无论你告诉还是不告诉,前面是悬崖就会停下来,意味着自动驾驶可以在微观的一个层面,能够把风险降到极低的水平。而在高层次的体验层面,更多的是以跟人配合的关系,它会去理解你。

所以在自动驾驶领域很重要的一个话题就是对于驾驶习惯的学习。自动驾驶习惯的学习不仅仅是一个标准的驾驶,还有包括特殊驾驶风格的学习。这是一个非常标准的美国高速公路管理局的对于自动驾驶的分析。

应该说,从我们跟车厂的沟通里面可以看到,现在研发的重点还是基于Leve13,就是高度的无人驾驶。

它的主要不同跟Leve4的不同在于,一个就是保证在任何情况下都可以做紧急碰撞的防止,第二个就是在条件良好的道路上部分实现自动驾驶。从现在实践的情况来看,高速公路上应该不是有太大的问题。

现在主要解决的是高速公路上的一些特殊的案例和条件比较好的城区主干上的案例,比如上海的中环、内环、外环的情况下,尤其红绿灯情况下需要一些特殊案例的深度学习。|深度学习为什么受到重视?

我们介绍了一个背景之后,稍微回来谈一下深度学习为什么会受到重视。大家现在都觉得"深度学习"这个词特别火热。第一个为什么它会受到重视?

应该说深度学习出现的历史其实非常久,最久的历史可以追溯到50年代末,在漫长的发展时期里面是几经起伏,有它的高潮的时候也有低谷的时代。从现在的情况来看深度学习最具吸引力的一点就是端到端的学习。

举例,以自动学习的系统去识别一个图片,比如这个图片上是一个人,它会把图片作为输入一个名字,你可以看到人脸的信息量通常是几兆,几百万个字节,最终输出的就是几个字节,就是端到端,可以把非常复杂的非结构化的数字转化为精简数字化的表达,包括语音、语言、图像、视频都是非结构化的,包括金融的交易产生的数据都是非结构化的。

从目前的情况来看,第一个它非常适合大数据时代。在过去的年代,其实大家也是在研究深度学习的算法,那个时候还不叫深度学习,叫深度神经网络。

但是发现很难把它调校得好,因为那个时候学的都是一个小量的,几千个样本,想把它调到一个非常好的水准,其实是不可能的。

后来大数据出来以后,这个性能就飙升,最终的一个例子就是2012年的时候爱莱克斯和他的老师参加了图片分类识别的比赛,一下子从过去的74%提高到了85%,非常大的一个进步。

也就是说现在机器对于图片的识别其实是优于人眼,所以实践效果很好。

比较通俗的说法,对于这种行为的一种模拟,这种说法可能不是特别的准确,事实上跟它相关联的网络,按它的类似性来说是非常复杂的,而且现在没有搞得特别复杂。机器学习技术前沿,注意力模型。

图片上是对于人脸识别过程的一个描述,如果你抛开技术不看,你直接看,你会看到图象识别的时候,每过一个识别阶段,由很多个识别阶段组成。

它的图像的信息会减少一些,最开始会把图像的彩色性去掉,只留下一个归录信息。

第二步会把规录中间的去掉,只留下边缘线条的信息,然后线条会变成点,这是从低位空间向高位空间不断的扭曲的过程,到最后它的图片信息就会精简到一个字母,所以这就叫多层的卷积神经网络。

大家都知道这样一个复杂的关系势必会带来数据极大的产生,因为肯定需要非常大的参数。自动学习技术也在不断地往前推进,我们现在看到各个领域都全面推进。比如注意力模型,什么叫注意力模型呢?

举例,在鸡尾酒酒会上看到很多的人,但是你只跟其中一个或者几个人谈,这个时候你的听觉系统只会注意到你想关注到的那个人的话,而把其他人的给屏蔽掉。解决了在复杂的语义环境下,会对特别的语音进行聚焦。

当我们对这个妇女说,我要求你把飞盘作为聚焦目标的时候,机器系统可以把飞盘反射出来,也就证明它准确能够聚焦到你想要它聚焦的部分,这个是非常关键的,因为这个系统是非常复杂的,而你只需要自动驾驶的系统关注车辆、车道线、人这些关键的信息,这样一个技术可以使得它很有效的处理。

除了注意力模型以外还有其他的进展,包括长时短时的记忆力模型,这个是做什么用?它会使深度学习,不仅仅是在空间,二维平面上有足够的学习,它能记住过去发生的事情。

刚才丰田的小车的Demo里面可以看到,它对瞬间场景的处理做得很好,但是有没有想过如果场景的处理手法依赖于过去的历史怎么办?

比如我们把魔兽和星际争霸,下一步的动作取决于你的历史状态,这个时候要求你的深度神经网络需要足够的记忆力,能够记住过去的状态,这个记忆力模型就是解决这个问题包括序列化等等。增强学习什么是增强学习?

打一个比较形象的比方,如果过去的系统我们当做是计划经济的话,那么增强学习就是市场经济,可以理解它是一种结果导向的技术。准确描述这是一个智能主体跟环境不断博弈而来优化的一个过程。

比如刚才的丰田的小车是一个增强学习的典型的案例,如果它碰撞了给它惩罚,如果没有碰撞给它奖励,多轮的循环会加强这些行为,达到一个期待值。

深度学习可以用来做环境的感知,而增强学习可以用来做控制的东西,这样就可以构成一个完整的自动驾驶系统。

这是一个非常典型的汽车的自动驾驶系统的框架图,在图像的左侧有各种各样的传感输入,这个数据来源于三个,汽车外围的环境数据,汽车本身的状态数据,比如车速、转向,还有车内人的数据,是不是疲劳驾驶,是不是要转弯。

一个是感知的融合,一个是决策。| 深度学习让自动驾驶从感知到控制深度学习在中间的感知和决策都是有非常大的优势,可以进一步把这个事情分解一下。

我们跟过内的主机厂接触,由于现在国内有一些主机厂已经开始比较深的自动驾驶的研发,去讨论大量的细节。我们可以简单把它划分成这样的一个板块,就是态势感知和决策控制。

态势感知和决策控制态势感知一部分就是对外的态势,就是你要对整个的环境要有感知,对内就是对驾驶员的意要图要有感制,包括意图的判断。包括对外部物理的辨识,哪些是固定障碍物,哪些是栏杆,哪些是可行驶区域。

对于驾驶,包括状态的识别其实非常重要。这也是整个自动驾驶业界流派之争的一个焦点。

以谷歌为代表的,他们想做的是全自动驾驶,但是我们还是要一步一步来,这面临有一个半自动驾驶的过程,谷歌觉得很难做到很好的人工和自动驾驶的切换,没有办法把这件事情做得特别的可靠。

其实这个我认为要这样来看,首先主机厂其实是一定会按照循序渐进的过程来走,因为他们是造车的。第二个在这件事情上深度学习可以很好地帮助缓解这个问题。我们不能说一定能全部解决,至少能够极大地缓解这件事情。

因为深度学习对于驾驶员状态的综合理解比其他的手段要来得更好,因为它是基于大量对于驾驶员技术分析的基础上建立对它的一个综合理解,包括他的驾驶习惯、意图等。决策控制包括几个部分。

就是对于车辆来讲有一个局部的运动路径的规划,另外规划里面还有一个驾驶风格的情况,比如需要运动感强一点的,都不一样。最后一个是执行器控制,状态之间形成一个闭环去调校。

应该说在现在有很多初创的公司,包括像英伟达这样的公司做大量的尝试,如何把整个的系统用深度学习的方法进行优化。

英伟达做得比较暴力,直接忽略了中间的决策这一部分,是直接把传感器的输入和车的状态的输入直接关联,做这样一个预测。

也就是说Y就是执行器刹车、油门、转向,输入就是车的信息、环境的信息,非常暴力,不做任何中间人工智能的分析。自动驾驶还有一个非常重要的点,就是如何进行测试。

整个自动驾驶来讲主要的投入还是在测试这块,并不是做一套软件系统就可以了。特斯拉做得很讨巧,直接在量产上进行测试,所以短时间内积累了超过1.76亿英里的速度。

但是还是需要一个模拟系统去做这件事情,有一个模拟系统,如何在模拟系统各个主体能够真实的模拟,这其实也是一个增强学习可以帮助你的。

当你创造了一个虚拟环境的时候,你希望用多台的计算设备去模拟一个目标,模拟几十个人,模拟路牌等等,每一个都是动态的过程,它们不地变。

比如红绿灯会不断地变,车辆动态的变化,这样一个复杂的结构,其实很适合于深度学习和增强学习来做,包括结合模拟。

在这个方面德国的车厂宝马和奥迪走得比较靠前,当然包括丰田其实也是一样,做大量的工作,这个是奥迪的汽车大脑的构架图,AUDI的zFAS。

zFAS系统模块配备了Mobileye的EyeQ3移动处理器以及英伟达TegraK1芯片。奥迪的观念非常清晰,自动驾驶的关键还在学习。

地平线在这块领域也是进行了大量的工作,我们有一个品牌叫做雨果,这是汽车的一个开放平台。

(播放视频)这个是雨果做的整个道路的语义理解,它可以把道路各个不同种类的物体运用不同色彩标识出来,比如栅栏是红色,道路是绿色,树木是深绿,汽车是紫色,这样一个对于道路综合语义理解对于智能驾驶系统是很关键的,很多道路也不是结构化的道路,比如乡村的道路其实没有车道线,栅栏也没有,你没有办法通过车道线去自动驾驶,这个时候你要自己去决定该走哪一块。

这是地平线做的识别,左上角是英伟达的,很遗憾不能秀一下动态的视频。地平线是在北京做的测试,在这个路口的人其实非常的密集,地平线很好做了识别,并且对于出租车里面的人,仅仅露一个脑袋的人也可以识别。

对于车辆检测,地平线从去年8月开始,长期保持在KITTI排名第一的识别率。Densebox就是测试的名字。

地平线是一家专注于算法和芯片开发的公司,我们在最下端的解决方案,我们更多愿意跟业界合作伙伴,各类的公司和主机厂一起合作,一起做最后的产品出来。

地平线的算法团队其实蛮国际化的,助力的算法团队来自于像facebook、百度、中科院。

我认为在深度学习领域,我们中国第一次有机会基本上跟国际的主流的开发的机构处于差不多的一个水平线上,不能说是绝对的齐平,但是不会有太大的差别。|我们为什么要自己做深度学习的芯片?

刚才赵总也分享了,为什么我们需要深度学习的芯片,提到很多国内公司在宣称自己在做这个,这是一件好事,因为大家都知道现在的计算结构不合理。

比如说举一个例子,深度学习的输入是高度密集化的,这种密集化输入不太适合DSP这种,是流水线的,GPU的一个问题在哪里?在多输入之后的下一步处理,在数据缓冲方面做得不好。

很不幸的是深度学习网络它的输入是前后关联的,在中间隐藏层的时候,这个卷积盒是要跟前置进行卷积计算的,这就意味着首先要取参数、计算,这就会导致在正常的一般结构下会大量的有外出效应。

第二个因为带宽永远是有限的。第三个是功耗问题,这些都是非常实际的问题。

还有一点就是,深度神经网络的参数非常多.整个业界都意识到,如果要在深度学习领域能够做的话,像地平线得自己做芯片有点类似于手机业界,在大约十年前的时候,手机业界还没有一个想法说一定要做自己的芯片,但是今天大家已经看得非常清楚,如果要想做起来必须做自己的芯片,苹果、三星、华为都是自己的,如果你不这么做只是使用高通的平台,你还是可以做,但是很不幸你是第二梯队。

所以在深度学习也是一样,你还可以用英伟达、高通的芯片,可是这不是第二名和第一名的差距,这是第二梯队和第一梯队的差距。因为算法在演进,你如果用别人的话肯定是慢一拍的,这是一个问题。

国内有不少公司在做,包括有一家公司叫做(深建科技),最近他们发表了成绩,就是DPU,深度学习的处理器,他们在单位功耗下的性能表现是英特尔之前CPU的24000倍,是英伟达GPU的3000倍。

而他们所做的优化的工作,恰恰是刚才我提到的问题,对于压缩,对于访问的优化,降低了功耗。地平线也是一样,我们非常清晰认识到这个问题,所以我们的做法也是这样,我们地平线也是在做自己的芯片。

我们希望在短时间内能够把整个的能耗比提升千倍。地平线现在专注的深度学习的技术的应用点有哪些?四个大块,语音、语言、视觉、控制。

应该说,这四个纬度可以构成大量的创新的应用,不仅仅是自动驾驶,还包括家庭的服务器的监控等等。

我们的目标是希望在未来,我们可以用我们自己的算法芯片,跟广大下游的伙伴进行合作,比如空调公司,比如扫地机器人公司等等,能够覆盖超过1000个品类的智能产品,我们的目标是为现代的智能硬件真正的赋予智能,所以我们的目标是定义物联网时代的大脑。

我的分享就到这里,我们也是非常欢迎大家如果有意跟地平线合作,我们提供平台解决方案,而不是某个具体品类和最终的产品,谢谢大家。

求《深度学习导论及案例分析》全文免费下载百度网盘资源,谢谢~

《深度学习导论及案例分析》百度网盘pdf最新全集下载:链接:?pwd=xsak提取码:xsak简介:深度学习是近年来在神经网络发展史上掀起的一波新浪潮,是机器学习的一大热点方向,因在手写字符识别、维数约简、图像理解和语音处理等方面取得巨大进展,所以很快受到了学术界和工业界的高度关注。

在本质上,深度学习就是对具有深层结构的网络进行有效学习的各种方法。

《深度学习之图像识别核心技术与案例实战》pdf下载在线阅读全文,求百度网盘云资源

《深度学习之图像识别核心技术与案例实战》百度网盘pdf最新全集下载:链接:?pwd=o7ww提取码:o7ww简介:本书全面介绍了深度学习在图像处理领域中的核心技术与应用。

书中不但重视基础理论的讲解,而且从第4章开始的每章都提供了一到两个不同难度的案例供读者实践,读者可以在已有代码的基础上进行修改和改进,从而加深对所学知识的理解。

本书共10章,首先从深度学习的基础概念开始,介绍了神经网络的基础知识和深度学习中的优化技术;然后系统地介绍了深度学习中与数据相关的知识,包括经典数据集的设计、数据集的增强以及数据的获取与整理;接着重点针对图像开发领域,用3章内容系统地介绍了深度学习在图像分类、图像分割和目标检测3个领域的核心技术与应用,这些内容的讲解均结合实战案例展开;另外,还对深度学习中损失函数的发展、数据和模型的可视化以及模型的压缩和优化进行了详细介绍,为读者设计和训练更加实用的模型提供了指导;最后以微信小程序平台为依托,介绍了微信小程序前后端开发技术,完成了深度学习的模型部署,让本书的内容形成了一个完整的闭环。

本书理论与实践结合,深度与广度兼具,特别适合深度学习领域的相关技术人员与爱好者阅读,尤其适合基于深度学习的图像从业人员阅读,以全方位了解深度学习在图像领域中的技术全貌。

另外,本书还适合作为相关培训机构的深度学习教材使用。

深度学习给生物学带来了哪些改变

深度学习研究及其在生物医药领域的潜在应用深度学习已经在各种生物学应用中取得成功。在本节中,我们回顾了在各个研究领域进行深度学习的挑战和机会,并在可能的情况下回顾将深度学习应用于这些问题的研究(表1)。

我们首先回顾了生物标志物开发的重要领域,包括基因组学,转录组学,蛋白质组学,结构生物学和化学。然后,我们回顾一下药物发现和再利用的前景,包括使用多平台数据。生物标志物。

生物医学的一个重要任务是将生物学数据转化为反映表型和物理状态(如疾病)的有效生物标志物。

生物标志物对于评估临床试验结果[18]以及检测和监测疾病,特别是像癌症这样的异质性疾病,是至关重要的[19,20]。识别敏感特异性生物标志物对于现代转化医学来说是一个巨大的挑战[21,22]。

计算生物学是生物标志物发展。事实上,从基因组学到蛋白质组学都可以使用任何数据来源;这些在下一节中讨论。基因组学。新一代测序(NGS)技术已经允许生产大量的基因组数据。

这些数据的大部分分析都可以用现代计算方法在计算机上进行。这包括基因组的结构注释(包括非编码调控序列,蛋白质结合位点预测和剪接位点)。

基因组学的一个重要分支是宏基因组学,也被称为环境,生态基因组学或社区基因组学。NGS技术揭示了未经培育且以前没有得到充分研究的微生物的自然多样性。宏基因组学中有几个生物信息学挑战。

一个主要挑战是序列数据的功能分析和物种多样性的分析。深信念网络和经常性神经网络的使用已经允许通过表型分类宏基因组学pH数据和人类微生物组数据。

与基线方法相比,这些方法并没有提高分类准确性作为强化学习,但确实提供了学习数据集的分层表示的能力.[23]但是,Ditzler等强调DNN可以改善现有的宏基因组学分类算法,特别是在大数据集和适当选择网络参数的情况下。

表1.深度学习技术应用于不同类型生物医学数据的总结应用数据源研究目的DL技术准确率利用深度学习增强癌症诊断和分类[28]13种不同的癌症基因表达数据集(13differentgeneexpressiondatasetsofcancers)癌症检测,癌症类型分类稀疏和堆栈自动编码器+Softmax回归对于每个数据集的准确度都比基准更好深度学习组织调节拼接代码[32](DeepLearningoftheTissue-RegulatedSplicingCode)从RNA-Seq数据分析11019个小鼠替代外显子(11019mousealternativeexonsprofiledfromRNA-Seqdata)拼接模式识别自动编码器+DNN(3层)+薄荷(超参数选择)AUC优于基线准确度深卷积神经网络注释基因表达模式的小鼠脑[30]由AllenInstituteforBrainScience的小鼠脑的四个发育阶段的ISH图像基因表达注释CNN(Overfeat)AUC=0.894多模式深度学习方法的多平台癌症数据的综合数据分析[52]卵巢癌和乳腺癌数据集(ovarianandbreastcancerdatasets)聚集癌症患者DBNslncRNA-MFDL:通过融合多个特征和使用深度学习鉴定人类长的非编码RNA[34]Gencode和RefSeq的蛋白质编码和非编码序列(protein-codingandnoncodingsequencesfromGencodeandRefSeq)鉴定长的非编码RNAlncRNA-MFDL(深层堆叠网络,每个单元DNN)ACC=97.1%用于宏基因组分类的多层和递归神经网络[23]pH微生物组测序数据集和人微生物组测序数据集(pHmicrobiomesequencingdatasetandhumanmicrobiomesequencingdataset)宏基因组分类MLP,DBN,RNNcomparisonMulti-LevelGene/MiRNAFeatureSelectionusingDeepBeliefNetsandActiveLearning[27]来自6种癌症的MiRNA表达数据(MiRNAexpressiondatafrom6typeofcancers)Gene/MiRNA特征选择(基因表达)MLFS(DBN+特征选择+无监督主动学习)(MLFS(DBN+featureselection+unsupervisedactivelearning))F1=84.7%成对输入神经网络用于目标配体相互作用预测[45]sc-PDB数据库(sc-pdb:用于鉴定蛋白质中“可药用”结合位点的变化和多样性的数据库)蛋白质-配体预测PINN(SVD+Autoencoder/RBM)AUC=0.959非编码变量与深度学习序列模型的预测效应[49]来自ENCODE和RoadmapEpigenomics项目的160种不同TF,125种DHS谱和104种组蛋白标记谱的690TF结合谱从序列中预测非编码变异效应DeepSEA(CNN)AUC=0.923(histone)通过深度学习预测DNA和RNA结合蛋白的序列特异性[48]506ChIP-seq实验,DREAM5TF-DNA基序识别挑战DNA和RNA结合蛋白的特异性分类DeepBind(CNN)train,AUC=0.85;validation,AUC>0.7具有双模深信道网络的蜂窝信号系统的跨物种学习[36]来自SBVIMPROVER挑战的磷酸化蛋白质组学数据跨物种学习(模拟细胞信号系统)bDBN(bimodalDBN)andsbDBN(semirestrictedbimodalDBN)AUC=0.93表达数量性状基因(eQTL)的鉴定与阐明及其调控机制的深入研究[35]GEUVADIS(来自从参与1000基因组项目的个体中提取的337个淋巴母细胞系的选择的RNA-Seq和全基因组范围的SNP-阵列数据的组合)确定eQTLMASSQTL(DNN)AUC=0.85建立RNA结合蛋白靶点结构特征的深度学习框架[43]源自doRiNA的24个数据集(转录后调节中的RNA相互作用数据库)预测RNA结合蛋白的结合位点(RBP靶标识别)DBN(多模式DBN)AUC=0.983onPTBHITS-CLDeepCNF-D:通过加权深度卷积神经场预测蛋白质有序/无序区域[42]来自CASP的CASP9,CASP10数据集(蛋白质结构预测的关键评估)预测蛋白质有序/无序区域DeepCNF(CRF+CNN)AUC=0.855onCASP9AUC=0.898onCASP10用深度神经网络分割微阵列[29]两个数据集,来自2006年Lehmussola等人的微阵列图像微阵列分割CNNMAE=0.25深度学习药物引起的肝损伤[46]四个数据集,化合物,化学结构注释DILI阳性或DILI阴性(fourdatasets,compounds,chemicalstructureannotatedDILI-positiveorDILI-negativeproperties)药物性肝损伤预测RNN(递归神经网络)AUC=0.955从头算蛋白质二级结构预测的深度学习网络方法[38]训练,ProteinDataBank;验证,CASP9,CASP10(蛋白质结构预测的关键评估)从头算蛋白质二级结构预测DNSS(多模RBM)Q3=90.7%,Sov=74.2%蛋白质接触图预测的深层架构[39]ASTRALdatabase蛋白质接触图预测RNN+DNNACC∼30%用深机器学习网络建模药物样分子的环氧化作用[47]Accelrys代谢物数据库(AMD):389个环氧化分子,811个非氧化分子(AccelrysMetaboliteDatabase(AMD):389epoxidizedmolecules,811nonepoxidizedmolecules)建模分子的环氧化性质CNNAUCbetterthanbaselineaccuracyDNdisorder:使用增强和深度网络预测蛋白质紊乱[41]DISORDER723,CASP9,CASP10预测蛋白质有序/无序区域RBMAUCbetterthanbaselineaccuracyBasset:用深度卷积神经网络学习可访问基因组的规则代码[50]来自ENCODE和EpigenomicsRoadmap项目的164个细胞类型的DNasel-seq数据学习DNA序列的功能活动CNNAUC=0.892a首字母缩写词:CNN=卷积神经网络,DNN=深度神经网络,RNN=递归神经网络,DBN=深信念网络,RBM=限制玻尔兹曼机器,MLP=多层感知器,MLFS=多级特征选择,PINN=网络,CRF=条件随机场。

转录。转录组学分析利用各种类型转录物(信使RNA(mRNA),长非编码RNA(lncRNA),微小RNA(miRNA)等)丰度的变化来收集各种功能信息,从剪接代码到各种疾病的生物标志物。

转录组学数据通常从不同类型的平台(各种微阵列平台,测序平台)获得,其不同之处在于测量的基因组和信号检测方法。许多因素导致基因表达数据的变异性。因此,即使对于单个平台分析也需要标准化。

跨平台分析需要规范化技术,这可能是一个重大挑战。由于DNN具有较高的泛化能力,因此特别适合于跨平台分析。

他们也能很好地处理基因表达数据的其他一些主要问题,比如数据集的大小以及对降维和选择性/不变性的需求,下面我们将回顾几个已经使用的DNN用不同类型的基因表达数据来获得不同程度的成功。表格数据应用程序。

基因表达数据可以表示的一种方式是作为矩阵的表格形式,其包含关于转录物表达的定量信息。这些数据是高维度的,由于数据中的信噪比损失,使得统计分析成为问题。

[25]高维数据可以通过两种方式处理:I.降维:A.特征提取,例如用SVM或随机森林算法;B.特征子集选择;C.途径分析;II.使用对高维度较不敏感的方法,如随机森林或深层信念网络。

诸如主成分分析(PCA),奇异值分解,独立分量分析或非负矩阵分解等方法是常见的前沿方法。然而,上述方法将数据转换成许多难以用生物学解释的组件。

此外,这种降维方法基于基因表达谱提取特征而不管基因之间的相互作用。通路分析可以减少变量的数量,减少错误率并保留更多的生物相关信息。[25,26]深度学习在处理高维基质转录组学数据方面也取得了一些成功。

在另一种方法中,将基因表达的特征与非编码转录物如miRNA的区域一起提取;这是通过使用深度信念网络和主动学习来实现的,其中使用了深度学习特征提取器来减少六个癌症数据集的维度,并且胜过了基本特征选择方法[27]。

主动学习与分类的应用提高了准确性,并且允许选择与癌症相关的特征(改进的癌症分类),而不仅仅基于基因表达谱。使用miRNA数据的特征选择是使用与先前选择的特征子集的目标基因的关系实施的。

在另一个深度学习应用中,Fakoor等人利用自编码器网络进行推广,并将其应用于使用从具有不同基因集合的不同类型的微阵列平台(Affimetrix家族)获得的微阵列基因表达数据的癌症分类[28]。

他们通过PCA和非监督非线性稀疏特征学习(通过自动编码器)结合使用降维来构建用于微阵列数据的一般分类的特征。

癌症和非癌细胞分类的结果显示出了重要的改进,特别是使用监督微调,这使得特征不那么通用,但即使对于没有跨平台标准化的数据也能获得更高的分类准确性。

自动编码器的全球泛化能力有助于使用不同微阵列技术收集的数据,因此可能对来自公共领域的数据进行大规模综合分析有前途。图像处理应用。

基因表达也可以以可视形式存储为图像,例如来自微阵列的图像荧光信号或RNA原位杂交荧光或放射性信号。在一些应用中,以图像处理性能优越著称的CNN已经显示出改善这些图像分析的潜力。

在微阵列分析中,由于斑点大小,形状,位置或信号强度的变化,检测信号和识别荧光斑点可能是具有挑战性的,并且荧光信号强度通常对应于基因或序列表达水平差。

在对这个问题的深度学习技术的一个应用中,CNN被用于微阵列图像分割,并且在准确性方面显示出类似于基准方法的准确度的结果,但是训练更简单并且对计算源的要求更少。

[29]将CNN应用于基于图像的基因表达数据的另一个机会是RNA原位杂交,这是一种繁琐的技术,当允许这样的操作时,能够使基因表达在一组细胞,组织切片或整个生物体中定位和可视化。

这种方法促进强大的纵向研究,说明发展过程中的表达模式的变化。

它被用于构建详细的AllenDevelopmentMouseBrainAtlas,其中包含超过2000个基因的表达图谱,每个基因在多个脑部分中进行说明。

过去,这些手动标注是耗时的,昂贵的,有时也是不准确的。然而,最近,Zeng等人使用深度预训练CNN进行自动注释[30]。

要做到这一点,神经网络模型训练原始自然原位杂交图像的不同层次的发展中国家的大脑没有关于坐标(空间信息)的确切信息;这种技术在四个发展阶段的多个大脑水平上实现了卓越的准确性。剪接。

深度学习的另一个应用领域是剪接。剪接是在真核生物中提供蛋白质生物多样性的主要因素之一;此外,最近的研究显示“拼接代码”与各种疾病之间的联系[31]。然而,现代科学仍然不能全面地理解控制剪接调控的机制。

剪接调节的现代概念包括转录水平,特定信号调节序列元件(剪接增强子或沉默子)的存在,剪接位点的结构和剪接因子的状态(例如特定位点的磷酸化可能改变剪接因子活性)。

所有这些因素使分析变得复杂,因为它们之间存在大量元素和复杂的非线性相互作用。现有的拼接预测软件需要高通量测序数据作为输入,并且面临着原始读取比常规基因短的问题,以及基因组中假性基因的高重复水平和存在。

因此,拼接机制的分析算法很慢,需要高度的组合计算来源,深度学习可能会在这方面提供改进。

在使用五个组织特异性RNA-seq数据集的一个深度学习应用中,使用隐变量来开发DNN以用于基因组序列和组织类型中的特征,并且被证明优于贝叶斯方法预测个体内和组织间的组织剪接外显子拼接的转录本百分比的变化(拼接代码度量)[32]。

非编码RNA。非编码RNA是生物学中的另一个问题,需要复杂的计算方法,如深度学习。非编码RNAs非常重要,涉及转录,翻译和表观遗传学的调控[33],但是它们仍然难以与编码蛋白质的RNA区分开来。

对于短的非编码RNA,这个任务已经很好地解决了,但是对于lncRNA来说这是相当具有挑战性的。lncRNAs组成异构类,可能含有推定的复制起点(ORF),短的蛋白质样序列。

开发了一种新的深层次的学习方法,称为lncRNAMFDL,用于鉴定lnc-RNAs,使用ORF,k相邻碱基,二级结构和预测的编码结构域序列等多种特征的组合[34]。

该方法使用从Gencode(lncRNA)和Refseq(蛋白质编码mRNA数据)的序列数据中提取的五个单独特征,并且在人类数据集中导致97.1%的预测准确性。表达量性状基因座分析。

最后,数量性状基因座(QTL)分析有潜力进行深入的学习。QTL分析鉴定含有多态性的遗传基因座,所述多态性导致复杂的多基因性状(例如,体重,药物反应,免疫应答)的表型变异。

显示遗传变异的一个这样的“性状”是给定组织和/或条件中任何给定基因的表达或转录本丰度。表达QTL(eQTL)是影响转录本丰度的遗传变异的基因座。

eQTL分析已经导致了对人类基因表达调控的洞察力,但面临着许多挑战。

在局部调节表达的eQTL(顺式-eQTL)相对容易用有限数量的统计测试来鉴定,但是调节基因组中其它位置的基因表达的位点(trans-eQTL)更难以检测到。

最近,为了解决使用各种编码的生物特征(诸如物理蛋白质相互作用网络,基因注释,进化保守,局部序列信息以及来自ENCODE项目的不同功能元件)的反式eQTL预测问题的深度学习方法MASSQTL[35]被提出。

DNN利用来自其各自交叉验证折叠的9个DNN模型,优于其他机器学习模型,并且提供了对基因表达的调控架构的基础的新机制。

深解码系统也被用来对trans-eQTL特征向量进行聚类,然后通过t-SNE降维技术进行可视化。蛋白质组学。与转录组学相比,蛋白质组学是一个相当欠发达的研究领域,数据依然稀少,用于分析的计算方法较少。

即使有相似的信号编码和传输机制,人类蛋白质组学数据的缺乏以及将模型生物体结果转化为人类的困难也使分析变得复杂。

深度学习可以以多种方式使蛋白质组学受益,因为一些方法不需要像其他机器学习算法那样的大量培训案例。

深度学习方法的其他优点是他们建立数据的分层表示,并从复杂的相互作用中学习一般特征,从而有利于蛋白质的蛋白质组学和网络分析。

例如,使用磷酸化数据,双峰深信念网络已被用于预测大鼠细胞对相同刺激的刺激的细胞反应[36]。与传统的管线相比,开发的算法获得了相当的准确性。结构生物学和化学。

结构生物学包括蛋白质折叠分析,蛋白质动力学,分子建模和药物设计。二级和三级结构是蛋白质和RNA分子的重要特征。

对于蛋白质,适当的结构测定对于酶功能预测,催化中心和底物结合的形成,免疫功能(抗原结合),转录因子(DNA结合)和转录后修饰(RNA结合)是重要的。

丧失适当的结构会导致功能丧失,并且在某些情况下会导致可能导致神经退行性疾病(如阿尔茨海默病或帕金森病)的异常蛋白质的聚集。

[37]基于复合同源性的比较建模是预测蛋白质二级结构的一种可能方式,但是受现有注释良好的化合物的量限制。

另一方面,机器学习从头预测是基于公认的具有公知结构的化合物的模式,但是还不够精确以至于不能实际使用。从头开始使用深度学习方法通过使用蛋白质测序数据改进了结构预测[38]。

同样,深度学习已经被应用于使用ASTRAL数据库数据和复杂的三阶段方法来预测二级结构元素和氨基酸残基之间的接触和取向[39]。所使用的方法是分析偏倚和高度可变数据的有效工具。

三维结构的不变性在功能上也是重要的。然而,有几种蛋白质没有独特的结构参与基本的生物过程,如细胞周期的控制,基因表达的调控,分子信号传递。

此外,最近的研究显示一些无序蛋白质的显着性[37];许多癌基因蛋白具有非结构域,并且错误折叠蛋白的异常聚集导致疾病发展[40]。

这种没有固定三维结构的蛋白被称为固有无序蛋白(IDP),而没有恒定结构的结构域被称为固有无序区(IDR)。许多参数将IDP/IDR与结构化蛋白质区分开来,从而使预测过程具有挑战性。

这个问题可以使用深度学习算法来解决,这些算法能够考虑各种各样的特征。

2013年,Eickholt和Cheng发表了一个基于序列的深度学习预测指标DNdisorder,与先进的预测指标相比,改进了对无序蛋白质的预测[41]。

后来在2015年,Wang等人提出了一种新的方法,DeepCNF,使用来自蛋白质结构预测的临界评估(CASP9和CASP10)的实验数据,能够准确预测多个参数,如IDPs或具有IDR的蛋白质。

DeepCNF算法通过利用众多特征,比基线单从头(从头算)预测指标执行得更好[42]。另一类重要的蛋白质是结合单链或双链RNA的RNA结合蛋白。

这些蛋白质参与RNA的各种转录后修饰:剪接,编辑,翻译调控(蛋白质合成)和聚腺苷酸化。RNA分子形成不同类型的臂和环,需要识别和形成RNA和蛋白质之间连接的二级和三级结构。

RNA的二级和三级结构是可预测的,并且已经被用于建模结构偏好偏好和通过应用深度信念网络预测RBP的结合位点[43]。

深度学习框架在真正的CLIP-seq(交联免疫沉淀高通量测序)数据集上进行了验证,以显示从原始序列和结构分布中提取隐藏特征的能力,并准确预测RBP的位点。药物发现和再利用。

计算药物生物学和生物化学广泛应用于药物发现,开发和再利用的几乎每个阶段。过去数十年来,不同的研究团体和公司在全球范围内开发了大量用于计算机模拟药物发现和目标延伸的计算方法,以减少时间和资源消耗。

虽然存在许多方法[44],但是还没有一个是最优的(例如,无法执行通量筛选或者通过蛋白质类别进行限制),现在一些研究表明深度学习是一个重要的考虑方法(表1)。

药物发现的重要任务之一就是预测药物靶点的相互作用。靶标(蛋白质)通常具有一个或多个与底物或调节分子的结合位点;这些可以用于建立预测模型。然而,包括其他蛋白质的成分可能会给分析带来偏见。

成对输入神经网络(PINN)接受具有从蛋白质序列和靶分布获得的特征的两个载体的能力被Wang等人用来计算靶标-配体相互作用[45]。

神经网络的这种优势比其他代表性的靶标-配体相互作用预测方法有更好的准确性。药物发现和评估是昂贵,耗时且具有风险;计算方法和各种预测算法可以帮助降低风险并节省资源。

一个潜在的风险是毒性;例如,肝毒性(肝毒性)是从生产中去除药物的常见原因。用计算方法预测肝毒性可能有助于避免可能的肝毒性药物。

使用深度学习,可以有效地确定原始化学结构的化合物毒性,而不需要复杂的编码过程[46]。使用CNN也可以预测诸如环氧化的性质,这意味着高反应性和可能的毒性;这是休斯等人首次实施的。

通过使用环氧化分子和氢氧化物分子的简化分子输入线入口规格(SMILES)格式数据作为阴性对照[47]。多平台数据(Multiomics)。使用多平台数据的能力是深度学习算法的主要优势。

由于生物系统复杂,具有多个相互关联的元素,基因组学,表观基因组学和转录组学数据的系统级整合是提取最有效且有生物学意义的结果的关键。

整合过程在计算上不是微不足道的,但收益是生物标志物特异性和灵敏度比单一来源方法的增加。计算生物学中需要分析组合数据的主要领域之一是计算表观遗传学。

有联合分析基因组,转录组,甲基化组特征和组蛋白修饰提供了准确的表观基因组预测。一些研究人员已经开发出深度学习方法,可用于分析来自多个来源的数据(表1)。

Alipanahi等人开发了基于深度学习的方法DeepBind(),以在各种疾病中计算核苷酸序列结合转录因子和RNA结合蛋白的能力,并表征单点突变对结合特性的影响。

DeepBind软件受CNN启发,对技术不敏感;相反,它与从微阵列到序列的定性不同形式的数据是相容的。CPU的实现也允许用户并行化计算过程[48]。

在另一个基于CNN的应用程序中,Zhou和Troyanskaya设计了DeepSEA框架来预测染色质特征和疾病相关序列变异的评估。

与其他计算方法不同,他们的算法能够捕获每个结合位点的大规模上下文序列信息,用于注释从头序列变异体[49]。

开发了类似的CNN管线,揭示了序列变异对染色质调控的影响,并对DNase-seq(DNaseI测序)数据进行了培训和测试[50]。

一种名为Bassed的深度学习软件优于基线方法,并且在所有数据集上达到平均AUC0.892。

最后,随着深层特征选择模型的发展,深度学习被用于识别主动增强器和促进器,该模型利用了DNN对复杂非线性相互作用进行建模的能力,并学习了高层次的广义特征[51]。

模型从多平台数据中选择特征,并按照重要性进行排序。在这些应用中,深度学习方法是染色质性质的更敏感和更有力的预测因子,也是复杂生物标志物发展的关键。

癌症是一组异质性疾病的广泛名称,其中一些是由基因突变引起的,因此使用多平台数据的癌症分类可以揭示潜在的病理学。Liang等人开发了一个具有多平台数据的深层信念网络模型,用于癌症患者的聚类[52]。

使用受限玻尔兹曼机对每种输入模式定义的特征进行编码。这种方法的一个优点是深层信念网络不需要具有正态分布的数据,因为其他聚类算法和遗传(生物)数据不是正态分布的。

最后,从自然语言处理的角度来看,深度学习在通过巨大的非结构化(研究出版物和专利)和结构化数据(知识注释图,如基因本体论[53]或Chembl[54])浏览时,通过检验假设的合理性。

这些数据库一起形成了一个庞大的,多平台的数据集,如果结合起来,这些数据集将更加丰富和全面。总之,现代生物数据的庞大规模,对于以人为本的分析来说太庞大而复杂。

机器学习,特别是深度学习与人类专业知识相结合,是将多个大型多平台数据库完全集成的唯一途径。深度学习使人类能够做到以前无法想象的事情:具有数百万输入的图像识别,语音识别以及接近人类能力的语音自动化。

虽然深度学习和特别是无监督的深度学习仍处于起步阶段,特别是在生物学应用方面,但最初的研究支持它作为一种有希望的方法,尽管在实施中不受限制和挑战,但可以克服生物学数据的一些问题,对数百万间接和相互关联的疾病机制和途径的新见解。

你可能感兴趣的:(物联网,神经网络,dnn,人工智能)