尺有所短,寸有所长,日丰一寸,必见其长
会议主办单位:中国电子学会标准认证中心
会议承办单位:天津大学自动化学院&天津大学DSP实验室
地点:天津大学&晋滨国际酒店三层
首先这是天津大学DSP实验室第一次承办这样的研讨会,里边就有我很多同学,首先要为他们用心的付出表示感谢(从饮食,交通,会议安排,时间控制,设备管理等等方面都做的非常好,也感谢天津大学DSP实验室张涛老师对于学生们的培养工作)
感谢每个与会人员和每位学术界或工业界的老师,让我这个普通硕士生能够了解到现如今工业界和学术界相关领域的一些发展情况。
此次博客以我这样一个机器学习方向普通硕士生的视角来写,知识点在笔记本中记录的比较琐碎,未免有分析不到或者错误之处,还希望大家能够批评指正,谢谢大家!!
报告人:胡瑞敏(武汉大学计算机学院、曾任海康威视公司第一任研究院院长)
其中这里的ABCD分别代指:
http://www.360doc.com/content/17/1207/13/1609415_710797958.shtml
结论:智能就是机器学习和求解问题的能力
具体可以细分为:
其中机器感知包含我们现如今耳熟能详的CV(计算机市局),语音识别,NLP(自然语言处理),IR(图像识别)
因此有必要引导我们以往的安防模式向全空间模式发展。
我们需要在此基础之上进行理论与思维的变革,将整个的信息空间分成三个部分
由此引出了这三种不同空间的三元空间演进以及全空间安全问题
网络空间安全可以分为三大方面:信息安全、技术安全和社会安全。我们所认知的全部的技术安全都是基于人类认知区域的盲区,也就是利用人所看不到想不到的地方去进行网络攻击问题。
这里老师引出了一个理论:那就是关于数据与行为的可见与理解:人类是无法理解超过一定尺度的行为数据的
本质问题有三:
现如今身份安全逐渐成为网络安全的核心,我们平常乘坐高铁有时就利用了身份证+人脸识别的双重信息,那么就可能会有人利用这一点将个人信息窃取之后进行信息盗窃的问题。这就引出了下面一个矛盾
即低维脆弱身份和高纬可信身份的矛盾
我们的身份往往不止一个,在学校里你是学生,将来加入工作你会是另外一个身份,将来进入不同的企业更会有更多的身份,这就引出了身份树的概念,人的身份是在不断生长变化的,有可能每段成长经历会在“身份树”上生长出一片叶子,但是基于你人自己的基本身份是不会变的,因此身份树中既包含基本身份即根身份,又包含以后生长出来的身份即类身份
现如今的人脸识别主要有两个不同的方面,一是有感识别:即验证方式会让你眨眨眼,二就是无感识别:即验证方式就是普通的验证人脸。
同时我们需要研究人的内在行为模式的力量,这里老师举了个例子:假设说一个人在花鸟市场上看到了一个鸟笼,觉得特别的漂亮,于是就把它买回了家并且摆在家里最显眼的地方,但是家里每每有客人来访,就会问:“你家鸟是不是死掉了,怎么只有鸟笼没有小鸟?”,来一个人就这么问,来一个人就这么问,直到这个人被问烦了,于是就把这个鸟笼给拿下去了,这就是人的内在行为模式的力量!!!
与此同时需要分析场景社会安全态势,其中包括:结构、环境和活动三个方面:
例子:如果单纯的分析一个人的活动是不可能判断出一个恐怖分子是不是会对机场产生威胁,因为他的活动可以跟正常人无异,我们需要从更多更广的层面加以分析和判断。
自然社会理解胡老师主要研究的典型技术:
新背景下智能安防技术的任务
报告人:赵明(清华大学)
其中这里的ICDT指的是Information(信息),Communication(通信),Data(数据)
其中值得注意的是话音到数据的变迁,这里学到一个知识就是:以前的3G网络更多的其实是针对于话音通信而设计的,并不是针对数据通信而设计的,因此4G在这一点上根据时代的需求进行了相应改进,针对数据通信进行了相应设计
之前了解过一些关于FPGA中嵌入神经网络做深度学习的一些应用,从老师那边了解到现在的赛灵思公司有一个大的新业务就是在服务器等等计算平台中,嵌入它的低功耗加速卡,这里有一个例子:大家平时用电脑访问京东,淘宝等购物网站时,用鼠标划过商品图片,这个图片就会被放大,这个并不是用服务器跑出来的,而是用FPGA加速卡弄出来的,好处就是低功耗+速度快
现如今谈到移动通信就不得不说起5G,从老师那边了解到了关于5G切片的一些知识。
网络切片的优势在于其能让网络运营商自己选择每个切片所需的特性,例如低延迟、高吞吐量、连接密度、频谱效率、流量容量和网络效率,这些有助于提高创建产品和服务方面的效率,提升客户体验。不仅如此,运营商无需考虑网络其余部分的影响就可进行切片更改和添加,既节省了时间又降低了成本支出,也就是说,网络切片可以带来更好的成本效益。
关于这个贴上一个链接:关于5G切片
报告人:张涛(天津大学)
其中这里的盲评估指的是在无法给出系统或者模型的具体表达式的时候估计出系统的输入输出情况。张老师的研究方向将其应用在了视频处理当中
盲评估最先起源于最优化问题:对于给定的问题,我们往往会根据实际情况对系统进行建模,然后利用最优化理论对模型进行分析;但我们实际遇到的问题很多都是非常复杂,难以建模的,如何在这种情况之下对系统做出评估就是盲评估需要研究的问题。
进化算法,或称“演化算法” (evolutionary algorithms, EAS) 是一个“算法簇”,尽管它有很多的变化,有不同的遗传基因表达方式,不同的交叉和变异算子,特殊算子的引用,以及不同的再生和选择方法,但它们产生的灵感都来自于大自然的生物进化。与传统的基于微积分的方法和穷举法等优化算法相比,进化计算是一种成熟的具有高鲁棒性和广泛适用性的全局优化方法,具有自组织、自适应、自学习的特性,能够不受问题性质的限制,有效地处理传统优化算法难以解决的复杂问题。
关于进化算法,这里贴一个链接:进化算法
在进化算法之中有一个个体适应度的概念,链接:个体适应度
在纷繁复杂的进化算法中,如何利用盲评估求解最优化问题就显得尤为重要,我们需要对复杂的问题进行盲评估建模,然后利用训练出来的模型对系统的输入输出进行分析。
报告人:张淑芳(天津大学)
首先对比一下传统的信息存储方式:传统方式中采用硬盘等存储器存储,在数据量大的情况之下具有能耗高,保存时间不够长,污染大等特点;而DNA技术则具有保存量大,能耗小,存储时间长的特点。
DNA存储技术的核心思维是:将数据转化为DNA片段存储。
大家都知道DNA都有A、G、C、T四种不同的碱基,那么这些剪辑就可以视作编码的一种方式,传统的计算机硬盘采用0或者1的存储方式,那么我们就可以灵活地用AGCT的模式替代传统的01模式来存储信息。用人工碱基合成做编码,用DNA测序技术读取信息。传统方法具有一定的存储年限,而DNA存储技术要远大于硬盘存储密度与时间,并且具有易恢复的特点,但他也具有合成费用高,时间长的缺点。那么一个小的解决方法就是一段信息并不是合成一整条长的序列对,而是合成好几条短的序列对。DNA合成的另一个缺点就是:不易擦除(全生命周期问题)
DNA数据存储技术研究现状:
DNA喷泉码概念:就像喷泉周围总会生成落地的小水珠一样,如果我们看不到喷泉的全貌,在喷泉喷的时间够长的情况下,我们是否可以通过落地的小水珠的信息还原出本来的喷泉信息呢?喷泉码就是这个思路,通过长时间的数据采集,每次采集到的原本信息的一部分,然后最终通过这些碎片化的信息还原出原来信息的全貌。
主要包含三个不同的技术
在这里介绍一下DNA碱基序列转换的不同方式:
就目前的发展情况来看,DNA存储技术是一门跨学科的研究方向,也正是因为如此,其中也存在着很多很多的研究困难,包括DNA快速数据存取,数据迁移,数据擦除等等等等,老师在最后给大家介绍了DNA计算机的概念,同样也是从DNA存储箱中拿数据出来,操作的复杂程度也比传统存取方式高得多,因此DNA信息存储以后还有很长的路要走。
报告人:刘哲理(南开大学)
网络空间安全共包含具体两大方面:
老师在这里举出了几个例子(以及我自己找的一些链接)
现如今机器学习和深度学习等人工智能领域取得了巨大成功,但是真实能够转化为资金的数量却不多(x世科技?),而且现如今的独角兽公司一大部分都要靠政府补贴才能够活得下来。
下边以无人驾驶为例子来看这个问题:
攻击类型主要分成两种:数据攻击和模型、应用攻击
这也对应了前边第一点中提到的网络安全的两个方面,即数据安全和功能安全;无人驾驶作为人工智能的应用领域之一,必然是经过大量视频等数据先预处理再训练之后得到的结果,那么在这个过程中数据被破坏则称之为数据攻击;同样在训练模型和实现功能的时候,如果此时模型或者应用场景遭到了破坏,我们把它叫做模型、应用攻击。
此节包含两个主要问题:1. 数据脱敏(静态或动态);2. 数据溯源
数据脱敏(data masking)是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。link
数据溯源(data provenance)是一个新兴的研究领域,诞生于 20 世纪 90 年代。当初,某些文献将其称为数据志或数据档案,后来,大部分文献将其命名为数据起源,有追踪数据的起源和重现数据的历史状态之意。本文称其为数据溯源,从应用的角度出发,强调追踪的过程和方法。link
本节中依旧包含两个主要问题:1. 隐私保护的数据收集;2. 隐私保护的数据发布
关于隐私保护的数据收集和隐私保护的数据发布,讲究的是我们应该如何在保护用户隐私的前提之下收集用户的一些数据,且与此同时还要做到用户数据不被窃取或者攻击;每个企业都拥有敏感数据:商业秘密、知识产权、关键业务信息、业务合作伙伴信息或客户信息。必须根据公司政策、法规要求和行业标准保护所有此类数据。任何收集、使用和存储敏感信息的企业均应制订信息分类政策和标准。该分类政策和标准应按企业的需求包含少数几个分类等级。大多数企业至少设有公共、仅供内部使用和机密等三个类别。
许多企业都有长期沿用的数据分类指导方针。然而,随着不断增多的新法规与行业标准的发展,仅仅存在公司政策已是不够。部分企业付出了大量的时间和精力,通过部署不同的控制措施和工具以尽量减少违规风险,将他们的数据保护政策实体化为信息技术(IT )基础设施。在过去几年中涌现的数据泄漏检测、预防和保护技术现已获得 IT 机构的广泛采用。应由数据治理、风险管理、合规性和业务要求来决定每项数据类别的数量及定义,以及针对数据标识、存储、分配、披露、保留和销毁的要求。显然,监管与行业规则和标准将在定义过程中扮演重要角色。其他数据同样需要保护,其中包括商业秘密、研究成果、配方、申请专利之前的发现以及各种形式的客户与员工信息。
数据保护的另一个重要方面是了解数据在企业运营中的使用方式,以及数据的存放形式(如硬拷贝、电子文档、数据库内存储)。此外,在生产、生产支持、开发、质量保证(QA)或第三方等不同类型的操作环境中,保护要求也各异。
必须明确规定对敏感或机密数据的保护要求,并在相应的监管与行业规则和标准或业务政策内反映出具体的要求。必须将特定的数据元素标记为敏感数据,且绝不应按真实形态用于开发、质保或其他非生产环境中。数据分类政策应清楚确认数据屏蔽要求。
最后,企业必须实施审计流程,定期提供独立评审以确保对最佳实践的遵行。
相关链接:百度百科链接
这里老师谈到了一个联邦机器学习的问题:
联邦机器学习又名联邦学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
联邦学习技术及数据隐私保护大会上明确提出了“联邦机器学习”这个概念。 数据是机器学习的基础 。而在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的。甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力。在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。随着人工智能的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注,例如Facebook的数据泄露事件就引起了大范围的抗议行动。
相关链接:百度百科链接
报告人:邵鹏(恩智浦半导体公司)
首先需要介绍一下边缘计算的具体概念和想法:
边缘计算起源于传媒领域,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间,或处于物理实体的顶端。而云端计算,仍然可以访问边缘计算的历史数据。
边缘计算处理数据中心明显的优势有以下几点:
那么既然说到边缘计算就不得不提它和云计算的关系了,无论是云、雾还是边缘计算,本身只是实现物联网、智能制造等所需要计算技术的一种方法或者模式。严格讲,雾计算和边缘计算本身并没有本质的区别,都是在接近于现场应用端提供的计算。就其本质而言,都是相对于云计算而言的。
首先来看云计算的范式:
可以看到数据传输是在数据库,云和电脑端进行的,这样可能会导致数据量很大的时候云服务的瘫痪。
下面是边缘计算的范式:
这样就减轻了部分云的负担,而且保证了数据的安全性,是比较良好的计算方式。
如今的社会跟以前大不相同,我所听的第二场报告,讲无线通信5G技术的那个老师就明显感觉是抱着学习的心态来参加研讨会的(包括他自己也说),我们的产业都是随着时间不断发展变化的,我们作为研究这个领域的学生更应该随着时代不断提升自己,还是希望以后有机会能够参加更多这样的研讨会,更多地了解关于云计算和人工智能的相关内容~
尺有所短,寸有所长,日丰一寸,必见其长