今天跟大家分享下百度团队在前不久做的一次计算机视觉(CV)的专场分享。
本次的领域信息处理 CV 专场一共有两节课,如何使用 EasyDL 构建互联网内容安全方案(图像内容审核)和膀胱肿瘤识别模型构建与应用探索。
两位讲师分别是来自百度 AI 技术生态部的高级产品经理 Nathan 老师和武汉大学人民医院泌尿外科博士杨瑞医生。
通过两节课的学习,开发者们将会学习到在短视频、直播、论坛等互联网应用场景的内容安全审核方案,如何接入 AI 技术实现对人力和成本的降本增效,确保内容和运营安全,还可以学习到在医学领域,如何尝试训练肿瘤识别模型,辅助人工识别判断,以及如何将模型离线部署到医学器材上实现离线识别。
还有申请加入 EasyDL 生态伙伴的绿色通道,(微信搜索 BaiduEasyDL 添加小助手详细咨询)。
本次的 EasyDL 产业应用系列直播课将在下周迎来最后一期 —— 领域信息处理 NLP 专场。在 NLP 专场中,下周二和下周三,6 月 9 号与 10 号,我们分别为大家带来业界领先的文本分类智能标注产品介绍,并由猎头咨询公司负责人为大家讲解,如何在知识密集型行业实现复杂文本分类。
对 NLP 方向感兴趣的开发者一定不要错过哦!报名请扫下方二维码:
主题:如何使用 EasyDL 构建互联网内容安全方案
时间:2020 年 6 月 2 日
讲师:百度 AI 技术生态部高级产品经理 Nathan
【课程大纲】
1. 背景介绍:互联网内容安全业务介绍及常见审核现状、AI 解决方案
2. 实战演示:如何利用 EasyDL 定制图像违规审核模型
首先,关于内容审核的定义。内容审核范围就是我们要对图片、文本、语音、视频合规性进行检查,比如图片像一些聊天、论坛的图片,我们都要对它进行检测,文本包括聊天信息、论坛贴子、弹幕、评论内容,新闻等等这些都算是文本内容。下一步是语音,包括聊天语音,还有电台的语音都要做语音审核。下一步是视频,包括社交短视频,新闻视频,还有直播,这都属于视频的范畴。我们对这些多媒体类型关注维度像色情、暴恐、政治敏感、恶意推广、低俗等,这些是我们内容审核的含义所在。
内容审核现在越来越成为更多企业越来越关心的问题,首先,监管单位针对内容从 2019 年有三个专项行动:护苗、净网、剑网。护苗就是通过线上线下措施保护青少年的安全,对互联网短视频内容,动画片内容进行审核,防止里面有一些青少年色情的内容。线下内容像针对学校周边的小卖部,里面出现的儿童读物、刊物进行审核,所以护苗行动是覆盖线上线下。第二是净网行动,组织部门就是扫黄打黑办,主要是针对黄色非法内容进行清除。第三是剑网行动,主要针对网络侵权盗版,文章和图片等进行审核。同时我们 2019 年监管单位有更多完善管理规范,比如《网络音视频信息服务管理规定》、《未成年人节目管理规定》、《儿童个人信息网络保护规定》、《网络信息内容生态治理规定》,这四个规定里有两个都是关于未成年人和儿童的,现在打开一些短视频 APP,视频网站,都会有一个弹窗,是否进入青少年模式,这都是在规定里进行的要求,比如要求动画片里面广告时长等,所以我们可以看到,通过一些专项行动和完善的管理规范,现在行业管理法规越来越健全,内容安全问题成为不管是大厂商和小厂商都在重点关注的内容。
内容审核的现状。除了监管单位非常关注内容审核,其实很多互联网多媒体类型的公司,比如一些短视频、长视频公司,论坛社交平台,都有在做内容审核工作,不过现在更多在依赖人工审核。
完全依赖人工审核有几个缺点:
人工审核效率低,一个人一天只审图片只能是一万张,如果图库或者社交类软件,图片量级比较大,就要雇佣很多人。
人工审核成本非常高,像一些短视频 APP,人工审核团队 1.5 万人,这个投入基本要投入 9 亿元的资金到这里面。
被审核的内容,人工审核时延比较高,不像机器是一个接口,人工要有任务的分发,任务的审核,以及任务最终返回到运营系统,整个流程都要 30 分钟以上,所以审核的时效性较低。
同时,监管的要求越来越细,越来越严格,我们拿两个点管中窥豹,第一是《网络音视频信息服务管理规定》,这里要求不得利用网络音视频信息传播危害政治安全、社会稳定,淫秽色情等信息,包括侵害他人名誉权、肖像权、隐私权的信息。比如说你上传一些明星照片这些,有一些平台使用了明星的照片,如果没有得到人家许可,这些都是违反了相关的管理规定的,包括这个平台可能会传一些谣言、色情信息都是不可以的。第二个像《未成年人节目管理规定》,第九条未成年人节目里不得包含暴力、血腥、恐怖、教唆犯罪、吸毒、吸烟、酗酒等内容。我们简单看两条管理规定,我们发现管理规定不像以前一个大面,不允许有一些违规的内容,现在对违规内容的定义进行了非常细致的规定或进行了明确。
针对不同的用户或者同一个用户不同的部门,审核规则不太一样。举个例子,像直播业务,像男性性感、女性性感都是需要人工复审,卡通色情等等都需要人工审核。像电视业务部,像性爱玩具,这些都是售卖的东西,还有一些男士内衣等,赤裸上身这些都算是正常的东西,它的审核规则和刚才我们看到的直播不太一样。比如这个平台还有一个论坛板块,论坛里有母婴的板块,比如出现一些儿童裸露,相对预期内的 CASE,这些复审一下,如果是正常的儿童裸露都是正常的情况,所以不同的业务部门,针对不同的审核规则,这个是现在的现状。
针对刚才监管单位的审核要求越来越细,不同的部门和不同的审核规则,对于用户挑选一家审核能力比较齐全的公司或者服务商是非常高的要求。但是现在的服务商拥有的基础审核能力,大家通常都会具备,一些细粒度审核能力并不是每家都有,包括自定义人脸库,自定义审核松紧度,自定义黑白名单,包括新审核内容,敏感时期策略自动切换等等,这些能力其实都需要的,但是市面上一些服务商无法同时具备这些功能。
我们总结一下现在人工审核遇到的问题。第一是人工审核成本非常高、效率低、主观性强,比如针对一张图片到底算性感还是色情,可能不同的审核员就有不同的标准,这个就会给后面的结果统计造成很大的负担。第二块是监管和业务审核规则更新快适配难度大,如果监管的规则推陈出新,需要频繁更改代码调整策略,操作成本非常高。还有监管要求检测一个新的类型,比如想实现这样的审核,比如客户已经用了机器审核,要准备大量数据训练这个模型,对客户来说这个成本也是非常高。还有当客户拿到了机审结果,想和现有的人工审核团队结合,想要打造一个人机协同审核系统,这个系统的构建成本难度也是非常大的。
基于刚才我们讲到这些痛点,其实我们总结一下,客户需要的是精准、全面、灵活、高效的审核解决方案。精准是说审核的模型,需要机器审核的模型足够精准,这样才能减少一部分人工审核的工作量。第二是需要能力足够全面,灵活适配,切合监管的需求,满足越来越细化的监管要求。第三是客户需要人审和机审管理平台或者提升效率。基于这些需求,我们百度大脑内容审核的愿景,希望利用 AI 审核能力帮助企业进行高效、低成本的审核,助力内容风险管控。基于这样一个愿景,我们有两条路径,第一是基于百度大脑全面的 AI 技术积累,提供最领先、全面的 AI 审核能力,凭借广泛的业务经验积累,开放基于最佳实践的人机协同的审核管理系统。基于这样一个愿景和这两条路径,百度推出了两个产品,第一是内容审核平台,第二是人机协同审核管理平台,在这两个平台下我们有非常多的核心能力,像图像、文本、语音。
我们看一下百度内容审核平台,我们打造产品的理念是我们想要给用户提供足够全面的审核能力,足够灵活的规则配置,精准的审核模型。全面的能力,我们监管单位的要求越来越严格,很多东西之前没有需要监管,现在都需要监管,这对审核能力全面性有一个调整。灵活就是随着突发事件,随着一些监管单位要求的更新,要求我们的审核规则不能是一成不变,要求灵活进行调整。精准就是只有精准审核模型,才能替代人工审核工作量,提升审核的效率。
第一个,在我们这个平台里我们包含的能力是图像审核能力,这里包括超过 14 项图像审核,像色情识别、暴恐识别、政治敏感、广告识别等等,从图像这些维度分析这个图片到底是违规还是合规。这里有一个点,有一个预制违禁图库,积累了多年风险处置经验,结合监管要求实时更新,帮助很多种小客户,前期没有做黑库的积累,拿不到监管要求,不知道怎么解读监管政策的小客户,帮他们接入平台以后就拥有对这块黑库的识别能力。同时,我们也具有非常丰富标签的图审能力,刚才讲到,比如色情识别,不同的客户业务部门或者不同客户之间就有非常大的区别的需求,百度怎么解决的呢,我们就是将色情识别拆分为足够细的维度,现在拆了 20 个维度,不同的用户,不同的业务部门就能根据自己的需求规定这些标签,哪些标签在我这个业务场景是属于违规的,比如这里有一个像儿童色情,性爱玩具等进行拆分,客户在我这个场景里是正常,就归为正常类,如果是违规就归到违规的内容。
同时我们也提供了非常维度丰富的文本审核服务,超过 8 项能力,包括文本色情、暴恐违禁、政治敏感、恶意推广广告、低俗辱骂、低质灌水内容。首先会过一下预制词库,如果没有命中,我们也会过用户自己的黑白名单,也就是说用户可以在我们平台上自己创建文本黑白名单,如果都没有命中,就过我们计算模型,最后输出一个结果给客户,这是我们的文本审核能力。
语音审核能力,一段语音过来我们会拆成两部分,第一部分是语音的内容,我们就会把这个语音先经过百度的语音审核,加上文字的信息,文字再过去,过我们的文字审核。第二是声音内容,像娇喘声等无法转换成文字,这些有专门的交换声识别模型,帮助用户做娇喘模型,过了语音识别和文本审核,我们最终会结合这两块的审核信息,给到用户最终的审核结果。
肯定有用户说百度已经提供了这些模型,最全的图像、文本、语音审核模型,还有一些特殊业务审核需求怎么办,比如在用户的场景里要审核一些紧急刹车声、枪击声怎么办,我们提供了一套 EasyDL 平台,它是一个支持图像、文本、视频、音频数据的零门槛 AI 开发平台。比如我们需要训练一个直播里,这个主播是在汽车内直播还是汽车外直播,识别这样的场景,客户只要准备汽车内的图片十几张,汽车外的图片十几张,就能检测是否在汽车内直播的模型,客户如果想设计一个枪击声识别,某个声类准备数十秒的音频数据,丢到 EasyDL 平台里,就可以定制一个自主声音审核模型,非常方便。
EasyDL 这里是面向企业级开发者提供全流程的零门槛一站式的平台方案。包括前端的 EasyData 数据智能服务平台,也就是说客户如果想训练一个模型,但是缺乏训练这个模型所需要的数据,或者说标注平台,可以使用 EasyData 解决数据的采集,标注机器扩充的功能,训练出模型以后,通过弹性托管云服务进行波束,或者是生成端上的模型,生成私有化模型都可以。
EasyDL 还推出了几个版本,我们知道客户拿几十张图片训练一个模型,刚训练第一个模型或者直接把图片丢进 EasyDL 平台里,过十几分钟能获得达到 90% 准确率的模型,我们知道 90% 准确率对大部分用户是够用的,可以进行商业化,但是对于一部分客户来说需要更高的准确率,可能需要 95%,98% 的准确率才能进行商业化的使用,所以我们对 EasyDL 也进行了两个版本的区分。刚才如果有部分客户需要 90% 准确率就可以的,可以使用普通版,EasyDL 基础版,针对零基础开发经验的程序员或者技术人员是比较好的。如果针对本身具有深度学习基础的审核研发人员,就可以使用 EasyDL 专业版,我们提供了更多模型训练过程中的参数,能让用户进行调整,打造准确率更高的审核模型。
EasyDL 平台有四个特性,第一是可即用,整个训练模型的步骤共四步,非常快,比如你使用 EasyDL 基础版,你不需要任何深度学习的基础,整个过程都是界面化操作。第二是更轻快,通过算法语工程优化,平均训练耗时小于 15 分钟。第三是高精度,超过分之二的模型,top1 准确率达到 90%,并且提供强安全措施,数据加密和隔离,完善的服务健全,帮助客户对模型和数据进行监管和加密,包括我们训练出的模型用户可以进行私有化部署,这样不用太担心数据的问题。
EasyDL 训练简单四步,最快五分钟就可以获得定制内容,第一个就是创建数据集,第二是训练模型,第三校验模型是否达到预期,第四步发布上线。同时我们 EasyDL 有数据支持,我们也希望有数据、或拥有数据标注能力的伙伴成为我们的合作伙伴,帮助我们更多 EasyDL 的用户提供更加全面的数据采集,数据标注的服务,帮助他们获得更高质量的训练数据。
讲了这么多,我们进行一个演示,我们看怎么使用 EasyDL 去自主定制欧美色情的识别模型。大家要用 EasyDL 从哪里进去,首先登录我们的官网,进来以后找到第二个标签开发平台,我们点击 EasyDL 经典版,打开以后进到产品的介绍页面,这里讲了一下一共有哪些功能,图像分类,物体检测,图像分割,文本分类等等,比如在内容审核场景,什么时候训练图像分类模型,什么时候训练物体检测模型。图像分类更多的是对场景的判断,比如刚才讲到分辨它是否是在车内直播,建议大家使用图像分类,或者说在户外直播,用图像分类。物体检测,比如我们定义了一个违规的雕塑,违规的旗帜,违规的勋章,我们想看图片里有没有具体这个东西,我们训练的是物体检测的模型,像刚才讲到是不是在车内直播,其实车内直播拍摄角度很多,但是我们一眼看上去就知道在车内,像这种适合用图像分类。
百度的内容审核方案就是通过百度预制全面审核,包括图像、文本、语音,长短视频的审核能力尽可能满足客户的需求。同时针对客户特殊的需求,我们通过用户自训练平台,通过 EasyDL 平台让用户自己训练这样的模型,来满足客户的需求。所以我们看一下具体到我们这个平台里怎么操作的。
除了刚才讲到全面审核能力以外,我们还提供了一些自定义的库的能力,比如自定义黑白名单,自定义图像和文本黑白名单,可以上传一些自己想拦截的人脸和图像的黑白名单。最后提供了审核策略自动切换的功能,很多客户需要在特殊敏感时期切换线上策略,比如审核更加严格等等这些,我们通过一个账号上面配置多条策略,不同策略我们可以看一下生效状态,还有生效时间,优先级,是现在特殊时期切换特殊策略,过了以后切换回平时审核的功能。
我们回顾一下,百度的审核能力主打是全面、灵活、精准、全面。百度提供了超过 14 项图像审核能力,以及我们也提供了 EasyDL 定制图像审核能力的平台,我们提供了 8 项图像审核能力,语音提供了超过 9 项能力,语音也是可以通过 EasyDL 进行新的筛选审核模型做一些分类,在这些能力之上,我们提供了快捷易用的接入方式,以及灵活方便的审核规则配置,所有的审核维度,审核标签,审核松紧度都可以实现。
其实基于刚才的审核能力,客户对成本的控制是没有上限的,他们希望通过其他的方式进一步提升审核效率,降低审核成本。第一个是需要一套功能更加完备的审核管理系统,提升审核管理效率,第二是提高审核人员的人效,所以我们提供了百度人机协同审核管理平台,我们通过合理的流程,易用的操作界面,进一步提升审核效率,同时我们直接提供了这样的平台,省去开发人机协同审核平台的成本或者审核后台的成本。
首先我们这个平台对用户来说是登录即可使用,也是类似于 SaaS 服务,用户如果自己开发这样的平台可能需要六个月的时间,我们提供这样的平台就直接省去了用户六个月的时间。同时在一些特殊时期或者在一些放假的高峰期,很多用户的审核量会飙升,势必审核平台的部署的机器要做动态的扩容,要让更多的机器过来,同时需要更多的审核员完成审核操作,如果用户使用自己创建的平台,这些资源相对来说不可弹性扩容。使用百度的这套服务,不管是云端的机器还是人力资源都是可以实现动态的扩容。第二我们这个人机审核平台有一各高校的流程,我们通过一审二审三审的流程,同时设置了高危组和普通组,降低审核员的压力,提升审核效率,同时保证审核结果。第三块是易用的操作界面和完备管理功能,审核界面的过程都是流式的界面,一次可以拉多个任务,用户对这些审核完成以后统一提交,效率高很多。针对短视频,我们会对短视频进行取样的切片展示,让冗长的短视频以关键帧的方式展现在这边,让用户一目了然看到这个短视频讲什么内容。
我们以短视频为例看一下人机协同审核流程怎么做的,首先一个短视频进来以后,用户需要创建一个审核规则,调用短视频接口。首先过 AI 机审,比如针对短视频,我们把短视频拆为视频、画面内容和音频内容,画面内容会有音频审核,通过 EasyDL 训练模型对它进行审核,音频也是拆成语音内容和图片内容,之后就会人审和人机审核,我们通过三层人审,保证准确率,确保最终输出的结果至少有两个环节结果是一致的。我们整套方案提供了公有云和私有化部署的方式,用户可以直接使用公有云 PaaS 服务,也可以把整训练能力都部署到内网,保证我们数据的安全性。
我们也希望拥有人审团队业务方可以直接使用人机协同审核平台,不用做这样的开发工作,进一步提升审核效率。如果没有人审团队,我们百度会对您推荐一些服务商,他们会把审核员部署到人机审核平台上,我们最终一起经过人机确认的高精度的工作。同时我们非常期待更多拥有人力资源的服务商来加入到我们的人机审核平台这边,成为我们的供应商之一,我们提供 AI 审核,技术支持指导,人机审核管理平台,提供销售、推广、渠道,帮助你们完成业务的转型和业务的增长。
总结一下,主要是两块内容,第一是百度内容审核平台,通过界面化的方式提供了全面、灵活、精准的审核服务,让审核服务更加贴合您的需求。在这个全面里,百度不光预制了百度官方的模型,我们也提供了 EasyDL 这个自训练平台,用户如果有一些业务的诉求,我们现在还没有考虑到,现在通过 EasyDL 训练对应的图像识别、物体检测,声音分类的模型来满足。第二是人机协同审核管理平台,利用高效的人机协同审核流程,进一步提升审核效率,省去开发成本。大家如果对百度内容审核感兴趣,可以搜索这个网址,也可以微信扫码 AI 小程序,体验我们的审核能力,也可以加入我们的内容审核的 QQ 群进行提问。
欢迎大家去体验我们的模型和平台,或者上 EasyDL 定制我们的内容安全审核方案,定制相应的图像、语音、文本的模型。
主题:EasyDL 软硬一体方案在膀胱肿瘤识别中的探索
时间:2020 年 6 月 3 日
讲师:武汉大学人民医院泌尿外科博士杨瑞医生
【课程大纲】
1、膀胱癌介绍,膀胱癌的流行病学国际研究报告解读等
2、如何使用 EasyDL 训练膀胱镜下肿瘤识别模型,并在 EdgeBoard FZ9 部署演示
膀胱就是储存尿液器官,位于盆腔的前部,耻骨联合的后方。膀胱空虚时,其尖一般不超过耻骨联合上缘;充盈时,膀胱尖上升至耻骨联合以上。膀胱底在男性与精囊腺、输精管末端和直肠相邻,在女性则与子宫颈和阴道相邻。男性的膀胱颈与前列腺相接,女性的膀胱颈直接与尿生殖膈相邻。可以右边这两个图,可以看到膀胱标注的位置,在这个地方,偏下面一点,在盆腔的前部。
这是美国国立卫生研究员 NIH 的报告,膀胱癌在美国肿瘤发病率排行榜位居第 6,预估病历在 2020 年在美国预估发病应该有 8 万多人,预计死亡率将近 17000 多人。肿瘤发病的因素主要是长期接触某些致癌物质,如联苯胺、β- 萘胺、4 - 氨基双联苯,这些人往往从事印染、塑料、油漆等行业,另外吸烟和膀胱肿瘤的相关性现在也得到确认,经常吸烟的男同志要注意,大家知道吸烟和肺癌相关性比较高,但是可能不知道吸烟和膀胱癌相关性也是确认的。还需要说一下膀胱肿瘤中位发病年龄在 70+,5 年总生存率大约 76.9%。
诊断主要是靠膀胱镜检查 + 活组织病理检查,我们可以看一下左边的图,这是讲膀胱镜,黑色这个就是膀胱镜,前面有一个小摄像头,我们把这个仪器放到膀胱里,它会把看到的画面在旁边的显示器上显示出来,医生直接看显示器上的图像,如果有异常,就用特制的特别长钳子把组织夹一块出来,然后做染色,再到显微镜下看,看组织究竟是不是肿瘤,是肿瘤这个诊断就可以确诊了,是两步确诊的过程。
膀胱肿瘤有一个什么特点呢,就是复发率比较高,费用比较高。膀胱肿瘤分为肌层浸润型膀胱癌和非肌层浸润型膀胱癌,这个占将近 70% 以上,接近一半的非肌层浸润型膀胱癌出现复发,老师说膀胱肿瘤就像韭菜一样,割一茬长一茬,复查方式:膀胱镜检查,发现异常进行活检。有研究说明它是最贵的癌症,每一次手术可能费用都不低。这个图就是欧洲国家的一个研究,显示了膀胱肿瘤增加的负担,这个是膀胱肿瘤,中间这一行是做膀胱切除的费用,这是欧元计算的是 5 万多,后面这个是做非肌层浸润型膀胱癌的手术。而且还有一点,膀胱肿瘤患者术后都要进行复查,也是用膀胱镜检查,隔一段时间要去观察,这是最准确的检查方式,也有老师可能会问,现在用 CT 和核磁共振可以吗,这种影像学检查发展虽然很快,但是膀胱镜的优势还是在那里的,优势还是最大的,所以标准的话还是要做膀胱镜。
这里就要说为什么容易复发呢,高复发的原因是什么呢,这里有一个文献是来自 BJUI,膀胱肿瘤新发有一种原因就是本身的基因型决定的,这个很好理解,本身的基因就决定了这个肿瘤容易复发。另外手术处理原发肿瘤的时候,我们处理它的时候不可避免会碰到它,这上面的肿瘤是不是可能脱落,在其他的地方出现植入。再就是膀胱肿瘤并没有完全被发现和切除,需要补充一点,膀胱的完全发现和切除都是建立在膀胱镜的基础之上,都是通过膀胱镜看到它并切它的,有这样一个概念。另外,内镜不可见的微小病灶的生长,这也是复发的另外一个可能。
膀胱镜是在膀胱癌整个诊断、治疗和复发随访上面发挥了非常重要的作用。膀胱肿瘤需要依靠膀胱镜做诊断、确诊,治疗也是需要膀胱镜做膀胱肿瘤电切,也是需要在膀胱镜里看到肿瘤,复查随访也是一样用膀胱镜。所以整个膀胱肿瘤的治疗都是以膀胱镜为中心,围绕它做。下面四张图,上面两张是正常的膀胱壁的图像,下面两张图是膀胱肿瘤的图像,第一张图不是很清晰,下面这个是有一个新事物,这个东西可能就是膀胱肿瘤,最终还需要依靠病理确诊。
这里我们有一个想法,用 AI 加持做膀胱镜下膀胱肿瘤的识别。用 AI 辅助我们识别判断这个地方是不是膀胱肿瘤,具体而言,通过 EasyDL 软硬一体方案定制膀胱镜下膀胱肿瘤识别模型。
简单说一下 EasyDL 的优势,尤其是对我们跨专业、本身不是做计算机方向或者人工智能方向人的优势上,EasyDL 的优势比较大。EasyDL 的经典版不需要懂得 AI 算法就可以使用,模型是专门针对我们提供的数据定制出来的模型,精准度相对比较高。另外,整个平台对图片集的管理、标注和训练提供了友好的界面,同样不需要写任何代码。另外,仅仅标注少量图片就可以初步识别,并且可以使用智能标注,几轮标注后标签也会比较准确。另外实施比较容易,操作简单,节省时间。EasyDL 有经典版和专业版,在做科研的过程中,觉得经典版满足不了大家的需求,可以选择专业版,可以自主选择多种神经网络,进行更深度的参数调节,使用更加灵活。还有就是部署灵活,可在云端部署,本地部署,以及软硬一体部署。
EasyDL 后台技术有这几点,首先是用 AI Workflow 工作流程,统一大数据工程系统与分布式训练系统掌管整个数据的流动,使用框架是百度的飞桨深度学习平台。另外还有一个超参数的搜索 Auto Model Search,自带超参数搜索功能,就隐含了很大一部分数据计算量在里面,帮我们做计算。另外用 Transfer Learning 迁移学习的工具,如果用户提供数据集比较小,就可以用迁移学习把在其他问题上面得到的权重,迁移到现有的任务上来,这样子来提高训练数据集比较小的时候模型的效果。
EasyDL 训练模型也是有四个步骤,第一数据预处理,对图像实现归一化、大小裁剪与数据增强等操作。下一步是模型的训练,在 EasyDL 的平台上操作。再到模型验证,在验证集上验证效果,最后是模型上线,把模型做云服务直接调用它,或者把模型部署到我们需要的地方去,就是做一个模型的上线。
这里叙述一下我们做的膀胱肿瘤识别模型。开始是做数据收集,这些数据都是从医院里的膀胱镜主机里导出,所有膀胱肿瘤图片都是经过病理确诊的,可以看到左边这批图就是正常的膀胱壁,右边是膀胱肿瘤,这个已经进行了编号。需要提醒大家一下,这种数据一定要经过医院伦理委员会的审批才能够拿到。
我们就把数据直接上传到 EasyDL 上面,数据和模型都在我们自己的账号里,也不用担心泄漏和丢失的问题,直接把数据按照 EasyDL 的要求打包好,压缩打包以后直接上传到 EasyDL 系统里来,可以看到系统显示到图像分类,多少张图片。
接下来是我训练的结果,针对每个不同的部署方式,都训练了一个结果,无论是公有云 API、通用设备端 SDK 还是专项设备 SDK,效果都比较好,TOP1 是 96%,第二是 95%,第三是 95%,整体的训练效果很优秀。
看一下更详细的训练报告,在公有云上也是用业内常规的几个指标,准确率,精确率和召回率。下面有一个专项硬件识别 SDK 准确率也是可以的,92%,95%,94%,90%,这个针对 EdgeBoard 计算卡做了适配,直接将训练好的模型生成 SDK,把 SDK 直接部署到 EdgeBoard,操作非常简便。
部署的种类与使用,有几种常见的部署方案,第一就是公有云 API,直接联网通过云端调用 API 接口。另外就是通过 CPU 和 GPU,这可以在个人电脑上可以进行的,另外 VMX 加速卡软硬一体方案,VMX 作为加速卡是需要宿主机的。我们采用的方案是 FZ9 加速卡软硬一体,自带一个接口,功能也比较强大,因为我们需要实时性,因为我们这个项目相当于要实时识别每一张图片有没有膀胱肿瘤,这个对计算卡的要求还是比较高的,我们选的 FZLite 卡还是可以实现我们的需求。
这个是我们当时拿到 EdgeBoard 的开机照,有这样几个特点,性能强悍,高通用性和扩展性,开放门槛低,支持硬件定制。这个软硬一体的体积很小。大概说一下部署过程,通过 EasyDL 训练模型,迭代至模型效果满足业务需求后发布得到 SDK,直接拷贝到 EdgeBoard,然后用序列号激活 SDK,接下来运行 SDK 就可以了,这个运行过程包括驱动加载,编译,还有运行的几个过程,按照说明书操作就可以了。
这是我们整个流程图,首先是收集了正常和肿瘤膀胱镜的图像,把这些图像放到 EasyDL 里训练得到一个模型,就是专用 SDK,把这个专用 SDK 放到 EdgeBoard 里面,然后把膀胱镜的镜头采集到的图像要进到膀胱镜的主机里进行分析,这个主机会显示视频到显示器上,我们将视频信息分两路,一路是给医生观看的一路,另外的一路把信息输入到 EdgeBoard,由 EdgeBoard 对我们输入的信息进行加工处理计算以后,它会告诉我们,这张图上面有没有膀胱肿瘤,我们把这个信息叠加到原来的膀胱镜的图片之上,放在另外一个显示器上显示,是这样一个流程。
随后我们就进行了验证和探索,这张图是我们首先在实验室里验证这个系统的可行性,主要是采用了拍屏的方案,这是计算卡,旁边是我们的小屏。右边这张图是我们把整个系统拿到手术室里部署的情景,这边是我们的电脑,这边是 EdgeBoard 计算卡,这边是第二块屏,这是第一块屏。值得说的是,这是打印机,这个地方就是膀胱镜的主机,相当于整个视频的流程,我们的视频信号由膀胱镜主机产生,一路信号放到这个显示屏上面,就是医生看的,另外分出一组信号,经过计算,把分类结果叠加到小的显示器上,达到我们之前项目所设计的要求,就可以用人工智能辅助膀胱肿瘤的识别,当然还是需要加人工的核验,是这样一个过程。
这个图是放大的图,EdgeBoard 计算卡正在计算,左上角显示出对这幅图计算的结果,这是一个正常的膀胱壁,这个就是医生操作时候的画面。
最后这是我们拍屏的一个案例,大家可以看到这上面的显示,这其实就是一个膀胱肿瘤,旁边这个也是,上面显示出系统计算得到了膀胱肿瘤的概率,Tumor 是 0.9,这个准确率还是可以的。当有膀胱肿瘤的时候,就会显示出 Tumor。
简单说一下我们探索的心得,首先是跑通了整个模型和部署过程,达到项目设计的要求,就是用人工智能辅助膀胱镜下膀胱肿瘤的识别。整个项目也有很多需要改进的地方,需要收集更多的临床数据,更多的样本,更多的图片。另外可以考虑尝试采用专业版或者其他的方式提高模型准确率,另外可以尝试系统进行膀胱肿瘤亚型判断,再就是交互界面,就是我们的交互界面的优化。
【EasyDL 和 EdgeBoard 软硬一体介绍】
训练模型的目的是为了在实际项目中使用,现在项目部署大致分为两种,一种是公有云部署,一种是边缘化部署,公有云是在云端部署,方便、省心省力,集中式托管,有网络即可接入,无需搭建环境,通过 API 调用,集成便捷。但是有一些限制性,安全,实时性,稳定性,所以很多都是通过边缘部署的方式,让模型更靠近云,无需将数据上传到云端,保障了数据安全和隐私保护,边缘部署需走网络,响应更稳定,更实时,边缘部署无网络搭建成本,硬件成本低,所以今天主要讲的是 EasyDL 在边缘部署的硬件 EdgeBoard。
EdgeBoard 是百度面向嵌入式与边缘部署场景打造的硬件加速方案,适用于机器视觉智能化监控与分析,具有高性能、低成本、使用简单等三大优点,可无缝兼容 EasyDL 模型训练平台。我们和世界上最大的芯片厂家赛灵思,还有英特尔 VPU 系列,我们和赛灵思合作两个系列,计算卡和计算盒,分为 FZ9/FZ5,FZ3 两个型号,计算卡是面向低成本的场景打造的一款产品。FZ 系列主要特点带有主控,可以很好当成一个小型开发机使用。跟英特尔合作的 VMX 是加速棒形态,我们叫加速卡,通过 USB 连接起来,作为一个协处理器,需要连接一台宿主机运行。
下面看到三个产品的图片,左边是最小的 FZ3Lite 计算卡一体方案,中间是高性能的盒子,右边是软硬一体的 VMX 的加速方案。
下面介绍一下,FZ9 和 FZ5 计算盒,特点是高性能,适配多路摄像头,规格在三个里面相对做的比较小,FZ 计算盒是高性能,12×8 厘米,3.6TOPS 算力,功耗在 10 到 25W,有些场景下硬件会标成 5 到 10W,但客户一旦把性能跑满,功耗会到 10 到 15W。FZLite 功耗是 5 到 12W,FZ 系列使用的是 FPGA 方案,很多是工业级的方案,运行的环境和试运行温度可以在零下 40 到零上 70 度,还是比较宽泛的工作温度的支持范围,比较适合用在工业场景。这边是价格,FZ Lite 是 1179 元,FZ 计算盒是 4169 元,VMX 加速卡是 699 元。
下面我讲一下几个应用场景,EasyDL 和 EdgeBoard 软硬一体方案可以在非常多的场景应用,我列的这些都是已经落地的项目,安防、工业、医疗、零售、教育、农业和交通,刚才杨老师介绍了医疗场景的案例。
FZ5 和 FZ9 计算盒软硬一体方案看起来是一个带盒子的,就是 AI 服务器,有 FZ5 和 FZ9 两个型号。支持 8 路 1080P 摄像头解码,算力高达 3.6TOPS,resnet50 模型推理全流程可以做到 60 帧每秒。相较于服务器优点:体积小、质量轻,易携带、功耗低、价格低,适用于视频监控场景的私有化、边缘化部署,如安防巡检、工业质检、农作物监控,交通巡检等。
我下面介绍一下盒子的应用场景,比如安防场景,巡检无人机,是空对地的,就是抓拍,有个特点,它的图像会比较小,特征比较少,这就需要有一些比较高精度的模型做识别,效果比较好。这种高精度模型对硬件性能都要求比较高,所以我们推荐对模型效果要求好,性能要求高的场景可以购买计算盒产品,也可以直接在场景里直接部署安装,是比较好的硬件产品。像无人机这个场景,空对地的识别,可用在边防巡检、岛屿巡检、电力巡检,交通不好到达,也可以非常节省人力的场景里。
第二个应用场景,比如在工业场景里,我们跟质检机器人做了结合,可以用在 Iphone 产线的质检,最小可以达到 0.2 毫米以下,手机质检成本要求不是那么敏感,但是对检测的缺陷细微程度会要求比较高。
农业场景,现在和京东方合作,在蔬菜大棚里也做了一些边缘部署,可以做智能化的监控,病虫害等一些情况,在农业场景里有非常高的应用价值,通过智能化监控可以让食品变得更有机,更健康。
交通场景这块,最近国家也在推路边停车,就是交通管制的违章停车管理,以前就是传统的,停车有个人坐在旁边,你开到那个地方对你收费,这样有一个特点,特别耗人力,人管理起来也容易疏漏,成本很高。现在通过 EdgeBoard 和巡检车结合这种场景,可以动态识别路边的停车,可以识别比人更快,一辆车可以识别很长的距离,有几公里的距离,如果一个人最多只能管肉眼可见范围内的,几十米范围内的停车位。
这款是轻量型的电脑主机,规格非常小,只有 7×8 厘米,我们用它可以用在学习,因为学习的时候并不需要有非常高的性能,所以拿一款千八块钱的,就像小型电脑主机一样,可以用在智能小车里,我们最近跟国家合作的智能小车竞赛,里面用的就是 lite 板,还有智能医疗的设备里,如果不是动态的,像眼底筛查,不是动态的,对识别的速度不是那么敏感,反而对功耗,对易集成要求更高一点。这个就是百度做的一款眼底筛查仪,结合 EdgeBoard 智能分析,可以帮助视网膜病变等疾病的识别,其实很容易应用落地,比如放在眼镜店,检查近视眼可以在那时候非常方便给市民做一次检查,也可以放在眼科医院,也可以放在公益活动里,可以辅助医生识别,缓解医疗资源的稀缺。
在教育场景中,这个是我们推的智能竞赛小车,集成 EdgeBoard lite,实现智能识别,弯道,验证等等,不管是大学生还是 K12 的学生,都可以买一款这种小车,去做人工智能的学习,是非常不错的选择。
这款是我们和英特尔合作的,VMX 方案,这款芯片的特点算力是非常强,这边写的是 1TOPS,实际有 10TOPS 算力,还有做图象处理的,神经网络也有算力,目前大江海康都是用这个做应用,这是协处理器,需要通过宿主机工作云端,比如我们已经支持 Linux 和 Windows,目前只有 699 元,可以很好的用在学习场景,还有一个是我们在存量设备上,比如已经有了一些设备,主控板换不了,只要有 USB 口就可以通过这个加速卡直接插上去,就可以实现这个设备的智能化升级。
我们看一下这个设备的应用,比如零售场景中,智能电子秤,可以通过 VMX 加速卡插进来进行智能化的菜品识别,可应用在超市、农贸市场等地方,对供应链管理,其实 AI 做的事情大多数都是安全,二是提升效率,三是降低成本,这个智能秤很好的提升了超市的人工效率,降低了人工成本。
这一页讲的是有了 EdgeBoard 以后,如何一步一步进行部署,刚才杨瑞老师比较细的讲了过程,就是这几步,我们在 EasyDL 训练模型下载下来,然后购买硬件,可以在 EasyDL 上获取 License,部署激活,然后就可以无限期使用了,可以放在业务里进行集成,非常的方便。
【EasyDL-EdgeBoard/EasyDL-Jetson 软硬一体方案限时特惠】
如果您想尝试 EasyDL 软硬一体方案,在 5 月 13 到 6 月 13 扫描二维码填写信息,可以定律量身定制获取优惠资源,如果你购买任意一台 EasyDL 自研软硬一体方案,包括上面提到三款,将获得等价专业版训练时长,软硬一体方案 + 专业脚本调参 26 小时 GPUV100 训练时长 / 32 小时 GPUP40 训练时长 / 41 小时 GPUP4 训练时长,折算下来就是五折优惠,有购买意愿可以先填写信息哦。
同时 EasyDL 和 NVIDIAJetson 软硬一体方案已经上架到百度 AI 市场,推出全网最低限亮优惠的活动,EasyDL Jetson Nano 原价 1099,现价 800。TX2 原价 3500,现价 3200,Xavier 原价 5999,现价 5600,已经是非常低的折扣,可以扫描屏幕下方的二维码了解详情。
课后作业,使用 EasyDL 经典版 / 专业版,图像分类 / 物体检测,训练模型,训练数据可以采用自选数据。如果你想参加最佳布道师评选,可以参加我们的活动贴,地址可以在公告里找到,如果分享自己的读书笔记和使用心得,使用教程和场景方案可以赢得我们百度网盘超级年卡。
【下期预告】
下周的课程,将会是 EasyDL 产业应用系列 —— 领域信息处理 NLP 专场!来自百度的 NLP 产品经理将会为我们带来业界领先的文本智能标注产品的介绍,猎头公司负责人回味我们分享知识密集型行业如何进行知识点分类梳理,使用 AI 技术完成数据 “结构话”,提高业务处理效率!
如果对下期课程感兴趣的小伙伴,可以扫描下方二维码报名,也别忘了添加小助手的微信进群共同学习哦!
报名速戳: