腾讯AI实验室

腾讯 AI Lab 2021 年度回顾

感谢阅读腾讯AI Lab微信号第136篇文章。本文将进行2021年度回顾，祝大家新年快乐！

2021年，腾讯 AI Lab 迈入第 5 个年头。作为一个尚属「年轻」的实验室，在未知而广袤的科学世界中，我们还有很长的路要走。

回望过去这一年，似乎并不特殊：我们依然在坚持「学术有影响，工业有产出」的理念，在踏实科研、创新应用两个方向，稳步向「Make AI Everywhere」的愿景迈进。

同时，我们又确实看到一些特殊之处：疫情让日常生活的数字化需求陡然提升，也让 AI 有了更多用武之地。五年的积淀让我们能从事更深入、更前沿的研究，并在与学界和工业界的合作交流中，发挥企业视角的影响力；同时，我们的技术能够给更多现实问题提供解决方案，以有价值的产出让生活变得更美好。

下面首先将介绍 2021 年腾讯 AI Lab 在虚实集成世界、虚拟人、机器人三大研究方向上的重要探索，然后会分医疗、医药、游戏、内容等主题总结这一年的行业应用成果，最后会概述这一年在不同研究方向上的学术进展。

一、加速迈向虚实集成世界：

虚拟人及机器人前沿研究

2021 年最火热的，莫过于对下一代互联网，也被称为「全真互联」这一概念的热烈讨论。我们看到，世界朝着数字化和虚拟化方向加速迈进，线上和线下更全面地一体化，实体和电子方式更深度地融合，从而把人、信息、物、服务、制造紧密连接在一起。

在 2020 年，腾讯 AI Lab 和 Robotics X 实验室主任张正友博士，首次提出了虚实集成世界（IPhD，Integrated Physical-Digital World）的概念，并从时间、空间到信息内容维度，解读了「全真互联」时代的四大技术关键点：现实虚拟化、虚拟真实化、全息互联网、智能执行体。在今年 11 月举办的腾讯数字生态大会上，张博士进一步阐释虚实集成世界的发展进程，解读了虚拟与现实正加速融合的趋势。

演讲视频可于大会官网查看：https://des.cloud.tencent.com/2021/

虚拟人与机器人是虚实集成世界中的两大重要组成，下面将介绍实验室今年在这两方面的进展。

虚拟人：多模态 AI 技术驱动的虚拟世界新伙伴

疫情是虚拟数字人产业发展的一道重要分水岭。现实空间常态防控背景下，人们倾向于在数字世界中寻求更多社交互动场景，因此虚拟世界的建设和讨论逐渐增多，相关技术及要素开始逐步构建，而虚拟数字人作为那个世界中人类角色的具象显现，也借势迎来更多关注。

腾讯 AI Lab 自 2017 年起开始虚拟人研究，目标是从语音、口型、表情到全身动作都实现高度拟人，并掌握听、说、读、写、想等全方位技能。团队将计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态的AI能力和技术融为一体，生成清晰、流畅、高质的可交互内容，未来将逐步探索虚拟人在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

诞生于 2020 年的 AI 虚拟人艾灵，是业内首个由 AI 驱动的虚拟偶像。经过一年「学习」，她新掌握了不少国风才艺：

写作：去年春节，她基于自研的文本创作模型 SongNet，通过H5程序为千万网友撰写藏头对联；5月，她的能力进一步升级，学会作词写诗。
书法：基于前沿图像生成技术，艾灵「拜」颜真卿、柳宗元、米芾和苏轼等中国书法大家为师，再使用图像生成对抗网络技术，“写出”神形兼备的书法字体。
演出能力升级：5月，她首次与青年歌手白举纲跨次元合作，共同演唱国风新歌《百川千仞》，在更大的舞台上让观众看到科技+文化的全新可能。

这套多模态技术系统框架适用于不同风格的虚拟人。在今年11月的数字生态大会，超写实 3D 虚拟人「小志」首度亮相，可以通过输入文本来合成语音「说话」，还能基于文本或语音自动生成准确的口型及生动自然的表情。

机器人家族「上新」：移动能力升级，探索工业场景

自 2018 年在深圳建立以来，腾讯 Robotics X 机器人实验室持续与腾讯 AI Lab 携手推进「AI+机器人」发展。继 2020 年推出四足机器人 Jamoca 后，机器人实验室今年发布了 3 项重要进展。

3月，首个软硬件全自研的多模态四足机器人 Max 发布。它采用创新性的足轮融合一体式设计，实现了「崎岖路面走得稳，平坦路面跑得快」。它还能从四足到双足的站立和移动、后空翻、摔倒自恢复等高难度动作，拥有较好的平衡能力，兼顾了移动速度和稳定性，达到了行业领先水平。

6月，轮腿式机器人 Ollie 发布。它具有轮式机器人优势，在平地移动快、效率高；它也有很强的腿部能力，能在不平、的地面前进、跳跃通过台阶，越障能力强。其相关论文被机器人行业顶会 ICRA 收录。

11月，实验室借助在机器人敏捷移动与灵巧操作等技术方向的不断积累，与腾讯数据中心联合研发了 IDC 运维机器人，创新性地实现了服务器的全自动搬运、上下架、资产扫描盘点等工作任务，提升了 IDC 运维的效率。

二、行业应用向善

医疗、医药、游戏到内容

作为 AI 科技的前沿探索者，腾讯 AI Lab 深知 AI 变革世界的潜力。因此，腾讯 AI Lab 在积极探索最前沿的 AI 技术的同时，也致力于将这样的潜力转化为切实可行的应用，以更好地为世界带来正向的改变。

AI+医疗：初步落地临床，提升病理阅片效率

「AI+医疗」是腾讯 AI Lab 核心研究方向之一。作为与全人类息息相关的研究课题，它值得长期和耐心的投入。

目前我国病理诊断面临着医疗资源分布不均、医生数量严重缺乏、水平参差不齐等难题。近年业内的多项尝试证明，AI 可以有效节省人力、时间成本，提高病理诊断的质量与效率，打破病理科面临的困境。

腾讯 AI Lab 医疗中心不断发展病理 AI 相关能力，专注打造研究与应用双平台，助力病理行业向数字化、智能化加速转型。

在研究侧，病理 AI 科研平台专注自主研发 AI 算法，布局多病种的整合诊断，多次获得国际级权威测试平台冠军，已获得 2 项软件著作权，授权国家专利 20 项，发表论文 30 篇；免疫组化-组织病理AI模型已覆盖 8 大癌症高发病种。

AI Lab 参与开发了迈瑞血细胞形态分析系统算法，细胞分析的多中心临床研究试验已在全国多家顶级三甲医院开展，算法性能比传统设备显著优越。宫颈癌 AI 也在与国内试剂厂商合作，搭载其技术的宫颈细胞 AI 辅助帮教系统已在全国 800 多家各级医院参与线上教学，累计分析超过 120 万次，算法准确度远超同类竞品。

应用侧，由腾讯 AI Lab 医疗中心提供底层技术的觅影病理云平台（病理影像存储与传输系统软件）也于今年获得国家二类医疗器械许可证，落地应用于临床诊疗场景，为医院病理科室提供图像管理、浏览、分析等数字病理服务，并具备病患数据上云、远程精准诊疗和多专家云上会诊等功能，为将推动AI医疗普惠至偏远地区打下坚实基础。

AI+医药：深入前沿研究，增强平台能力

在诊疗之后，如何快速研发出治疗疾病的药物，也是 AI 可发力的方向。2020 年 7 月，腾讯 AI Lab 发布了首个 AI 驱动的药物发现平台「云深」，整合了腾讯 AI Lab 和腾讯云在前沿算法、优化数据库以及计算资源上的优势，提供覆盖临床前新药发现流程的五大模块，包括蛋白质结构预测、虚拟筛选、分子设计/优化、 ADMET 属性预测及合成路线规划。

云深平台：https://drug.ai.tencent.com/

今年平台取得 2 项新进展：

在分子生成方面，8月平台与成都先导合作设计了业内首个经实验验证的骨架跃迁分子生成算法（GraphGMVAE），为药物化学专家设计分子提供更多启发。该算法以 JAK1 抑制剂 Upadacitinib 为例（通常用于治疗中重度类风湿关节炎的药物），证明在保持分子侧链不变的情况下，能有效生成具有相似生物活性但骨架不同的分子。同时，研究还提出了一套对分子优先级排序流程，可以缩小验证范围，提高效率。研究结果被美国化学学会杂志 ACS Omega 收录。

利用 GraphGMVAE 进行骨架跃迁，该项成果发表于行业知名期刊ACS Omega上

在蛋白质结构预测方面，平台去年推出的 tFold 算法精度和速度持续提升。与DeepMind所提出的 AlphaFold2 方法类似，tFold 采用了端到端的结构预测方案，并从模型设计和训练策略等多方面提升了训练阶段的优化效率和稳定性，仅需使用 8 卡 A100 训练 4-5 天。对于中等长度的蛋白质序列，平均运行时间约为 2-3 小时，提速明显。在 CASP14 基准测试集上，该模型在平均 TM-Score 指标上可达到 86.7，优于 RoseTTAFold (TM-Score=79.2），但与 AlphaFold2（TM-Score=90.0）仍有一定差距。该模型已经在上线「云深」平台，供用户免费使用。

AI+游戏：拓展能力边界，距现实更近一步

计算机科学家们一直对「AI+游戏」保持热情，希望运用可自由定制、监测的游戏环境，解决 AI 算法测试困难、场景稀缺的问题，提升 AI 算法处理复杂问题的能力。

「AI+游戏」正是腾讯 AI Lab 长期深耕的领域。在过往围棋、MOBA 等游戏环境中取得的成果之上，今年团队继续深耕，让AI的足迹走向了麻将、足球、3D开放世界（Minecraft）、即时战略（RTS）等多类游戏环境，不断积累国际一流的学术成果，还在行业全链条应用和生态建设上迈出了坚实步伐。

棋牌拥有简单清晰的规则，清晰的胜负判定条件和行动准则，并在公众认知中被认为代表了人类的智力水平。在今年，实验室棋牌类 AI 「绝艺」的能力，从传统强项围棋（完全信息博弈）到麻将（非完全信息博弈）都不断提升。

在围棋 AI 研究上，「绝艺」持续提升让子棋能力，对普通职业棋手让两子取得 200 连胜，对顶尖职业棋手胜率超过 95%；
在应用上，新增对日韩规则、让先规则等功能。
这些能力将帮助「绝艺」更好地服务中国围棋国家队队员，以及腾讯野狐围棋平台的围棋爱好者们。
在麻将 AI 方面，「绝艺」继去年达到两人麻将职业水平、四人国标获 IJCAI 麻将 AI 比赛冠军后，今年与多位职业选手完成了 2000 多场四人国标对局，平均赢番第一，成为业界首个达到四人国标麻将职业水平的 AI 。

为训练 AI 的决策智能水平，腾讯 AI Lab 自 2018 年起在「王者荣耀」MOBA（多人在线战术竞技）环境中训练「绝悟」AI。今年它的能力迎来了进一步提升。

3 月，「绝悟」在「王者荣耀」MOBA 环境中的策略多样性再度升级，学会在不同阵容和对局中执行多样的策略（如养猪流、反野流、大乔流等）。针对复杂环境中策略难以探索的问题，「绝悟」提出基于宏观目标的分层强化学习框架（MGG, Macro-Goals Guided RL），并验证了该方法在策略探索上的高效性。该项技术于 4 月的「挑战绝悟」游戏活动中初次实践，有效提供玩家挑战趣味性，研究成果已经被 NeurIPS 2021 主会议接受。
9 月，继去年赢得 Google 足球竞赛冠军后，「绝悟」今年基于层次化强化学习实现了业界首个纯强化控制所有球员的 Full Game 11v11 足球 AI , 并且能力远超去年的行为树+强化的冠军版本。
12 月，「绝悟」在 NeurIPS 2021 举办的 MineRL (Sample Efficient RL Competition) 赛事中，以 76.970 的历史最高分完成主赛道（research track）挑战，夺得决赛冠军，并将研究成果共享在 Arxiv 平台，让算法框架可复用于其他复杂决策环境。

「绝悟」团队（X3）获得历史最高分。完整榜单详见：

https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition/leaderboards

即时战略（RTS）游戏一直被认为是竞技性和策略性方面最具有挑战的一类游戏，其更为巨大的观测、动作以及策略空间，对训练高水准的AI智能体带来了非常大的困难。

腾讯 AI Lab 和 Robotics X 实验室自 2018 年起，以「星际争霸2」这一风靡全球的即时战略游戏为研究对象，深入探索强化学习在处理此类复杂游戏上的可拓展性。同年，团队发布初代 AI 智能体 TStarBot，分别以层次化的动作/策略空间建模和基于中高层动作空间的强化学习训练，在业界首次实现击败游戏中所有等级（包括最高等级的作弊）的内置 Bot。该工作论文（https://arxiv.org/abs/1809.07193）被 2019 年底 DeepMind 公布的 AlphaStar Nature 论文引用。

在今年 4 月，通过之前积累的经验以及吸收 AlphaStar 中的优势技术，实验室提出了 TStarBot-X：在使用比 AlphaStar 算力资源少1-2个数量级（数据消耗速度为AlphaStar的1/30，数据生成速度是AlphaStar的1/73），且和人类操作可比拟的情况下，TStarBot-X 在虫族对虫族对战测试中击败国服和韩服宗师级别人类选手。

其背后的强化学习技术进一步提升，包括高效的联盟训练方式（Efficient League Training），简洁规则引导的策略搜索方式（Rule-guided Policy Search）、以及差异增大的策略优化算法（Divergence- Argumented Policy Optimization）。

完整代码及技术细节可见论文：https://arxiv.org/abs/2011.13729
其所有技术细节以及背后的通用多智能体强化学习联盟训练架构 TLeague 均已开源：https://github.com/tencent-ailab/tleague_projpage

除了攻克更多游戏环境，「绝悟」团队还初步尝试将 AI 能力应用于游戏开发和运营流程中。7月，腾讯 AI Lab 在全球游戏行业顶级会议「2021游戏开发者大会」（GDC）亮相，全面展示了以「绝悟」为代表的 AI 技术在游戏产业全链路中的研究应用能力。

具体而言，AI 在游戏全链路的研究和应用包括两部分：横向上，覆盖游戏制作、运营及周边生态全生命周期，提升游戏品质，丰富玩家体验；在纵向上，AI正拓展更多元的游戏品类，如围棋、麻将等棋牌类，足球等体育类，以及 MOBA 、FPS（第一人称射击游戏）等复杂策略类游戏。

希望了解「绝悟」提高游戏开发效率、打造新玩法、辅助游戏平衡性测试等具体案例，请见文章：「绝悟」参展游戏开发者大会，AI深入游戏产业全链路。

多智能体强化学习主要研究在同一个环境中的多个智能体，如何进行合作或者竞争完成指定的目标。因为具有较高的研究难度，也有广泛的应用前景，这一议题近年广受AI企业及科研院校关注。

为帮助AI学界克服算法、数据、算力、场景等四大要素的挑战，腾讯 AI Lab 与王者荣耀于2019年宣布共建「开悟」AI 开放研究平台，依托于腾讯太极机器学习平台，基于双方在算法、脱敏数据、算力方面的核心优势，为学术研究人员和算法开发者开放的国内领先、国际一流研究与应用探索平台。

这是「开悟」举办高校大赛的第二年，作为业内首个基于 MOBA 游戏场景的 AI 开放平台，它为学生提供的多智能体复杂策略研究环境，其科研及教育价值已获得社会各界的全面认可：

4月，首届腾讯STAC科创联合大会在成都召开，发布首届「开悟」大赛成果，并为政、企、学界专家提供共议「AI+游戏」行业未来发展的交流平台，同时现场成立校企联合的「人工智能科教联盟」。
工信部原部长李毅中、成都市副市长等嘉宾出席并发表讲话，「开悟」作为行业生态基础设施，对 AI 研究与教育的推动作用受到广泛关注。
8月，第二届「开悟」高校AI大赛启动并扩大规模，邀请了20余所海内外知名高校参赛。
「开悟」也逐步发展为为竞赛-课程-科教联盟-科创联合体的生态聚集地，推进 AI 与教育融合。
同月，「开悟」宣布与 4 所国内一流高校共建教学内容和课程体系改革项目，进一步探索平台在高校AI教育方向的可能性。北京大学李文新、电子科技大学谢宁、清华大学李秀、中国科学技术大学周文罡等四位教授将基于腾讯开悟平台，分别构建一门至少 20 学时的多智能体及强化学习平台的专业课程，理论授课知识点包括但不限于机器学习、强化学习、多智能体决策等相关的知识点。

作为AI游戏研究先行者，腾讯 AI Lab 的相关研究成果正不断走近现实。这些研究的经验、方法与结论，都将在真实世界创造更大的实用价值。

AI+内容：技术融合场景，提供更好的内容服务

◆ 翻译

腾讯交互翻译 TranSmart 是目前业界领先的「以人机交互为核心」的机器翻译产品，覆盖按键到句子、术语到存量语料的人工翻译全流程支持，并在复杂文件格式解析与带标记文档翻译等方面表现突出。

体验地址：https://transmart.qq.com/

经过四年技术积累与一年商业化探索，TranSmart 已支持 Memsource、腾讯自选股、腾讯音乐娱乐集团（TME）、华泰证券、阅文集团、腾讯云官网等垂直领域头部客户，提供的服务包括交互翻译、文件翻译、自动翻译、定制引擎等，并可支持计算机辅助翻译（CAT）软件对接，辅助全球众多译员完成严肃翻译工作。

今年 TranSmart 继承和发展了交互翻译的技术概念，提升复杂场景的译文干预能力，相较于通用自动翻译产品而言，量身定制的人机交互特性全方位赋能人工翻译过程：

个性化增强：在目标场景中，通过复用客户已积累的相关语料，免训练即时生效，自动译文质量显著超出增量式训练的机器翻译；
带标记翻译：在 xml、markdown、html 等场景中，通过标记抽取和还原，确保语义和格式不受损失，实现出色的文件翻译能力；
实时译文建议：译文片段智能推荐和整句补全，相较于译文编辑而言，在自动译文不甚理想时，显著减少修改量，大幅改善人工翻译体验；
翻译记忆融合：动态结合用户已完成的最相似双语句对，生成更符合期望的自动译文，在个性化增强的基础上，取得进一步的性能提升；
术语规则融合：通过引入可编辑的术语翻译规则，应对一词多义等复杂场景下的术语翻译难题，实现更精细的译文质量干预；
翻译输入法：参照原文上下文和机器翻译知识，实现更精准组词，显著加快人工翻译过程中的输入效率。

◆ 搜索与推荐

从个性化内容推荐到内容的自动生成，AI 与数字化内容有着天然的亲和性。依托于其庞大的内容相关业务，腾讯公司一直以来都致力于推进智能技术在搜索和推荐等方面的应用。

在2021年，实验室持续探索相关技术技术，推出异构向量检索系统 VeNN 及异构计算框架 HCF ，并于微信搜一搜等大规模业务中落地。

向量检索方面，VeNN 面向百万至百亿规模的向量相似召回场景，能高效给出针对性方案，并兼顾召回效果和性能。它同时支持 ANN 和暴力计算向量相似召回。针对大规模场景，VeNN融合了 HNSW 和 PQ 索引，在百亿规模场景下做到 R@10 >95% 的同时控制检索耗时<5ms。针对百万级别小规模场景，VeNN 研发了 GPU 下的暴力计算，通过底层 kernel 的深度优化，检索性能在业界处于领先水平。在 VeNN 引擎的基础上, 对文本向量表征、多模态向量表征方面进行 co-design 优化，最终落地于微信搜一搜召回场景，显著改善了长尾 query 的召回情况。

异构计算框架方面，HCF 针对英伟达、英特尔等硬件平台建设跨平台服务端模型推理加速解决方案，其中 BERT 等模型推理性能处于业界领先。HCF 在推理加速方面涵盖了业界通用的层融合，图优化，模型压缩量化等手段，并进行深耕，其中 INT8+QAT 方案在微信搜一搜场景广泛落地，同时能力在英伟达 2021 GTC 会议上分享。除此之外，HCF 也在进一步深入 TVM 编译优化技术，以获取更高的模型推理加速效果和跨平台能力。

三、前沿学术研究与合作

作为国内领先、世界一流的企业级人工智能实验室，腾讯 AI Lab 持续探索机器学习、自然语言处理、视觉计算、语音技术等四大方向前沿技术，并做出业界领先的学术成果。截至今年，实验室已于 AAAI、CVPR、ICLR、IJCAI、ACL、ICML、EMNLP、NeurIPS 等国际人工智能顶会发表超 600 篇文章，包括今年发布的一篇 NAACL 最佳长文，及一篇 ACL 杰出论文。

同时，我们一直秉承开放合作的理念，与全球高校和研究机构共同前进。2021年，「腾讯AI Lab犀牛鸟专项研究计划」完成第 4 年度闭环，共发表高水平论文近50篇，多项成果已应用于 AI 药物发现平台「云深」、自然语言理解系统「TexSmart」、智能辅助翻译「TranSmart」和腾讯会议等产品。

下面将分主题简单梳理腾讯 AI Lab 在 2021 年发布的一些重要研究成果，并分享我们对相关领域的发展趋势观察。

机器学习

机器学习是 AI 的核心过程和标志性能力，近些年的 AI 发展热潮正是源自深度学习这种机器学习技术的突破。2021 年，腾讯 AI Lab 在多个机器学习方向上都得到了重要的研究成果。

◆ 深度图学习

近几年，图像、视频、游戏博弈、自然语言处理、金融等大数据分析领域都实现了跨越式的进步并催生了很多改变了我们日常生活的应用。近段时间，图神经网络是 AI 领域的一大研究热点，尤其在社交网络、知识图谱、化学研究、文本分析、组合优化等领域，图神经网络在发掘数据中隐含关系方面的强大能力能获得更好的数据表达，进而做出更好的决策。

实验室该领域的研究应用上取得了丰硕的成果。针对图神经网络的鲁棒性问题，所研发的 GCN-LFR 框架[1]，显著提升了不同图神经网络模型的稳定性和鲁棒性。在图神经网络的可解释性方面，基于信息瓶颈论的子图识别网络算法[2,3]，为图的可解释性提供有效的方法。腾讯 AI Lab 还创新地提出了分层图胶囊网络，来联合学习节点嵌入并自动提取图层次结构[4]。针对图神经网络的自蒸馏，研发的基于邻居差异率（NDR）的方法，显著提升了图神经网络的训练效率和泛化能力[5]。在图神经网络的应用方面，还探索了图神经网络在组合优化，图论领域，以及图的节点匹配上的应用[6,7,8,9]。

此外，在 2021年的 The WebCof 会议上，腾讯 AI Lab 、清华大学、香港中文大学等机构联合组织一场图神经网络 Tutorial[10]。详见：

https://ai.tencent.com/ailab/ml/WWW-Deep-Graph-Learning.html

◆ 自动化机器学习

在自动化机器学习中的元学习和网络结构搜索等研究领域，腾讯AI Lab也取得了诸多成果。

在研究方面，针对元学习中的过拟合问题，AI Lab 所提出的 MetaMix 算法[11]，从样本输入特征/标签和网络隐含层特征两个层面进行任务增广，从而提高元学习算法的泛化能力。在提升自动超参数优化的搜索效率方面，TNP 算法[12] 基于神经过程方法，将过往在其他数据集上进行的超参数搜索过程，迁移到当前任务上，以降低超参数搜索过程中试错次数，提升优化效率。

在实际应用方面，针对药物活性预测中不同靶点数据差异性的问题，AI Lab 提出了一个基于相似性的功能区块化的元学习模型 [13]，根据靶点活性预测模型的相似度建模预测模型，提高了不同靶点预测任务在元学习算法中的利用程度。此外，针对在线增量数据的应用场景，AI Lab 提出了 AdaXpert 网络结构搜索算法 [14]，可以根据数据分布差异情况自行确定是否对网络结构进行调整，从而平衡模型的预测性能和效率。

自然语言处理

在自然语言处理（NLP）领域，一方面 BERT 、GPT 等基于 Transformer 的大规模神经网络语言模型的出现带来了深刻影响；另一方面，大规模语言模型并没有从根本上解决 AI 在语言理解上能力低下的问题，NLP 领域仍需持续研究投入和更多技术突破。腾讯 AI Lab 在自然语言处理方向的目标是开展 NLP 基础研发工作，促进 NLP 技术的发展，提升人类的生活便捷性和工作效率。

2021 年，腾讯AI Lab在一流的国际会议和期刊上发表了50多篇 NLP 方向的学术论文。在NAACL 2021，腾讯 AI Lab 与罗切斯特大学合作的论文《视频辅助无监督语法归纳（Video-aided Unsupervised Grammar Induction）》被 NAACL 评为最佳长文。在ACL 2021，腾讯 AI Lab 贡献 27 篇论文（含九篇 Findings），包括 6 篇杰出论文之一，与香港中文大学合作的《基于单语翻译记忆的神经网络机器翻译技术（Neural Machine Translation with Monolingual Translation Memory）》。论文全文及解读：ACL 杰出论文 + NAACL 最佳论文，腾讯 AI Lab 解读两项 NLP 成果。

在文本理解方面，实验室持续更新文本理解系统 TexSmart ，保持对新出现实体和概念（比如“新冠”）的理解能力。今年 6 月发布的 0.3.0 版本中增加了文本图谱（Text Graph）功能，让用户通过文本图谱获取词语间的多种语义关系。目前其在线 API 和离线 SDK 的合计调用量比年初增加了十亿次/天。实验室还推出了新版本中文词向量数据[15]，覆盖更多新词，且向量表示的质量有一定的提升。实验室与腾讯云小微团队联合提出了注入通用型推理知识和任务型知识的中文预训练模型“神农”（该模型仅包含十亿级参数量），并一举登顶 CLUE 总排行榜、1.1 分类任务、阅读理解任务和命名实体任务 4 个榜单，刷新业界记录。

在前沿研究上，NLP 团队提出基于二分图匹配的词典语义对齐算法，将分散在不同词典中语义知识融合成为一个整体，并利用迁移学习框架，训练通用精确语义模型，使其根据上下文语境自动化确定一个多义词在句中的精确含义，提升机器理解力[16]。团队还提出了一种新型的句子切分模型[17]，及一种简单有效的方法来解决命名实体标注遗漏问题[18]。在细粒度实体分类任务上，团队提出了一种利用多信息源的融合模型[19]，及一种不依赖知识图谱产生训练数据而又具有优异性能的实体分类方法[20]。

在文本生成和对话方面，我们持续探索多轮对话、对话知识理解、可控文本生成等核心问题，提出基于新闻知识的自然对话研究并发布 NaturalConv 数据集[21]，提出过生成和打分算法显著提升抽取型摘要模型效果[22]，并利用 Unlikelihood Training 在低资源场景下训练人设一致的对话系统[23]，基于层级式课程学习和稠密向量检索的多轮对话系统[24]，提出多种基于检索结果引导的可控文本生成方法[25]，以及一种基于预训练的非自回归文本生成模型[26]。同时，我们研究如何有效公平地评价度量各种生成任务中生成文本的质量[27]，如何普适性地理解数据增强在文本生成任务中的作用[28]等重要问题。

在自动机器翻译方面，我们专注于核心翻译问题，致力于改善翻译系统的效果和易用性。我们继续深耕如何更高效利用翻译数据[29]，并探索预训练[30]、非自回归模型[31]等机器翻译领域的前沿方向。受益于此，我们的自动翻译（中英和英中）系统准确度继续保持国内前列，在国际翻译比赛 WMT 2021 中也取得了 5 项第一的成绩。

在交互翻译方面，我们聚焦于翻译记忆[32]和翻译输入法[33]。我们提出了一种快速且准确的融合翻译记忆方法；特别地，我们提出的基于单语的翻译记忆模型获得了 ACL 2021 杰出论文奖。另外，我们从实际应用中抽象出了一种词级别翻译提示任务[33]；基于该任务，我们发起了第一个面向交互翻译的 Shared Task，它将作为一个新赛道在明年的 WMT 2022 上亮相。

视觉计算

数字经济的高速发展和虚实结合的业界应用对于视觉计算技术提出了新的挑战。首先，视觉理解面临着海量无标注数据，如何有效利用这些数据来优化视觉理解模型成为一个研究热点。其次，作为人机交互的新模式，如何快速生成高清、超写实、可编辑、易控的虚拟人形象成为工业应用的瓶颈。最后，大规模 3D 场景重建和动态场景的 4D 捕捉和建模成为了构建虚拟世界的支撑技术。

2021年，视觉顶级期刊和会议，包括 T-PAMI、TIP、ICCV、CVPR 和 NeurIPS 等共接收了 35 篇腾讯 AI Lab 论文，其中既有视觉理解的底层网络结构探索，也有图像和视频编辑的新方法，还有跨模态的从文字生成图像的新尝试，以及涉及 AI 安全的对抗攻击新成果。

视频理解是计算机视觉中具有长期挑战性的研究课题，如何从数据的不同层面设计理解算法也是学术界广泛研究的热点。2021 年，腾讯 AI Lab 关注新兴自监督表征学习框架，从物体、图像以及视频等三个维度全方面理解视频数据。基于算法创新，腾讯 AI Lab 相关国际竞赛 ActivityNet Challenge 并获得冠军。此外，该技术还应用在微信搜一搜，做游戏、影视综漫等视频的打标签实践，提高了视频搜索准确率。

图像和视频编辑在流媒体内容创作中被广泛应用，比如人像编辑、视频滤镜、图像裁剪等。在基于美学的图像裁剪，实验室首次提出外插式智能图像裁剪算法[34]，突破传统算法适用给定有限图像内容的局限。在跨模态图像可控生成上，受画家绘画过程的启发，提出了基于文本的可控图像生成算法[35]，会在过程中轮替关注全局结构与局部细节。

基于美学的外插图像智能裁剪 [34]

跨模态可控图像生成 [35]

在视觉系统鲁棒性上，实验室在对抗样本攻防、DeepFake 检测等方向持续发力，提出多个原创性算法[36-38]。黑盒查询式攻击对许多 AI 模型造成严重威胁，实验室提出了轻量级防御方法 [36]，为每个查询添加适当随机扰动，在保持正常样本效果时显著提升了模型鲁棒性，并不引入额外部署开销。实验室还研究了物体检测黑盒攻击方法[37]，显著算法效率，有助于设计出更鲁棒的模型。在 2021 世界人工智能大会上，实验室还发布了 AI 安全风险矩阵 2.0 版本和 AI 安全网站，受到业界广泛关注。

在今年，我们也尝试将视觉技术应用于野生动物保护。10 月，首个雪豹智能识别及监测数据管理云平台上线，采用了实验室视频理解技术，用 AI 自动检测图像/视频中是否出现雪豹及预测其位置，将巡护员从繁琐的记录、标注、识别工作中解放出来，更高效地找寻雪豹。该技术面临诸多挑战，包括动物尺度差距大，纹理背景接近，难于识别；濒危动物很少出现，难采集到有效视频；不同物种间分布不均，模型泛化难等。实验室借助迁移学习、自动数据增强、难例样本挖掘、多阶段检测等技术手段，有效的提高了物种识别、空境过滤、位置预测等效果。

语音

语音识别上，相对安静环境和高质量识别基本解决，但实际应用中，复杂场景中噪声和多个干扰人声同时存在（鸡尾酒会问题），及人们自由聊天口语化表达风格多样复杂问题依然存在。语音合成上，高度的自然度、表现力、定制化、可控制等能力仍需努力。

在 2021年，信号处理顶级会议 ICASSP 接收了实验室的 12 篇论文，ASRU 接收 4 篇，而语音领域顶级会议 Interspeech 则接收了 9 篇论文，其中既有在语音前沿技术方向的进一步探索，也包含一些理论研究和分析，同时还有在科技向善与文化遗产保护等方面的应用成果。

在研究中，实验室为解决鸡尾酒会问题提出了多项开拓性的解决策略。

一是围绕多通道语音前处理系统，在基础算法方面提出全新时域 Generalized Wiener Filter 波束形成方法[39]，在分离/增强任务中较频域波束成形方法在相同 window size、同等模型复杂度下 SI-SDR 绝对性能提升 3.0 dB，相对性能提升 29.7%；在去年提出的全新基于递归神经网络的波束形成方法[40]，突破传统波束形成技术效果的基础上，今年进一步优化了模型结构[41]，并且围绕多人同时讲话这样一个最具挑战的任务上，为了提高应用效率实现了具有多说话人方向特征的多通道输入和多说话人语音分离输出（MIMO）模型[42]，把原本分别进行多路目标语音的处理的操作合并在一个模型之中，大幅降低计算复杂度，达到流式，实时，可部署。

传统前端系统从整个系统层面来看，存在着模块相对独立、难以联合调优、误差级联影响大的问题，今年实验室提出构建一套集合全链路，包括回声消除、声源定位、语音分离、去混响及波束增强等多个功能的神经网络模型方案，能克服模块相对独立的缺陷，实现场景深度定制，多模块自动联合优化。

二是在多模态系统方面，在过去从视觉模态中提取人脸，方位，唇动，声纹等信息，将不同模态信息流通过神经网络模型自动整合，构建多模态语音分离增强与识别系统的基础上，今年提出将空间定位从 2D 扩展到 3D，引入了俯仰角高度信息，3D 特征利用更精确的球面波传播模型，同时还引入与麦克风的深度距离信息，大大突破原有空间分辨精度，实现同一方向的两个说话人，距离不同时也可区分，在高强度噪声、更多说话人的复杂场景下的稳定优越性能。

在语音识别方向，腾讯 AI Lab 首次提出将动态神经网络思想引入语音识别模型中，提出基于 Mixture-of-Expert 结构的语音识别模型 SpeechMoE[43]和 SpeechMoE2[44]，针对语音识别任务设计优化了模型多个细节，包括稀疏化，路由损失，训练策略。在模型训练和应用过程中，模型可通过局部及全局信息自动选取网络中的部分路径进行计算，模型容量相对传统模型可以扩大一个数量级，同时又保证在应用时计算复杂度不增加。能够更好的处理语音中存在的各种维度的包括噪声，口音，远近场等复杂变化，最新实验的 conformer-moe 模型相比业界最多应用的 conformer 这类网络结构基础上可进一步获得相对 10% 的提升。另外，AI Lab也提出了利用 Lattce Free MMI loss 从训练到解码改进了基于RNN-T端到端识别系统[45], 在中文标准 Benchmark AIshell1 和 AIshell2 上均取得超越SOTA的性能。

在语音合成方向，在原有 DurIAN 合成系统基础上，探索新的生成模型方案[46]，提高语音合成的表现力和可控性。增加对语音音韵、拖音及重音等特征的引入建模，进一步显著提升语音合成系统可控性及表现力，实验室配合王者电竞语音合成应用与游戏解说任务。今年还首次实现语音合成在游戏内素材生成场景上应用突破。通过进一步对语音转换中基于 GAN 的声码器进行改进，效果达到游戏内素材水平，转换后语音 MOS 分数逼近配音录制语音（4.62 vs 4.70)。在生成模型理论研究方面，提出全新基于 Diffusion 的生成模型 Bilateral Denoising Diffusion[47]，与基线系统 DiffWave 相比在生成语音 MOS 相当情况下 Denoise 过程步数大大缩减。在个性化定制任务方面，在业内较早提出将 meta-learning 思想引入小数据量定制任务中[48]，通过在训练过程中将向训练单位由一条条音频扩展为一项项定制任务，模型可更快达到定制效果，定制周期显著缩短。

四、总结与展望

在即将过去的 2021 年，人类的生活方式持续改变，对虚拟的世界多一份期待，对现实的美好多一份珍惜。唯一不变的是，前沿科学依然是驱动人类前行的主要动力。

在这一年中，腾讯 AI Lab 以虚实集成世界为目标，持续投入虚拟人、医疗、医药、游戏、内容、机器人等多个领域的研究与应用实践，并取得了不少令人鼓舞的成果，为「Make AI Everywhere」，用科技创造美好世界而做出切实的努力。

相比起我们所追寻的目标，5 年只是一个小小的起点。在未来的1年，乃至5年、10年，我们将持续攀登学术的高峰，同时积极拓展 AI 技术的更多行业应用，面对未来更多的未知挑战，以开放的心态与各界伙伴共同成长。

2022，新年快乐！

附录1：开放平台

云深平台：https://drug.ai.tencent.com/
开悟平台：https://aiarena.tencent.com/aiarena/
TexSmart 文本理解系统: https://texsmart.qq.com/
TranSmart 交互翻译系统：https://transmart.qq.com/

附录2：论文链接

● 机器学习

[1] 基于低频滤波分析的鲁棒图神经网络训练框架

https://papers.nips.cc/paper/2021/file/d30960ce77e83d896503d43ba249caf7-Paper.pdf

[2] 基于图信息瓶颈的子图识别

https://openreview.net/pdf?id=bM4Iqfg8M2k

[3] 利用子图信息瓶颈识别预测子结构

https://www.computer.org/csdl/journal/tp/5555/01/09537601/1wTimW3yyNW

[4] 分层图胶囊网络

https://ojs.aaai.org/index.php/AAAI/article/view/17268

[5] 针对图神经网络的自蒸馏方法

https://www.ijcai.org/proceedings/2021/314

[6] 基于跨网络嵌入的无监督大规模社交网络对齐

https://dl.acm.org/doi/pdf/10.1145/3459637.3482310

[7] 基于图卷积方法预测社交团体中的关键用户

https://ieeexplore.ieee.org/abstract/document/9457127

[8] 基于深度学习的无特征旅行商问题求解器选择

https://arxiv.org/pdf/2006.00715

[9] 一个基于图神经网络的大规模子图计数框架

https://dl.acm.org/doi/pdf/10.1145/3448016.3457289

[10] TheWebConf 21图神经网络Tutorial：高级深度图学习：更深、更快、更鲁棒和无监督

https://ai.tencent.com/ailab/ml/WWW-Deep-Graph-Learning.html

[11] 利用任务增强提升元学习的泛化能力

http://proceedings.mlr.press/v139/yao21b.html

[12] 基于神经过程的元学习超参数性能预测

https://proceedings.mlr.press/v139/wei21c.html

[13] 基于功能区块化知识迁移的少样本药物发现算法

https://openreview.net/forum?id=Dti5bw14YZF¬eId=BWhMUFFt_S

[14] AdaXpert: 针对在线增量数据的网络结构自适应方法

https://proceedings.mlr.press/v139/niu21a.html

● 自然语言处理

[15] 腾讯AI Lab的中文词向量数据

https://ai.tencent.com/ailab/nlp/en/embedding.html

[16] 通过对齐词典释义桥接词和释义之间的语义

https://aclanthology.org/2021.emnlp-main.610/

[17] 句子切分模型

https://aclanthology.org/2021.findings-emnlp.18.pdf

[18] 实体漏标的一种解决方法

https://openreview.net/pdf?id=5jRVa89sZk

[19] 多信息源融合的细粒度实体分类

https://aclanthology.org/2021.emnlp-main.210.pdf

[20] 无知识图谱的细粒度实体分类

https://aclanthology.org/2021.emnlp-main.431.pdf

[21] NaturalConv

https://arxiv.org/abs/2103.02548

[22] 基于过生成和打分的抽象摘要模型

https://aclanthology.org/2021.naacl-main.110/

[23] 利用Unlikelihood Training在低资源场景下训练人设一致的对话系统

https://arxiv.org/pdf/2106.06169.pdf

[24] 基于层级式课程学习和稠密向量检索的多轮对话系统

https://arxiv.org/pdf/2012.14756.pdf

https://arxiv.org/pdf/2110.06612.pdf

[25] 基于检索结果引导的可控文本生成

https://arxiv.org/pdf/2004.02214.pdf

https://aclanthology.org/2021.findings-acl.50.pdf

https://arxiv.org/pdf/2104.00929.pdf

https://arxiv.org/pdf/2109.07812.pdf

https://arxiv.org/pdf/2105.11269.pdf

[26] 基于预训练的非自回归文本生成模型

https://arxiv.org/pdf/2102.08220.pdf

[27] 文本生成任务的评价度量

https://aclanthology.org/2021.acl-long.34.pdf

https://aclanthology.org/2021.findings-acl.220.pdf

https://aclanthology.org/2021.findings-acl.432.pdf

https://aclanthology.org/2021.findings-acl.193.pdf

[28] 数据增强在文本生成任务中的作用

https://aclanthology.org/2021.acl-long.173.pdf

[29] 对翻译数据的更有效利用

https://aclanthology.org/2021.acl-long.221/

https://aclanthology.org/2021.acl-long.266/

[30] 针对机器翻译的预训练

https://aclanthology.org/2021.findings-acl.373/

[31] 非自回归神经机器翻译

https://openreview.net/forum?id=ZTFeSBIX9C

https://icml.cc/virtual/2021/poster/8931

[32] 翻译记忆

https://aclanthology.org/2021.acl-long.246/

https://aclanthology.org/2021.acl-long.567.pdf

[33] 翻译输入法

https://aclanthology.org/2021.acl-long.370/

● 计算机视觉

[34] 美学引导的外向图像裁剪（Siggraph Asia）

https://www.shaopinglu.net/publications_files/tog21.pdf

[35] 基于动态属性敏感生成式网络的文本到图像生成方法（ICCV）

https://openaccess.thecvf.com/content/ICCV2021/papers/Ruan_DAE-GAN_Dynamic_Aspect-Aware_GAN_for_Text-to-Image_Synthesis_ICCV_2021_paper.pdf

[36] 针对基于查询的黑盒攻击的随机噪声防御方法 (NeurIPS)

https://papers.nips.cc/paper/2021/file/3eb414bf1c2a66a09c185d60553417b8-Paper.pdf

[37] 矩形翻转攻击：一种针对目标检测系统的基于查询的黑盒攻击方法 (ICCV)

https://openaccess.thecvf.com/content/ICCV2021/papers/Liang_Parallel_Rectangle_Flip_Attack_A_Query-Based_Black-Box_Attack_Against_Object_ICCV_2021_paper.pdf

[38] 一种基于泛化扰动邻域的半监督鲁棒对抗训练方法 (Pattern Recognition)

https://www.sciencedirect.com/science/article/abs/pii/S0031320321006488

● 语音

[39]一种时域广义维纳滤波方法进行多通道语音分离

https://arxiv.org/pdf/2112.03533.pdf

[40]全新的基于递归神经网络的波束形成方法

https://arxiv.org/abs/2008.06994

[41]一种广义的空-时递归网络波束成形方法

https://arxiv.org/pdf/2101.01280.pdf

[42] 多入多出自注意力递归神经网络多说话人语音分离

https://arxiv.org/pdf/2104.08450.pdf

[43]SpeechMoE: 采用动态路由专家网络的超大声学模型

https://arxiv.org/pdf/2105.03036.pdf

[44]SpeechMoE2: 改进路由方法的混合专家网络模型

https://arxiv.org/pdf/2111.11831.pdf

[45]应用LF-MMI的一致性训练和解码的端到端识别

https://arxiv.org/pdf/2112.02498.pdf

[46] Glow-WaveGAN: 应用GAN的VAE学习的表征特征实现高质量基于flow的语音合成

https://arxiv.org/pdf/2106.10831.pdf

[47]双向去噪扩散模型

https://arxiv.org/pdf/2108.11514.pdf

[48]META-VOICE: 采用元学习的快速少量语句风格迁移音色克隆

https://arxiv.org/pdf/2111.07218.pdf

* 欢迎转载，请注明来自腾讯AI Lab微信（tencent_ailab）

你可能感兴趣的:(腾讯,makefile,大数据,plugin,微软)

腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
一分钟学会刷牙，受用终生！好易康
讲真，刷了十几二十年牙，没刷对过一次......来来来，划重点，更重要的是执行：①每天刷牙2次，②每次刷牙2~3分钟，③每3个月更换牙刷。最后，请使用正确的刷牙方法：巴氏（BASS）刷牙法undefined_腾讯视频视频来源ADA美国牙医协会巴氏刷牙法又称龈沟清扫法或水平颤动法。是由美国牙科协会推荐的一种有效去除龈缘附近及龈沟内菌斑的方法。刷牙不仅是刷牙齿，同时也要刷牙龈。因为口腔与细菌的战场就在
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
抱怨很廉价，别做空想家 Fang2023
今天在整理浏览器收藏夹的时候，看到一个很多年前保存的一个网页，上面是一支央视公益广告的视频，《我创故我在》。思绪一下子回到了好几年前。还记得第一次无意中在电视上看到这支广告，喜悦之情溢于言表。抱怨很廉价，别做空想家，这句歌词尤其喜欢。听着歌曲，仿佛那时候的潮气蓬勃、意气风发，又回来了，即使此时感到疲惫。【公益】央视公益广告歌曲《我创故我在》_腾讯视频
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
是“王者荣耀”还是“王者农药”？颓废思物者
近些日子，王者又双叒叕火了。而腾讯公司的老总马化腾也跟着他的游戏在人声鼎沸的汪洋中飘荡——我最先是在公众号文章《腾讯推出游戏未保“双减双打”新措施》中看见了未成年人将减少在线时长限制，非节假日从1.5小时降低至1小时，节假日从3小时减到2小时。心中不由掀起一丝波澜：又有家长对游戏出手了。不过大家心中你知我知，在这场纷争中，必定也带着市场的挤压和变化。除去这些市场变化，我们来探讨几个问题：1.没有游
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
「鲸灵」获数千万美元B+轮融资，旗下日日团打造团购电商新时代想想再说可以吗
小编获悉，社交电商鲸灵集团（以下简称鲸灵）已完成数千万美元B+轮融资，由启明创投领投，IDG资本联合领投，老股东跟投。鲸灵刚于7月完成数亿元B轮融资，由腾讯领投，IDG资本、险峰长青、元璟资本跟投。据小编了解，鲸灵旗下的日日团业务单日交易额已突破100万元。鲸灵创始人&CEO邬强强（花名：鬼谷）曾在阿里巴巴任职9年，曾任聚划算事业部总经理、淘宝开放平台创始人。针对本轮融资，邬强强告诉小编：“社交电
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
webstorm报错TypeError: this.cliEngine is not a constructor Blue_Color
点击Details在控制台会显示报错的位置TypeError:this.cliEngineisnotaconstructoratESLintPlugin.invokeESLint(/Applications/RubyMine.app/Contents/plugins/JavaScriptLanguage/languageService/eslint/bin/eslint-plugin.js:97:
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
互联网大咖分享：三个日常生活细节决定了你能否成为一名产品经理三不小青年
生活中的细节和习惯决定了你将来适合从事什么类型的职业乔布斯乔布斯说：“生活中的点点滴滴，在将来的某一天会不自觉的串联起来”，这句话对产品经理这个职业来说最适合不过了。互联网大咖在做分享腾讯高级产品经理在馒头商学院分享，行业型产品经理要具备三点项目思维。实际上，这需要我们在日常生活中都要养成这样的习惯。1项目化管理你的工作时间时间观念一定要强，可以按照李开复的时间管理法则，把事情按照“重要，不重要，
Makefile问答之 04 优化异常与警告设置捕鲸叉 Linux使用 Linux系统编程 Makefile linux
Makefile怎样指定优化选项，包括编译和链接优化，常用的选项有哪些？在Makefile中，你可以通过设置编译器和链接器的选项来指定优化选项。优化选项可以分为编译优化和链接优化，以下是如何在Makefile中指定这些选项，以及一些常用的选项。示例Makefile#编译器CC=gcc#编译选项CFLAGS=-Wall-O2#链接选项LDFLAGS=-O2#需要链接的库LDLIBS=#目标文件TAR
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
Cloud Native Weekly | 华为云抢先发布Redis5.0，红帽宣布收购混合云提供商 weixin_34302561 数据库 devops 大数据
1——华为云抢先发布Redis5.02——DigitalOceanK8s服务正式上线3——红帽宣布收购混合云提供商NooBaa4——微软发布多项AzureKubernetes服务更新1华为云抢先发布Redis5.012月17日，华为云在DCS2.0的基础上，快人一步，抢先推出了新的Redis5.0产品，这是一个崭新的突破。目前国内在缓存领域的发展普遍停留在Redis4.0阶段，华为云率先发布了Re
哪些网站用python开发 hakesashou python基础知识 python
国内的话，知乎，网易，腾讯，搜狐，金山，豆瓣这些属于用Python比较知名的。大型的项目的话，网易的许多游戏，腾讯的某些网站，搜狐的邮箱，金山的测试框架等等都是或多或少使用了Python。YouTube-视频分享网站，在某些功能上使用到python。Quora-社交问答网站。Google-谷歌在很多项目中用python作为网络应用的后端，如GoogleGroups、Gmail、GoogleMaps
超越免费奔向自由的路上
在这个互联时代，由于社会的进步，我们亨受了很多免费的东西，比如免费的电脑操作软件，免费的杀毒软件，免费的搜索服务，雅虎的杨致远和费罗首创让互联网成为一个开放，免费的工具。后来微软用免费的方式压浏览器市场打败了当时一家独大的网景公司，一时之间，免费成了趋势，互联网传播的本质，起到了一个巨大的复印件的作用。免费带来的一个结果是迅速形成垄断，造就了googlefacebook和阿里巴巴这样的经典掉板，然
电信星卡19元套餐详情(电信星卡19元流量套餐资费详情介绍) 全网优惠分享
电信星卡19元套餐详情(电信星卡19元流量套餐资费详情介绍)关注微•信•公•众•号"卡泡泡"就知道啦！首先套餐包含30GB本地流量和5GB全国通用流量，还可以选择自己的号码和归属地，非常适合有需求的用户。运气好的话，可以得到一个昵称。而且这些流量可以满足用户日常生活和工作的需求，月租也比较低，下面详细介绍。1.每月基本费用：39元，套餐内包含：30GB爱奇艺、腾讯视频、优酷视频、西瓜视频、抖音短视
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Python国内常用镜像源和使用方法 wfqlt163 Python 基础操作 python 开发语言
常用的镜像源：1、企业镜像：豆瓣https://pypi.doubanio.com/simple/网易https://mirrors.163.com/pypi/simple/阿里云https://mirrors.aliyun.com/pypi/simple/腾讯云https://mirrors.cloud.tencent.com/pypi/simple2、高校镜像：清华大学（推荐）：https:/
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那