CSDN 程序人生

阿里达摩院做 AI 这两年

整理 | Jane

出品 | AI科技大本营（ID：rgznai100)

责编 | 胡巍巍

2017 年 10 月的杭州云栖大会上，阿里巴巴正式宣布成立达摩院，未来三年将投入将超过 1000 亿人民币用于基础科学和颠覆式技术创新研究。达摩院官网正式上线后，我们看到达摩院重点布局机器智能、数据计算、机器人、金融科技以及X实验室五大领域，相应设置有 14 个实验室，共有近 70 名海内外专家坐镇。

AI 技术是达摩院目前重金押注的技术领域之一，即将成立两年，人们可能都比较好奇达摩院在AI上到底布局了哪些技术领域？又在哪些技术方向上取得了突破？本文将一一盘点达摩院在AI技术上的重大进展。

阿里AI 的技术发展及平台建设

阿里拥有全面的 AI 技术布局，涵盖语音智能、语言技术、机器视觉、决策智能等方向，建成了完善的机器智能算法体系，不仅囊括语音、视觉、自然语言理解、无人驾驶等技术应用领域，还不断深化AI基础设施建设，重金投入研发AI芯片、超大规模机器学习平台，并建成了单日数据处理量突破 600PB 的超大计算平台。

下面，我们主要围绕语音智能、语言技术、机器视觉三大技术领域与平台化建设的最新发展与成绩，一览阿里 AI 技术这两年的进展。

语音智能

语音识别

2018年6月，阿里达摩院开源了自主开发的新一代语音识别模型（DFSMN），在世界最大的免费语音识别数据库 LibriSpeech 上进行公开测试。对比目前业界使用最为广泛的 LSTM 模型，DFSMN 语音识别模型训练速度更快、识别准确率更高。基于 DFSMN 模型，阿里 AI 又研发了 DFSMN-CTC 模型，语音错误率大幅下降，解码效率提升6倍。

此外，阿里巴巴机器智能技术实验室正在研发高工业噪声环境下的语音识别及传输技术。以后，众多车间工人将告别“通讯靠吼”的境况，简单的交流言语会转换成文字。目前，在85分贝工业噪声下，可以实现将一米处正常音量语音转换为文字，准确率达94.6%，能够解决大部分工厂里的噪声聋问题。这项工作仍在继续，未来团队希望可以实现 95 分贝工业噪声下进行语音识别。

阿里巴巴工程师正在调试AI语音识别系统

语音交互

目前，阿里语音 AI 每日调用量已达1.8 亿次。

2019 年 7 月，阿里开源人机对话模型 ESIM。ESIM 是一个解决多轮对话回复问题的原创模型，通过给对话机器人装上实时搜索并理解人类真实意图的“雷达”系统，实现对对话历史的实时检索，自动去除多余信息的干扰，给出人类期待的回复。

例如当人们线上购物时，提出要一件M号的黑色裙子，智能机器人通过对库存情况的实时检索，发现并答复用户没有黑色M号的裙子。用户接着问，“那有白色的吗？”此时传统模型训练出的AI客服很难判断用户是要问“这件裙子是否有白色款”还是“有没有白色的M号裙子”，无法给出准确回复。

阿里 AI 通过对用户对话上下文的检索，明确用户的核心在于尺寸而非颜色，很快给出有没有白色M号裙子的准确回复。

这项技术未来将会被应用到人机交互的多个场景：智能语音点餐机能够更准确地理解人们的真实意图，提高点单成功率；导航软件能更容易听懂人们的语音请求，少走冤枉路；家里的智能音箱能够更快做出反应，节省等待时间。

语音合成

阿里达摩院机器智能实验室自主研发的基于翻译的合成技术 Knowledge-Aware Neural TTS（KAN-TTS）深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术，同时系统构建了基于不同领域的深层知识。并针对 CPU 部署的框架设计进行优化，提供高效、便捷的部署能力，另外还改进了 20 多项关键算法，从多个方面改进了语音合成。

传统语音合成定制需要10小时以上的数据录制和标注，对录音人和录音环境要求很高。从启动定制到最终交付，项目周期长成本高。阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法，将语音合成定制成本降低 10 倍以上，周期压缩 3 倍以上。也就是说，用 1 小时有效录音数据和不到两个月制作周期，就能完成一次标准 TTS 定制。

这也意味着，普通用户定制“AI声音”的门槛更低。只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点，主要基于自动数据检查、自动标注方法和对海量用户场景的利用。阿里已经对外提供开箱即用的 TTS 解决方案，共有通用、客服、童声、英文和方言 5 个场景的 34 种声音供选择。基于新一代技术，阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用，比如当人们驾车行驶于信号微弱区域时避免语音导航“掉线”。

除了在语音识别、语音交互与语音合成等领域的进展，在声纹识别领域，阿里达摩院研发了声纹无监督聚类技术，推出分布式语音交互模组，用于阿里云 IoT 联合阿里达摩院发布的分布式语音交互解决方案中，方案除了语音交互模组外，还包括语音自学习平台、对话平台以及阿里云 IoT 智能人居平台，打通了上下游平台串联、端云一体能力，缩短智能人居环境开发周期，同时还具备强扩展能力。

自然语言处理

机器翻译

2017 年的 WMT 竞赛，大多数系统是基于 RNN 和 LSTM，包括最终获得冠军的系统也是基于此。仅仅过了一年时间，各大机构都争先使用 Transformer。达摩院机器智能技术实验室资深算法专家陈博兴带领的达摩院机器翻译团队，在此次比赛中，基于 Transformer 结构， Self-Attention、Multi-head Attention 等技术，进行了网络结构的改进，充分利用词语位置信息，提出高度并行化、能捕捉层次化信息的神经网络，全面提升了机器翻译的性能。

2018年，AI科技大本营也邀请了阿里巴巴机器智能技术实验室阿里巴巴翻译平台翻译模型组负责人于恒做了公开课分享：《Transformer 新型神经网络在机器翻译中的应用 | 公开课笔记》

目前，达摩院机器翻译技术团队已实现了 48 个语言翻译方向，支持俄、西、法、阿、土，泰、印尼、越南等多种语言翻译；其中电商覆盖了大部分语向和场景，超越谷歌和亚马逊，日调用量达到 17.9 亿次。阿里的机器翻译技术除了应用于电商全链路服务之外，还广泛应用于菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译等一系列产品。

QA 任务 & 机器阅读

传统 AI 阅读需要某一领域的专业人士准备好问答数据，AI 回答也仅限于该领域，例如金融领域的人工智能无法回答物流领域的问题。阿里研究团队提出的“基于分层融合注意力机制”的深度神经网络模型能够模拟人类在做阅读理解问题时的一些行为，包括结合篇章内容审题，带着问题反复阅读文章，避免阅读中遗忘而进行相关标注等。模型可以在捕捉问题和文章中特定区域关联的同时，借助分层策略，逐步集中注意力，使答案边界清晰；另一方面，为避免过于关注细节，采用融合方式将全局信息加入注意力机制，进行适度纠正，确保关注点正确。

比如，4300 万字的《大英百科全书》，阿里 AI 可以在毫秒内阅读完，并根据自己的理解快速回答涉及书中不同领域的不同问题。例如亚洲有多少个国家？美国第五任总统是谁？恐龙是什么时候消失的？机器人可以分别迅速给出答案，无惧“连环追击”。

阿里还提出了基于“融合结构化信息 BERT 模型”的“深度级联机器阅读模型”，可以模仿人类阅读理解的过程，先对文档进行快速浏览，判断，然后针对相应段落进行精读，并根据“自己的理解”回答问题。

常识推理可以说是难度最高的 NLP 任务之一，深度学习领军人物之一、图灵奖获得者 Yann LeCun 曾有断言：最聪明的AI在常识方面也不如猫。

阿里巴巴达摩院语音实验室还提出了 AMS 方法，显著提升 BERT 模型的常识推理能力。AMS 方法使用与 BERT 相同的模型，仅预训练 BERT，在不提升模型计算量的情况下，将 CommonsenseQA 数据集上的准确率提升了 5.5%，达到 62.2%。

语义识别

2019 年 4 月 1 日愚人节之际，阿里巴巴发布了这项旨在粉碎网络谣言和假新闻的AI技术——“AI谣言粉碎机”。其算法模型由阿里巴巴达摩院机器智能实验室研发，依靠深度学习和神经网络技术，通过对信息的多维度和多角度分析，团队设计了一整套包含发布信息、社交画像、回复者立场、回复信息、传播路径在内的综合判定系统，首次把谣言识别和社交用户观点识别打通，并做交叉分析，目前在特定场景中的准确率已经达到 81%，最快能够在 1 秒内判定新闻的真实性。

机器视觉

医疗影像分析

2017 年 7 月，国际权威肺结节检测大赛 LUNA16 要求选手对 888 份肺部 CT 样本进行分析，寻找其中的肺结节。样本共包含 1186 个肺结节，75% 以上为小于 10mm 的小结节。最终，阿里云 ET 在 7 个不同误报率下发现的肺结节平均召回率达到 89.7%。（召回率指在样本数据中成功发现的结节占比，下图显示了 ET 在不同误报次数下的召回率情况。）

FROC曲线

其背后的技术由阿里巴巴 iDST视觉计算团队完成，负责人华先胜介绍，与常用的两阶段检测方法不同，他们创新性地使用了单阶段方法，全程无须人工干预。机器全自动读取病人的 CT 序列，直接输出检测到的肺结节。在模型结构设计上，ET 针对 CT 切片的特性，采用多通道、异构三维卷积融合算法、有效地利用多异构模型的互补性来处理和检测在不同形态上的肺结节 CT 序列，提高了对不同尺度肺结节的敏感性；同时使用了带有反卷积结构的网络和多任务学习的训练策略，提高了检测的准确度。比赛中，团队克服了一系列挑战：如结节模态复杂问题，早期的结节小（小于10mm），传统的机器学习和用于自然图像的深度学习网络通常难以凑效。

肝结节的准确测量可以辅助医生做出决策和治疗方案。但肝结节形态多样，即使是同一个病人，结节的大小、形状都不一样，从而导致结节间灰度分布差异大、或与周围组织灰度相似，甚至没有清晰的边界。

阿里则通过对 CT 图像层间信息和层内信息融合的网络结构分析，解决肝结节类别多样性的问题。采用基于原子卷积的空间金字塔池化（Atrous Spatial Pyramid Pooling）、亚像素卷积（Sub Pixel Convolution）及多特征融合等技术。华先胜表示，目前团队研究范围已经覆盖肺、肝、骨、心脏、脑等部位的疾病，涉及影像分析、自然语言处理、设备信号处理等相关技术，部分技术已经落地到实际的医疗诊断中。

超大规模图像识别 & 图像搜索

2019年6月，在被誉为人工智能世界杯的 WebVision 竞赛要求参赛的 AI 模型将 1,600 万张图片精准分类到 5,000 个类目中。相比于经过人工标注完毕的 ImageNet 数据集，WebVision 所用数据集直接从互联网爬取，没有经过人工标注，含有较多噪音，且数据类别的数量组成极大不平衡，AI 的识别难度更高。

阿里 AI 引入了构建类别语义标签关系的模型，并采用辅助信息模型进行图像去噪的深度学习技术，以及阿里自研的可以支持数十亿图片分类训练的超大平台。最终，阿里 AI 以 82.54% 的识别准确率，击败全世界 150 多支参赛队获得冠军，目前该技术可以识别超过 100 万种物理实体。

2019 年 7 月，在 CVPR 2019 举办的 LPIRC（低功耗图像识别挑战赛）中，阿里 AI 获得在线图像分类任务第一名，以 23ms 的单张图片分类速度，在 10 分钟内分类 20,000 张图像。在挑战赛使用的训练数据集上，实现了 67.4% 的分类精度，比官方提供的基准线高3.5%。

视觉对话

视觉对话是近年来快速崛起的 AI 研究方向，目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术，让机器具备了视觉能力；那么视觉对话技术，则使机器拥有了对真实视觉世界的理解与推断能力，意味着 AI 的认知能力将迈上新的台阶。

视觉对话中，AI可以从容应对人类提问，左为AI，右为人类

传统的视觉 AI 主要针对目标的检测和识别，例如识别出图片是否是一只猫，但对复杂场景中目标之间的逻辑关系理解、推理能力较弱，无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题，也难以将图片信息转化为人类理解的语言输出。

阿里 AI 提出了“递归探索对话模型”，综合集成了图像识别、关系推理与自然语言理解三大能力，通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式，能够有效识别图片里的实体以及它们之间的关系，推理出图片所描述的事件内容，并通过对上下文进行有效建模，理解人类提出的问题及真实意图，给出自然准确的回复。

未来，视觉对话技术将被应用在人机交互的诸多场景中。地震后在废墟中寻找幸存者的救援机器人，能更加及时、高效地综合指挥指令和场景信息作出行动；视障人士可以通过提问AI理解网络照片中的内容，了解自身所处的周围环境；无人驾驶车辆对影响因子的意图理解会更为准确，乘客的乘坐体验更好。

阿里 AI 的基础平台建设

机器学习平台 PAI3.0

在 AI 应用技术上的不断探索之外，阿里不断深化 AI 基础设施建设。机器学习平台为人工智能发展提供深度学习数据处理和模型训练的一站式服务，阿里研发了大规模分布式机器学习平台 PAI，让企业和开发者拥有便捷的人工智能开发能力，大幅降低使用人工智能的成本。该平台是国内首个集数据处理、建模、离线预测、在线预测为一体的机器学习平台，提供 100 余种算法组件，支持千亿特征、万亿模型和万亿样本乃至 PB 级的数据训练，为传统机器学习提供上百种算法和大规模分布式计算的服务。

分布式深度学习框架 XDL

2018 年杭州云栖大会上，针对广告、搜索、推荐等典型数据处理场景，发布自研新一代工业级分布式深度学习框架——XDL，关注的核心是这些场景下高维稀疏数据的性能。

分布式计算引擎 Maxcompute

大规模算力是支撑的机器智能高效应用的基础。阿里拥有丰富的异构计算平台和自研的大规模分布式计算引擎（Maxcompute），包括超大规模批量计算、超高并发实时计算、复杂图数据推理计算三类，综合性能上领先现有开源引擎 30%，整体成本降低 20%。在 2018 年双十一，MaxCompute 单日数据处理量突破 600 PB。

移动端轻量级的深度神经网络推理引擎 MNN

基于淘宝和达摩院的研究成果，阿里 2017 年开始组建 MNN 团队。2019 年 5 月，阿里开源了首个移动 AI 项目——轻量级的深度神经网络推理引擎MNN（Mobile Neural Network），具有轻量、通用、高性能、易用性特征。MNN 提供模型转换和计算推理两大功能，模型转换功能帮助开发者兼容不同的训练框架，如 TensorFlow（Lite）、ONNX 等；计算推理部分应用了多种优化方法，高效推理。MNN 可用在智能手机、IoT 设备等端侧加载深度神经网络模型，可应用于阿里手机淘宝、手机天猫、优酷等 20 多个应用，覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。

达摩院：阿里 AI 发展的“总枢纽”

虽然阿里在人工智能赛道的起步不算最早，不过等到AI风口在2015年前后起势，阿里也储备了相当分量的AI人才。两年前，阿里组建达摩院，全面升级人工智能的技术、商业布局。某种程度上，达摩院的组建是阿里人工智能组织力量的重大升级，奠定了这两年阿里AI技术飞速发展的基础。

当然，技术能否带来经济社会生活的改变，能否带来商业化场景大规模落地，才是技术价值的最终体现。在人工智能领域，技术应用的商业化是衡量价值的唯一标准，而阿里产业AI目前已遍及医疗、金融、制造、司法、交通、环保、教育、零售等领域。

领先的算法技术、AI 应用的系统集成能力、AI 产业生态构建能力、海量用户场景、开源技术生态、大规模研发投入和顶级人才团队以及自身的AI商业化模式是阿里 AI 取得现有成绩的关键组成部分，而阿里达摩院无疑是将这些因子串联起来的“总枢纽”。

（*本文为 AI科技大本营原创文章，转载请联系 1092722531）

热文 推荐

“10 倍工程师”引争议，程序员再被妖魔化？

☞漫画：程序猿垃圾分类实践

☞暗网竟成比特币最大用户? 上半年 5.15 亿美元被用于非法活动

性能提升 3 倍的树莓派 4，被爆设计缺陷！

用50年前NASA送阿波罗上天的计算机挖矿什么体验? 出一个块要10^18年……

Kubernetes端到端解决方案Part3：如何正确部署Kubernetes

☞《长安十二时辰》教了哪些算法知识？

中文repo“霸榜”GitHub Trending，国外开发者不开心了

中国第一程序员，微软得不到他就要毁了他！

你点的每个“在看”，我都认真当成了喜欢

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
C++设计模式：简单工厂、工厂方法、抽象工厂起个别名 C++算法 c++
1.工厂模式的特点在我们现实生活中，买馒头和自己蒸馒头、去饭店点一份大盘鸡和自己养鸡，杀鸡，做大盘鸡，这是全然不同的两种体验：自己做麻烦，而且有失败的风险，需要自己承担后果。买现成的，可以忽略制作细节，方便快捷并且无风险，得到的肯定是美味的食物。对于后者，就相当于是一个加工厂，通过这个工厂我们就可以得到想要的东西，在程序设计中，这种模式就叫做工厂模式，工厂生成出的产品就是某个类的实例，也就是对象。
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

阿里达摩院做 AI 这两年

你可能感兴趣的:(阿里达摩院做 AI 这两年)