LiveVideoStack_

音视频技术开发周刊 | 246

每周一期，纵览音视频技术领域的干货。

新闻投稿：[email protected]。

✦

一周简讯

✦

LiveKit 1.0版发布

我们使用LiveKit的目标是构建一个所有人都可以访问的端到端的开源 WebRTC 堆栈。经过 20 个月和近 1000 次提交后，LiveKit 1.0 版发布了。在这篇文章中，我们将深入探讨端到端流优化，这是 LiveKit 1.0 的一个特别令人兴奋的方面。基于 WebRTC 的会议软件通常难以应付只有少数参与者的会议。详情：https://blog.livekit.io/livekit-one-dot-zero/ 。

速度提升1.25倍，Python 3.11.0b1发布

近日，Python官方团队放出了Python 3.11四个测试版本中的首个预览版 Python 3.11.0b1，该版本在进入候选发布之前，都有可能对功能进行修改，或在极少数的情况下删除。Python 3.11.0b1有哪些新功能呢？首先，在速度上，对比Python 3.10，Python 3.11要快10——60%，平均而言，在标准的基准测试套件上锁取得的结果是速度提高了1.25倍。其次新功能方面有：PEP 657 – 在回溯中包括细粒度的错误位置、PEP 654 – 异常组和 except* 、PEP 673 – Self Type等，详情可戳：https://docs.python.org/3.11/whatsnew/3.11.html。

字节上线音乐编辑工具“海绵乐队”App

字节于近期在App Store中上线了一款名为“海绵乐队”的App，据官方介绍，此产品将更好的服务于汽水音乐和抖音上对音乐编辑有所需求的用户。据悉，这是一款手机端的便携式音频创作工具，在实现传统的录音、效果器同时，引入大量AI智能来协助创作，降低使用难度，提高创作趣味和效率。（新浪科技）

谷歌正基于Google Map应用支持世界级AR体验

在上周谷歌长达 2 小时的2022 年 I/O活动中，该公司发布了许多激动人心的公告，包括推出一款新的中端手机以及一副能够实时翻译多种语言的 AR 眼镜.。谷歌还为谷歌地图展示了世界级的 AR 体验，这将极大地改善您移动设备上的街景体验，改变您在戴上一副谷歌 AR 眼镜时查看世界的方式。通过使用 Google 的 AR 地理空间 API、云锚点和视觉定位系统 (VPI) 进行数字化转型，Google 设想了一种使用 AR 来帮助您在 87 个国家/地区导航任何城市、城镇或乡村的体验。该技术还可用于使用基于位置的 AR 效果提供独特且个性化的沉浸式体验。想象一个 AR 地标，它不仅可以改变您看待外界的方式，还可以创造出令人惊叹的 3D AR 效果，可以在建筑物和公共场所内查看。

✦

超级干货

✦

关于AVOD, 你需要知道的事
在本篇文章中，我们将了解：什么是VOD?AVOD商业模式、AVOD的工作原理、AVOD的不同类型：CSAI和SSAI。

公网传输技术之SRT协议解析（下）
本文从SRT协议的工作流程谈起，着重介绍和解析了SRT协议的数据包结构，并举例说明如何利用Wireshark抓包软件进行链路故障分析，从而解决实际工作中的问题。

VR与AR简史
VR的历史可以追溯到20世纪60年代。早在1961年，Phlico公司的Charles Comeau和James Bryan就开发了一款头显设备——Headsight。

大家谈的视频体验指标，都有哪些？如何测定？
我们一般通过视频的实时性、流畅性（卡顿率、渲染帧率）、主观画质、首帧出图、音画同步等性能指标来判断视频质量的好与坏。以下内容分别对这些指标做逐一说明，并讲一讲在实验室环境中，每个指标的详细测试方法。

iOS AVDemo（13）：视频渲染，用 Metal 渲染丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第十三篇：iOS 视频渲染 Demo。

Android AVDemo（4）：音频解封装，从 MP4 中解封装出 AAC丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第四篇：Android 音频解封装 Demo。

音视频开发之旅（九） OpenGL ES 绘制平面图形
这篇我们开始实战，通过GLSurfaceView加载着色器，来绘制三角形、正方形和直线这些平面图形。

W3C: 开发专业媒体制作应用 (3)
在本文中，两位主讲人都对基于 Web 浏览器的数字音频工作站进行了介绍，并讨论了这种 DAW（Digital Audio Workstation）在使用时的延迟。

WebRTC 教程 (4)
这篇文章主要介绍了 WebRTC 聊天室设计和搭建，主要包括信令服务器及客户端网页设计。

视频编解码芯片设计原理----14 图像质量评估
本文主要介绍全参考质量评估方法VSI和GDRW，并在GDRW的基础上进行算法优化，提出了基于显著性窗口的高注意度区域感知图像指标GSW，最后介绍了GSW模型的软件实现过程和质量预测性能测试结果。

图像信号处理芯片设计原理----07 绿平衡+去马赛克
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文主要对ISP流水线中的绿平衡模块和去马赛克模块进行简要介绍。

FFmpeg命令分析-r
本文章主要讲解 FFMpeg 里面是如何实现帧率变换的，例如 24fps 是如何转成 8fps的，缩小了3倍的帧率。

https://juejin.cn/post/7084995434401234958

低复杂度多模型 CNN 环路滤波 for AVS3
卷积神经网络（CNN）在许多图像/视频处理任务中取得了不错的性能表现。而AVS3作为国内自研的新一代视频编码标准，我们将 CNN 应用于 AVS3 视频编码标准，提出了一个低复杂度多模型 CNN 环路过滤方案。

AI |算法工程师必备的深度学习--循环神经网络 RNN（上）
小编整理了必要的机器学习知识，全部以干货的内容呈现，哪里不会学哪里，老板再也不用担心你的基础问题!

西瓜视频 iOS Voice Over 无障碍适配实践
本文从研发的视角出发，讲述了如何使用 Voice Over、如何适配 Voice Over 以及适配过程中如果遇到问题应该如何解决。

AI场景下从GPU资源池到GPU双资源池
如何管理一个数据中心的GPU，既能够提供虚拟GPU的能力来实现对GPU资源高效的管理和使用，也能满足特定需求下直接访问使用物理GPU。答案就是在GPU资源池化的基础之上，实现GPU双资源池。

实战：使用 PyTorch 和 OpenCV 实现实时目标检测系统
在本指南中，我们将尝试向您展示如何开发用于简单对象检测应用程序的子系统，以及如何将所有这些组合在一起。

双目视觉系统的原理和设计
双目立体视觉是机器视觉的一种重要形式，它是基于视差原理并由多幅图像获取物体三维几何信息的方法。

收藏 | 机器学习中需要了解的 5 种采样方法
有时，一个好的抽样策略会大大推进项目的进展。错误的抽样策略可能会给我们带来错误的结果。因此，在选择抽样策略时应该小心。

从梯度下降到 Adam！一文看懂各种神经网络优化算法
在调整模型更新权重和偏差参数的方式时，你是否考虑过哪种优化算法能使模型产生更好且更快的效果？应该用梯度下降，随机梯度下降，还是Adam方法？

自动驾驶汽车如何看红绿灯？
红绿灯识别是实现城区自动驾驶能力最为关键的一环，现实世界的红绿灯的位置、朝向并无规律可言，想在图像中找到随机悬挂在路口的红绿灯却并不是一件容易的事情。那么红绿灯识别究竟有哪些难点，我们又有哪些技术方案能够实现红绿灯检测呢？

神经网络动力学基于采样的非线性MPC用于自动驾驶运动规划
机器学习模型的控制已经成为机器人技术广泛应用的一个重要范例。本文提出一种基于采样的非线性模型预测控制（NMPC）方法来控制神经网络动力学。

耳朵对于声音识别的原理
人们常说的听声辨位就是人们在听到声音以后，能辨别出声音是从哪个方向传播过来的，而声音在不同环境下传播的又不一样，这就是人耳对声音方向感的作用。

关于声音采集和声音处理的一些建议
相机录制的过程除了采集画面，还有采集音频数据的过程，我们今天就主要介绍一下声音采集的过程以及采集的声音是怎么处理的。

Camera开发需要关注哪些点
我们接下来要分享VideoEditor中的相机处理模块，但是在分享之前，还是有必要将Camera的一些问题给理清楚，磨刀不误砍柴工。

关于Camera性能优化的一些建议
我们在做相机应用的时候，除了相机的基本功能，还有一个非常重要的点，就是性能不能查，有几个方面：预览不能卡顿、拍照速度要快、录制视频不能卡。

JPEG工作原理：彻底理解傅里叶变换
这篇文章可以说是介绍傅里叶变换最清晰通俗的，没有之一，直接把你当做小学生来讲，通过大量的动画不但告诉你傅里叶变换是什么，还告诉你傅里叶变换能干什么。

MediaCodec 编码结合 FFmpeg 封装流
在 Android 平台上合成视频一般使用 MediaCodec 进行硬编码，使用 MediaMuxer 进行封装，但是因为 MediaMuxer 在某些机型上合成的视频在其他手机上播放会出现问题，而且只支持一个音频轨道，因此可以选用 FFmpeg 来封装编码后的音视频流。

一文读懂什么是卡尔曼滤波
卡尔曼滤波是无人驾驶中最基本的算法之一，在传感器融合与定位中几乎无处不在，本文原文来自 BZARG 大神的文章《How a Kalman filter works, in pictures》，后 engineerlixl 大神进行了翻译。

使用 RIST 的同步多流传输
许多应用程序需要同步内容解码,更具体地说，有许多视频源(通常是摄像机)，它们的内容需要使用编码器传输到同等数量的远程解码器。在解码器，播放需要同步——在解码器中一起到达的帧需要在解码器中一起出来。本文说明了一种基于 RIST 的解决方案。

ADAS辅助驾驶之：BSD盲区监测功能
盲点监测系统从技术上主要分为影像和雷达2种，2种技术路线各有优劣。

Android 短视频 SDK 转场特效的音视频同步分析
在短视频的应用场景中，经常存在用户拍摄的两个或者多个视频生成一个视频的需求，为了达到两个视频平滑过渡，就需要在两个视频中间添加转场效果。由于导入视频的帧率、码率等参数都不一致，如何保证在添加完转场效果后音视频同步？

三维重建：基于RGB-D相机的三维重建总览(静态&动态)
本文作者对基于RGB-D相机的三维重建做了系统性的总结与分析，对各类算法都有简要的介绍，逻辑清晰，讲解全面细致，可以说是一篇干货满满的文章，不仅如此还配以生动的GIF图，让其趣味十足，非常推荐想要了解这方面知识的开发者阅读！

✦

科技前沿

✦

科研人员将为人工耳蜗完善音高感知
在《自然通讯》杂志上的一项研究中，由麦戈文（McGovern）脑研究所副研究员乔希·麦克德莫特（Josh McDermott）领导的研究人员使用计算模型来探索影响人类音高感知的因素。

AR助力残障人士，苹果发布AR门检测、实时字幕等多项无障碍功能
近来，为了纪念2022全球无障碍日，苹果发布了一系列无障碍功能。苹果公司无障碍政策与倡议高级总监Sarah Herrlinger说：“苹果将无障碍概念融入我们的工作日常。我们致力于为每个人设计最好的产品和服务。”

基于可学习复数特征的超宽带语音增强模型S-DCCRN
近期，实验室和腾讯天籁实验室针对单通道超宽带语音增强任务提出了S-DCCRN模型，通过可学习频谱压缩，复数特征编码器、解码器以及级联的子带全带处理，网络可以在较低的频率分辨率下进行超宽带降噪。

GPT-3+DALL-E 2 = 海量带标签数据自动生成？
DALL-E 2是OpenAI的又一激动人心的研究成果，它为更广泛的应用场景打开了大门，能够生成海量数据集来解决计算机视觉的最大瓶颈之一。

用2张照片正反向预测中间场景 | CVPR 2022
只需2张照片就能2D变3D，这个AI能自己脑补蜡烛吹灭过程，这就是谷歌、康奈尔大学、华盛顿大学最近联合推出的成果，能只用2张相近的照片还原出3D瞬间，目前已被CVPR 2022收录。论文作者一作、二作均为华人，一作小姐姐本科毕业于浙江大学。

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图
来自深圳大学和特拉维夫大学的最新成果，通过在GAN中引入注意力机制，成功解决了编辑人脸时会产生的一些“手抖”问题。

使用OpenCV实现摄像头测距
摄像头测距就是计算照片中的目标物体到相机的距离。可以使用相似三角形（triangle similarity）方法实现，或者使用更复杂但更准确的相机模型的内参来实现这个功能。

视频P图新SOTA：来自南开大学｜CVPR 2022
在CVPR 2022收录的论文中，就出现了这么一个P图神器，推理速度快近15倍，任意分辨率均可上演人像消失大法，可以分分钟给你上演各种人像消失大法，不留任何痕迹。

CVPR 2022 | 一张图片就能自动重建发丝级头发
CVPR 2022 最新文章，浙大、ETH Zurich和香港城市大学的学者提出的 NeuralHDHair，只需一张图片便能够完全自动地重建出发丝级别的头发模型！效果惊艳！

✦

推荐阅读

✦

AVS视频编码标准的演变：20年来的创新与发展
本文整体介绍了AVS视频编码标准过去20年的发展历程和应用情况。AVS系列编码标准制定中，采用从整体到局部的技术路线，即先提出一个由若干模块组成的混合编码框架，通过对每一个模块进行技术创新来带动整体的性能提升。

2022谷歌开发者大会开幕，新品重磅发布
在谷歌I/O大会（开发者大会）2022上，接连发布了五款重磅硬件新品，包括智能手机、智能手表、TWS耳机、平板电脑和一款概念AR眼镜。

AI与人类的较量席卷艺术界：DALL·E将战胜人类？
DALL·E 2已经学会理解图像和文本描述之间的关系。它使用一个称为 "扩散 "的过程，从一个随机点的图像开始，当它通过文本识别出一个特征时，便会逐渐开始描绘这个特征相应的图像，使之朝最终你所希望的图像风格发展。

人工智能中的图像识别技术
伴随着图像处理技术的飞速发展，推动了图像识别技术的产生和发展，并逐渐成为人工智能领域中重要的组成部分，并广泛地运用于面部识别、指纹识别、医疗诊断等等领域中，发挥重要作用。

亚马逊团队使用受物理启发的图神经网络，解决组合优化等问题
组合优化问题在科学和工业中普遍存在。现代深度学习工具已准备好以前所未有的规模解决这些问题，但结合统计物理学见解的统一框架仍然很出色。这里，亚马逊量子解决方案实验室的研究人员，展示了如何使用图神经网络来解决组合优化问题。

CVPR 2022 | 看谷歌的单张图片人体重建效果如何？
作者提出了一个新颖的端到端的深度神经网络来从单张彩色图片重建具有真实感的穿着衣服的人体 3D 模型。

一文带你了解 Google I/O 2022 精彩汇总与个人感想
谷歌这次 I/O 大会可以说是干满满，特别是本次大会的“线上会场”，Adventure 用类似“元宇宙”的概念，让广大开发者可以在“游戏”中逛遍所“展厅”，同时通过完成各种有趣的小游戏来参与大会，甚至你还可以钓鱼挂机...

智能汽车中摄像头的8大热门应用
更多摄像头及应用上车，成为智能汽车区别传统汽车的重要标志，也是汽车技术创新的重要体现。以下我们来盘一盘部分车载摄像头的应用。

骗过83%网友！图像生成界天花板DALL-E 2竟然通过了图灵测试？
关于DALL-E 2的各种争议八卦，自其面世时就没断过。最近，听说它还通过了图灵测试？！让我们一起来看看是怎么回事。

MIT人工智能实验室：如何做研究？
本文的主旨是解释如何做研究。提供的建议对做研究本身（阅读、写作和程序设计），理解研究过程以及开始热爱研究（方法论、选题、选导师和情感因素），都是极具价值的。

算法工程师是不是一个「越老越吃香」的岗位？
是时候讨论一下越老越吃香这个话题了，越老越吃香第一定律：一个经验可以反复使用，反复创造价值，才有可能越老越吃香，如果你仔细思考所有职业所积累的经验，能符合越老越持续第一定律的职业其实非常稀少。

✦

活动推荐

『邮件+N』全渠道消息触达，让用户运营降本增效

5月24日（下周二）晚19:00-20:20，SendCloud 与极光“消息中台”的产品负责人，将带来干货满满的分享。还有多重抽奖福利，扫描海报二维码或下方报名链接立即报名！

活动时间：2022年5月24日 19:00-20:20

活动形式：线上直播

报名地址：https://www.huodongxing.com/event/3650247017923（点击「阅读原文」直达）

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

音视频技术开发周刊 | 246

你可能感兴趣的:(算法,神经网络,大数据,编程语言,机器学习)