LiveVideoStack_

声网3D在线互动场景空间音频的实时渲染——如何把“声临其境”推向极致

编者按： 千人有千耳，不同的人耳对于声音方位的适应已形成习惯，但在Meta RTC场景中如何让不同人也能畅想“身临其境”的感觉？3D在线互动场景空间音频的实时渲染又有哪些应用？LiveVideoStackCon 2022音视频技术大会上海站邀请到了声网音频策划负责人冯建元，为我们分享3D在线互动场景空间音频的实时渲染。

文/冯建元

整理/LiveVideoStack

大家下午好，我是来自声网的冯建元。

今天给大家主要分享一下声网在RTC 3D互动场景中是如何操作空间音频的渲染。让人在虚拟的场景里感受现实生活中一样声临其境的感觉。

我在声网的主要负责音频算法的开发，之前也做过语音的增强、音效，包括音频的编解码的工作，也发布过基于AI的声网Silver之类的编解码器等，也开过一些介绍音频的课程，包括《搞定音频技术》等等。

今天主要是围绕Meta RTC，探讨如何实现声临其境，需要哪些渲染的方法，以及不同的声音的渲染方法，是如何通过端云结合的形式去实现的，这会涉及算力成本、怎样部署更合理、低延迟等等。最后介绍空间音频在行业有些怎样的应用，是如何重塑我们在游戏以及社交行业的不同音频体验。

1、在Meta RTC场景中如何实现“身临其境”？

去年苹果发布了AirPods能够支持空间音频之后，空间音频迎来了一个小的高潮。主要的技术是基于杜比Atmos、DTS这些音频的制作，来实现沉浸式的多声道的播放。

例如通过苹果的AirPods听空间音频的音乐，通过使用者头部的转动，会发现声音可以根据手机和头部的位置实时移动。这些音源多数是需要预先制作的，在RTC的场景中每一个人就是内容的生产者，可以理解为使用者在虚拟的世界里去演一部电影，需要去听周围的任何一个音源的声音，会有空间的感知，相对的在远端进行互动的人也同样需要在这种环境里体验沉浸式的音频。

其实在Real time social或者gaming的场景里面，加入了位置信息，比如不同的朝向、距离等，就可以对声场中的人或者音源去进行渲染。这些大部分都是基于目标的渲染，就比如人们作为一个听音者，在下面听我说话，我在有些人的左边，也在有些人的右边，但声音会通过现场的扬声器播放，会有一个整体的声场。这些都可以通过针对这些无论是说话人还是扬声器的音源来进行渲染。

从具体的技术角度而言，如何去实现空间音频的渲染呢？首先我们把它分成直达声和混响。直达声就是发出的声波直接传到人的耳朵，人的两只耳朵是听音辨位的一个前提条件，因为两只耳朵会有双耳差的音源的线索，这样就能通过线索来进行声音的位置判断。

主要的方向感的线索，比如双耳的时间差。就像在人的右边说话，右耳是最先接收到声波信号的，左耳就会有跨越头部的延迟。通过延迟就能大致了解声音大概是在哪边。

第二个就是双耳的音量也会有所差异，因为声音在传播的时候会有所衰减，左右耳就会有不同的音量，这个比较显而易见。

第三个就在于每个人的耳朵耳廓是有朝向的，有些人的耳廓比较朝前，像招风耳，那他对前面声音的感知会比较明显。耳廓信息，它会对人感知到的声音，不同的频段的响度，都会有频谱的效应。所以每个人耳朵听到的音色都是不一样的，根据耳廓和声音传播的方向都会有所区别。

通过这三个不同的感知线索，就可以很清楚地分别空间中声音的位置了。为了去渲染音源，找到它所在的位置，同时会利用这三个线索。

例如简单的方法，左右耳去做一个panning，即做一个音量的区别，就能简单的实现2D空间的180度只能区分左右的panning算法。这种算法的优点就是只需要控制耳机左右耳的音量，几乎没有什么算力。同时缺点也很明显，它只控制了左右耳的音量，如果音源是在正中间，无论是上下还是前后，都是无法去通过音量来调整的，所以就只能实现180度的2D。如果再精确一点，那就会用到头部模型，例如 Spherical head——把头模拟成纺锤形状。能将左右耳、音级差进行模拟，获得180度的3D的渲染。但这依然很难模拟人耳完整的信息，前后的信息更多是靠耳朵的形状做音色上的区分。

那么最精准的是什么？最精准的渲染方法就是Head Related Transfer Function（HRTF），基于HRTF的渲染。

这是目前空间音频基于 Object渲染的方法中最常用的一种，能够实现360度每一个3D的角度都准确地判断。

具体实现讲解：

在几十年前HRTF技术就产生了。在人耳朵的不同的方向放一个声源，例如放一个音箱，然后通过去测量每一个方向音箱到人耳传递方程的冲击响应，就能得到球面的双耳的冲击响应，这就是HRIR。

如上左图，几乎所有的方向都会测量一遍，就会得到一个离散的冲击响应，可以通过差值的方法把它变成连续的整个球面各个方向的冲击响应，当有一个单声道的声音过来的时候，就可以“告诉”它人耳在这个位置，去卷积这个方向的冲击响应，就可以得到双耳渲染道的音频。

目前看来这个方法可以说是最准确的，它是真人在全消实验室中进行实验、采集得到的。

正常人的耳朵虽然都差不多但还是有区别的，每个人的耳朵无论是朝向还是形状都不太一样，都相当于一个滤波器，所听到的声音虽然左右都能区分，但是其实一个人听到的声音跟其他人听到的声音是不一样的。那我们要如何判断声音的方向或者是空间的感知呢？

它其实是一个长期记忆的过程，在长期的生活中，人们通过听不同的方向声音，就像是训练大脑一样，长期的训练就能比较准确判断声音出现在哪个方位。不同的耳朵对于自身而言已经有了适应性，大脑已经被训练好了。因而缺点也比较显而易见，当一个人在操作虚拟环境的渲染的时候，用的HRTF可能是一个通用的HRTF，它可能是一个人工头的HRTF，也可能是别人的耳朵的HRTF，跟现实生活中的音色的体验就会有差异。

基于此我们就继续看能不能把它再做得极致些，能够让使用者有一个性化的体验。这就是个性化HRTF，大概经历了10多年的发展，通过研究怎样通过建模的方法以人的耳朵或者头部为基础，得到个性化的空间音频渲染的方法。

在这里面我主要罗列了一些近些年比较常见的方法，例如最简单的通过测量耳朵的生理结构，包括20多种不同的结构例如、长、宽、深度、耳道的大小等等。通过量取这些数据，然后把它们进行 HRTF的建模，把通用的HRTF调整成符合不同耳朵的参数，来达到个性化。这种方法还是比较有难度的，只能提取较少的一个信息去操作，准确率也不是很高。

随着AI的模型的引用，包括现在有很多技术也是基于AI的模型去做的。最新的像Meta 发布的一个方案，通过扫描整个人的3D头部模型，用3D扫描信息作为输入，然后用AI的模型去生成个性化HRTF，目前已经能达到频谱的差异小于1DB，很接近真实的 HRTF测量。

但最准确的测量（Golden standard）还是在实验室里，每一个方向测一遍。目前通过AI模型和头部扫描，基本上能够实现和Golden standard差不多的水平。

例如iOS16，因为iPhone是有深度摄像头的，也有扫描的功能。通过扫描人左右耳朵，可以生成个性化的HRTF。基于此再去做空间音频渲染的时候，就能得到个性化的最自然的空间音频渲染。

刚才主要是聊如何做听音辨位和渲染。另外，人耳都有远近的感知，离得远和凑近讲话听到的声音也是不一样的，针对此比较简单的方法是调整音量。其实人对位置的感知是相对感知，不是绝对感知，即通过距离的由远到近，慢慢地声音变大，或者是由近到远，声音慢慢变小，人能感知到它是在远离还是靠近，但是在某个音量下想要知道它到底离人有多远，是很难通过绝对感知。

这个过程里有很多可以做的。首先音量是在空气中传播的，不同的频段的衰减是不一样的，高频衰减更快，低频衰减更慢。在距离比较远的时候，会觉得发声人的声音除了声音小之外，还变“闷”了，这也是基于人的主观感知。

那么，只做音量和做了空气吸收/不同频响的均衡，有什么样的区别？

示例中的两条音乐，声音都是从25到100米，但能明显听到后者的声音在比较远的时候已经开始变“闷”了，给人的一种更遥远的感觉会更加逼真，这也是距离感知上可以做的一点

这样的衰减如果程度更多一点，例如模拟水下的衰减场景，在水里面说话的咕噜咕噜的感觉，也能够靠这种方式模拟出来。

除了距离之外，还有很重要的一点——朝向，正对人说话和背对人说话的声音是不一样的。正对人说话是直接从嘴到另一人的耳朵，中间没有什么障碍，但背对着则声音需要跨过头和身躯，在进入另一人的耳朵，这个过程声音会有衰减。

这也说明音源是有指向性的。无论是人还是音箱，模拟的时候都会有这种指向性的模拟。指向性的模拟来就是在不同的方向，需要对它的不同的频响去做出调整，这也是在空间音频的模拟中比较重要的一点。

以上所说都是直达声的渲染，一人的嘴到另一人的耳朵，中间没有经过其他物品的反射。在声音的产生过程中人要感受，例如这个房间是大房间还是小房间，它装修的材质是玻璃房还是木板房铺地毯，不同材质也会有区别。

右图而言第一个是模拟直达声，第一个声波过来，会有早期的反射，就像我的声音通过木板、房顶。例如地毯的吸收的能力比较强，反射比较少。

这些反射的声音，会混到人的直达声之中，跟它混接在一起，这样的话人就能感受到所处的空间大概是怎样反射的延迟以及整个反射空间是否密集，就会得到一个混响。混响也分早期的反射，例如第一次反射或者第二次反射。也包括后期的混响,后期混响反射还可以再反射，很多反射的叠加之后就会得到一个比较密集的后期混响。后期混响在玻璃的房间，或者是在混响延迟比较长的大的空间会多一点。

人对空间的感知，空间、装修材质、大小，主要是通过混响来提供的。所以在空间音频的渲染中会起到比较大的作用。如果只有直达声，人就相当于在一个全消实验室，没有任何混响，人的声音会听上去非常的“干”，这个声音就叫干声，如果有混响就比较“湿”，这种叫湿音。

操作渲染并不简单，不能直接的去加一个混响，原因在于在实时RTC的过程中，例如在一个会议室、玻璃房里，本身它就有混响，如果是在混响之上再叠加混响，它就变糊了，人就听不清楚了。在营造一个比较好的统一的混响的环境，或者统一的虚拟房间的环境时，第一步需要先做解混响，把人的声音先再从湿音变成干声，这就是第一步Dereverberation解混响。然后再加入早期的反射，Early Reverberation或是加入后期的混响。早期后期的这些混响可以通过镜面法或者早期的反射，后期的混响可以通过 Feed forward或者Feedback delay这种方式去做。

其实整体的算力来说它比直达声高些，因为整个混响包括很多个声波的模拟，可以提供比较好的空间感，空间感在空间音频中也是比较重要的一点。

在整个声音中有了直达声、有了混响基本上也就齐了，人能听到的声音都有。但在元场景Meta RTC中，它是源于现实但是又超越于现实的，例如你在现实中参加演唱会、鸡尾酒会，周围有很多的人很嘈杂，但是你却想听乐队的声音。这个时候还是挺麻烦的，如果买的座位不是在第一排，可能听不清，听到全是旁边的欢呼声和唱歌的声音。

这种情况需要有一个氛围，就是周边人在说话的同时不会干扰到你对于自己目标的这样听取。这就可以通过人声模糊的方法，把周围的人的声音进行模糊化处理，达到能听到说话声，但是不知道别人在说什么。这也能在互动场景里面提升听声音的体验。

除了模糊还有其他方面，例如在现在（演讲）的环境中，大家的声音都是在没有遮挡情况之下的。但在一个虚拟的世界中，有多个房间，或者双方在隔了一堵墙的情况下，就会有音障既为声音障碍，是需要通过空间音频渲染进行模拟的。

在没有障碍物的时候，声音是直接传播过去的。当有障碍物的时候，它会让人的声音变闷，或者是让人声音的传播的距离变小。在房间外听屋内人说话，近距离可以听到，但离得远衰减后就听不见了。

为了模拟类似的音障、声音衰减的管理，可以通过模拟不同的厚度的障碍物，实现衰减的调整。

面对稍厚的墙，只有一米左右才能听到讲话人的声音。无障碍物或一堵薄墙的情况下声音是慢慢衰减的。声音的障碍还有很多其他的模拟方法，这是其中一种，通过声音的衰减（音量衰减和银色衰减）快慢来模拟。

还有别的模拟方法，例如声音本身是一个衍射的状态，隔的不是墙而是柱子，声音的模拟就会更加复杂。

2、端云结合的空间音频实时渲染引擎的设计

以上所讲从渲染的方式来说都是链路式的，是直达声的渲染，然后做不同的混响，加入一些人声模糊等等。总体上整套使用起来还是有算力成本的。

我们来看整个一条链路如何实现，以及是怎样设计空间音频渲染的流程，算法可以部署在什么地方延时最小，算力最小，成本也可控呢？

第一步在空间音频渲染中需要空间的设计，因为抛掉视觉只谈音频没有太大的意义。我们会有在虚拟场景的一些空间设计，包括复杂的如基于Unity、 Unreal的游戏引擎的3D场景，也有简单的如会议交互场景的头像分布距离和角度，而我们无论是做2D的交互还是3D的交互是要预先设计好的。

有了这个功能之后，在这样的一个场景里，我们自己是类似Avatar的化身，或者是一个头像，我们所在的音源的位置以及朝向，以及听音者的位置和朝向，和虚拟环境的参数，例如房间的大小，中间有无声音的障碍，这些就是Meta Data（元数据）。它是决定怎样去进行渲染的基础。

有了Meta Data，再结合传统的RTC的远端的 Audio，或者是local的音效，就可以做空间音频整体的渲染了。例如来了一路音频流，首先要知道这路音频流是属于哪个ID，这个ID的Meta Data是什么，然后就可以对它进行直达声的渲染，包括方向的渲染、音源的朝向、距离的渲染。混响部分就是之前准备好的房间里，包括这个房间大小多少，人处于房间的某个角落还是在正中央，位置在哪，来营造音频流的混响氛围。之后再看有没有特殊的要求，例如是否需要选择性地模糊某些音源。

最后当每路音频传输过来后或每个音源完成了空间音频渲染，接下来就需要做混音，把多路的空间音频混成特定声道，例如耳机就是双耳的立体声，如果是5.1声道，就把它混成5.1声道的播放。

这就是整个空间音频实时渲染的计算流程。从流程来看，它的算法部分整体来说是比较多的，包括直达声的渲染，混响的渲染；从算力上而言，直达声少一些，它相当于编解码中解码的过程，跟解码的算力相当。如果是混响就会复杂一点，取决于混响是精细还是粗糙，精细的混响对应的算力就比较大。

整个流程而言，如果是在可控的范围内，即渲染的路数不多时，在端上运行起来没太大压力，但是如果是千人会议，演唱会，那在端上来说会比较困难。

这里有几种方案，例如中心的服务器去做位置信息的这种计算、或者在端上去做。简单而言，在RTC的音频流里面，是可以直接把Meta信息放到音频的包里去，里面就是 Meta的模块。

音频会随着Audio和Meta Data同时传播到远端，类似于P2P的网络结构，每个人都是在自己的终端设备中进行计算的。若是一个小型的互动场景也是适用的，因为路数有限，收流只要把所有人都收过来，再同时进行计算就可以。如果是在达到50人左右的小型的活动上，一个手机就忙不过来了。首先从场景上考虑，比如很多游戏的互动场景，本身就是有服务器的位置同步的功能，例如打MOBA游戏，没有位置同步就不知道往哪发招。

当有这样的能力后，其实只需要把空间音频的计算加进去，位置同步的功能其实本身就自带。在此情况下，位置同步信息已经由服务器完成，本地只需要计算空间音频的部分，不需要做同步，这样流量也会减小。这个情况下就可以进行小型活动，把位置同步放到服务器上，把本地的空间音频渲染放在端上。

但即使端上能操作渲染，配置稍好的手机也就只能跑到50路左右，再往上就会听到卡顿了，计算不过来了。在大规模的线下会展上，包括演唱会的场景下，就需要在服务器上完成空间音频的位置同步和空间音频渲染。这样在服务器上把所有的流同时进行渲染之后，最后发到远端时，可以进行混音，只需要在接收端去接收一路双声道的信号，就能够感受空间音频。从这个方案其实是增加了服务器的loading，但它有两个好处。一个好处是它能够支持更多同步的空间音频计算的能力。另一个就发流而言，在接收端只需要接受一路流，流量也会减少很多。如果是同时接收100路流，那对于接收端的接受能力也会有很大的挑战。

从空间音频的部署上来说，根据它的规模和并发数，可以找最合适、最经济的方案。大家都想往端上放，服务器loading就可以小一些，但实际上，端上目前而言能支持到50路就差不多了。

3、空间音频实时渲染在游戏、社交等行业中的应用

讲完了算法部署的整个流程，我们再看看空间音频实时渲染在游戏、社交的行业有哪些应用。

有些空间音频会起到增强的效果，有些会重构行业的“新玩法”。就增强而言，互动播客也好，或者虚拟活动，这些都会起到增强的作用。例如受疫情影响，现在有很多的虚拟会场、线上的展会，有很好的3D的展示效果，它只是把空间音频放上去，让人有种在会场里走来走去、亲切交流的感觉，就会起到增强的作用。包括线上的教育等，如乐队的排练，音乐的教学，会需要不同的方位，典型的例如乐队的形式，需要中间有主唱、左边一个吉他手、右边一个贝斯手，这种需要不同位置的渲染，它是增强的效果。

而例如虚拟演唱会、Metaverse 这样的场景，就是一个重构式的变化。

当有了空间感之后，结合头戴式设备，头动、身体转动的时候，也会有一个空间音频的实时渲染。以及人在位置变化的时候，可以实现音频跟随，就整体的效果而言是完全不一样的，比如营造快速移动产生多普勒效应、很多像类似这样的应用会有新的玩法，是之前无法感受到的。

这个行业里面也让人意想不到的应用，包括虚拟房地产，如NFT房地产，它会有一个虚拟的空间，有整个声场的虚拟环境，完全可以作为一个产品进行贩售。

另外一块例如流媒体的服务，现在很多赛事或是电影，观众去观看时它本身会有 immersive音频的格式，在远端体验的时候就需要做空间音频的渲染，才能体验出immersive音频格式的能力。无论是带上耳机去听，还是用5.1声道的家庭影院设备，都可以把这个能力释放出来。

除了行业上的应用，还可以有多种新的玩法。例如像虚拟环绕声，现有一些的音源，无论是立体声、MP3格式或是无损格式，都是立体声声音，我们可以通过重构这些声音，转换成一个环绕声，使空间感更强。

类似的虚拟环绕声能够把双声道变成环绕声，例如5.1、7.1或者是更多声道的环绕声的体验，这样对音乐的听感或者环绕声听感都能有比较好的提升。这是基于现有的，但如果是基于例如杜比的Atmos做的话，本身就是环绕声，会有更好的播放效果。

除此之外如果需要在音乐里有更好的听感，例如使用Ambisonic的麦克风，可以把整个声场录下来。如果只有一个单声道的麦克风录音，在回听的时候还是一个单声道。如果把整个声场录下来，就可以在整个声场里走动，也可以在整个声场里进行观看。整体而言，无论是交互式的电影还是交互式的现场，都能进行整个声场的采集和回放。

基于Ambisonic技术的麦克风其实在广播电台已经有很多的应用，而线下的RTC场景还是有很多新的体验可以去尝试。

我今天分享的内容总结在这张图里。我们再展望一下还有哪些更多的空间音频的探索领域。其实要展现更逼真的临场感，还有很多新的玩法和新的功能，例如近场的HRTF，贴着人的耳朵说话，类似ASMR的模拟。另外有很多声音，不一定是点状，它可以是一个瀑布，或者是一个“下雨天”。很多声音是体积声，有比较大的声场，体积声的渲染也会对沉浸感有比较大的提升。

刚才我们提到沉浸式的虚拟世界，其实每一个人都是虚拟世界制作者。你本人就是一个导演，或者是在进行比赛，无论是电竞也好，还是真实的场景观看也好，这些都可以通过空间音频把整个声场录下来，然后再回放，就可以实现交互式的电影。人在整个声场里面走动观察每一个细节，都会有很好的沉浸式体验。

同时空间音频的编码还有很多可以深究的地方。如何更好地去进行空间音频的分发，尤其是在实时领域还要满足低延迟和低算力的编解码成本，这也是比较好的探索方向。

另外在Metaverse会有新的 AR和VR的交互式。例如在一个VR的空间里面，我们可能需要瞬移代替走路来解决头晕目眩的感觉。那么瞬移的场景下如何进行交互，这些都是可以跟空间音频结合的。可能在未来的元宇宙世界里，个体可能不是简简单单的一个人，可能是一个超人、是蜘蛛侠的角色，类似的场景都是可以有更多新的交互式的体验。

我今天的分享就到这里，谢谢大家。

“晚节不保”与“浪子回头” 锦瑟_db50
今天听音频，听到这两个熟悉的词——晚节不保、浪子回头。认真思量，对这两种情况，我们一般的认知中是缺乏公允的。我们听到“晚节不保”时，通常是痛惜不已，甚至感觉对方重要露出狐狸尾巴，有大快人心之感。很多人对古今名人，特别是对古今伟人的“背后的故事”很感兴趣，一方面是猎奇，一方面不能不说是一种险恶的用心——看看他也不过如此，和我们也没什么不同。这个“毁神”的过程，实际上是为自己的堕落找理由的方式。而“晚
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
丹青医姐：吐字归音丹青医姐
对于朗读者来说，吐字清晰，珠圆玉润，听起来温柔而坚定，也格外暖心。这就要靠唇舌力度和正确的吐字归音。唇舌力度可以靠口部操和绕口令来练习。而正确的吐字归音应该是叼住字头，字腹立起，字尾弱收，枣核形的吐字流程。字腹立起，这个知道，将口腔打开。而字头如何叼，字尾如何弱收，一直不明白，以致于怀疑自己的声音不能达到温柔而坚定。当我听了一个音频，老师示范了一下，才知道，字头应该有力饱满，字尾变弱收音，听起来字
我们一起成长感悟郑珍容
我们一起成长7感悟感恩姚老师的分享，非常的荣幸作为义工让我又机会听到这么好的音频。今天的主题，相对于生命的困境，你现在所做的义工或者帮助他人遇到的困难简直就是小巫见大巫。今天的音频，让我反思，我是否有在帮助他人的时候，遇到一点困难我就会感觉到痛苦，难受、想放弃？过去一定有的，但是从学习金刚智慧开始，我很开心，我很享受帮助他人的善行。一个终极的问题，曾经思考了很久，一直不见清晰的回答，今天从老师的音
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
使用ffmpeg将pcm格式音频转化为mp3格式音频布丁小站 ffmpeg pcm 音视频
voidAudioCode::ENcode(AVCodecContext*cdc_ctx,AVFrame*frame,AVPacket*pkt){intret=0;/*sendtheframeforencoding*/ret=avcodec_send_frame(cdc_ctx,frame);if(ret=0){ret=avcodec_receive_packet(cdc_ctx,pkt);if(
【物联网技术大作业】设计一个智能家居的应用场景 Dream_Chaser～期末复习智能家居物联网技术期末大作业
前言：本人的物联网技术的期末大作业，希望对你有帮助。目录大作业设计题（1）智能家居的概述。（2）介绍智能家居应用。要求至少5个方面的应用，包括每个应用所采用的设备，性能，功能。（3）画出智能家居应用图，并设计使用。大作业设计题设计一个智能家居的应用场景。要求：（1）智能家居的概述。答：智能家居，又称为智能住宅或家庭自动化，是指运用综合布线、网络通信、安全防范、自动控制及音视频等技术，将家居设施集成
抖音视频搬运如何才能不违规？抖音搬运视频违规有什么后果？氧惠导师
在抖音平台中搬运短视频的人非常多，经常能看到一些视频，别的平台中也会出现，但是又会有所不一样，其实是进行了二次编辑，那么抖音搬运视频怎么做才不会违规呢?➤推荐网购薅羊毛app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！）➤由于信息差的
数据压缩（1）——简介永恒星计算机基础数据压缩信息熵
【前言】数据压缩存在于计算机、网络的各个地方，是很底层的技术支持，例如歌曲、图像、视频、网页、文本等的保存和传输都是用过数据压缩算法的。总的来说，我们常使用数据压缩来增多硬盘存储的内容、减少网络传输的流量。数据压缩研究的是，在可接受的信息恢复程度下，可以将信息变得有多紧凑。通常有两个思路：减少数据中不同符号的数据量；用更少的位数对更常见的符号进行编码。数据压缩的算法多种多样，没有万能的算法，通用算
【人工智能】多模态AI：如何通过融合文本、图像与音频重塑智能系统未来 2的n次方_ 小水文人工智能图像处理
我的主页：2的n次方_随着人工智能技术的飞速发展，多模态AI逐渐成为构建智能系统的重要方向。传统的AI系统通常依赖于单一模态的数据，如文本、图像或音频。而多模态AI通过结合多种数据类型，能够在更复杂的场景下提供更智能的解决方案。本文将深入探讨多模态AI的原理、应用场景及其未来发展，并通过代码示例展示如何构建一个多模态AI系统。1.多模态AI的基本原理多模态AI的核心在于融合来自不同模态（如文本、图
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
Netty权威指南：Netty总结-高性能与可靠性 Ty_1106 Netty java 网络 rpc
第二十二章高性能之道22.1RPC调用性能模型分析22.1.1传统RPC调用性能差三宗罪：网络传输采用同步阻塞I/O导致经常性阻塞序列化性能差线程模型问题22.1.2I/O通信性能三要素传输：BIO、NIO或者AIO协议：HTTP公有协议，内部私有协议线程：数据报如何读取，Reactor线程模型22.2Netty高性能之道22.2.1异步非阻塞通信I/O多路复用技术22.2.2高效的Reactor
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
WebRTC之LiveKit的基础入门使用（入门必看） tabzzz 前端 webrtc web3 typescript
LiveKit本文主要是讲解在Next13+中如何使用LiveKit来实现简单的音视频通话，想了解更多的还是要去官方文档去掌握更复杂、高级的使用方法。什么是LiveKitLiveKit是一个开源的实时通信平台，基于WebRTC，主要用于构建高质量的音视频通话、实时数据传输和互动应用。LiveKit除了方便以外的大优势就是它提供了丰富的API和SDK，支持多种平台，包括Web、iOS、Android
AI算法部署方式对比分析：哪种方案性价比最高？ TSINGSEE AI智能人工智能视频监控技术安防视频监控
随着人工智能技术的飞速发展，AI算法在各个领域的应用日益广泛。AI算法的部署方式直接关系到系统的性能、实时性、成本及安全性等多个方面。本文将探讨AI算法分析的三种主要部署方式：本地计算、边缘计算和云计算，并详细分析它们的优劣性。一、本地计算1）部署方式本地计算是指将AI算法直接部署在摄像头或其他终端设备上。这种部署方式使得数据处理和分析在设备本地完成，无需通过网络传输数据。2）优点高效实时：由于数
谷歌将把那些冗长的文档变成你下一个最喜欢的播客 AI研报人工智能
如果你有很多学校或工作的阅读任务，但更喜欢听播客，谷歌全新的AI驱动的AudioOverview工具可以满足你的需求。这项工具首次在今年的GoogleI/O大会上展示，AudioOverviews可以让你将文档、幻灯片和其他文本转换为一个AI主持的音频节目，讨论相关主题。谷歌将这项功能作为一种帮助那些通过听比读更容易理解复杂信息的人消化这些信息的方式。如果你更喜欢听别人讨论一个话题而不是阅读报告，
GB28181应急救援行业视音频解决方案探究和技术实现音视频牛哥 GB28181接入 SmartGBD 实时音视频 GB28181客户端 GB28181应急救援 GB28181设备 GB28181平台 GB28181安卓端大牛直播SDK
技术背景应急救援是一项针对突发、具有破坏力的紧急事件采取预防、预备、响应和恢复的活动与计划。这些紧急事件可能包括自然灾害（如地震、洪水、台风）、事故灾难（如火灾、爆炸、交通事故）、公共卫生事件（如疫情、食物中毒）等。应急救援工作的有效实施对于保障公众的生命安全、减轻灾害损失、维护社会稳定具有重要意义。GB28181应急救援技术优势GB28181在应急救援行业的应用解决方案主要体现了其在视频监控、数
课时目标浪漫的巴布亚企鹅
人教版八年级上册unitthree，I'mmoreoutgoingthanmysister.主题范畴，人与社会主题下的社会服务与人际沟通良好的人际关系与人际交往。本单元共分为两部分，结合两部分的语篇，制定学习目标。通过本单元的学习，1.学生能够结合图片，通过含有比较级句式的音频分辨出不同的人物。2.能够通过例句模仿、使用含有比较级的句式，从外貌特征和性情方面对比谈论人与人的不同之处。3.通过对比自
sox处理mp3_sox :音频文件转换命令 weixin_39615741 sox处理mp3
在开发呼叫中心的过程中要播放语音，要把自己录制的语音的wav格式转换为gsm格式，asterisk中也支持wav格式，但是不清楚为什么wav文件大一些就无法播放，所以只有转换为gsm格式。命令：sox00.wav-r8000-c100.gsmresample-ql下面的是在网上找到的一篇文章文章来源Sox是最为著名的OpenSource声音文件格式转换工具。已经被广泛移植到Dos、windows、
递归处理文件夹内所有音频的范例 shawncheer 语音算法
1、Python脚本功能：另有介绍可以参考：https://rollingstarky.github.io/2018/12/18/processing-audio-with-sox/该python脚本功能为递归处理文件夹下所有文件的，并递归输出到另一个文件夹，这里是格式转换，用sox把格式同样转换为单通道，8k16bit数据。#!/usr/bin/pythonimportosimportsysim
第 12 章 Spring MVC 扩展和 SSM 框架整合 HUNAG-DA-PAO spring mvc java
SpringMVC框架处理JSON数据SON格式数据在现阶段的Web项目开发中扮演着非常重要的角色。在前端页面和后台交互的过程中，需要一种格式清晰、高效且两端都可以轻松使用的数据格式做交互的媒介，JSON正可以满足这一需求。JSON数据的传递处理在Java中处理JSON数据的传递通常涉及到序列化和反序列化操作。序列化是将Java对象转换为JSON格式的字符串，以便可以将其存储或通过网络传输；反序列
FFmpeg安装与使用教程 vvvae1234 ffmpeg
FFmpeg是一个强大且灵活的命令行工具，用于处理音频和视频文件。无论是视频格式转换、音频提取还是视频编辑，FFmpeg都能够轻松完成。掌握FFmpeg，将为你的视频处理工作提供极大的便利。在本教程中，我们将详细介绍FFmpeg的安装和使用，包括一些实用的操作案例，帮助你更好地理解如何使用这个强大的工具。2.FFmpeg简介2.1什么是FFmpegFFmpeg是一个开源的音视频处理库，提供了丰富的
晨间日记2021-4-04 蚊蚊幸福妈妈联盟
活在当下，少说多做，知行合一早睡早起5：30～10：30英语+家庭+经络【今日青蛙】点亮自己的明灯早上:大礼拜上午：增城中午:午休下午:增城晚上:跳舞【优秀是一种习惯，让开心成为一种习惯】事业～录音频听课文字稿健康～跑步跳舞家庭～和先生跑步心灵～经络大礼拜159
老A爷爷幸福父母音频宅萌姊
亲子问答与孩子意见有分歧原来要这样说本期音频感悟现在有一个怪现象，我们以为最容易沟通的家人，反而越不好沟通！以为很了解对方，而真实的感受是，我们往往只看到了表相，对方内心的恐惧、怀疑、渴望和很多念头，我们无法感受到。失去了想去了解的好奇心，只是按自己以为的觉得！孩子出了问题，家长第一反应是到处找解决办法，不停的想帮他们解决。而事实上，就我家里，不停的折腾觉得有很多问题的姐姐，效果并没有我所期待的转
Android平台轻量级RTSP服务模块技术接入说明音视频牛哥大牛直播SDK 轻量级RTSP服务 android 音视频轻量级RTSP服务 Android RTSP服务 Android RTSP服务器安卓RTSP服务器大牛直播SDK
技术背景为满足内网无纸化/电子教室等内网超低延迟需求，避免让用户配置单独的服务器，大牛直播SDK在推送端发布了轻量级RTSP服务SDK。轻量级RTSP服务解决的核心痛点是避免用户或者开发者单独部署RTSP或者RTMP服务，实现本地的音视频数据（如摄像头、麦克风），编码后，汇聚到内置RTSP服务，对外提供可供拉流的RTSPURL，轻量级RTSP服务，适用于内网环境下，对并发要求不高的场景，支持H.2
第二单元复盘 - 草稿徐胜鑫
1，从本单元中我学到的最重要的概念（精读和视听说分别总结）精读:喜欢以前互相信任的年代，电子锁，锁的不是安全，是心与心的交流视听说:表情比文字更能表达情绪2，我在本片文章／音频／视频中学到的怦然心动的单词（精读和视听说分别总结）精读∶vulnerable，tranquil，private，premises，paste，barricade，error，devise，civilize，departur
想学配音可以去哪个学校，想学配音怎么自学配音就业圈
一、如何选择学配音的学校选择学配音的学校需要考虑以下几个因素：兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。声音设备和录音室的质量：学校是否提供先进的音频设备和专业的录音室，这是学习配音必备的条件。教师团队的专业素质：学校的教师
大模型中的多模态概念指的是什么张3蜂计算机视觉人工智能深度学习
大模型中的多模态（Multimodal）概念是指模型能够同时处理和理解来自多种类型的数据或信息模式（modalities），如文本、图像、音频、视频等。这种模型不仅可以从单一模态（如仅文本或仅图像）中学习，还能够结合多种模态的数据，从而增强模型的理解能力和表现。以下是一些与多模态相关的核心概念：模态（Modalities）：指的是数据的不同形式或类型。常见的模态包括：文本（Text）：自然语言文本
肥高眼系列之五十一 —— 就事论事暖暖客厅工作室
事情就是事情，当我们不加任何的好恶的时候，我回到了事情的本身。昨天晚上失眠，我不加任何的评判在失眠这件事情的时候，于是就拿起来书去看，也找到了喜欢的音频来听，四点多困了就睡了，早上一样七点十五开始来公司，七点半之前到公司，冥想。在这件事情上面，不加任何的失眠带来的坏处等等想法。当我早上起来头晕晕的时候，我知道我需要中午补补觉，想到这里没有继续思想。当自己在昨天看书的一瞬间，突然忘记了书里主人公的名
音视频入门基础：WAV专题（11）——FFmpeg源码中计算WAV音频文件每个packet的pts_time、dts_time的实现 cuijiecheng2018 FFmpeg源码分析音视频技术音视频 ffmpeg
=================================================================音视频入门基础：WAV专题系列文章：音视频入门基础：WAV专题（1）——使用FFmpeg命令生成WAV音频文件音视频入门基础：WAV专题（2）——WAV格式简介音视频入门基础：WAV专题（3）——FFmpeg源码中，判断某文件是否为WAV音频文件的实现音视频入门基础：W
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

声网3D在线互动场景空间音频的实时渲染——如何把“声临其境”推向极致

1、在Meta RTC场景中如何实现“身临其境”？

2、端云结合的空间音频实时渲染引擎的设计

3、空间音频实时渲染在游戏、社交等行业中的应用

你可能感兴趣的:(视频编解码,网络传输,音视频,音频,实时音视频)