janifer_he

VC++基于微软语音引擎开发语音识别总结

windows的语音识别不是太好，因为新的程序总是需要训练，很麻烦；

不过可以用来读取文本内容发出声音，这样的开发到可以；

这段来自百度文库-----------------------------------------------------------------------------------------------------------------------------

http://baike.baidu.com/view/1061182.htm

SAPI

一、SAPI简介

二、安装SAPI SDK。

三、配置vc环境

四、语音合成的应用

四、结束语

展开

编辑本段一、SAPI简介

　　软件中的语音技术包括两方面的内容，一个是语音识别(speech recognition) 和语音合成(speech synthesis)。这两个技术都需要语音引擎的支持。微软推出的应用编程接口API，虽然现在不是业界标准，但是应用比较广泛。　　SAPI全称 The Microsoft Speech API.相关的SR和SS引擎位于Speech SDK开发包中。这个语音引擎支持多种语言的识别和朗读，包括英文、中文、日文等。　　SAPI包括以下组件对象（接口）：　　（1）Voice Commands API。对应用程序进行控制，一般用于语音识别系统中。识别某个命令后，会调用相关接口是应用程序完成对应的功能。如果程序想实现语音控制，必须使用此组对象。　　（2）Voice Dictation API。听写输入，即语音识别接口。　　（3）Voice Text API。完成从文字到语音的转换，即语音合成。　　（4）Voice Telephone API。语音识别和语音合成综合运用到电话系统之上，利用此接口可以建立一个电话应答系统，甚至可以通过电话控制计算机。　　（5）Audio Objects API。封装了计算机发音系统。　　SAPI是架构在COM基础上的，微软还提供了ActiveX控件，所以不仅可用于一般的windows程序，还可以用于网页、VBA甚至EXCEL的图表中。如果对COM感到陌生，还可以使用微软的C++ WRAPPERS，它用C++类封装了语音SDK COM对象。

编辑本段二、安装SAPI SDK。

　　首先下载开发包　　Microsoft Speech SDK 5.1添加了Automation支持。所以可以在VB,ECMAScript等支持Automation的语言中使用。　　版本说明：　　Version: 5.1 　　发布日期: 8/8/2001 　　语音: English 　　下载尺寸: 2.0 MB - 288.8 MB 　　这个SDK开发包还包括了可以随便发布的英文和中文的语音合成引擎(TTS)，和英文、中文、日文的语音识别引擎(SR)。　　系统要求98以上版本。编译开发包中的例子程序需要vc6以上环境。　　******下载说明******：　　（1）如果要下载例子程序，说明文档，SAPI以及用于开发的美国英语语音引擎，需要下载SpeechSDK51.exe，大约68M。　　（2）如果想要使用简体中文和日文的语音引擎，需要下载SpeechSDK51LangPack.exe。大约82M。　　（3）如果想要和自己的软件一起发布语音引擎，需要下载SpeechSDK51MSM.exe，大约132M。　　（在这个地址，我未能成功下载）。　　（4）如果要获取XP下的 Mike 和 Mary 语音，下载Sp5TTIntXP.exe。大约3.5M。　　（5）如果要获取开发包的文档说明，请下载sapi.chm。大约2.3M。这个在sdk51里面已经包含。　　下载完毕后，首先安装SpeechSDK51.exe，然后安装中文语言补丁包SpeechSDK51LangPack，然后展开　　msttss22l，自动将所需dll安装到系统目录。

编辑本段三、配置vc环境

　　在vc6.0的环境下编译语音工程，首先要配置编译环境。假设sdk安装在d:/Microsoft Speech SDK 5.1/路径下，打开工程设置对话框，在c/c++栏中选择Preprocessor分类，然后在"附加包含路径"中输入　　d:/Microsoft Speech SDK 5.1/include 　　告诉vc编译程序所需的SAPI头文件的位置。　　然后切换到LINK栏，在Input分类下的附加库路径中输入：　　d:/Microsoft Speech SDK 5.1/lib/i386 　　使vc在链接的时候能够找到sapi.lib。

编辑本段四、语音合成的应用

　　。即使用SAPI实现TTS(Text to Speech)。

1、首先要初始化语音接口：

　　ISpVoice* pVoice; 　　::CoInitialize(NULL); 　　HRESULT hr = CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL, IID_ISpVoice, 　　(void **)&pVoice); 　　然后就可以使用这个指针调用SAPI函数了，例如　　pVoice->SetVolume(50);//设置音量　　pVoice->Speak(str.AllocSysString(),SPF_ASYNC,NULL); 　　另外也可以使用如下方式：　　CComPtr m_cpVoice; 　　HRESULT hr = m_cpVoice.CoCreateInstance( CLSID_SpVoice ); 　　在下面的例子中都用这个m_cpVoice变量。　　CLSID_SpVoice的定义位于SPAI.H中。

2、获取/设置输出频率。

　　SAPI朗读文字的时候，可以采用多种频率方式输出声音，比如：　　8kHz 8Bit Mono、8kHz 8Bit Stereo、44kHz 16Bit Mono、44kHz 16Bit Stereo等。在音调上有所差别。具体可以参考sapi.h。　　可以使用如下代码获取当前的配置：　　CComPtr cpStream; 　　HRESULT hrOutputStream = m_cpVoice->GetOutputStream(&cpStream); 　　if (hrOutputStream == S_OK) 　　{ 　　CSpStreamFormat Fmt; 　　hr = Fmt.AssignFormat(cpStream); 　　if (SUCCEEDED(hr)) 　　{ 　　SPSTREAMFORMAT eFmt = Fmt.ComputeFormatEnum(); 　　} 　　} 　　SPSTREAMFORMAT 是一个ENUM类型，定义位于SPAI.H中。每一个值对应了不同的频率设置。例如 SPSF_8kHz8BitStereo = 5 　　3 通过如下代码设置当前朗读频率　　：　　CComPtr m_cpOutAudio; //声音输出接口　　SpCreateDefaultObjectFromCategoryId( SPCAT_AUDIOOUT, &m_cpOutAudio ); //创建接口　　SPSTREAMFORMAT eFmt = 21; //SPSF_22kHz 8Bit Stereo 　　CSpStreamFormat Fmt; 　　Fmt.AssignFormat(eFmt); 　　if ( m_cpOutAudio ) 　　{ 　　hr = m_cpOutAudio->SetFormat( Fmt.FormatId(), Fmt.WaveFormatExPtr() ); 　　} 　　else hr = E_FAIL; 　　if( SUCCEEDED( hr ) ) 　　{ 　　m_cpVoice->SetOutput( m_cpOutAudio, FALSE ); 　　}

3、获取/设置播放所用语音。

　　引擎中所用的语音数据文件一般保存在SpeechEngines下的spd或者vce文件中。安装sdk后，在注册表中保存了可用的语音，比如英文的男/女，简体中文的男音等。位置是：　　HKEY_LOCAL_MACHINE/Software/Microsoft/Speech/Voices/Tokens 　　如果安装在中文操作系统下，则缺省所用的朗读语音是简体中文。SAPI的缺点是不能支持中英文混读，在朗读中文的时候，遇到英文，只能逐个字母读出。所以需要程序自己进行语音切换。　　(1) 可以采用如下的函数把当前SDK支持的语音填充在一个组合框中：　　// SAPI5 helper function in sphelper.h 　　HWND hWndCombo = GetDlgItem( hWnd, IDC_COMBO_VOICES ); //组合框句柄　　HRESULT hr = SpInitTokenComboBox( hWndCombo , SPCAT_VOICES ); 　　这个函数是通过IEnumSpObjectTokens接口枚举当前可用的语音接口，把接口的说明文字添加到组合框中，并且把接口的指针作为LPARAM 　　保存在组合框中。　　一定要记住最后程序退出的时候，释放组合框中保存的接口：　　SpDestroyTokenComboBox( hWndCombo ); 　　这个函数的原理就是逐个取得combo里面每一项的LPARAM数据，转换成IUnknown接口指针，然后调用Release函数。　　(2) 当组合框选择变化的时候，可以用下面的函数获取用户选择的语音：　　ISpObjectToken* pToken = SpGetCurSelComboBoxToken( hWndCombo ); 　　(3) 用下面的函数获取当前正在使用的语音：　　CComPtr pOldToken; 　　HRESULT hr = m_cpVoice->GetVoice( &pOldToken ); 　　(4) 当用户选择的语音和当前正在使用的不一致的时候，用下面的函数修改：　　if (pOldToken != pToken) 　　{ 　　// 首先结束当前的朗读，这个不是必须的。　　HRESULT hr = m_cpVoice->Speak( NULL, SPF_PURGEBEFORESPEAK, 0); 　　if (SUCCEEDED (hr) ) 　　{ 　　hr = m_cpVoice->SetVoice( pToken ); 　　} 　　} 　　(5) 也可以直接使用函数SpGetTokenFromId获取指定voice的Token指针，例如：　　WCHAR pszTokenId[] = L"HKEY_LOCAL_MACHINE//Software//Microsoft//Speech//Voices//Tokens//MSSimplifiedChineseVoice"; 　　SpGetTokenFromId(pszTokenID , &pChineseToken);

4、开始/暂停/恢复/结束当前的朗读

　　要朗读的文字必须位于宽字符串中，假设位于szWTextString中，则：　　开始朗读的代码：　　hr = m_cpVoice->Speak( szWTextString, SPF_ASYNC | SPF_IS_NOT_XML, 0 ); 　　如果要解读一个XML文本，用：　　hr = m_cpVoice->Speak( szWTextString, SPF_ASYNC | SPF_IS_XML, 0 ); 　　暂停的代码： m_cpVoice->Pause(); 　　恢复的代码： m_cpVoice->Resume(); 　　结束的代码：（上面的例子中已经给出了）　　hr = m_cpVoice->Speak( NULL, SPF_PURGEBEFORESPEAK, 0);

5、跳过部分朗读的文字

　　在朗读的过程中，可以跳过部分文字继续后面的朗读，代码如下：　　ULONG ulGarbage = 0; 　　WCHAR szGarbage[] = L"Sentence"; 　　hr = m_cpVoice->Skip( szGarbage, SkipNum, &ulGarbage ); 　　SkipNum是设置要跳过的句子数量，值可以是正/负。　　根据sdk的说明，目前SAPI仅仅支持SENTENCE这个类型。SAPI是通过标点符号来区分句子的。　　6、播放WAV文件。SAPI可以播放WAV文件，这是通过ISpStream接口实现的：　　CComPtr cpWavStream; 　　WCHAR szwWavFileName[NORM_SIZE] = L"";; 　　USES_CONVERSION; 　　wcscpy( szwWavFileName, T2W( szAFileName ) );//从ANSI将WAV文件的名字转换成宽字符串　　//使用sphelper.h 提供的这个函数打开 wav 文件，并得到一个 IStream 指针　　hr = SPBindToFile( szwWavFileName, SPFM_OPEN_READONLY, &cpWavStream ); 　　if( SUCCEEDED( hr ) ) 　　{ 　　m_cpVoice->SpeakStream( cpWavStream, SPF_ASYNC, NULL );//播放WAV文件　　}

7、将朗读的结果保存到wav文件

　　TCHAR szFileName[256];//假设这里面保存着目标文件的路径　　USES_CONVERSION; 　　WCHAR m_szWFileName[MAX_FILE_PATH]; 　　wcscpy( m_szWFileName, T2W(szFileName) );//转换成宽字符串　　//创建一个输出流，绑定到wav文件　　CSpStreamFormat OriginalFmt; 　　CComPtr cpWavStream; 　　CComPtr cpOldStream; 　　HRESULT hr = m_cpVoice->GetOutputStream( &cpOldStream ); 　　if (hr == S_OK) hr = OriginalFmt.AssignFormat(cpOldStream); 　　else hr = E_FAIL; 　　// 使用sphelper.h中提供的函数创建 wav 文件　　if (SUCCEEDED(hr)) 　　{ 　　hr = SPBindToFile( m_szWFileName, SPFM_CREATE_ALWAYS, &cpWavStream, 　　&OriginalFmt.FormatId(), OriginalFmt.WaveFormatExPtr() ); 　　} 　　if( SUCCEEDED( hr ) ) 　　{ 　　//设置声音的输出到 wav 文件，而不是 speakers 　　m_cpVoice->SetOutput(cpWavStream, TRUE); 　　} 　　//开始朗读　　m_cpVoice->Speak( szWTextString, SPF_ASYNC | SPF_IS_NOT_XML, 0 ); 　　//等待朗读结束　　m_cpVoice->WaitUntilDone( INFINITE ); 　　cpWavStream.Release(); 　　//把输出重新定位到原来的流　　m_cpVoice->SetOutput( cpOldStream, FALSE );

8、设置朗读音量和速度

　　m_cpVoice->SetVolume((USHORT)hpos); //设置音量，范围是 0 - 100 　　m_cpVoice->SetRate(hpos); //设置速度，范围是 -10 - 10 　　hpos的值一般位于

9、设置SAPI通知消息

　　。SAPI在朗读的过程中，会给指定窗口发送消息，窗口收到消息后，可以主动获取SAPI的事件，　　根据事件的不同，用户可以得到当前SAPI的一些信息，比如正在朗读的单词的位置，当前的朗读口型值（用于显　　示动画口型，中文语音的情况下并不提供这个事件）等等。　　要获取SAPI的通知，首先要注册一个消息：　　m_cpVoice->SetNotifyWindowMessage( hWnd, WM_TTSAPPCUSTOMEVENT, 0, 0 ); 　　这个代码一般是在主窗口初始化的时候调用，hWnd是主窗口（或者接收消息的窗口）句柄。WM_TTSAPPCUSTOMEVENT 　　是用户自定义消息。　　在窗口响应WM_TTSAPPCUSTOMEVENT消息的函数中，通过如下代码获取sapi的通知事件：　　CSpEvent event; // 使用这个类，比用 SPEVENT结构更方便　　while( event.GetFrom(m_cpVoice) == S_OK ) 　　{ 　　switch( event.eEventId ) 　　{ 　　。。。　　} 　　} 　　eEventID有很多种，比如SPEI_START_INPUT_STREAM表示开始朗读，SPEI_END_INPUT_STREAM表示朗读结束等。　　可以根据需要进行判断使用。

编辑本段四、结束语

　　SAPI的功能很多，比如语音识别、使用语法分析等，由于条件和精力有限，我未能一一尝试，感兴趣的朋友可以自己安装一个研究一下。

-------------------------------------------------------------------------------------------------------------------------------------------------

关于SAPI的简介

API 概述

SAPI API在一个应用程序和语音引擎之间提供一个高级别的接口。SAPI 实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。

SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。

文本语音转换API

应用程序能通过IspVoice的对象组建模型(COM)接口控制文本语音转换。一旦一个应用程序有一个已建立的IspVoice对象(见Text-to-Speech指南)，这个应用程序就只需要调用ISpVoice::Speak 就可以从文本数据得到发音。另外，ISpVoice接口也提供一些方法来改变声音和合成属性，如语速ISpVoice::SetRate，输出音量ISpVoice::SetVolume，改变当前讲话的声音ISpVoice::SetVoice等。

特定的SAPI控制器也可以嵌入输入文本使用来实时的改变语音合成器的属性，如声音，音调，强调字，语速和音量。这些合成标记在sapi.xsd中，使用标准的XML格式，这是一个简单但很强大定制TTS语音的方法，不依赖于特定的引擎和当前使用的声音。

ISpVoice::Speak方法能够用于同步的（当完全的完成朗读后才返回）或异步的（立即返回，朗读在后台处理）操作。当同步朗读（SPF_ASYNC）时，实时的状态信息如朗读状态和当前文本位置可以通过ISpVoice::GetStatus得到。当异步朗读时，可以打断当前的朗读输出以朗读一个新文本或者把新文本自动附加在当前朗读输出的文本的末尾。

除了ISpVoice接口之外SAPI也为高级TTS应用程序提供许多有用的COM接口。

事件

SAPI用标准的回调机制（Window消息, 回调函数 or Win32 事件）来发送事件来和应用程序通信。对于TTS，事件大多用于同步地输出语音。应用程序能够与它们发生的实时行为例如单词边界，音素，口型或者应用程序定制的书签等同步。应用程序能够用ISpNotifySource, ISpNotifySink, ISpNotifyTranslator, ISpEventSink, ISpEventSource, 和 ISpNotifyCallback初始化和处理这些实时事件。

字典

应用程序通过使用ISpContainerLexicon, ISpLexicon 和IspPhoneConverter提供的方法能为语音合成引擎提供定制的单词发音。

资源

查找和选择SAPI语音数据如声音文件及发音字典可以被下列COM接口控制：ISpDataKey, ISpRegDataKey, ISpObjectTokenInit, ISpObjectTokenCategory, ISpObjectToken, IEnumSpObjectTokens, ISpObjectWithToken, ISpResourceManager 和 IspTask。

音频

最后，有一个接口能把声音输出到一些指定目标如电话和自定硬件 (ISpAudio, ISpMMSysAudio, ISpStream, ISpStreamFormat, ISpStreamFormatConverter)。

语音识别 API

就像ISpVoice是语音合成的主接口，IspRecoContext是语音识别的主接口。像ISpVoice一样，它是一个IspEventSource接口，这意味着它是语音程序接收被请求的语音识别事件通知的媒介。

一个应用程序必须从两个不同类型的语音识别引擎(ISpRecognizer)中选择一种。一种是可以与其它语音识别程序共享识别器的语音识别引擎，这在大多数识别程序中被推荐使用。为了为IspRecognizer建立一个共享的ISpRecoContext接口，一个应用程序只需要用CLSID_SpSharedRecoContext调用COM的 CoCreateInstance方法。这种方案中，SAPI将建立一个音频输入流，把它设置为SAPI默认的音频输入流。对于大型服务器程序，它可能在单独在一个系统上运行，性能是关键，一个InProc语音识别引擎更适合。

为了为InProc ISpRecognizer建立一个IspRecoContext，程序必须首先用CLSID_SpInprocRecoInstance调用CoCreateInstance来建立属于它自己的InProc IspRecognizer。然后程序必须调用ISpRecognizer::SetInput(见 also ISpObjectToken)来建立一个音频输入流。最后程序可以调用ISpRecognizer::CreateRecoContext来得到一个IspRecoContext。

下一步是建立程序感兴趣的事件通知，因为IspRecognizer也是一个IspEventSource，IspEventSource实际上是IspNotifySource，程序从它的ISpRecoContext可以调用IspNotifySource的一个方法来指出IspRecoContext的哪里的事件应该被报告。然后它应该调用ISpEventSource::SetInterest来指出哪些事件应该通报。最重要的事件是SPEI_RECOGNITION，指出和IspRecoContext相关的IspRecognizer已经识别了一些语音。其他可用到的语音识别事件的详细资料参见SPEVENTENUM。

最后，一个语音程序必须建立，加载，并且激活一个IspRecoGrammar，本质上就是指出哪些类型的发言被识别，例如口述或一个命令和控制文法。首先，程序用ISpRecoContext::CreateGrammar建立一个IspRecoGrammar，然后程序加载适合的文法，下面两个方法中调用其中一个：口述模式的调用方法ISpRecoGrammar::LoadDictation，命令和控制模式的则调用方法ISpRecoGrammar::LoadCmdxxx。最后为了激活这些文法以开始进行识别，程序为口述模式调用ISpRecoGrammar::SetDictationState或者为命令和控制模式调用调用ISpRecoGrammar::SetRuleState或者ISpRecoGrammar::SetRuleIdState。

当识别依靠通知机制返回到程序，SPEVENT结构的成员lParam将是一个IspRecoResult，程序可以确定什么被识别和使用了IspRecoContext的哪个IspRecoGrammar。

一个IspRecognizer，无论是否是共享的还是InProc的，都可以有多个IspRecoContexts和它关联，并且每个都可以通过它自己的事件通知方法通知IspRecognizer。从一个IspRecoContext可以建立多个IspRecoGrammars，以便于识别不同类型的发言。

利用微软Speech SDK 5.1在MFC中进行语音识别开发时的主要步骤，以Speech API 5.1+VC6为例：

1、初始化COM端口
一般在CWinApp的子类中，调用CoInitializeEx函数进行COM初始化，代码如下：
::CoInitializeEx(NULL,COINIT_APARTMENTTHREADED); // 初始化COM
注意：调用这个函数时，要在工程设置（project settings）->C/C++标签,Category中选Preprocessor，在Preprocessor definitions:下的文本框中加上“,_WIN32_DCOM”。否则编译不能通过。

2、创建识别引擎
微软Speech SDK 5.1 支持两种模式的：共享（Share）和独享（InProc）。一般情况下可以使用共享型，大的服务型程序使用InProc。如下：
hr = m_cpRecognizer.CoCreateInstance(CLSID_SpSharedRecognizer);//Share
hr = m_cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);//InProc
如果是Share型，可直接进到步骤3；如果是InProc型，必须使用 ISpRecognizer::SetInput 设置语音输入。如下：
CComPtr<ISpObjectToken> cpAudioToken; //定义一个token
hr = SpGetDefaultTokenFromCategoryId(SPCAT_AUDIOIN, &cpAudioToken); //建立默认的音频输入对象
if (SUCCEEDED(hr)) { hr = m_cpRecognizer->SetInput(cpAudioToken, TRUE);}
或者：
CComPtr<ISpAudio> cpAudio; //定义一个音频对象
hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN, &cpAudio);//建立默认的音频输入对象
hr = m_cpRecoEngine->SetInput(cpAudio, TRUE);//设置识别引擎输入源

3、创建识别上下文接口
调用 ISpRecognizer::CreateRecoContext 创建识别上下文接口（ISpRecoContext），如下：
hr = m_cpRecoEngine->CreateRecoContext( &m_cpRecoCtxt );

4、设置识别消息
调用 SetNotifyWindowMessage 告诉Windows哪个是我们的识别消息，需要进行处理。如下：
hr = m_cpRecoCtxt->SetNotifyWindowMessage(m_hWnd, WM_RECOEVENT, 0, 0);
SetNotifyWindowMessage 定义在 ISpNotifySource 中。

5、设置我们感兴趣的事件
其中最重要的事件是”SPEI_RECOGNITION“。参照 SPEVENTENUM。代码如下：
const ULONGLONG ullInterest = SPFEI(SPEI_SOUND_START) | SPFEI(SPEI_SOUND_END) | SPFEI(SPEI_RECOGNITION) ;
hr = m_cpRecoCtxt->SetInterest(ullInterest, ullInterest);

6、创建语法规则
语法规则是识别的灵魂，必须要设置。分为两种，一种是听说式（dictation），一种是命令式（command and control---C&C）。首先利用ISpRecoContext::CreateGrammar 创建语法对象，然后加载不同的语法规则，如下：

//dictation
hr = m_cpRecoCtxt->CreateGrammar( GIDDICTATION, &m_cpDictationGrammar );
if (SUCCEEDED(hr))
{
hr = m_cpDictationGrammar->LoadDictation(NULL, SPLO_STATIC);//加载词典
}

//C&C
hr = m_cpRecoCtxt->CreateGrammar( GIDCMDCTRL, &m_cpCmdGrammar);
然后利用ISpRecoGrammar::LoadCmdxxx 加载语法，例如从CmdCtrl.xml中加载：
WCHAR wszXMLFile[20]=L"";
MultiByteToWideChar(CP_ACP, 0, (LPCSTR)"CmdCtrl.xml" , -1, wszXMLFile, 256);//ANSI转UNINCODE
hr = m_cpCmdGrammar->LoadCmdFromFile(wszXMLFile,SPLO_DYNAMIC);
注意：C&C时，语法文件使用xml格式，参见Speech SDK 5.1 中的 Designing Grammar Rules。简单例子：
<GRAMMAR LANGID="804">
 <DEFINE>
 <ID NAME="CMD" VAL="10"/>
 </DEFINE>
 <RULE NAME="COMMAND" ID="CMD" TOPLEVEL="ACTIVE">
 <L>
尹成
山东大学
中科院
 </L>
 </RULE>
</GRAMMAR>
LANGI*="804"代表简体中文，在<*>...</*>中增加命令。

7、在开始识别时，激活语法进行识别
hr = m_cpDictationGrammar->SetDictationState( SPRS_ACTIVE );//dictation
hr = m_cpCmdGrammar->SetRuleState( NULL,NULL,SPRS_ACTIVE );//C&C

8、获取识别消息，进行处理
截获识别消息（WM_RECOEVENT），然后处理。识别的结果放在CSpEvent的ISpRecoResult 中。如下：

USES_CONVERSION;
CSpEvent event;

switch (event.eEventId)
{
case SPEI_RECOGNITION:
{
//识别出了语音输入
m_bGotReco = TRUE;
static const WCHAR wszUnrecognized[] = L"<Unrecognized>";

CSpDynamicString dstrText;

//取得识别结果
if (FAILED(event.RecoResult()->GetText(SP_GETWHOLEPHRASE, SP_GETWHOLEPHRASE, TRUE ,&dstrText, NULL)))
{
dstrText = wszUnrecognized;
}

BSTR SRout;
dstrText.CopyToBSTR(&SRout);

CString Recstring;
Recstring.Empty();
Recstring = SRout;

//进一步处理
......
}
break;
}

9、释放创建的引擎、识别上下文对象、语法等。调用相应的Release函数即可。

本文来自CSDN博客：http://blog.csdn.net/yincheng01/archive/2010/02/20/5313204.aspx

Windows 语音识别编程

　语音类
　　1)在构造语音类之前，必须先设置好工程环境：
　　a、从微软官方网站下载windows speech sdk并安装，然后在Visual Studio 6.0中进行相关设置，在Project Setings选项的C++选项卡的“分类：预处理器”添加“,__WIN32_DCOM”(为预先初始化COM组件成功)；
　　b、将预处理头文件选项选中“自动使用预补偿页眉”；
　　c、在常规选项卡中选择“实用MFC静态连接库”；
　　入图：（一）
　　
　　2)封装语音类
　　由于采用面向对象的编程理念，借助UML（Unified Modeling Language统一建模语言）构造CSPEECH语音类如下
　　
　　CSPEECH类
　　
　　+ void InitSR(); //初始化语音
　　+void RecoEvent();//识别命令函数
　　
　　+BOOL b_initSR;
　　+BOOL b_Cmd_Grammar;
　　
　　//3个语音接口
　　+CComPtr m_cpRecocontxt;
　　+CComPtr m_cpRecoGrammar;
　　+CComPtr m_cpRecoEngine;
　　
　　然后开始添加语音类，需要注意的是在定义语音类的头文件中，包含〈sphelper.h〉并且自定义语音识别消息和类型
　　#define GID_CMD_GR 333333
　　#define WM_RECOEVENT WM_USER+102
　　剩下来就是对cpp文件的函数initSR()和RecoEvent()补充函数体
　　
　　3）具体见下面代码：
　　（1）void CSpeech::initSR()
　　{
　　HRESULT hr=S_OK;
　　hr=m_cpRecoEngine.CoCreateInstance(CLSID_SpInprocRecognizer);//创建识别引擎COM实例
　　if(SUCCEEDED(hr))
　　{
　　hr =m_cpRecoEngine->CreateRecoContext(&m_cpRecoCtxt );//创建识别上下文
　　}
　　else
　　MessageBox(hWnd,"error1","error",S_OK);
　　if(SUCCEEDED(hr))
　　{
　　hr = m_cpRecoCtxt->SetNotifyWindowMessage(hWnd, WM_RECOEVENT, 0, 0 );
　　}//消息机制设置，使计算机时刻监听语音消息
　　else
　　MessageBox(hWnd,"error2","error",S_OK);
　　if (SUCCEEDED(hr))
　　{
　　ULONGLONG ullMyEvents = SPFEI(SPEI_RECOGNITION) | SPFEI(SPEI_HYPOTHESIS);
　　hr = m_cpRecoCtxt->SetInterest(ullMyEvents, ullMyEvents);
　　}
　　else
　　MessageBox(hWnd,"error3","error",S_OK);
　　//设置默认的音频
　　CComPtr m_cpAudio;
　　hr=SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN,&m_cpAudio);//建立默认的音频输入对象
　　hr=m_cpRecoEngine->SetInput(m_cpAudio,TRUE);//设置识别引擎输入源
　　hr=m_cpRecoCtxt->CreateGrammar(GID_CMD_GR,&m_cpCmdGrammar);//创建命令语法
　　b_Cmd_Grammar=TRUE;
　　if(FAILED(hr))
　　{
　　MessageBox(hWnd,"error 4","error",S_OK);
　　}
　　hr=m_cpCmdGrammar->LoadCmdFromResource(NULL,MAKEINTRESOURCEW(IDR_CMDCTRL),L"SRGRAMMAR",MAKELANGID(LANG_NEUTRAL,SUBLANG_NEUTRAL), SPLO_DYNAMIC);//加载命令语法文件
　　if(FAILED(hr))
　　{
　　MessageBox(hWnd,"error5","error",S_OK);
　　}
　　b_initSR=TRUE;
　　}
　　
　　（2）BOOL CSpeech::RecoEvent()
　　{
　　USES_CONVERSION;
　　CSpEvent event;
　　while(event.GetFrom(m_cpRecoCtxt)==S_OK)
　　{
　　switch(event.eEventId)
　　{
　　case SPEI_RECOGNITION:
　　{
　　static const WCHAR wszUnrecognized[]=L"";
　　CSpDynamicString dstrText;
　　if(FAILED(event.RecoResult()->GetText(SP_GETWHOLEPHRASE,SP_GETWHOLEPHRASE,TRUE,&dstrText,NULL)))
　　{
　　dstrText=wszUnrecognized;
　　}
　　dstrText.CopyToBSTR(&SRout);
　　Recstring.Empty();
　　Recstring=SRout;
　　if(b_Cmd_Grammar)
　　{
　　if(Recstring=="左")
　　{
　　ISpVoice *pVoice=NULL;
　　if(FAILED(CoInitialize(NULL)))
　　{
　　MessageBox(hWnd,"Error to initialize COM","error",S_OK);
　　return FALSE;
　　}
　　HRESULT hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,IID_ISpVoice,(void**)&pVoice);
　　if(SUCCEEDED(hr))
　　{
　　hr=pVoice->Speak(L"左转",0,NULL);
　　pVoice->Release();
　　pVoice=NULL;
　　}
　　CoUninitialize();
　　m_OpenGL->m_baiscobj->LEFT=1;
　　return TRUE ;
　　}
　　
　　if(Recstring=="向下走")
　　{
　　ISpVoice *pVoice=NULL;
　　if(FAILED(CoInitialize(NULL)))
　　{
　　MessageBox(hWnd,"Error to initialize COM","error",S_OK);
　　return FALSE;
　　}
　　HRESULT hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,IID_ISpVoice,(void**)&pVoice);
　　if(SUCCEEDED(hr))
　　{
　　hr=pVoice->Speak(L"开始后退",0,NULL);
　　pVoice->Release();
　　pVoice=NULL;
　　}
　　CoUninitialize();
　　m_OpenGL->m_baiscobj->BACK=1;
　　return TRUE ;
　　}
　　if(Recstring=="最小化")
　　{
　　ISpVoice *pVoice=NULL;
　　if(FAILED(CoInitialize(NULL)))
　　{
　　MessageBox(hWnd,"Error to initialize COM","error",S_OK);
　　return FALSE;
　　}
　　HRESULT hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,IID_ISpVoice,(void**)&pVoice);
　　if(SUCCEEDED(hr))
　　{
　　hr=pVoice->Speak(L"最小化",0,NULL);
　　pVoice->Release();
　　pVoice=NULL;
　　}
　　CoUninitialize();
　　SendMessage(hWnd,WM_SYSCOMMAND, SC_MINIMIZE, MAKELPARAM(0, 0));
　　
　　return TRUE;
　　}
　　if(Recstring=="右")
　　{
　　ISpVoice *pVoice=NULL;
　　if(FAILED(CoInitialize(NULL)))
　　{
　　MessageBox(hWnd,"Error to initialize COM","error",S_OK);
　　return FALSE;
　　}
　　HRESULT hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,IID_ISpVoice,(void**)&pVoice);
　　if(SUCCEEDED(hr))
　　{
　　hr=pVoice->Speak(L"开始右转",0,NULL);
　　pVoice->Release();
　　pVoice=NULL;
　　}
　　CoUninitialize();
　　m_OpenGL->m_baiscobj->RIGHT=1;
　　return TRUE ;
　　}
　　if(Recstring=="停下来")
　　{
　　ISpVoice *pVoice=NULL;
　　if(FAILED(CoInitialize(NULL)))
　　{
　　MessageBox(hWnd,"Error to initialize COM","error",S_OK);
　　return FALSE;
　　}
　　HRESULT hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,IID_ISpVoice,(void**)&pVoice);
　　if(SUCCEEDED(hr))
　　{
　　hr=pVoice->Speak(L"动作开始了",0,NULL);
　　pVoice->Release();
　　pVoice=NULL;
　　}
　　CoUninitialize();
　　m_OpenGL->m_baiscobj->Move=0;
　　m_OpenGL->m_baiscobj->BACK=0;
　　m_OpenGL->m_baiscobj->LEFT=0;
　　m_OpenGL->m_baiscobj->RIGHT=0;
　　return TRUE ;
　　}
　　
　　if(Recstring=="跑步")
　　{
　　ISpVoice *pVoice=NULL;
　　if(FAILED(CoInitialize(NULL)))
　　{
　　MessageBox(hWnd,"Error to initialize COM","error",S_OK);
　　return FALSE;
　　}
　　HRESULT hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,IID_ISpVoice,(void**)&pVoice);
　　if(SUCCEEDED(hr))
　　{
　　hr=pVoice->Speak(L"动作开始了",0,NULL);
　　pVoice->Release();
　　pVoice=NULL;
　　}
　　CoUninitialize();
　　m_OpenGL->m_baiscobj->Move=1;
　　return TRUE ;
　　}
　　if(Recstring=="退出")
　　{
　　m_OpenGL->CleanUp(); // 结束处理
　　PostQuitMessage(0);
　　return TRUE;
　　}
　　}
　　}
　　}
　　}return TRUE;
　　}
　　要注意的是RecoEvent（）必须能处理人物、摄像头的漫游，所以在人物、摄像机类的行为函数中添加了控制变量Move、BACK、LEFT、RIGHT;并附了初值1，当在行为函数中为1时行为函数体执行，所以也必须
　　#include "OpenGL.h"
　　#include "baiscobj.h"
　　其间我们借助于指针变量，巧妙的使语音能控制行为，却不影响动画的刷新，但不足的是由于opengl动画md2模型的不能导入成功，使踢球，跳木箱等功能函数没有完成，所以只要行为函数出来，可通过上述同样方法实现语音控制。
　　
　　4）如何在winmain()函数中执行语音程序？
　　首先包含语音头文件〈sapi.h〉
　　接着（#define CSpeech speech）定义语音类对象
　　
　　INT WINAPI WinMain(HINSTANCE hInst,HINSTANCE,LPSTR,INT )// WinMain程序入口
　　{
　　::CoInitializeEx(NULL,COINIT_APARTMENTTHREADED);//初始化COM
　　……
　　char cc[]="tml";
　　WNDCLASSEX wc = { sizeof(WNDCLASSEX), CS_CLASSDC, MsgProc, 0L, 0L,
　　GetModuleHandle(NULL), NULL, NULL, NULL, (LPCTSTR)IDR_MENU1,
　　cc, NULL };
　　RegisterClassEx( &wc );
　　m_OpenGL=new OpenGL();//
　　hWnd = CreateWindowEx(NULL,cc,"智能精灵键盘(↑进↓退→右←左UP仰DOWM俯)",
　　dwStyle|WS_CLIPCHILDREN|WS_CLIPSIBLINGS,nX,nY,Width, Height,NULL,NULL,hInst,NULL); // 创建窗口
　　ShowWindow( hWnd, SW_SHOWDEFAULT ); // 显示窗口
　　UpdateWindow( hWnd ); // 刷新窗口
　　speech.b_Cmd_Grammar=FALSE;
　　speech.initSR();
　　GameLoop(); // 进入消息循环
　　return 0;
　　}
　　通过speech.initSR(),执行语音的初始化，为了设置一个简单的语音识别开关，简单的添加一个任务栏，只有语音这一个菜单资源，然后利用消息机制，在消息处理函数里Switch(message)里添加：
　　case WM_COMMAND:
　　switch(LOWORD(wParam))
　　{
　　case IDM_SPEECH:speech.startcmd();
　　}
　　return 0;break;
　　即当单击语音菜单时，则使语音功能完全激活，下面是这个函数的实体：
　　
　　void CSpeech::startcmd()
　　{
　　if(b_initSR)
　　{
　　HRESULT hr=m_cpCmdGrammar->SetRuleState(NULL,NULL,SPRS_ACTIVE);
　　ISpVoice *pVoice=NULL;
　　if(FAILED(CoInitialize(NULL)))
　　{
　　MessageBox(hWnd,"Error to initialize COM","error",S_OK);
　　return ;
　　}
　　hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,IID_ISpVoice,(void**)&pVoice);
　　if(SUCCEEDED(hr))
　　{
　　hr=pVoice->Speak(L"语法已经激活",0,NULL);
　　pVoice->Release();
　　pVoice=NULL;
　　}
　　CoUninitialize();
　　}
　　}
　　5）在所有的工作完成之前，还必须先在项目工程下添加XML语法文件，通过initSR（）中的LoadCmdFromResource（）函数加载；XML文件可通过以记事本形式打开编辑。具体如下：
　　---
下

左

右

向上走

向下走

跳

停下来

跑步

识别

语音

还原

文件

踢球

你可能感兴趣的:(vc++,微软,语音引擎)

源分离：开启音频处理新纪元魏侃纯Zoe
源分离：开启音频处理新纪元source_separation项目地址:https://gitcode.com/gh_mirrors/so/source_separation在音频处理的浩瀚领域中，源分离项目宛如一颗璀璨的明星。今天，我们要探索的不仅是技术的前沿，更是音频编辑和增强的一个革命性工具。源分离旨在从复杂的声音记录中提取出清晰的语音，它不仅仅是一个代码库，而是通往更真实声音世界的大门。项目
《解锁AudioSet：开启音频分析的无限可能》
音频新时代的“密钥”：AudioSet登场在科技飞速发展的今天，音频作为信息传播与交互的关键媒介，早已渗透到现代科技的各个角落。从智能手机中的语音助手，让我们通过简单的语音指令就能查询信息、发送消息，到智能家居系统，凭借音频识别技术实现设备的智能控制，如智能音箱可根据我们的声音命令播放音乐、查询天气；从沉浸式的虚拟现实（VR）和增强现实（AR）体验中，逼真的音效让人身临其境，到智能驾驶领域，通过对
音频单声道跟立体声道的区别张海森_168820 音视频
音频单声道跟立体声道的区别摘自chatgpt单声道（Mono）和立体声（Stereo）的区别，主要在于声道数与空间感的不同：1.定义对比：项目单声道（Mono）立体声（Stereo）声道数1个2个（左声道+右声道）声音来源所有声音都从一个声道发出声音分布在两个声道，模拟空间感空间效果无空间感有方向、空间定位感（左右差异）文件大小相对较小文件更大（多一倍音频数据）常见应用电话、对讲机、语音识别等音乐
什么是WebAssembly（WASM） MonkeyKing.sun wasm 区块链
WebAssembly（WASM）是一种高性能的低级编程语言字节码格式，可在网页和非网页环境中运行，支持多语言编译，运行速度接近原生代码。它在区块链中的作用是：作为智能合约的执行引擎，被多条非以太坊链（如Polkadot、EOS、CosmWasm）采用。Polkadot和EOS是使用WebAssembly的两个代表性区块链平台，它们与Solidity+EVM（以太坊生态）形成鲜明对比。一、什么是W
c# 讯飞语音 sdk 水火阴阳色空不二人工智能 sdk 讯飞语音 c#
首先感谢原作者。未经允许就转载了。http://blog.csdn.net/qqh19910525/article/details/50799510-----------------------------------------------------前奏，浑浑噩噩已经工作一年多，这一年多收获还是挺多的。逛园子应该有两年多了，工作后基本上是天天都会来园子逛逛，园子里还是有很多牛人写了一些不错的博
2025 AI编程工具全景图：七强横评与实战落地实战指南杜哥无敌 AI应用人工智能
—深度拆解最新技术趋势，赋能开发者效率革命一、市场现状与演进趋势：从辅助工具到开发核心引擎2025年，AI编程工具已从“代码补全插件”进化为覆盖需求分析、编码、测试、部署的全流程智能伙伴。据Gartner数据，全球75%开发者依赖AI生成代码，头部企业25%的新代码由AI生成后人工审核。技术演进呈现三大特征：多模型协同：主流工具集成GPT-4o、Claude3.7、Gemini2.0等模型，动态切
牛客 AI 面试 Ultra 版重磅升级！定义智能招聘新高度，三大颠覆性创新，重新诠释 AI 面试专业标杆牛客企业服务人工智能面试职场和发展求职招聘 python java 算法
在招聘竞争日益激烈的当下，国内领先的AI招聘平台牛客，凭借对行业痛点的精准洞察和技术创新的不懈追求，再次为招聘领域带来革命性突破——牛客AI面试Ultra版震撼发布！01.智能交互革命：2秒极速追问，双向对话零延迟●全语音沉浸式体验：无需手动操作，候选人开口即答，数字面试官依托实时推理引擎，2秒内触发多维追问，基于岗位胜任力模型（如冰山模型）层层挖掘需求理解、沟通能力、抗压能力等核心素质。●候选人
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
C# 讯飞语音唤醒 jones.s c#
publicpartialclassMainWindow:Window{//导入C/C++的库文件[DllImport("msc_x64.dll",CallingConvention=CallingConvention.Winapi)]publicstaticexternintMSPLogin(stringusername,stringpassword,stringloginParams);[Dl
InnoDB 索引数据结构的详解 lanbing Mysql 数据结构 mysql
InnoDB存储引擎的索引结构基于B+树（B+Tree），这是其核心特性之一。B+树的设计结合了磁盘存储特性和数据库查询需求，能够高效地处理大规模数据的查找、插入、删除和范围查询操作。以下是InnoDB索引数据结构的详细说明：1.B+树的结构特点B+树是一种自平衡的多路搜索树，其核心特性如下：所有数据存储在叶子节点：B+树的非叶子节点仅存储键值（Key）和子节点指针，而实际的数据（记录）只存在于叶
讯飞语音--唤醒Demo 程序小圆_ Android 讯飞语音唤醒
写的第一篇博客,因为最近姐姐说起了一个段子,一男子在地铁站手机找不到了,但是带了蓝牙耳机,耳机还有内容,男子想手机一定还在附近,随即大喊一句,悟空你在哪儿,手机循环回答,我在这.....这时,拿手机那哥们回了男子一个尴尬而不失礼貌的微笑,哈哈所以我想起讯飞语音,就试着写了一下语音唤醒的Demo,也借鉴了很多前辈的博客,就不一一列举了,各位不喜勿喷接下来进入正题,首先在讯飞官网下载对应的SDK,下载
一款wordperss AI免费插件自动内容生成+前端AI交互+文章批量采集 Linkreate 前端人工智能 wordpress wordpressAI插件 wordpress免费插件 wordpress自动发文自动发文源码
一款LinkreatewordperssAI自动内容生成+前端AI会话窗口交互+文章批量采集免费插件1.SEO优化文章生成关键词驱动的内容生成：用户可以输入关键词或长尾关键词，插件会根据这些关键词生成高质量的SEO优化文章。文章结构清晰，语言自然流畅，符合SEO标准，能够有效提升网站内容的搜索引擎排名。自定义文章长度和要求：用户可以根据需要指定文章的长度（字数）以及对文章的额外要求，例如内容风格、
MySQL数据库段帅龙呀 Linux 数据库 mysql linux
数据库（Mysql）默认端口###port=3306数据文件默认位置/usr/local/mysql/data数据库的引擎###InnoDB存储引擎:默认引擎,最常用的。（支持事务）###查看当前默认存储引擎showvariableslike'%storage_engine%';数据库的种类###关系型数据库###非关系型数据库。sql语句#SQL（StructuredQueryLanguage即
Python实现语音识别功能，只需3个步骤！
调用科大讯飞语音听写，使用Python实现语音识别，将实时语音转换为文字。首先在官网下载了关于语音听写的SDK，然后在文件夹内新建了两个.py文件，分别是get_audio.py和iat_demo.py，并且新建了一个存放录音的文件夹audios，文件夹内存放录音文件input.wav，我的整个文件目录如下：asr_SDK(文件名)├─Readme.html├─audios│└─input.wav
从零开始：Python实现语音识别的完整教程 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别 xcode ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、完整教程、语音输入、文字输出摘要：本文将带领大家从零开始，用Python实现语音识别功能。我们会详细介绍语音识别的核心概念、相关算法原理，通过具体的代码示例，一步步教大家搭建开发环境、实现语音识别代码，并对代码进行解读。同时，还会探讨语音识别的实际应用场景、推荐相关工具和资源，最后分析未来发展趋势与挑战。背景介绍目的和范围
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
从零开始：用Python构建AI语音识别应用的完整指南 AI大模型应用之禅人工智能 python 语音识别 ai
从零开始：用Python构建AI语音识别应用的完整指南关键词：Python语音识别、AI语音处理、语音转文本、SpeechRecognition库、端到端模型摘要：本文从0到1带您掌握用Python构建AI语音识别应用的全流程。我们将用“给小学生讲故事”的方式，拆解语音识别的核心概念（如音频采集、特征提取、模型解码），结合代码实战（从调用API到自定义模型），并覆盖环境搭建、常见问题和未来趋势。无
MySQL 的日志分析 jarenyVO Mysql 数据库
MySQL的日志分析MySQL的日志系统是保证数据一致性、持久性和高可用的核心组件，不同日志各司其职。以下是详细分类和解析：一、事务日志（InnoDB引擎层）1.RedoLog（重做日志）物理格式：循环写入的固定大小文件（默认ib_logfile0、ib_logfile1）核心作用：崩溃恢复：确保事务的持久性（Durability）Write-AheadLogging(WAL)：数据页修改前先写r
导师要求一天完成综述，我7分钟搞定——打造一个全本地DeepResearch助手小洛~·~ 人工智能深度学习 chatgpt gpt AI写作
1.项目背景LocalDeepResearcher是一个本地化运行的AI研究助手，旨在通过结合大语言模型（LLM）和搜索工具，实现自动化深度研究并生成结构化报告。该项目由LangChainAI开发，支持本地模型（例如通过Ollama运行的deepseek-r1:7b）和云端模型（例如Claude、GPT），并集成了多种搜索引擎（如Tavily、DuckDuckGo）。其本地优先的设计确保了数据隐私
Unity引擎开发：VR渲染技术_（19）.VR项目实例开发 chenlz2007 虚拟现实游戏2 unity vr lucene 游戏引擎 json 全文检索
VR项目实例开发在本节中，我们将通过一个具体的虚拟现实项目实例，详细介绍如何在Unity引擎中实现VR渲染技术。我们将从项目的基本设置开始，逐步讲解如何创建VR场景、配置相机、添加交互元素、优化性能等方面的内容。通过本节的学习，您将能够掌握在Unity中开发VR项目的基本流程和技术要点。1.项目基本设置1.1创建新的VR项目首先，打开UnityHub并创建一个新的项目。选择“3D”模板，然后在项目
springboot使用@Transactional失效问题排查
1、排查数据库引擎是不是InnoDB2、启动类是否开启@EnableTransactionManagement3、重点在使用@Transactional(rollbackFor=Exception.class)这个注解的类或者方法中是否有trycatch如果有，要在catch中设置手动回滚//设置手动回滚TransactionAspectSupport.currentTransactionStat
如何向AI提问？人邮异步社区人工智能 AI编程程序员大模型
如何向AI提问？让我们从DeepSeek开始入手。DeepSeek不是一个单纯的搜索引擎，更不是一个单纯听你指令的、只会执行命令的“机器人”。如果只是把它单纯当作高级搜索、当作执行命令的机器人，就严重低估了它的价值。DeepSeek能帮我们完成如下工作：DeepSeek的这几个功能是什么？结合DeepSeekApp界面，我们详细介绍一下几个常用的功能。上传文件：除了采用文字交互方式，用户也可以上传
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
【ubuntu安装docker】大叔是90后大叔运维 docker Linux ubuntu docker
ubuntu安装docker通过官方仓库安装‌1.卸载旧版本（如有）‌2.更新系统并安装依赖‌3.添加Docker官方GPG密钥‌4.添加Docker仓库‌5.安装Docker引擎‌6.启动docker7.设置docker开机自动启动8.验证安装‌9.配置权限（避免每次用sudo）‌10.安装DockerCompose（可选）‌‌11.卸载Docker‌12.常见问题解决‌代理设置‌（如遇网络问题
Node.js特训专栏-实战进阶：7.Express模板引擎选型与使用爱分享的程序员 Node.js node.js 前端 javascript
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情Express模板引擎选型与使用全解析：打造动态Web页面的利器在基于Express构建Web应用时，模板引擎是生成动态页面的核心组件。它允许开发者将数据与HTML结构分离，通过简单的语法将后端数据动态填充到页面中。市面上存在多种模板引擎
Unity团结引擎实战：鸿蒙游戏开发全指南编号:0517 鸿蒙 harmonyos5.0 unity 华为鸿蒙
鸿蒙游戏开发实战：Unity团结引擎适配指南与代码示例文/技术探索随着鸿蒙生态的快速扩张，Unity游戏向鸿蒙OS（OpenHarmony）的迁移已成为开发者新需求。本文将基于Unity团结引擎（专为鸿蒙定制的Unity分支），详解适配流程并提供可运行的代码示例。一、团结引擎：鸿蒙原生适配的核心工具Unity中国推出的团结引擎（基于Unity2022LTS定制）是当前唯一官方支持的鸿蒙适配方案，其
Unity团结引擎深度适配HarmonyOS 5.0：渲染架构与系统能力整合指南 H老师带你学鸿蒙游戏引擎 HarmonyOS5.0 unity 华为鸿蒙 DevEco Studio
随着HarmonyOS5.0的发布，华为操作系统在分布式能力和性能优化方面实现了重大突破。Unity团结引擎作为领先的游戏引擎，深度适配HarmonyOS5.0对开发者来说意义重大。本文将深入探讨Unity在HarmonyOS上的渲染架构优化与系统能力整合，并提供实用的代码示例。一、环境配置与项目设置要开始HarmonyOS5.0下的Unity开发，首先完成环境配置：安装UnityHub2022L
AR技术：开启工业维修新纪元，赋能效率与精准 Teamhelper_AR ar
在当今数字化浪潮的推动下，增强现实（AR）技术正以前所未有的速度改变着工业维修领域的面貌。从能源勘探到工业制造，从新能源运维到医疗手术，AR技术的应用不仅极大地提高了工作效率，还为专业人员提供了前所未有的精准支持。本文将深入探讨AR技术如何解决工业维修中的难题，并展望其在未来的发展趋势。引言：AR技术，工业维修的新引擎2025年，增强现实（AR）技术已从科幻概念蜕变为驱动产业升级的核心引擎。全球A
.NET开发后端常用工具软件分享 DeFunction .net 后端
在.NET开发的后端领域，有许多工具软件可以帮助开发人员提高效率、简化开发流程并改善代码质量。本文将介绍一些常用的.NET后端开发工具，并提供相应的源代码示例。VisualStudioIDEVisualStudio是微软提供的集成开发环境（IDE），是.NET开发的首选工具。它提供了丰富的功能和工具，包括代码编辑器、调试器、自动完成、代码重构、版本控制等。以下是一个使用VisualStudio创建
疏通经脉: Bridge 联通逻辑层和渲染层风铃喵游从零搭建小程序框架架构前端小程序架构
本节概述经过前面两节的开发，我们已经完成了小程序逻辑线程和UI线程的启动引擎准备，这节开始，我们将完善nativebridge层的搭建，构建起逻辑线程和UI线程之间的桥梁。开始之前我们先来回顾一下逻辑引擎小节相关的流程图:一次小程序的启动过程，我们在创建好小程序的逻辑引擎worker和绘制引擎webview之后，从启动到渲染依次会经过:通知webview加载小程序资源，如果是首次启动，还需要通知逻
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多