nkliming

如何设计自定义的transform filter(转)

对于DIrectShow的初学者而言，最大的困难莫过于尝试设计自定义的filter。
设计自定义的transform filter是困难的
因为首先filter是一种dll （后缀名为.ax）而编写dll工程需要一定的VC基础所以建议先补充一点dll的知识
其次 dll的注册，GUID的生成和工程的配置都很麻烦。
再次网上缺乏现成的transform filter的例子。DirectShow给的源码比如NULLINPLACE 和CONTRAST都太复杂，都带有对话框和属性页，不适合初学者，而且这些例子没有一个涉及到图像格式的转换，而transform filter最大的公用就是媒体类型的转换，因此这些例子不适用
作为一个初学者，我深深受到这些问题的困扰，经过刻苦钻研终于走出了这个泥潭，豁然开朗。于是把它记录下来，希望可以对其他人有帮助，也作为对08年的一个小结。

我的例子是设计一个 transform filter 把 YUY2 16bit 的媒体转化为RGB24 24bit的类型。
原因是我的摄像头只支持YUY2 16bit这种格式，我想得到位图。。顺便学习一下Filter的设计

以下为具体步骤：

一配置开发环境

   1. VC中在Tools->Options->Directories 设置好DirectX SDK的头文件和库文件路径
   2. 编译了基类源码,生成strmbasd.lib (debug版), strmbase.lib(release版)
   3. VC向导新建一个win32 DLL（empty）工程
   4. Setting->Link->Output file name: YUV2RGBfilter.ax
   5. Setting->Link加入strmbasd.lib winmm.lib quartz.lib vfw32.lib   (注意路径)
   6. 定义一个同名.def文件，加入到工程，内容如下：

        LIBRARY YUV2RGBfilter.ax
        EXPORTS
           DllMain              PRIVATE
           DllGetClassObject    PRIVATE
           DllCanUnloadNow      PRIVATE
           DllRegisterServer    PRIVATE
           DllUnregisterServer PRIVATE

   7.建立一个类 YUV2RGBfilter 建立他的cpp文件和h文件

   8. 在YUV2RGBfilter.cpp中定义DLL的入口函数及注册   放在cpp文件的最后

//
// DllEntryPoint
//
extern "C" BOOL WINAPI DllEntryPoint(HINSTANCE, ULONG, LPVOID);

BOOL APIENTRY DllMain(HANDLE hModule,
DWORD dwReason,
LPVOID lpReserved)
{
return DllEntryPoint((HINSTANCE)(hModule), dwReason, lpReserved);
}

////////////////////////////////////////////////////////////////////////
//
// Exported entry points for registration and unregistration
// (in this case they only call through to default implementations).
//
////////////////////////////////////////////////////////////////////////

STDAPI DllRegisterServer()
{
return AMovieDllRegisterServer2( TRUE );
}

STDAPI DllUnregisterServer()
{
return AMovieDllRegisterServer2( FALSE );
}

9. cpp文件中要包含的头文件

#include <streams.h>
#include <windows.h>
#include <initguid.h>
#include <olectl.h>
#if (1100 > _MSC_VER)
#include <olectlid.h>
#endif
#include "Y2Ruids.h"         // our own public guids
#include "YUV2RGBfilter.h"

二开发Filter

   1. 生成GUID( 命令行模式下运行guidgen工具) 为他建立一个文件Y2Ruids.h 单独引用
#include <initguid.h>
// YUV2toRGB24 Filter Object
// {F91FC8FD-B1A6-49b0-A308-D6EDEAF405DA}
DEFINE_GUID(CLSID_YUV2toRGB24,
0xf91fc8fd, 0xb1a6, 0x49b0, 0xa3, 0x8, 0xd6, 0xed, 0xea, 0xf4, 0x5, 0xda);

   2. 构造CYUV2RGBfilter类继承自CTransformFilter    写在TransformFilter.h中

// ----------------------------------------------------------------------------
// Class definitions of CYUV2RGBfilter
// ----------------------------------------------------------------------------
//
//
class CYUV2RGBfilter : public CTransformFilter
{

public:
static CUnknown * WINAPI CreateInstance(LPUNKNOWN punk, HRESULT *phr);

        STDMETHODIMP NonDelegatingQueryInterface(REFIID riid, void ** ppv);

        DECLARE_IUNKNOWN;
// override pure virtual function
        HRESULT CheckInputType(const CMediaType *mtIn);
        HRESULT CheckTransform(const CMediaType *mtIn, const CMediaType *mtOut);
        HRESULT DecideBufferSize(IMemAllocator *pAlloc, ALLOCATOR_PROPERTIES *pProp);
        HRESULT GetMediaType(int iPosition, CMediaType *pMediaType);
        HRESULT Transform(IMediaSample *pIn, IMediaSample *pOut);

    private:
        //Constructor
        CYUV2RGBfilter(TCHAR *tszName, LPUNKNOWN punk, HRESULT *phr);
   // member function
   VOID ChangeFormat(AM_MEDIA_TYPE* pAdjustedType);
   DWORD ConvertYUV2toRGB(BYTE* yuv, BYTE* rgb, DWORD dsize);

    // member variable
   const long m_lBufferRequest;
        CCritSec m_Y2RLock;     // To serialise access.
};

   3. 按格式改写构造函数
        //
// CNullInPlace::Constructor
//
CYUV2RGBfilter::CYUV2RGBfilter(TCHAR *tszName,LPUNKNOWN punk,HRESULT *phr) :
    CTransformFilter(tszName, punk, CLSID_YUV2toRGB24),
    m_lBufferRequest(1)
{
ASSERT(tszName);
    ASSERT(phr);

} // CYUV2RGBfilter

4. 改写CTransformFilter五个纯虚函数（最重要的地方）

   5. 设计自己的私有函数完成一定的功能

   6. 注册Filter信息

// 注册信息

//setup data

const AMOVIESETUP_MEDIATYPE
sudPinTypes = { &MEDIATYPE_Video // clsMajorType
, &MEDIASUBTYPE_NULL } ; // clsMinorType

const AMOVIESETUP_PIN
psudPins[] = { { L"Input"            // strName
               , FALSE               // bRendered
               , FALSE               // bOutput
               , FALSE               // bZero
               , FALSE               // bMany
               , &CLSID_NULL         // clsConnectsToFilter
               , L"Output"           // strConnectsToPin
               , 1                   // nTypes
               , &sudPinTypes }      // lpTypes
             , { L"Output"           // strName
               , FALSE               // bRendered
               , TRUE                // bOutput
               , FALSE               // bZero
               , FALSE               // bMany
               , &CLSID_NULL         // clsConnectsToFilter
               , L"Input"            // strConnectsToPin
               , 1                   // nTypes
               , &sudPinTypes } };   // lpTypes

const AMOVIESETUP_FILTER
sudYUV2RGB = { &CLSID_YUV2toRGB24                 // clsID
            , L"YUV2RGB"                // strName
            , MERIT_DO_NOT_USE                // dwMerit
            , 2                               // nPins
            , psudPins };                     // lpPin

//
// Needed for the CreateInstance mechanism
//
CFactoryTemplate g_Templates[1]=
    {   {L"YUV2RGB"
        , &CLSID_YUV2toRGB24
        , CYUV2RGBfilter::CreateInstance
        , NULL
        , &sudYUV2RGB }
    };
int g_cTemplates = sizeof(g_Templates)/sizeof(g_Templates[0]);

编译成功后生成GrayFilter.ax
命令行运行regsvr32 GrayFilter.ax注册即可不用反复注册，只用注册一次，如若修改只需将重新编译的.ax覆盖原来的就行了
调试最好在graphEdit中经行比较方便。

以上就是设计一个filter的总体步骤。

三下面就关键点五个重载的纯虚函数做详细介绍。这才是最关键的地方。

        HRESULT CheckInputType(const CMediaType *mtIn);
        HRESULT CheckTransform(const CMediaType *mtIn, const CMediaType *mtOut);
        HRESULT DecideBufferSize(IMemAllocator *pAlloc, ALLOCATOR_PROPERTIES *pProp);
        HRESULT GetMediaType(int iPosition, CMediaType *pMediaType);
        HRESULT Transform(IMediaSample *pIn, IMediaSample *pOut);
这五个函数全部是都纯虚函数，是CTransformFilter为我们提供的接口，必须重载他们才能实例化。
初学者最大的困扰莫过于，是谁调用了这些函数。这些函数调用的时候实参是从哪来的。我一开始就被这些问题困扰。其实DX的帮助文档里就讲的很清楚了只是我一开始没认真看；

CheckInputType是由tranformfiltr的输入pin调用的用来检查本Filter的输入媒体是否合法；
CheckTransform是由tranformfiltr的输出pin调用的用来检查本filter的输出是否和合法；
GetMediaType是有由tranformfiltr的输出pin调用的用来获取该输出端口支持的媒体格式供下游filter的枚举
DecideBufferSize是由tranformfiltr的输出pin调用的来确定buffer的数量和大小
上游filter通过调用filter上输入pin上的IMemInputPin::Receive方法，将sample传递到filter，filter调用CTransformFilter::Transform方法来处理数据

整个过程就是
输入pin调用CheckInputType来筛选上游过来的媒体类型，如果可以接受就有输出pin通GetMediaType来枚举输出媒体类型，进一步通过输出pin的CheckTransform来找到与输入媒体类型相融合的输出媒体类型并选中。在通过DecideBufferSize确定输出buffer的属性，所有的检查和筛选通过以后就可以连接了，并通过tranform 将输入pin上的sample 传个输出pin输出媒体的类型是由GetMediaType来确定的，只要媒体类型对应了就可以成功连接但是数据的传送还是要通过transform来实现。理论上对于没有压缩的视频，一个sample就是一帧的数据，可以精确的量化处理。

要实现输出pin上媒体格式的转化就必须在在GetMediaType函数中修改新的媒体格式，然后在checkTransform中确认输出的媒体格式是不是期望的输出。例如要将YUY2 16bit的媒体格式改为RGB8 8bit的媒体格式就要做如下修改：

在GetMediaType中

CheckPointer(pMediaType,E_POINTER);
   VIDEOINFO   vih;
   memset(&vih, 0, sizeof(vih));
   vih.bmiHeader.biCompression   =   0;
   vih.bmiHeader.biBitCount      =   8;
   vih.bmiHeader.biSize          =   40;
   vih.bmiHeader.biWidth         =   640;
   vih.bmiHeader.biHeight        =   480;
   vih.bmiHeader.biPlanes        =   1;
   vih.bmiHeader.biSizeImage     =   307200;
   vih.bmiHeader.biClrImportant =   0;
      vih.bmiHeader.biClrUsed   =   256;

//alter the pallete
   for (UINT i=0; i<256; i++)
   {
    vih.bmiColors[i].rgbBlue=(BYTE)i;
    vih.bmiColors[i].rgbRed=(BYTE)i;
    vih.bmiColors[i].rgbGreen=(BYTE)i;
    vih.bmiColors[i].rgbReserved=(BYTE)0;
    }
   pMediaType->SetType(&MEDIATYPE_Video);
   pMediaType->SetFormatType(&FORMAT_VideoInfo);
   pMediaType->SetFormat((BYTE*)&vih, sizeof(vih));
   pMediaType->SetSubtype(&MEDIASUBTYPE_RGB8);
   pMediaType->SetSampleSize(307200);

return NOERROR;

然后在checkTransform中确认是否是期望的输出

BITMAPINFOHEADER *pNewType = HEADER(mtOut->Format());

   if ((pNewType->biPlanes==1)
    &&(pNewType->biBitCount==8)
    &&(pNewType->biWidth==640)
    &&(pNewType->biHeight==480)
    &&(pNewType->biClrUsed==256)
    &&(pNewType->biSizeImage==307200))
   {
    return S_OK;
   }

我的实现过程如下

// GetMediaType
//
// I support one type, namely the type of the input pin
// We must be connected to support the single output type
//
HRESULT CYUV2RGBfilter::GetMediaType(int iPosition, CMediaType *pMediaType)
{
// Is the input pin connected

    if(m_pInput->IsConnected() == FALSE)
    {
        return E_UNEXPECTED;
    }

// This should never happen

    if(iPosition < 0)
    {
        return E_INVALIDARG;
    }

// Do we have more items to offer

    if(iPosition > 0)
    {
        return VFW_S_NO_MORE_ITEMS;
    }

CheckPointer(pMediaType,E_POINTER);

if (iPosition == 0)
{
   HRESULT hr = m_pInput->ConnectionMediaType(pMediaType);
   if (FAILED(hr))
   {
    return hr;
   }
}
// make some appropriate change
ASSERT(pMediaType->formattype == FORMAT_VideoInfo);
pMediaType->subtype = MEDIASUBTYPE_RGB24;
VIDEOINFOHEADER *pVih =
reinterpret_cast<VIDEOINFOHEADER*>(pMediaType->pbFormat);
pVih->bmiHeader.biCompression = 0;
pVih->bmiHeader.biSizeImage = DIBSIZE(pVih->bmiHeader);
pVih->bmiHeader.biBitCount = 24;
pVih->bmiHeader.biHeight = 480;
pVih->bmiHeader.biWidth = 640;
return S_OK;
} // GetMediaType

//
// CheckInputType
//
// Check the input type is OK, return an error otherwise
//
HRESULT CYUV2RGBfilter::CheckInputType(const CMediaType *mtIn)
{
    CheckPointer(mtIn,E_POINTER);

    // Check this is a VIDEOINFO type

    if(*mtIn->FormatType() != FORMAT_VideoInfo)
    {
        return E_INVALIDARG;
    }

    if((IsEqualGUID(*mtIn->Type(), MEDIATYPE_Video)) &&
       (IsEqualGUID(*mtIn->Subtype(), MEDIASUBTYPE_YUY2)))
    {
        VIDEOINFO *pvi = (VIDEOINFO *) mtIn->Format();
        if ((pvi->bmiHeader.biBitCount == 16)
    &&(pvi->bmiHeader.biCompression==0))
    return S_OK;
   else
    return FALSE;
    }
    else
    {
        return FALSE;
    }
} // CheckInputType

// CheckTransform
//
// To be able to transform the formats must be compatible
//mtIn YUV2 16bit
//mtOut RGB24 24bit
HRESULT CYUV2RGBfilter::CheckTransform(const CMediaType *mtIn, const CMediaType *mtOut)
{
CheckPointer(mtIn,E_POINTER);
CheckPointer(mtOut,E_POINTER);

    HRESULT hr;
    if(FAILED(hr = CheckInputType(mtIn)))
    {
        return hr;
    }

    // format must be a VIDEOINFOHEADER
    if((*mtOut->FormatType() != FORMAT_VideoInfo)
   ||(mtOut->cbFormat<sizeof(VIDEOINFOHEADER ))
   ||(mtOut->subtype!=MEDIASUBTYPE_RGB24))
    {
        return E_INVALIDARG;
    }
   BITMAPINFOHEADER *pBmiOut = HEADER(mtOut->pbFormat);
   if ((pBmiOut->biPlanes!=1)
    ||(pBmiOut->biBitCount!=24)
    ||(pBmiOut->biCompression!=0)
    ||(pBmiOut->biWidth!=640)
    ||(pBmiOut->biHeight!=480))
   {
    return E_INVALIDARG;
   }

return S_OK;
}
// CheckTransform

HRESULT CYUV2RGBfilter::DecideBufferSize(IMemAllocator *pAlloc, ALLOCATOR_PROPERTIES *pProperties)
{
CheckPointer(pAlloc,E_POINTER);
CheckPointer(pProperties,E_POINTER);

// Is the input pin connected

    if(m_pInput->IsConnected() == FALSE)
    {
        return E_UNEXPECTED;
    }

    HRESULT hr = NOERROR;
    pProperties->cBuffers = 1;
    pProperties->cbBuffer = m_pInput->CurrentMediaType().GetSampleSize()*2; //output is double of the input samples

ASSERT(pProperties->cbBuffer);

// If we don't have fixed sized samples we must guess some size

    if(!m_pInput->CurrentMediaType().bFixedSizeSamples)
    {
        if(pProperties->cbBuffer < 100000)
        {
            // nothing more than a guess!!
            pProperties->cbBuffer = 100000;
        }
    }

    // Ask the allocator to reserve us some sample memory, NOTE the function
    // can succeed (that is return NOERROR) but still not have allocated the
    // memory that we requested, so we must check we got whatever we wanted

ALLOCATOR_PROPERTIES Actual;

    hr = pAlloc->SetProperties(pProperties,&Actual);
    if(FAILED(hr))
    {
        return hr;
    }

ASSERT(Actual.cBuffers == 1);

    if(pProperties->cBuffers > Actual.cBuffers ||
        pProperties->cbBuffer > Actual.cbBuffer)
    {
        return E_FAIL;
    }

return NOERROR;

} // DecideBufferSize

//
// Transform
//
// Copy the input sample into the output sample
//
//
HRESULT CYUV2RGBfilter::Transform(IMediaSample *pIn, IMediaSample *pOut)
{
CheckPointer(pIn,E_POINTER);
CheckPointer(pOut,E_POINTER);

    // Copy the sample data
    BYTE *pSourceBuffer, *pDestBuffer;
    long lSourceSize = pIn->GetActualDataLength();
    long lDestSize = (long)(lSourceSize*1.5);

    pIn->GetPointer(&pSourceBuffer);
    pOut->GetPointer(&pDestBuffer);
//change data
    ConvertYUV2toRGB(pSourceBuffer,pDestBuffer,lSourceSize);
//memset(pDestBuffer,100,lDestSize);
    REFERENCE_TIME TimeStart, TimeEnd;
    if(NOERROR == pIn->GetTime(&TimeStart, &TimeEnd))
    {
        pOut->SetTime(&TimeStart, &TimeEnd);
    }

    LONGLONG MediaStart, MediaEnd;
    if(pIn->GetMediaTime(&MediaStart,&MediaEnd) == NOERROR)
    {
        pOut->SetMediaTime(&MediaStart,&MediaEnd);
    }

// Copy the Sync point property

    HRESULT hr = pIn->IsSyncPoint();
    if(hr == S_OK)
    {
        pOut->SetSyncPoint(TRUE);
    }
    else if(hr == S_FALSE)
    {
        pOut->SetSyncPoint(FALSE);
    }
    else
    { // an unexpected error has occured...
        return E_UNEXPECTED;
    }

//
    AM_MEDIA_TYPE* pMediaType;
    pIn->GetMediaType(&pMediaType);
ChangeFormat(pMediaType);
    // Copy the media type
    pOut->SetMediaType(pMediaType);

// Copy the preroll property

    hr = pIn->IsPreroll();
    if(hr == S_OK)
    {
        pOut->SetPreroll(TRUE);
    }
    else if(hr == S_FALSE)
    {
        pOut->SetPreroll(FALSE);
    }
    else
    { // an unexpected error has occured...
        return E_UNEXPECTED;
    }

// Copy the discontinuity property

hr = pIn->IsDiscontinuity();

    if(hr == S_OK)
    {
        pOut->SetDiscontinuity(TRUE);
    }
    else if(hr == S_FALSE)
    {
        pOut->SetDiscontinuity(FALSE);
    }
    else
    { // an unexpected error has occured...
        return E_UNEXPECTED;
    }

// Copy the actual data length
//KASSERT((long)lDestSize <= pOut->GetSize());
pOut->SetActualDataLength(lDestSize);

return S_OK;

} // Transform

经过这些步骤就能得到符合功能要求的transform filter
同时经过以上步骤也能对filter开发有个大体的了解

部分类容参考了http://tieba.baidu.com/f?kz=143218826

转自：http://hi.baidu.com/gragonraja/blog/item/b5b6e182c848cc97f603a697 .html

Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
Mamba超绝创新！搭上异常检测准确率99%+！一区秒了！人工智能学起来人工智能深度学习
今天给大家推荐一个创新Max，且不卷的idea：基于Mamba做异常检测！以往的异常检测方法，以基于CNN、Transformer为主。但CNN在处理长距离依赖性方面存在困难，Transformer虽然表现出色，但由于其自注意力机制，计算复杂度较高。而Mamba，则完美弥补了这两者的缺陷，在有效处理长距离依赖性同时，具有线性复杂度，计算资源需求少！在提高模型检测精度和速度方面，一骑绝尘！比如模型A
2分钟学会编写maven插件聪明马的博客 Java maven java spring
什么是Maven插件Maven是Java项目中常用的构建工具，可以自动化构建、测试、打包和发布Java应用程序。Maven插件是Maven的一项重要功能，它可以在Maven构建过程中扩展Maven的功能，实现自定义的构建逻辑。Maven插件可以提供很多不同的功能，例如：生成代码、打包文件、部署应用程序等。插件通常是在Maven构建生命周期中的某个阶段执行，例如：编译、测试、打包、安装和部署。Mav
DeepSeek与ChatGPT：AI语言模型的全面对决金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 chatgpt 人工智能语言模型
DeepSeek（深度求索）与ChatGPT作为当前备受关注的两大AI语言模型，在技术架构、应用场景和性能表现上各有特色。以下从六大维度展开全面对比，为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿token中文语料预训练+领域强化学习多语言混合训练+RLH
python 快速实现链接转 word 文档嘿嘿潶黑黑 python word
python快速实现链接转word文档演示代码展示最后演示代码展示fromnewspaperimportArticlefromdocximportDocumentfromdocx.sharedimportPt,RGBColorfromdocx.enum.styleimportWD_STYLE_TYPEfromdocx.oxml.nsimportqn#tkinterGUIimporttkintera
Python入门笔记「已注销」计算机
文章目录第0周课程导学第1周Python基本语法元素保留字数据类型语句与函数输入函数第2周Python基本图形绘制turtle库绝对坐标海龟坐标turtle角度坐标体系RGB色彩体系画笔控制函数运动控制函数方向控制函数循环语句第3周基本数据类型整型浮点数科学计数法复数类型数值运算操作符二元操作符有对应的增强赋值操作符数值运算函数字符串类型的表示字符串切片字符串类型及操作字符串类型格式化time库时
React 渲染 Flash 接口数据 ox0080 #北漂+滴滴出行 VIP 激励 Web react.js 前端前端框架
1.后端Python代码使用Flask创建多个接口，每个接口返回不同的数据，并使用自定义装饰器来绑定路由。代码：#app.pyfromflaskimportFlask,jsonifyapp=Flask(__name__)defapi_route(route,methods=['GET']):"""自定义装饰器，用于将函数与HTTP路由绑定"""defdecorator(func):app.rout
《DeepSeek-R1 vs ChatGPT-4：AI大模型“王座争夺战”的终极拆解报告》 Athena-H LLM 人工智能 gpt chatgpt ai
引言：大模型时代的双雄博弈在生成式AI爆发式迭代的今天，DeepSeek-R1与ChatGPT-4分别以“中国智造新锐”与“全球标杆王者”的身份，掀起技术路线与应用生态的激烈碰撞。本文从架构设计、场景适配、性能极限三大维度，揭示两大模型的真实战力图谱。一、核心技术架构：差异化路线对决对比维度DeepSeek-R1ChatGPT-4模型架构多模态混合专家模型（MoE+Transformer）纯Dec
微信小程序之自定义轮播图实例 —— 微信小程序实战系列（3） 2401_84910072 程序员微信小程序小程序
由于微信小程序，整个项目编译后的大小不能超过1M查看做轮播图功能的一张图片大小都已经有100+k了那么我们可以把图片放在服务器上，发送请求来获取。index.wxml：这里使用小程序提供的组件autoplay：自动播放interval：自动切换时间duration：滑动动画的时长current：当前所在的页面bindchange：current改变时会触发change事件由于组件提供的指示点样式比
定制Jira优先级图标以提升项目管理效率 tianjiaxiaoer
本文还有配套的精品资源，点击获取简介：Jira是软件开发团队中广泛使用的项目管理和问题追踪工具，其默认优先级图标可能不满足所有团队的需求。用户可以自定义优先级图标来更好地反映任务的紧急性和重要性。定制步骤包括访问系统设置、上传和关联新图标、调整显示设置以及通知团队成员。自定义图标有助于团队更有效地沟通和管理任务优先级，提升工作流程的效率。1.Jira在项目管理中的应用在现代企业中，有效管理项目对成
Fastgpt接入Whisper本地模型实现语音识别输入泰山AI AI大模型应用开发 AI语音模型 gpt rag fastgpt
前言FastGPT默认使用了OpenAI的LLM模型和语音识别模型，如果想要私有化部署的话，可以使用openai开源模型Whisper。参考文章《openai开源模型Whisper语音转文本模型下载使用》FastGPT接入本地AI语音TTS首先打开one-api网址添加一个自定义渠道设置BaseUrl、模型、鉴权等信息BaseUrl为你部署本地语音识别web项目baseurl,图标上的是以我写的开
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？是纯一呀 WSL Docker AI spark 分布式 mllib
如果MLlib中没有你所需要的模型，并且不打算结合更强大的框架（如TensorFlowOnSpark或Horovod），仍然可以使用Spark进行分布式训练，但需要手动处理训练任务的分配、数据准备、模型训练、结果合并和模型更新等过程。模型训练阶段将模型的训练任务分配到Spark集群的各个节点。数据并行：每个节点会处理数据的不同部分，并计算该部分的梯度或模型参数。自定义算法：如果使用的是自定义算法（
【python】懒人福利，通过Python的JIRA库操作JIRA，自动批量提交关闭bug，提高效率 bulabula2022 #CI持续集成 Python jira
简介：Jira是目前比较流行的基于Java架构的管理系统（Atlassian公司支持），有开源代码，方便做二次开发（可扩展性）。Jira是一款功能非常强大的管理工具，广泛的用来缺陷跟踪、用例管理、需求收集、任务跟踪、工时管理、项目计划管理等工作领域。python有支持操作Jira的第三方包，方便自定义一些自动化操作。需要安装jira库：pipinstalljiraJira认证fromjiraimp
npm多个registry如果配置，如何管理？工具nrm登场大橙子- npm 前端 vue.js
通过工具nrm(NPMregistrymanager)来管理，指令简单，随时切换1.全局安装npmi-gnrm2.查看版本，测试是否下载成功nrm-V3.查看所有源nrmls4.添加源其中：csdn为自定义名称，根据自己情况自定义即可地址:https://************nrmaddcsdnhttps://************5.删除源nrmdelcsdn6.切换源nrmusecsdn
DeepSeek使用中的问题及解决方案（部分） WeiLai1112 DeepSeek 人工智能
1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
Java中的sort() 虚无中的真言81 Java
sort的第一种格式sort的第二种格式sort函数中cmp函数的使用方法自定义排序基本方法sort的第一种格式sort函数的基本格式（默认排序为升序排序）Arrays.sort(数组名,起始下标,终止下标);例：importjava.util.*;importjava.util.Arrays;publicclassMain{publicstaticvoidmain(String[]args){S
SpringMVC中spring-config.xml和web.xml配置 W厚积薄发小工具 web.xml 模板
web.xml配置模板springmvcorg.springframework.web.servlet.DispatcherServletcontextConfigLocationclasspath:springmvc-config3.xml1springmvc/CharacterEncodingFilterorg.springframework.web.filter.CharacterEncod
Excel导入导出（注解）静谧空间 excel java 开发语言
1、Excel适配器publicinterfaceExcelHandlerAdapter{/***格式化**@paramvalue单元格数据值*@paramargsexcel注解args参数组**@return处理后的值*/Objectformat(Objectvalue,String[]args);}2、自定义注解packagecom.zz.common.annotation;importjav
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention UnknownBody LLM Daily LLM context 语言模型人工智能
本文是LLM系列文章，针对《LeaveNoContextBehind:EfficientInfiniteContextTransformerswithInfini-attention》的翻译。不让任何上下文掉队：无限关注的高效无限上下文Transformer摘要1引言2方法3实验4相关工作5结论摘要这项工作介绍了一种将基于Transformer的大型语言模型（LLM）扩展到具有有限内存和计算的无限
CSS 修改 SVG图标的颜色小达学徒 html css svg 图标颜色改变
方法1、利用filter中的drop-shadow给icon加样式(利用原图标的阴影区域，同时将原图标移动超过之前父元素范围)filter:drop-shadow(red80px0);transform:translateX(-80px);给父元素加样式（父元素超范围隐藏，正好把原图标的隐藏掉，显示阴影区域）overflow:hidden;filter的drop-shadow标准用法drop-sh
SQLServer两种导入数据方法二刺螈杀手数据库
一、电子表格数据存储转到SQLserver中,Excel数据存储:1、打开SQLserver新建一个数据库来存放该数据,数据库名称命名自定义2、这里使用作者大大自定义建好的数据库来示范:(操作步骤如下图所属：选择该数据库鼠标右键点击任务之后再选中导入数据)3、这里数据源就是需要导入的电子表格数据，选中然后点击下一步，如图所示4、Excel文件路径选择自己电脑磁盘存放该Excel表格数据的路径,Ex
css给网页添加黑白滤镜 nqxcwl 前端 css 给网页添加黑白滤镜
/*给网页添加黑白滤镜*/html{/*兼容FF*/filter:url("data:image/svgxml;utf8,#grayscale");/*兼容IE内核*/filter:progid:DXImageTransform.Microsoft.BasicImage(grayscale=1);/*兼容其它，谷歌之类的*/-webkit-filter:grayscale(1);}
KTransformers如何通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度？魔王阿卡纳兹大模型知识札记语言模型人工智能自然语言处理
KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度，具体体现在以下几个方面：内核级优化：KTransformers采用了高效的内核级优化技术，包括对Transformer模型中的关键操作进行优化。例如，通过使用Llama和Marlin等高效内核，显著提升了计算效率。通过IntelAMX指令集优化，KTransformers在CPU端实现了更高的
Airflow DAG的调度时间探秘 t0_54coder 编程问题解决手册个人开发
引言在数据工程和ETL（Extract,Transform,Load）流程中，ApacheAirflow是一个非常流行的工作流调度工具。Airflow通过DAG（DirectedAcyclicGraph）来定义任务依赖和调度策略。然而，调度时间的设置有时会让新手甚至经验丰富的用户感到困惑。本文将通过一个实际的案例来探讨Airflow中DAG的调度时间设置，帮助读者理解并解决常见的调度问题。背景介绍
开源项目亮点：打造你的DIY智能语音助手——“小爱音箱自定义固件” 侯深业Dorian
开源项目亮点：打造你的DIY智能语音助手——“小爱音箱自定义固件”项目地址:https://gitcode.com/gh_mirrors/xia/xiaoai-patch在当今智能家居设备泛滥的时代，一款能够深度定制、完全掌控的智能音箱无疑成为了技术爱好者的追求目标。“小爱音箱自定义固件”项目应运而生，旨在为用户提供一个从底层到应用层全面开放、高度可定制的智能音箱解决方案。项目介绍这个项目集合了一
【layui】layui表格过滤 weixin_43250628 layui 前端 layui javascript 前端
1.除了引用必要的layui的js和css，还需引入tableFilter.js。2.然后就是代码展示部分；layui.config({base:'../../layui/plugins2/',//扩展路径version:'v1.0.0'}).extend({tableFilter:'tableFilter'//模块别名});functionsetGridData(data){layui.use(
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
HarmonyOS组件之Tabs 秃顶老男孩. harmonyos 华为 ui
Tabs1.1概念Tabs视图切换容器，通过相适应的页签进行视图页面的切换的容器组件每一个页签对应一个内容视图Tabs拥有一种唯一的子集元素TabContent1.2子组件不支持自定义组件为子组件，仅可包含子组件TabContent，以及渲染控制类型if/else和ForEach并且if/else和ForEach下页仅支持TabContent，不支持自定义组件1.2.1TabContent有几个页
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

如何设计自定义的transform filter(转)

你可能感兴趣的:(filter,自定义,transform,格式转换,RGB,yuv)