智能推荐系统

AIGC万字百科全书：底层原理、应用场景、工具示例、行业现状、发展趋势

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

【免费下载】2023年2月份热门报告合集

文心一言、GPT3.5及GPT4应用测评对比报告

ChatGPT团队背景研究报告

ChatGPT的发展历程、原理、技术架构及未来方向

ChatGPT使用总结：150个ChatGPT提示此模板

ChatGPT数据集之谜

《ChatGPT：真格基金分享.pdf》

2023年AIGC发展趋势报告：人工智能的下一时代

最近大家热议的ChatGPT和AI绘画工具的底层技术原理是什么？又是如何发展到现在的？除了这些热门的工具，作为普通用户，我们还能接触哪些应用AI技术打造的商业解决方案？

MidjourneyAI绘画工具社区作品

最近我对上面这些问题也非常感兴趣，于是查阅了AIGC相关相关的调研报告和各类资料，按照优化后的目录框架对内容进行了摘录和编排，希望能够帮助大家也能更快了解和入门。

内容主要来自：《2023年AIGC发展趋势报告：迎接人工智能的下一个时代-腾讯研究院.pdf》和《AIGC／AI生成内容产业展望报告-量子位.pdf》这两篇行业报告，以及各类平台的相关文章、视频，文末我也会对参考内容的来源进行标注，想要深度了解的话可以留意下。

就先啰嗦这么多吧，文章比较长，大概需要1-2个小时才能完整阅读，可以找个安静的地方一口气读完。里面的专业词汇如果不懂，可以先忽略，对于普通人来说，我们只需要了解大概的历程和应用场景以及代表工具即可。

一、技术定义

AIGC全称为AI-Generated Content，指基于生成对抗网络GAN、大型预训练模型等人工智能技术，通过已有数据寻找规律，并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括Synthetic media，合成式媒体，主要指基于AI生成的文字、图像、音频等。

从字面意思上看，AIGC是相对于过去的 PCG、UCG 而提出的。因此，AIGC的狭义概念是利用Al自动生成内容的生产方式。但是 AIGC已经代表了AI技术发展的新趋势。

过去传统的人工智能偏向于分析能力，即通过分析一组数据，发现其中的规律和模式并用于其他多种用途，比如应用最为广泛的个性化推荐算法。而现在人工智能正在生成新的东西，而不是仅仅局限于分析已经存在的东西，实现了人工智能从感知理解世界到生成创造世界的跃迁。

因此，从这个意义上来看，广义的 AIGC 可以看作是像人类一样具备生成创造能力的 AI技术，即生成式 AL它可以基于训练数据和生成算法模型，自主生成创造新的文本，图像、音乐、视频、3D交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据，以及包括开启科学新发现，创造新的价值和意义等。"因此，AIGC已经加速成为了Al 领域的新疆域，推动人工智能迎来下一个时代。

MIT 科技评论也将A1 合成数据列为 2022 年十大突破性技术之一，甚至将生成性 Al(Generative AI)称为是AI领域过去十年最具前景的进展。Gartner 将生成性 A1 列为 2022 年5大影响力技术之一。

Gartner 也提出了相似概念Generative AI，也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。相较于量子位智库认为的AIGC，这一概念的范围较狭窄。

一方面，这一概念忽略了跨模态生成（如基于文本生成图像或基于文本生成视频）这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面，在结合现有技术能力和落地场景进行分析后，我们认为“生成”和“内容”都应该采取更为广泛的概念。

例如，生成中可以包含基于线索的部分生成、完全自主生成和基于底稿的优化生成。内容方面，不仅包括常见的图像、文本、音频等外显性内容，同样也包括策略、剧情、训练数据等 内在逻辑内容。

从特定角度来看，AI内容生成意味着AI开始在现实内容中承担新的角色，从“观察、预测”拓展到“直接生成、决策”。

从商业模式来看，我们认为，AIGC本质上是一种AI赋能技术，能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相关场景及生产者。因此，我们不会将其定义为PGC\UGC之后的新内容创作模式，而是认为其在商业模式上会有大量其他交叉。

未来，兼具大模型和多模态模型的 AIGC模型有望成为新的技术平台。如果说 Al 推荐算法是内容分发的强大引整，AIGC则是数据与内容生产的强大引整。

AIGC朝着效率和品质更高、成本更低的方向发展，在某些情况下，它比人类创造的东西更好。包括从社交媒休到游戏，从广告到建筑，从编码到平面设计、从产品设计到法律，从营销到销售等各个需要人类知识创造的行业都可能被 AIGC 所影响和变革。数字经济和人工智能发展所需的海量数据也能通过 AIGC技术生成、合成出来，即合成数据(synthetic data)。

未来，人类的某些创造性的工作可能会被生成性 AI 完全取代，也有一些创造性工作会加速进入人机协同时代--人类与 AIGC技术共同创造比过去单纯人的创造之下更高效、更优质。

在本质上AIGC 技术的最大影响在于，AIGC技术将会把创造和知识工作的边际成本降至零，以产生巨大的劳动生产率和经济价值。换句话说，正如互联网实现了信息的零成本传播、复制。未来AIGC 的关键影响在于，将实现低成本甚至零成本的自动化内容生产，这一内容生产的范式转变，将升级甚至重塑内容生产供给，进而给依赖于内容生产供给的行业和领域带来巨大影响。

二、起源历程

AIGC发展历程和典型事件

虽然从严格意义上来说，1957 年莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leon-ard saacson)完成了人类历史上第一支由计算机创作的音乐作品就可以看作是 AIGC的开端，距今已有 65 年，这期间也不断有各种形式的生成模型、Al 生成作品出现。

但是 2022年才真正算是 AIGC 的爆发之年，人们看到了 AIGC无限的创造潜力和未来应用可能性。目前，AIGC 技术沉淀、产业生态已初步形成，保持强劲发展和创新势头。

主流生成模型诞生历程

生成算法、预训练模型、多模态等AI技术累积融合，催生了AIGC 的大爆发。

一是，基础的生成算法模型不断突破创新。

2014年，伊恩·古德费洛(lan Goodfellow)提出的生成对抗网络(Generative Adversarial Network，GAN)成为早期最为著名的生成模型。

GAN 使用合作的零和博弈框架来学习，被广泛用于生成图像、视频、语音和三维物体模型等。GAN 也产生了许多流行的架构或变种，如DCGAN，StyleGAN，BigGAN，StackGAN.Pix2pix，Age-cGAN，CycleGAN、对抗自编码器(Adversarial Autoencoders，AAE)、对抗推断学习(Adversarially Learned Inference，ALI)等。

随后，Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。其中，Transformer 模型是一种采用自注意力机制的深度学习模型，这一机制可以按照输入数据各部分重要性的不同而分配不同的权重，可以用在自然语言处理(NLP)、计算机视觉(CV)领域应用。后来出现的 BERT、GPT-3、LaMDA等预训练模型都是基于Transformer 模型建立的。

而扩散模型(Diffusion Mode)是受非平衡热力学的启发，定义一个扩散步骤的马尔可夫链，逐渐向数据添加随机噪声，然后学习逆扩散过程，从噪声中构建所需的数据样本。扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好，它们最终可以从纯噪声作为唯一输入生成逼直的图片。

然而，从最优化模型性能的角度出发，扩散模型相对 GAN 来说具有更加灵活的模型架构和精确的对数似然计算，已经取代 GAN 成为最先进的图像生成器。2021年6月，OpenAl 发表论文已经明确了这个结论和发展趋势。

二是，预训练模型引发了 AIGC技术能力的质变。

虽然过去各类生成模型层出不穷，但是使用门槛高、训练成本高、内容生成简单和质量偏低，远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了 AIGC技术能力的质变，以上的诸多落地问题得到了解决。

随着 2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT，人工智能领域进入了大炼模型参数的预训练模型时代。AI预训练模型，又称为大模型、基础模型(foundation mode)，即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型，可以适应广泛的下游任务。这些模型基于迁移学习的思想和深度学习的最新进展，以及大规模应用的计算机系统，展现了令人惊讶的涌现能力，并显著提高各种下游任务的性能。”鉴于这种潜力，预训练模型成为 AI技术发展的范式变革，许多跨领域的Al系统将直接建立在预训练模型上。具体到 AIGC 领域，AI 预训练模型可以实现多任务、多语言、多方式，在各种内容的生成上将扮演关键角色。按照基本类型分类，预训练模型包括:(1)自然语言处理(NLP)预训练模型，如谷歌的 LaMDA和 PaLM、Open AI的 GPT 系列:(2)计算机视觉(CV)预训练模型，如微软的 Florence:(3)多模态预训练模型，即融合文字、图片、音视频等多种内容形式。

三是，多模态技术推动了 AIGC 的内容多样性，让 AIGC 具有了更通用的能力。

预训练模型更具通用性，成为多才多艺、多面手的 Al模型，主要得益于多模型技术(multimodal technol-ogy)的使用，即多模态表示图像、声音、语言等融合的机器学习。

2021年，OpenAI团队将跨模态深度学习模型CLIP(Contrastive Lanquaqe-Image Pre-Training，以下简称“CLIP")进行开源。CLIP 模型能够将文字和图像进行关联，比如将文字“狗”和狗的图像进行关联，并且关联的特征非常丰富。因此，CLIP 模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析，实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练，CLIP 模型广泛利用互联网上的图片，这些图片一般都带有各种文本描述，成为 CLIP 天然的训练样本。

据统计，CLIP 模型搜集了网络上超过 40 亿个“文本-图像”训练数据，这为后续 AIGC 尤其是输入文本生成图像/视频应用的落地奠定了基础。在多模态技术的支持下，目前预训练模型已经从早期单一的 NLP或CV模型，发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。

2021年3月OpenAl发布Al绘画产品DALL·E，只需要输入一句文字，DALL·E 就能理解并自动生成一幅意思相符的图像，且该图像是独一无二的。DALL·E 背后的关键技术即是 CLIP。CLIP 让文字与图片两个模态找到能够对话的交界点，成为 DALL·E、DALL·E2.0、Stable Diffusion 等突破性 AIGC成果的基石。总的来看，AIGC 在 2022 年的爆发，主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC技术变革，拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC模型成为了自动化内容生产的“工厂”和“流水线”。

三、行业现状

AIGC 产业生态加速形成和发展，走向模型即服务(MaaS)的未来，目前，AIGC 产业生态体系的雏形已现，呈现为上中下三层架构：

第一层，为上游基础层，也就是由预训练模型为基础搭建的 AIGC技术基础设施层。由于预训练模型的高成本和技术投入，因此具有较高的进入门槛。

以 2020 年推出的 GPT-3 模型为例Alchemy APl 创始人 Elliot Turner 推测训练 GPT-3 的成本可能接近 1200 万美元。

因此，目前进入预训练模型的主要机构为头部科技企业、科研机构等。目前在AIGC领域，美国的基础设施型公司(处于上游生态位)有OpenAl、Stability.ai等。

OpenAl的商业模式为对受控的 api调用进行收费。Stabilitv.ai以基础版完全开源为主，然后通过开发和销售专业版和定制版实现商业获利，目前估值已经超过 10 亿美金。因为有了基础层的技术支撑，下游行业才能如雨后春笋般发展，形成了目前美国的 AIGC 商业流。

第二层，为中间层，即垂直化、场景化、个性化的模型和应用工具。

预训练的大模型是基础设施，在此基础上可以快速抽取生成场景化、定制化、个性化的小模型，实现在不同行业、垂直领域、功能场景的工业流水线式部署，同时兼具按需使用、高效经济的优势。随着兼具大模型和多模态模型的AIGC模型加速成为新的技术平台，模型即服务(Model-as-a-Service,MaaS)开始成为现实，预计将对商业领域产生巨大影响。Stable Diffusion 开源之后，有很多基于开源模型的二次开发，训练特定风格的垂直领域模型开始流行，比如著名的二次元画风生成的 Novel-Al，还有各种风格的角色生成器等。

第三层，为应用层，即面向C端用户的文字、图片、音视频等内容生成服务。

在应用层，侧重满足用户的需求，将 AIGC 模型和用户的需求无缝衔接起来实现产业落地。以 Stable Diffusion 开源为例，它开放的不仅仅是程序，还有其已经训练好的模型，后继创业者能更好的借助这一开源工具，以 C端消费级显卡的算力门槛，挖掘出更丰富的内容生态，为 AIGC 在更广泛的C端用户中的普及起到至关重要的作用。

现在贴近C端用户的工具越发丰富多样，包括网页、本地安装的程序、移动端小程序、群聊机器人等，甚至还有利用 AIGC工具定制代出图的内容消费服务。

目前，从提供预训练模型的基础设施层公司到专注打造 AIGC产品和应用工具的应用层公司，美国围绕 AIGC 生长出繁荣的生态，技术创新引发的应用创新浪潮迭起:中国也有望凭借领先的 AIGC 技术赋能千行百业。

随着数字技术与实体经济融合程度不断加深，以及互联网平台的数字化场景向元宇宙转型，人类对数字内容总量和丰富程度的整体需求不断提高。

AIGC作为当前新型的内容生产方式，已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展。市场潜力逐渐显现。与此同时，在推进数实融合、加快产业升级的进程中，金融、医疗、工业等各行各业的 AIGC 应用也都在快速发展。

四、应用场景

文本生成

从现有的落地场景来看，我们将其划分为应用型文本和创作型文本生成，前者的进展明显优于后者。此外，从应用推广的角度来说，辅助文本创作是目前落地最为广泛的场景。

应用型文本生成

应用型文本大多为结构化写作，以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今，商业化应用已较为广泛，最为典型的是基于结构化数据或规范格式，在特定情景类型下的文本生成，如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。据分析师评价，由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrative Science 创始人甚至曾预测，到 2030 年，90%以上的新闻将由机器人完成。

在结构化写作场景下，代表性垂直公司包括Automated Insights(美联社Wordsmith)、NarrativeScience、textenaine.io、AX Semantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。

创作型文本生成

创作型文本主要适用于剧情续写、营销文本等细分场景等，具有更高的文本开放度和自由度，需要一定的创意和个性化，对生成能力的技术要求更高。

我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足，尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍，目前文字生成主要捕捉的是浅层次，词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确，在篇章上连贯通顺的要求，长文本写作对干

议论文写作、公文写作等等具有重要意义。未来四到五年，可能会出现比较好的千字内容。

除去本身的技术能力之外，由于人类对文字内容的消费并不是单纯理性和基干事实的，创作型文本还需要特别关注情感和语言表达艺术。我们认为，短期内创作型文本更适合在特定的赛道下，基于集中的训练数据及具体的专家规则进行场景落地。

在创作型文本领域，代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy Al、Rasa.io、LongShot.Al、彩云小梦等。

文本辅助生成

除去端到端进行文本创作外，辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用，例如定向采集信息素材、文本素材预处理、自动聚类去重，并根据创作者的需求提供相关素材。尽管目前能够提升生产力，但我们认为相对于实现技术意义上的AI生成，能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。

这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。

重点关注场景

长期来看，我们认为闲聊型文本交互将会成为重要潜在场景，例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基干GPT 3开发的文本探索类游戏Aldungeon均已获得了不错的消费者反馈。

随着线上社交逐渐成为了一种常态，社交重点向转移AI具有其合理性，我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛，集中在精神心理领域的聆心智能、开发了AIdungeon的Latitude.io等。

音频及文字—音频生成

整体而言，此类技术可应用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域的配乐创作，大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐，语音克隆以及心理安抚等功能性音乐的自动生成。

TTS(Text-to-speech)场景

TTS在AIGC领域下已相当成熟，广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播，提供音频内容服务的一站式解决方案，以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。

目前技术上的的关键，在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习》。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法，代表模型包括WaveNet、Deep Voice及Tacotron等。

目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUl)、Readspeaker、DeepZen和Sonantic。

随着内容媒体的变迁，短视频内容配音已成为重要场景。部分软件能够基干文档自动生成解说配音，上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。

在TTS领域，语音克隆值得特别关注。语音克隆是本质上属于指定了目标语音(如特定发言人)的TTS。技术流程如下:

该技术目前被应用于虚拟歌手演唱、自动配音等，在声音IP化的基础上，对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod.Resemble Ai、Respeecher、DeepZen、Sonantic、VoicelD、Descript。

乐曲/歌曲生成

AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言，AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。

其中，AI作曲可以简单理解为“以语言模型(目前以Transformer为代表，如谷歌Megenta、OpenAlJukebox、AIVA等)为中介，对音乐数据进行双向转化(通过MIDI等转化路径)”。此方面代表性的模型包括MelodyRNN、Music Transformer。据Deepmusic介绍，为提升整体效率，在这一过程中，由于相关数据巨大往往需要对段落，调性等高维度的乐理知识进行专业提取，而节奏、音高、音长等低维度乐理信息由AI自动完成提取。

通过这一功能，创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末，贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》，即为AI基于对贝多芬过往作品的大量学习，进行自动续写。

Al编曲则指对AI基于主旋律和创作者个人的偏好，生成不同乐器的对应和弦(如鼓点、贝斯、钢琴等)，完成整体编配。在这部分中，各乐器模型将通过无监督模型，在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系，从而基于主旋律生成自身所需和弦。对于人工而言，要达到乐曲编配的职业标准，需要7-10年的学习实践。

人声录制则广泛见于虚拟偶像的表演现场(前面所说的语音克隆)，通过端到端的声学模型和神经声码器完成.

可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。混音指将主旋律、人声和各乐器和弦的音轨进行渲染及混合，最终得到完整乐曲。该环节涉及的AI生成能力较少。

该场景下的代表企业包括Deepmusic、网易-有灵智能创作平台、Amper Music、AIVA、Landr、IBM

、Watson Music、Magenta、Loudly、Brain.FM、Splash、Flow machines。其中，自动编曲功能已在国内主流音乐平台上线，并成为相关大厂的重点关注领域。以QQ音乐为例，就已成为Amper music的API合作伙伴。

对这一部分工作而言，最大的挑战在于音乐数据的标注。在标注阶段，不仅需要需要按时期、流派、作曲家等特征，对训练集中乐曲的旋律、曲式结构、和声等特征进行描述，还要将其有效编码为程序语言。此外，还需要专业人员基于乐理进行相关调整润色。以Deepmusic为例，音乐标注团队一直专注在存量歌曲的音乐信息标注工作上，目前已经形成了全球最精确的华语歌曲音乐信息库，为音乐信息检索(MIR)技术研究提供数据支持。

场景推荐

我们认为，以乐曲二创、辅助创作等场景为代表，Al编曲将在短期内成为AI音频生成中的快速成长赛道。特别是由于可以指定曲目风格、情绪、乐器等，AIGC音乐生成对干影视剧、游戏等多样化，乃至实时的背景音乐生成有重要意义。

图像生成

基于对不同技术原理的梳理，我们将图像生成领域的技术场景划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中，前两者的落地场景为图像编辑工具，而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。

图像属性及部分编辑

属性编辑部分，可以直观的将其理解为经AI降低门槛的PhotoShop。目前而言，图片去水印、自动调整光影、设置滤镜(如Prisma、Versa、Vinci和Deepart)、修改颜色纹理(如DeepAl)、复刻/修改图像风格(DALL·E2已经可以仅凭借单张冬像进行风格复刻，NiahtCafe等)、提升分辨率等已经常见。

关于此类场景，初创公司数量庞大，Adobe等相关业务公司(Adobe Sensai)也在进入这一领域。我们认为，对于此类业务而言，引流渠道和与技术流程挂钩的产品使用体验非常重要。现有的代表公司包括美图秀秀(美图AI开放平台)、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum (Mask Al)、Photodiva。

图像部分编辑部分，指部分更改图像部分构成(如英伟达CvcleGAN支持将图内的斑马和马进行更改)、修改面部特征(Metaphysics，可调节自身照片的情绪、年龄、微笑等;以Deepfake为代表的图像换脸)。由干技术限制，图像的各部分之间需要通过对齐来避免扭曲，伪影等问题，目前GAN还难以直接生成高质量的完整图像。2019年，曾宣传能够直接生成完整模特图的日本公司DataGrid目前已无动向。但同时，也出现了由局部生成并接为完整冬像的生成惠路。典型代表为选入CVPR2022的InsetGAN，该模型由Adobe推出。

同时，细粒度、分区域的图像编辑能力也较为关键，代表为英伟达的EditGAN。该模型将需要编辑的原图像x嵌入到EditGAN的潜空间，借助语义分割冬的相同潜码，将原冬x分割成高度精细的语义块(seamentation mask)并得到分割冬v。接着，使用简单的交互式数字绘画或标签工且进行手动修改。模型最终会共宣潜码的优化，以保持新分割图与真实图像的RGB外观一致。如图所示:

图像端到端生成

此处则主要指基于草图生成完整图像(VansPortrait、谷歌Chimera painter可画出怪物、英伟达GauGAN可画出风景、基于草图生成人脸的DeepFaceDrawing)、有机组合多张图像生成新图像(Artbreeder)、根据指定属性生成目标图像(如Rosebud.ai支持生成虚拟的模特面部)等。

该部分包含两类场景，分别为创意图像生成与功能性图像生成。前者大多以NFT等形式体现，后者则大多以营销类海报/界面、loao、模特图、用户头像为主。

垂直代表公司/产品包括Deepdream Generator、Rosebud.ai、AGahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid、诗云科技、道子智能绘画系统等。

由干冬像的生成复杂度远高干文字，在整体生成上，目前仍然难以达到稳定可靠的生成高质量图像。但据高林教授评价，人脸生成的应用将预计有更快的发展。从VAQ、VAE等技术选型开始，人脸生成的技术研究已经有了较好的效果，同时人脸数据集也较为充足。同时，单张的人脸生成价值相对有限。

要进一步发挥其价值，可以考虑将其与NeRE、也即3D内容生成相结合，支持从不同的视角和动作还原特定对象面部，能够在发布会、面见客户等场景中有重要作用。而对于近年视频换脸效果不佳的情况，高教授认为这与底层设计优化，例如除纹理相似度之外，在解编码中考虑更多的时间、动作、甚至情感等因素，并叠加考虑数据、渲染能力等因素。

视频生成

视频属性编辑

例如视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。代表公司包括RunwayML、Wisecut、Adobe Sensei、Kaleido、帝视科技、CCTV AIGC、影谱科技、Versa(不咕剪辑)、美图影像研究院等。

视频自动剪辑

其干视频中的画面，声音等多模态信息的特征融合进行学习，按照氛围，情绪等高级语义限定，对满足条件片段进行检测井合成。目前还主要在技术尝试阶段。典型案例包括Adobe与斯坦福共同研发的A视频重标系统、IBMWatson自动前标电影饰告片，以及Flow Machine。我国的影谱科技推出了相关产品，能够其干视频中的画面，声音等多模态信息的特征融合进行学习，按照氛围，情绪等高级语义限定，对满足条件片段进行检洳并合成。

视频部分生成(以Deepfake为典型代表)

技术原理：视频到视频生成技术的本质是其千目标图像或视频对源视频进行编辑及调试，通过其干语音等要素诼帧复刻，能够完成人脸替换，人脸再现人物表情或面部特征的改变)，人脸合成(构建全新人物)其至全身合成，虚拟环境合成等功能。

其原理本质与图像生成类似，强调将视频切案成师，再对每一帧的图像进行外理。视频生成的流程通常可以分为三个步骤，即数据提取，数据训练及转换。以人脸合成为例，首先需要对源人物及目标人物的多角度特作数据提取，然后基于数据对模型进行训练并进行图像的合成，最后基干合成的图像将原始视频进行转换，即插入生成的内容并进行调试，确保每一帧之间的流程度及真实度。目前的技术正在提升修改精准度与修改实时性两方面。

落地分析

在我们看来，该场景的底层商业逻辑与虚拟偶像类似。本质上是以真人的肖像权作为演员，实际表演者承担“中之人”的角色。其主要落地场景包含两方面:

一方面，可以选择服务于明星，在多语言广告、碎片化内容生成等领域使用，快速提升明星的IP价值。例如Svnthesia 为SnoopDoaa制作的广告，通过使用deepfake改变其嘴部动作，就能够将原始广告匹配到另一品牌。

另一方面，则可以服务干特定商务场景，例如培训材料分发(如WPP的全球培训视频)，素人直播及短视频拍摄等。

由于技术要求，需要对最终脸部所有者进行大量数据采集，需要相关从业公司获取大量面部数据授权，对针对市场需求进行相关运营，完善后续的配套监管和溯源措施。

除了deepfake之外，我们还观察到了在视频中的虚拟内容植入，也即利用计算机图形学和目标检测在视频中生成物理世界并不存在的品牌虚拟元素，如logo、产品、吉祥物等。以国外公司Marriad为代表，该公司目前已经为腾讯视频服务，后者准备在插入虚拟资产的基础上，个性化展示广告。这将极大的简化商业化内容的生成过程。

图像、视频、文本间跨模态生成

模态是指不同的信息来源或者方式。目前的模态，大多是按照信息媒介所分类的音频、文字、视觉等。而事实上.在能够导找到合适的载体之后，很多信息，诸如人的触觉、听觉、情绪、生理指标、甚至于不同传感器所对应的点云、红外线、电磁波等都能够变为计算机可理解可处理的模态。

对人工智能而言，要更为精准和综合的观察并认知现实世界，就需要尽可能向人类的多模态能力靠拢，我们将这种能力称为多模态学习MML(Multi-modal Learning)，其中的技术分类及应用均十分多样。我们可以简单将其分为跨模态理解(例如通过结合街景和汽车的声音判断交通潜在危险、结合说话人的唇形和语音判定其说话内容)和跨模态生成(例如在参考其他图画的基础上命题作画:触景生情并创作诗歌等)。

Transformer架构的跨界应用成为跨模态学习的重要开端之一。

Transformer架构的核心是Self-Attention机制，该机制使得Transformer能够有效提取长序列特征，相较于CNN能够更好的还原全局。而多模态训练普遍需要将图片提取为区域序列特征，也即将视觉的区域特征和文本特征序列相匹配，形成Transformer架构擅长处理的一维长序列，对Transformer的内部技术架构相符合。

与此同时Transformer架构还且有更高的计算效率和可扩展性，为训练大型跨模态模型奠定了基础。Vision Transformer将Transformer架构首次应用于图像领域。该模型在特定大规模数据集上的训练成果超出了ResNet。

随后，谷歌的VideoBERT尝试了将Transformer拓展到“视频-文本”领域。该模型能够完成看图猜词和为视频生成字幕两项功能，首次验证了Transformer+预训练在多模态融合上的技术可行性。基于Transformer的多模态模型开始受到关注，ViLBERT、LXMERT、UNITER、Oscar等纷纷出现。

CLIP模型的出现，成为跨模态生成应用的一个重要节点。

CLIP.ContrastiveLanguage-Image Pre-training，由OpenAl在2021年提出，图像编码器和文本编码器以对比方式进行联合训练，能够链接文本和图片。可以简单将其理解为，利用CIP测定冬片和文本描述的贴切程度。

自CHP出现后，“CLP+其他模型”在跨模态生成领域成为一种较为通用的做法。以Disco Diffusion为例，该模型将CLIP模型和用于生成图像的Diffusion模型进行了关联。CLIP模型将持续计算Diffusion模型随机生成噪声与文本表征的相似度，持续迭代修改，直至生成可达到要求的图像。

除去图像领域，CLIP后续还在视频、音频、3D模型等领域扮演了关联不同模态的角色。例如入选CVPR2022.基于文本生成3D参像的Dreamfields(类似工作还包括CP-Forae)。不过目前，已经出现了在所需数据量和算力上表现更为优秀的匹配模型。例如南加州大学的TONICS。

在此基础上，大型预训练模型的发展重点开始向横跨文本、图像、语音、视频的全模态通用模型发展。通过计算策略、数据调用策略、深度学习框架等方法提升模型效果成为目前研究的进展关键。与此同时，覆盖更多模态的训练数据同样值得关注。例如，MultiBench提供了包括10个模态的数据集，PanoAVQA提供了360度视频数据，X-World提供用于自动驾驶的各类模态数据。目前，华为诺亚方舟已经开源了全球首个亿级中文多模态数据集“悟空”。

跨模态大型预训练模型的代表包括:开启了跨模态预训练模型的Open ALDALL·E及CLIP、NVIDIA GauGAN2.微软及北大 NÜWA女娲、NVIDIA PoEGAN、DeepMind的Gato、百度ERNIE-ViLG、Facebook及Meta 的AV-HuBERT(基于语音和唇语输出文本)及Data2vec(横跨CV、NIP和语音)、中科院“紫东太初”、哥大及Facebook开发的VX2Text(基干视频、音频等输出文本)。

多模态能力的提升将成为AI真正实现认知智能和决策智能的关键转折点。在未来1-2年，“文字一图像”的生成将快速落地。目前，“文字-视频”的生成也已有相对理想的实验效果，三个模态的跨模态生成也已经开始尝试。

接下来，我们将区分具体模态，对跨模态生成领域的代表模型进行介绍

文字生成图像

2021年，OpenAI的CLIP和DALLE开启了AI绘画重要的一年。同年，CVPR2021收录的VQGAN也引发了广泛关注。2022年被称为“AI绘画“之年，多款模型/软件证明了基于文字提示得到效果良好的图画的可行性，DiffusionModel受到广泛关注。

首先，OpenAI推出了GLIDE。GLIDE全称Guided Lanquage to Image Diffusion for Generation andEditing，是一种扩散模型，参数仅35亿。支持CLIP引导(经训练后的噪声感知64x64 ViT-L CLIP模型)和无分类器引导，支持部分P图和迭代生成。

随后为Disco Dlffusion，该免费开源项目搭载在Google Colab上，需要一定的代码知识，更擅长梦境感的抽象田面，在具象生成和较多的描述语句上效果较差。随后，Disco Diffusion的作者之一推出了AI绘画聊天机器人Midiournev。该软件搭载在Discord上，商业化和产品化更为成熟，并提出了明确的分润模式(商业变现达到两万美金后需要20%分润)。

类似的软件及公司包括Bia Sleep、StarrvAl、WOMBO Dream。国内相关软件则包括Timmat，以及百度文心ERNIE-ViLG、小冰框架、悟道文澜、阿里M6等跨模态生成模型。

更擅长具象、对文本指令还原度更高的DALL。E2和Imagen Al证实了AI绘画的实际应用价值。但需要注意的是两者的技术思路并不相同。尽管扩散模型等引发了巨大关注，但不同的技术思路同样呈现出了较好效果。目前尚无法确定未来AI绘画的关键技术里程碑。

文字生成视频

在一定程度上，文本生成视频可以看作是文本生成图像的进阶版技术。我们预估，AI绘画和AI生成视频将分别在3年和5年后迎来较为广泛的规模应用。

一方面，两者的本质比较接近。文本生成视频同样是以Token为中介，关联文本和图像生成，逐帧生成所需图片，最后逐帧生成完整视频。而另一方面，视频生成会面临不同帧之间连续性的问题。对生成图像间的长序列建模问题要求更高，以确保视频整体连贯流程。从数据基础来看，视频所需的标注信息量远高于图像。

按照技术生成难度和生成内容，可以区分为拼凑式生成和完全从头生成两种方式。

拼凑式生成的技术是指基干文字(涉及NLP语义理解)搜索合适的配图、音乐等素材，在已有模板的参考下完成自动剪辑。这类技术本质是“搜索推荐+自动拼接”，门槛较低，背后授权素材库的体量、已有模版数量等成为关键因素。目前已经进入可商用阶段，国外有较为成熟的产品。代表公司/产品方面，2C的包括百度智能视频合成平台

VidPress，彗川智能，Gliacloud. Svnths video.lumen5.2B端代表公司为Pencil.

完全从头生成视频则是指由AI模型基于自身能力，不直接引用现有素材，生成最终视频。该领域目前仍处于技术尝试阶段，所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间。以Cogvideo为例.该模型基于预训练文本-图像模型CogView2打造，一共分为两个模块。第一部分先基于CogView2，通过文本生成几帧图像，这时候合成视频的帧率还很低;第二部分则会基于双向注意力模型对生成的几帧图像进行插帧，来生成帧率更高的完整视频。

由于从静态内容生成进入到了动态生成阶段，需要考虑其中时序性、连续性的问题。视频生成对于内容生成领域将具有节点性意义。同时，由于视频中会包括文本中难以表现的逻辑或尝试，相较于图像或纯文本训练，视频预训练模型有助于进一步释放语言模型的能力。

其他相关预训练模型还包括NVIDIA推出的GauGAN、微软亚洲研究院推出的GODIVA、清华及智源研究院提出的VideoGPT、TGAN、Ground Truth等。

图像/视频到文本

具体应用包括视觉问答系统、配字幕、标题生成等，这一技术还将有助于文本一图像之间的跨模态搜索。代表模型包括METER、ALIGN等。除了在各个模态之间进行跨越生成之外，目前，包括小冰公司在内的多家机构已经在究多模态生成，同时将多种模态信息作为特定任务的输入，例如同时包括图像内的人物、时间、地点、事件、动作及情感理解、甚至包含背后深度知识等。以保证生成结果更加精准。

策略生成

游戏AI

以腾讯AI Lab在游戏制作领域的布局为例，人工智能在游戏前期制作、游戏中运营的体验及运营优化、游戏周边内容制作的全流程中均有应用。

我们将其中的核心生成要素提炼为Al Bot、NPC相关生成和相关资产生成。

Al Bot，也即游戏操作策略生成

可以将其简单理解为人工智能玩家，重点在干生成真实对战策略。2016年Deepmind AlphaGO在围棋中有所展示，随后，AI决策在Dota2、StarCraft2、德扑、麻将等游戏领域中均展现出了良好的实力。

技术关键在于强化学习方案优化设计，体现为多智能体使用、可适应游戏/环境复杂度、具体策略多样性等。目前，包括网易在内的我国主流游戏公司已经形成共识，除去直接以陪玩等形式服务C端玩家，也在通过游戏跑图。

平衡度等方式服务于游戏开发/运营等B端。

NPC逻辑及剧情生成，也即由AI生成底层逻辑

此前，NPC具体的对话内容及底层剧情需要人工创造驱动脚本，由制作人主观联想不同NPC所对应的语言、动作、操作逻辑等，这种动态的个性化匹配背后依旧是不同的静态分支，创造性及个性化相对有限。

而以rct AI的智能NPC为例，其NPC能够分析玩家的实时输入，并动态地生成交互反应，从而构建几乎无限目不重复的剧情，增强自户体验并延长游戏生命周期。特别是在养成类游戏中，Al所提供的个性化生成能够带来画面，剧情及具体交互的个性化全新游戏体验。而实时剧情生成则有助于在特定框架内生成全新的可能性，增加游戏整体的叙事可能性。

虚拟数字人

虚拟数字人指存在于非物理世界(如图片、视频、直播、一体服务机、VR)中，并具有多重人类特征的综合产物。

目前“深度合成+计算驱动”型的虚拟人，综合运用文本、图像、音频等生成技术，打造综合外观、面部表情、发声习惯等产出全面拟人化的数字内容，属于AIGC领域。

此种多模态生成技术的聚合应用在虚拟偶像、虚拟主播等领域已有广泛应用。在《量子位虚拟数字人深度产业报告》中，我们将虚拟人按照产业应用划分为两种，即服务型虚拟人及身份型虚拟人。

计算驱动型/AIGC型虚拟人制作流程

1.设计形象：扫描真人形态及表演、采集驱动数据，利用多方位摄像头，对通用/特定模特进行打点扫描，采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据。

2.形象建模，进行绑定：设计所需的模型，或基于特定真人进行高还原度建模，进行关键点绑定。关键点绑定的数量及位置影响最终效果。

3.训练各类驱动模型：决定最终效果的核心步骤利用深度学习，学习模特语音，唇形，表情参数间的潜在映射关系，形成各自的驱动模型与驱动方式。

充足的吸动关键占配合以精度较高的驱动模型，能够高还原度的复原人脸骨骼和肌肉的细微变化，得到逼真的表情驱动模型。

4.内容制作：基于输入的语音(或由输入文本转化的语音)，预测唇动、表情等参数核心的技术流程是基于输入的语音，或首先基于TTS技术(Text-to-speech，语音合成技术)。

将输入的本文转化为语音。基于语音，结合第3步得到的驱动模型，并利用生成对抗模型GAN选出最符合现实的图片，推理得到每帧数字人的图片。通过时间戳，将语音和每帧的数字人图片进行结合。

5.进行渲染，生成最终内容：直播时进行实时渲染。为保证在特定场景下能够实现实时低延迟渲染，计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果

综合来看，我们认为虚拟人生成代表着从文本/音频等低密度模态向图像/视频/实时交互等信息密度更高的模态的转化。其中，视频是短期的发展重点，而长期来看，乃至在元宇宙阶段，通过实时交互成为社交节点，都将是虚拟人重要的应用场景。

在AIGC领域，我们将虚拟人生成分为虚拟人视频生成和虚拟人实时互动。

虚拟人视频生成是目前计算驱动型虚拟人应用最为广泛的领域之一，不同产品间主要的区分因素包括:唇形及动作驱动的自然程度、语音播报自然程度、模型呈现效果(2D/3D、卡通/高保真等)、视频渲染速度等。

我们在此关注到了小冰公司与每日财经新闻合作的虚拟人实时直播，除虚拟人的自动生成外，还包括了摘要、图示、表格等的自动生成，在虚拟人的基础上，交付了更为完整的AIGC内容播报产品。此外，倒映有声的TTSA除虚拟人外，还包括整个画面中的素材呈现，相较于市面上嘴形、面部和身体律动的有限覆盖，虚拟人播报的整体效果也有所提升。

代表公司:倒映有声

一家以技术为核心的创新型公司和无人驱动数字分身技术解决方案供应商。通过自研神经渲染引整和TTSA技术，实现基于文本实时生成高质量语音(音频)和动画(视频)。

在试用了倒映有声的产品后。我们发现其虚拟人自然度高于市面产品，倒映有声将其归结于神经渲染(NeuralRendering)、TTSA(基于文本和语音合成实时生成音频和视频)、ETTS(富情感语音合成)、Diqital Twin(数字孪生)。通过神经渲染技术快速构建AI数字分身，通过语音+图像生成技术，生成和驱动教字分身的唇形、表情、动作、肢体姿态，创造表情自然，动作流畅，语音充满情感的高拟真度数字分身IP。

而虚拟人的实时互动则广泛应用于可视化的智能客服，多见于APP、银行大堂等。在AIGC的虚拟人领域，由于更能够体现AI在个性化、高并发性等方面的优势，我们更强调虚拟人的实时交互功能。我们可以将这一功能理解为以人为单位的数字变生，其中会进一步涉及思维及策略相关的生成。但由于文本生成的局限性，该场景目前只能适用于特定行业。

该领域的代表公司包括:HourOne.ai、Synthesia、Rephrase.ai、小冰公司、倒映有声、数字王国、影谱科技、科大讯飞、相芯科技、追一科技、网易伏羲、火山引擎、百度、搜狗等。

除了基干NLP进行问答外，以小冰公司和腾讯Alab(A虚拟人艾灵)为代表，部分公司也在尝试将不同的生成能力融合在虚拟人下，使虚拟人能够更好的融入现实世界。

以小冰公司的小冰框架为例，虚拟人不仅在人格化形式上涉及了虚拟面容生成，虚拟语音定制、交互等，并进一步被赋予了写诗、绘画、演唱、音乐创作等AI内容创作能力，以虚拟人为接口，对外提供全栈式的AIGC能力。

虚拟人及综合性AIGC代表公司:小冰公司

小冰是全球领先的人工智能科技公司，旗下小冰框架是全球承载交互量最大的完备人工智能框架之一，在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成领域居于全球领先。

作为“Albeing”派虚拟人。小冰的产品始终是人+交互+内容。具体包括虚拟人(夏语冰等somebodyinstance、虚拟男友等nobodyinstance和国家队人工智能助判与教练系统观君等在乖直场景中工作的虚拟人类)，音精生成(主攻超级语言及歌声，在线歌曲生成平台与歌手歌声合成软件Xstudio)、视觉创造(毕业作品集《或然世界》、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计)、文本创造(2017年即推出小冰诗集)、虚拟社交、Game Al(Xiaoice Game Studio)等。

商业客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域，并提出了以“人力”的逻辑去进行商业报价的虚拟人商业模式。

五、国外AIGC工具

国外AIGC产品导航：https://library.phygital.plus

代表产品1：ChatGPT（文本生成领域）

ChatGPT官网：https://chat.openai.com/chat#

国内可使用这个入口进行体验（国内团队搭建的独立站，暂时可以免费使用）：https://chat.forchange.cn

代表产品2：Midjourney（图像生成领域）

Midjourney官网：https://midjourney.com/home

midjourney作品分享社区：https://midjourney.com/showcase/recent

相关文章：一些 Midjourney 的入门指南与绘画经验

代表产品3：（视频生成领域）

runwayml官网：https://runwayml.com

相关文章：https://weibo.com/1757693565/MrVor52jQ

六、国内AIGC工具

国内AIGC产品导航：https://www.ainav.cn/#term-24

代表产品1：（应用型文本生成领域）

copydone官网：http://copyai.cn

代表产品2：（文本辅助生成领域）

秘塔写作猫：https://xiezuocat.com

代表产品3：（文字生成图像领域）

站酷梦笔官网：https://www.zcool.com.cn/ailab

百度文心一格官网：https://yige.baidu.com

相关文章：中国AI绘画行业调查报告——技术，用户，争议与未来 - 少数派

https://sspai.com/post/76141

代表产品4：皮卡智能（图像编辑领域）

官网：https://www.picup.shop

发展趋势

总体而言，我们将AIGC产业划分为内容领域和延展领域。内容领域是目前已经能够、但并未有效实现商业化的领域。

预估未来1-2年之内会有相对完整的产业生态发展。而延展领域，由于对AI生成的自由度和稳定性有更高的技术要求.在国内的应用落地相对内容领域会更晚。分析师认为，由于能够更加充分体现AIGC系统联动及要素拆解两大关键优势延展领域后期将成为AIGC创造价值的主阵地，提供AIGC的想象空间天花板。

我国AIGC行业目前是尝试阶段，重点在于技术完善+需求探索，研究机构的作用明显。大部分情况下AIGC尚未进入业务场景，变现能力有待增长。具有编辑优化功能的AIGC将成为这段时期的发展重点。

在主要场景中，Al能够遵从明确的指令或素材，完成有助于最终生成的工作，例如虚拟人播报，语音克降等。

我们将行业发展阶段进行了如下划分。其中，关键节点包括:

AIGC技术能力的成熟。体现在特定模型在大规模测试后指标能够稳定在理想状态，可以以论文发表及Github反馈等作为关键指标。但需要强调，该阶段的技术能力成熟往往距离实际应用仍有一段距离，不能直接作为判定标准。

产品形态的成熟。不仅包括低代码/零代码等低门槛要求，还需要符合创作者的使用习惯，例如，能够中途及时介入修改，多种形式的prompt，有充足的介入接口等。分析师认为后者更为重要，除去产品设计之外也与本身的技术架构相关。

核心场景的确定。目前，尽管许多AIGC能力已经进入实际使用，但尚未寻找到能充分体现其核心价值的关键场景，应用价值无法得到充分发挥。

产业方的接纳态度。包括底层接口开放、业务流程融通、产业基础设施完善等。可以以行业头部公司的接纳/自研态度作为重要参考指标。

需要强调的是，由于各内容领域的生成技术之间发展差距较大，该阶段评价仅基于AIGC行业整体。相关指标也可用于衡量不同AIGC赛道目前的成熟度，用干预测其未来发展路径。

在国内，布局最多的赛道是AI写作和语音合成领域，虚拟人赛道刚刚开始兴起基本均停留在内容领域。而在国外延展领域得到了更为充分的挖掘，例如个性化文本生成、合成数据等赛道均是重点布局领域。据相关公司披露，这两个赛道均已获得了明确业务价值和收入验证，但在国外目前进展较少。

技术部分导致了这一原因，但分析师认为，更大的原因在于此类业务拓展的综合性要求较高，需要客户方的数字化程度以及对对应行业的充分了解，预计国内外在这两个赛道上存在2-3年差距。

最后，我国的AIGC行业尚未建立起明确的变现方式。以写作机器人、自动配音等场景为例，大部分产品仍处在免费试用的“流量吸引+平台改良”阶段，收费空间相对较小。此外，多家公司提及，由于服务B端客户时话语权较弱，会考虑向2B2C领域、乃至直接2C领域延展。但作为工具，能否在互联网流量相对稳定的前提下有效接触C端用户，设计好产品转化路径，依旧是一项挑战。

国外AIGC现有变现方式

作为底层平台接入其他产品对外开放，按照数据请求量和实际计算量计算

GPT-3对外提供API借口，采用的四种模型分别采用不同的按量收费方式

按产出内容量收费

包括DALL·E、Deep Dream Generator等AI图像生成平台大多按照图像张数收费

直接对外提供软件

例如个性化营销文本写作工具AX Semantics则以约1900人民币/月的价格对外出售，并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AIGC工具则以约80人民币/月的价格对外出售

模型训练费用，适用于NPC训练等个性化定制需求较强的领域
根据具体属性收费

例如版权授予(支持短期使用权，长期使用权，排他性使用权和所有权多种合作模式，拥有设计图案的版权)，是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等

AIGC面临的挑战：

版权、安全、伦理等问题。AIGC在引发全球关注的同时，知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。

1）知识产权争议。AIGC的飞速发展和商业化应用，除了对创作者造成冲击外，也对大量依靠版权为主要营收的企业带来冲击。

2）关键技术难点。AIGC距离通用人工智能还有较大差距，当前热门的AIGC系统虽然能够快速生成图像，但是这些系统未必能够真正理解绘画的含义，从而能够根据这些含义进行推理并决策。

3）创作伦理问题。部分开源的AIGC项目对生成的图像监管程度较低，数据集系统利用私人用户照片进行AI训练，侵权人像图片进行训练的现象屡禁不止。一些用户利用AIGC生成虚假名人照片等违禁图片，甚至会制作出暴力和性有关的画作。由于AI本身尚不具备价值判断能力，一些平台已经开始进行伦理方面的限制和干预，但相关法律法规仍处于真空阶段。

更多干货请点击：

【免费下载】2023年2月份热门报告盘点最新亲测国内可用ChatGPT使用教程（3分钟搞定）罗振宇2023年跨年演讲PPT原稿吴晓波2022年年终秀演讲PPT原稿

《底层逻辑》高清配图

清华大学256页PPT元宇宙研究报告.pdf（附下载链接）

2022抖音种草ATOM方法论.pdf
经纬张颖：给科研技术背景创始人的10条建议ChatGPT调研报告ChatGPT团队背景研究报告ChatGPT的发展历程、原理、技术架构及未来方向2022-2023年B站平台营销报告小红书爆文笔记进阶指南2023年AIGC发展趋势报告：人工智能的下一时代

你可能感兴趣的:(AIGC,人工智能)

TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期|数商云数商云网络 B2B系统数字化电商平台人工智能大数据云计算数据库运维 java spring
引言在数字经济时代，B2B（Business-to-Business）电子商务正在以前所未有的速度改变着企业的运营模式。随着交易量的不断攀升，传统的合同生成和审核流程逐渐成为制约交易效率的瓶颈。然而，随着人工智能（AI）技术的飞速发展，结合B2B系统的智能化升级，我们正见证一场合同生成效率的革命。本文将深入探讨“30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期”这一创新模式，解析其背后的
【北京迅为】iTOP-RK3568开发板OpenHarmony系统南向驱动开发UART接口运作机制迅为电子 RK3568开发板 RK3568开发板 OpenHarmony
瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和MaliG522EE图形处理器。RK3568支持4K解码和1080P编码，支持SATA/PCIE/USB3.0外围接口。RK3568内置独立NPU，可用于轻量级人工智能应用。RK3568支持安卓11和linux系统，主要面向物联网网关、NVR存储、工控平板、工业检测、工控盒、卡拉OK
大学期间如何学习利用AI der丸子吱吱吱学习人工智能
一、引言人工智能（AI）是当今世界技术发展的重要方向，它已经渗透到医疗、金融、交通、娱乐等各个领域。随着AI技术的快速发展，它不仅改变了我们的生活，也带来了巨大的职业机会。然而，面对如此广阔的领域，作为大学生，如何在本科阶段有效地学习和利用AI，成了许多同学的困惑。本文将详细介绍大学生在本科阶段如何通过合理的学习路线、方法和工具，逐步掌握AI的核心技术，并为日后进入AI行业打下坚实的基础。通过这篇
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
生成式对抗网络在人工智能艺术创作中的应用与创新研究辛迎蕌人工智能
摘要本文深入探究生成式对抗网络（GAN）在人工智能艺术创作领域的应用与创新。通过剖析GAN核心原理，阐述其在图像、音乐、文学等艺术创作中的实践，分析面临的挑战与创新方向，呈现GAN对艺术创作模式的变革，为理解人工智能与艺术融合发展提供全面视角。一、引言在人工智能与艺术深度融合的时代浪潮中，生成式对抗网络（GAN）作为一项突破性技术，为艺术创作带来了全新的可能性。它打破传统创作边界，以独特的对抗学习
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
AI人工智能 Agent：在赋能传统行业中的应用 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：在赋能传统行业中的应用1.背景介绍1.1人工智能的发展历程1.1.1人工智能的起源与发展1.1.2人工智能的三次浪潮1.1.3人工智能的现状与挑战1.2传统行业面临的困境1.2.1效率低下1.2.2成本高企1.2.3决策滞后1.3人工智能赋能传统行业的必要性1.3.1提高效率1.3.2降低成本1.3.3优化决策2.核心概念与联系2.1人工智能Agent的定义2.1.1Age
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
硬件NAS将成为电子垃圾？ DeepSeek+NAS 家用NAS WinNAS 飞牛NAS 人工智能安卓NAS
随着人工智能（AI）技术的快速发展，传统的NAS设备正面临一场深刻的变革。过去，NAS的主要功能是提供数据存储和共享服务，但在AI时代，单纯的存储功能已无法满足用户需求。未来的NAS必须集成本地AI能力，才能成为真正的AI-NAS。然而，当前市场上的NAS产品硬件配置普遍较低，无法支持本地AI的运行。因此，现有的硬件NAS在三年内可能会被淘汰，取而代之的将是集成了AI和NAS功能的家用AI服务器。
【DeepSeek】全方位使用指南————简版諰. 人工智能 ai AI写作
一、平台概述DeepSeek（深度求索）是专注实现AGI的中国的人工智能公司，提供多款AI产品：智能对话（Chat）文生图（Art）代码助手（Coder）API开发接口企业定制解决方案二、注册与登录2.1账号创建访问官网https://www.deepseek.com点击右上角「注册」支持三种方式：手机号+短信验证邮箱注册（需验证邮件）第三方登录（微信/Google账号）2.2订阅计划套餐类型免费
【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
人工智能之数学基础：矩阵的范数每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵算法线性代数范数
本文重点在前面课程中，我们学习了向量的范数，在矩阵中也有范数，本文来学习一下。矩阵的范数对于分析线性映射函数的特性有重要的作用。矩阵范数的本质矩阵范数是一种映射，它将一个矩阵映射到一个非负实数。矩阵的范数前面我们学习了向量的范数，只有当满足几个条件的时候，此时才可以，那么矩阵也是一样的，当满足下面的条件的时候，才可以定义||A||为矩阵A的范数矩阵范数的性质连续性矩阵范数是连续的函数。即如果矩阵序
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
使用LangChain与Amazon Bedrock构建JCVD风格的Chatbot scaFHIO langchain python
技术背景介绍在人工智能时代，构建一个智能化的聊天机器人不仅是一个趋势，更是提升与用户互动体验的关键之一。本文将向你展示如何使用LangChain和AmazonBedrock构建一个仿效让·克劳德·范·达美（JCVD）风格的聊天机器人。我们将借助于Anthropic提供的Claude模型，通过AmazonBedrock强大的基础设施来实现这一目标。核心原理解析LangChain作为一个强大的框架，简
Cursor 终极使用指南：从零开始走向AI编程芯作者 DD：日记人工智能机器学习深度学习 AI编程
在数字化浪潮席卷全球的今天，人工智能（AI）已不再是遥不可及的概念，而是逐渐融入我们日常生活的方方面面。作为未来技术的核心驱动力，AI编程成为了众多开发者和技术爱好者争相探索的领域。而在这场技术革命中，Cursor——这一看似简单却功能强大的编程工具，正悄然成为连接初学者与AI编程高手的桥梁。本文将带你从零开始，逐步解锁Cursor的终极使用指南，让你在AI编程的道路上越走越远。一、初识Curso
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
人工智能知识架构详解 CodeJourney. 数据库人工智能算法架构
人工智能（ArtificialIntelligence，简称AI）作为当今最具影响力和发展潜力的技术领域之一，正深刻地改变着我们的生活、工作和社会。从智能家居到自动驾驶，从医疗诊断到金融投资，人工智能的应用无处不在。要全面深入地理解和掌握人工智能，构建一个清晰、系统的知识架构至关重要。二、基础数学（一）线性代数线性代数是人工智能的重要数学基础之一。矩阵运算在数据表示和变换中起着核心作用。例如，在图
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &