整数智能AI研究院

从文本创建艺术，AI图像生成器的数据集是如何构建的

AIGC系列分享是整数智能推出的一个全新分享系列，在这个系列中，我们将介绍与AIGC概念相关的有趣内容。AIGC系列主要分为以下几篇文章：

被称为下一代风口的AIGC到底是什么？

AIGC的数据集构建方案分享系列

从文本创建艺术，AI图像生成器的数据集是如何构建的

ChatGPT的数据集构建方案（敬请期待）

未完待续......

最近，“AI绘画”吸引了很多人的目光，而“AI绘画”在近期取得如此巨大进展的原因之一得益于Stable Diffusion的开源。

引自Imagen官网

什么是文图生成技术

文本描述：A small cabin on top of a snowy mountain in the style of Disney, artstation

文图生成技术的研究开始于2010年中期，伴随着深度学习技术的发展而进步。截至2023年2月，目前已知的最先进的文生图模型有：OpenAI的DALL-E2、Google的ImageGen和StableilityAI的Stable Diffusion。这些模型生成的图片已经开始接近真实照片以及人类所绘艺术作品的质量。

在深度学习兴起之前，搭建文本到图像模型的尝试仅限于通过排列现有的组件图像进行拼贴，例如从剪切画数据库中选择图像形成类似于拼贴画的图像。随着深度学习的发展，越来越多的机构提出基于深度学习的文生图模型。

2015年，由多伦多大学研究人员提出第一个现代化文生图模型：alignDRAW。它使用带有注意力机制的循环变分自动编码器来扩展之前的DRAW架构，使其能以文本序列作为输入。尽管alignDRAW生成的图片是模糊，不逼真的，但是该模型能够归纳出训练数据中没有的物体。并且可以适当地处理新的文本描述，例如：“停车标识在蓝天上飞”。这表明该模型在一定程度上可以理解语言描述，并生成新的东西，而不是仅仅在“回放”训练集中的数据。

文本描述：停车标识在蓝天上飞，引自aligenDRAW论文

2016年，Reed、Akata、Yan等人首先试图将生成对抗网络（GAN）用于文生图任务。他们通过在特定领域的数据集上训练生成器以及判别器。训练完成的模型能够从文本描述中生成“视觉上可信的”物体。但是，基于GANs生成的图片在视觉上只可“远观”，在细节上缺乏一致性。此外，基于GANs生成的图片多样性不够好，生成的图片都差不多，原创性不佳。常见的基于GANs的文图生成模型有：AttnGAN、DM-GAN、DF-GAN、XMC-GAN、VQGAN+CLIP、GauGANs、StyleGAN、Make-A-Scen等。

2021年1月，OpenAI发布了DALL-E，这是最早引起公众广泛关注的文生图模型之一。DALL-E模型是GPT-3的多模态实现，它基于Transformer架构，拥有120亿个参数。该模型在一个从网上收集的包含2.5亿个图像文本对的数据集上进行训练得到。DALL-E会根据文本描述生成多个图像，之后由CLIP模型对这些图像进行排序，以呈现最高质量的图像。除了生成各种风格的图像（相机写实主义图像、绘画、表情符号等）之外，它还可以“操作和重新排列”图像中的对象。其创作者指出DALL-E的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中。例如，输入文本：“穿着圣诞衣服的企鹅”。DALL-E不仅生成企鹅穿着毛衣的图像，还会生成与主题相关的圣诞老人的帽子。如下所示：

文本描述：穿着圣诞衣的企鹅

同年4月份，OpenAI宣布了新版本的DALL-E2，宣称它可以从文本描述中生成照片般逼真的图像。与DALL-E相比，DALL-E2在速度、图像质量、训练数据集以及语言理解能力都有了显著改进。不过有时候模型也会出现错误。比如DALL-E2就无法区分：“黄色的书和红色的花瓶”。

文本描述：黄色的书和红色的花瓶，左边图片由Imagen生成，右边图片由DALL-E2生成，引自Imagen论文

2022年5月，Google推出Imagen。它是一种文本到图像（text-to-image）扩散模型（diffusion model），具有前所未有的逼真度和深度的语言理解。Imagen建立在大型Transformer语言模型理解文本语义的能力之上，依赖于扩散模型生成高保真的图像。Imagen表明了以下四点结论：

冻结大型预训练模型的文本编码器对于文本到图像任务非常有效

缩放预训练文本编码器的大小比缩放扩散模型的大小更重要

提出一种新的阈值扩散采样器，可以使用非常大的无分类器指导权重

引入了一种新的高效的U-Net架构，其计算效率更高，内存效率更高，收敛速度更快

文本描述：A brain riding a rocketship heading towards the moon，引自Imagen官网

2022年7月，OpenAI推出Stable Diffusion。Stable Diffusion是一个基于Latent Diffusion Models（潜在扩散模型，LDMs）的文图生成（text-to-image）模型。得益于Stability AI的计算资源以及LAION的数据资源的支持，Stable Diffusion在LAION-Aesthetics（LAION-5B的美学子集）上训练了一个Latent Diffusion Models，专门用于文图生成。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像，让文图生成任务能够在消费级GPU上，在10秒级别时间生成图片，大大降低落地门槛，也带来了文图生成领域的大火。

文图生成样例，引自Stable Diffusion论文

同年11月，OpenAI发布了Stable Diffusion 2.0。与最初的v1版本相比，Stable Diffusion 2.0版本使用全新的文本编码器（OpenCLIP）训练文本到图像模型，这大大提高了生成图像的质量。此版本的文生图模型可以生成默认分辨率为512x512像素以及768x768像素的图像。此外，该模型在LAION-Aesthetics（LAION-5B的美学子集）进行训练。与v1版本不同的是，v2版本使用LAION的NSFW（色情和性内容过滤器）过滤掉了数据集中的成人内容。

文本描述：一只戴墨镜的兔子

Stable Diffusion 2.0还包括一个超分辨率扩散模型，它可以将图像的分辨率提高4倍。结合文本到图像模型，Stable Diffusion 2.0现在可以生成分辨率为2048x2048甚至更高分辨率的图像。

左图：128x128低分辨率的图片，右图：512x512高分辨率的图片，引自Stable Diffusion 2.0官网

除了完成基本的文生图任务、超分辨率任务之外，Stable Diffusion 2.0还可以玩转很多其他任务。比如Stable Diffusion 2.0 在v1版本图像到图像（image-to-image）的特性之上，提出深度引导的稳定扩散模型（depth-guided stable diffusion）：depth2img。它使用现有模型推断输入图像的深度，然后使用文本和深度信息生成新的图像。

depth2img，引自Stable Diffusion 2.0官网

此外，Stability AI团队在Stable Diffusion 2.0的基础上提出一个新的文本引导的图像模型。这可以智能且快速地切换图像中的部分内容。

图像修补模型生成的图像，引自Stable Diffusion 2.0官网

同年12月，OpenAI发布了Stable Diffusion 2.1版本（公司效率不可谓不高），主要作了以下3点提升。

调整过滤器，增加数据量：在2.0版本中，为了防止色情内容和名人肖像的滥用，Stability AI使用LAION的NSFW（色情和性内容过滤器），过滤了成人内容。但是，该过滤器过于保守，这导致一些模棱两可的图像惨遭“和谐”，这减少模型训练数据集中的人物数量。因此，2.1版本调整了过滤器（可以涩涩，但仍然去除绝大多数涩涩内容）

加强非标准分辨率图像渲染：该版本的模型显著提升了建筑、室内设计、野生动物和景观场景方面的图像质量，可以为用户提供美丽的远景和史诗般的宽屏图像

加强反向提示词：它允许用户告诉模型不生成什么，用于消除不需要的细节，使得生成的图像更加精致

文本描述：A mecha robot in a favela in expressionist style，左图：v1.0版本，右图v2.1版本

图解Stable Diffusion原理

在大致了解文图技术之后，大家是不是想要了解图文生成模型的原理以及如何构建训练数据集呢？别急，下面，我们将以Stable Diffusion为例子，以图文的方式带着大家一起掀开Stable Diffusion的面纱。

Stable Diffusion text-to-image示意图，引自Jay Alammar博客

Stable Diffusion是个比较杂合的系统，主要由三个核心模块组成：

Text Encoder（文本编码器）

Image Information Creator（图像信息生成器）

Image Decoder（图像生成器）

Stable Diffusion模块示意图，引自Jay Alammar博客

Text Encoder（文本编码器）

该模块负责处理语义信息。通常是利用CLIP（v1版本）、OpenCLIP（v2版本）等模型将人类语言（文字）编码为计算机语言（语义向量）。训练CLIP（OpenCLIP）则需要一个图文配对的数据集。

CLIP训练流程图，引自Jay Alammar博客

Image Information Creator（图片信息生成器）

该模块负责生成图片隐变量。其核心则是一个多次迭代的去噪过程，即训练一个去噪的扩散模型。模型的输入是一个带噪声的图片隐变量（含语义向量），通过扩散模型，逐步去除隐变量中的噪声（模型的预测目标是噪声），最终得到去除噪声的隐变量（加噪图减去噪声）。训练这个扩散模型，则需要一个“去噪”数据集。

噪声预测器，引自Jay Alammar博客

Image Decoder（图片生成器）

该模块利用隐变量生成真正的图片。具体功能是输入去噪的隐变量，经过Image Decoder，输出一张真正的图片。

不同迭代次数下的隐向量可视化，引自Jay Alammar博客

Stable Diffusion数据集构建方式

由上文可知，Stable Diffusion 算法经过了三个版本的迭代，其训练的数据集也发生不同程度的变更。总而言之，Stable Diffusion 系列模型都是在LAION-Aesthetics（LAION-5B的美学子集）上训练得到。区别在于Stable Diffusion 2.0使用LAION的NSFW（色情和性内容过滤器）过滤掉了数据集中的成人内容。Stable Diffusion 2.1调整了过滤器权重，保留了部分“涩涩”数据，扩大了数据集。

数据集内容

此类数据集由图片以及图片对应的标签（描述）组成，主要用来训练CLIP、OpenCLIP等多模态模型。

数据集：图片以及它们的描述，引自Jay Alammar博客

数据集构建

LAION-5B是目前已知且开源的最大规模的多模态数据集。它通过CommonCrawl获取文本和图片，然后使用CLIP过滤掉图像和文本嵌入相似度低于0.28的图文对，最终保留下来50亿个图像-文本对。该数据集包含23.2亿的英文描述，22.6亿个100+其他语言以及12.7亿的未知语。

LAION-5B数据集构建pipeline，引自LAION-5B论文

LAION-5B数据集的构建包含3个主要组件：

Common Crawl网页的分布式过滤

图像-文本对的分布式下载

内容过滤

【Common Crawl网页的分布式过滤】：为了从Common Crawl中提取图像-文本对，作者团队从Common Crawl的WAT元数据文件中解析HTML IMG（图片）标记。具体来说，只采集具有alt-text的图像。alt-text是IMG标记的一个HTML属性，它包含在相应图像无法呈现情况下的文字替代。在提出替代文字后，使用CLD3进行语言检测，有三种可能的输出：英语、其他语言或未检测到语言。采集的结果数据存储在PostgreSQL服务器中，以便下一阶段进行处理。目前，该服务器一直维护大约500亿个图像URL。

【图像-文本对的分布式下载】：为了最大限度地利用资源，作者团队通过使用Trio和Asks Python库的异步请求从解析过的URL下载原始图像。作者选择一个具有2个vCPUS，1GB RAM和10Mbps下载宽带的小型云节点作为工作实例。这样，工作人员可以在大约10-15分钟内处理10,000个链接。

【内容过滤】：从Common Crawl下载WAT文件后，删除小于5个字符的文本、小于5KB的图像数据以及潜在的恶意、大图像或冗余图像数据。然后根据图像-文本对的内容对其进行过滤。具体来说，使用OpenAI的ViT-B/32 CLIP模型计算图像和文本编码之间的余弦相似度，然后删除所有余弦相似度小于0.28的英文图像-文本对，以及所有相似度低于0.26的其他图像-文本对。这一步删除了原始500亿张图像中的90%，只剩下近60亿张图片。

作者将LAION-5发布为3个子集：

LAION-2B-en：包含23.2亿英文-图像对

LAION-2B-multi：包含2236亿个来自100多种其他语言的图像-文本对。其中前5种语言分别是俄语（10.6%）、法语（7.4%）、德语（6.6%）、西班牙语（6.6%）和汉语（6.3%）

LAION-2B-nolang：包含12.7亿个语言无法被清楚检测到的图像-文本对

作者团队提供Apache Parquet格式的元数据文件，每个图像-文本对包含以下属性：

64位整数标识符

图像的URL

文本字符串

图像的长和宽

文本与图像之间的文本相似度

来自NSFW和水印检测器的输出（分别是0到1之间的一个分数）

此外，为了适应不同任务的数据需求。LAION-5B还提供不同的子集。例如：LAION-High-Resolution（一个规模为170M，图像分辨率大于1024的超分辨率子集，用于超分辨率任务），LAION-Aesthetic（一个120M的美学图片子集，用于文图生成任务）。

值得一提的是，LAION-Aesthetic使用以下三个准则，从LAION-5B数据集中选择符合条件的图像：

1.只保留pwatermark < 0.8、punsafe < 0.5的数据。

2.针对上述数据，进行美学打分（按照人类审美对图片进行打分，一共10个等级，得分越高，图片越符合美学标准），保留得分大于8的数据，得到一个10M的美学子集。

3.当降低美学得分（得分大于7），即可得到一个120M的美学子集。

美学图片与常规图像，引自LAION-5B官网

数据集使用

此类数据集是在图文数据集的基础之上，加入噪声，构建“去噪”数据集。主要用来训练Difussion models。

Stable Diffusion则是在LAION-5B的一个子集（LAION-Aesthetics）上训练得到的。有了图文数据集之后，只需要向普通的照片中添加噪声（高斯噪声），就有了带噪声的图片。具体的数据集构建方式如下所示：

从图文数据集中随机选择照片

生成从强到弱的各个强度的噪声

选择某个噪声强度

将噪声加到图片里

训练数据集构建方式：1.选择图片；2.生成不同强度的噪声；3.从中选择强度（比如强度1）；4.将噪声加入图片里；引自Jay Alammar博客

现在就完成了训练集里面的一张图片。实际上，噪声可以被划分为更加细腻的等级。若将其分为几十个甚至上百个等级档位，那么就可以创建出成千上万个训练集。比如，我们将噪声设置为100个档位，下面就展示了利用不同档位结合不同图片创建6张训练图片的过程：

加噪数据集样例，引自Jay Alammar博客

值得注意的是，训练好的Diffusion模型生成的图片是接近训练集分布的，它和训练集保有相同的像素规律。比如，用一个艺术家数据集去训练模型，那么它就会遵循美学的颜色分布。用真实世界的训练集去训练模型，那么它就会遵循真实世界的规律。

上述数据集构建方式，不仅适合Stable Diffusion，也适用于OpenAI的Dall-E2和Google的Imagen。

然而，上述过程暂时没有引入文字和语义向量的控制。换言之，如果单纯按照上述方法构建数据集来训练模型，我们可能得到一些炫酷的图片，但无法控制最后生成的结果。因此，在构建数据集的时候，还需要引入本文语义输入。如下图所示：

数据集包含编码后的文本，由于所有操作在潜空间进行操作，因此输入图像和预测噪声都在潜空间中，引自Jay Alammar博客

至此，训练Diffusion models的数据集就构建完成了。训练Diffusion models的管道如下图所示：

Diffusion models pipeline，输入：加噪图片、噪声强度、文本嵌入；输出：预测的噪声，引自Jay Alammar博客

常见的可用于文图生成的数据集

COCO（COCO Captions）

COCO Captions是一个字幕数据集，它以场景理解为目标，从日常生活场景中捕获图片数据，通过人工生成图片描述。该数据集包含330K个图文对。

数据集下载链接：https://cocodataset.org/

Visual Genome

Visual Genome是李飞飞在2016年发布的大规模图片语义理解数据集，含图像和问答数据。标注密集，语义多样。该数据集包含5M个图文对。

数据集下载链接：http://visualgenome.org/

Conceptual Captions（CC）

Conceptual Captions（CC）是一个非人工注释的多模态数据，包含图像URL以及字幕。对应的字幕描述是从网站的alt-text属性过滤而来。CC数据集因为数据量的不同分为CC3M（约330万对图文对）以及CC12M（约1200万对图文对）两个版本。

数据集下载链接： https: //ai.google.com/research/ConceptualCaptions/

YFCC100M

YFCC100M数据库是2014年来基于雅虎Flickr的影像数据库。该库由一亿条产生于2004年至2014年间的多条媒体数据组成，其中包含了9920万张的照片数据以及80万条视频数据。YFCC100M数据集是在数据库的基础之上建立了一个文本数据文档，文档中每一行都是一条照片或视频的元数据。

数据集下载链接：http://projects.dfki.uni-kl.de/yfcc100m/

ALT200M

ALT200M是微软团队为了研究缩放趋势在描述任务上的特点而构建的一个大规模图像-文本数据集。该数据集包含200M个图像-文本对。对应的文本描述是从网站的alt-text属性过滤而来。（私有数据集，无数据集链接）

LAION-400M

LAION-400M通过CommonCrwal获取2014-2021年网页中的文本和图片，然后使用CLIP过滤掉图像和文本嵌入相似度低于0.3的图文对，最终保留4亿个图像-文本对。然而，LAION-400M含有大量令人不适的图片，对文图生成任务影响较大。很多人用该数据集来生成色情图片，产生不好的影响。因此，更大更干净的数据集成为需求。

数据集下载链接：https://laion.ai/blog/laion-400-open-dataset/

LAION-5B

数据集下载链接：https://laion.ai/blog/laion-5b/

整数智能的数据服务助力您玩转AIGC

80%的数据 + 20%的算法 = 更好的AI

人工智能的研发是一个非常标准化的流程，它会经历4步，从数据采集->数据标注->模型训练->模型部署。而80%的研发时间，则消耗在了数据采集与数据标注的环节。数据工程的核心在于高效率、高质量的数据标注。

整数智能——AI行业的数据合伙人

整数智能信息技术（杭州）有限责任公司，起源自浙江大学计算机创新技术研究院，致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员。

整数智能提供了智能数据工程平台（ABAVA Platform）与数据集构建服务（ACE Service）。满足了智能驾驶、AIGC、智慧医疗、智能安防、智慧城市、工业制造、智能语音、公共管理等数十个应用场景的数据需求。目前公司已合作海内外顶级科技公司与科研机构200余家，拥有知识产权数十项，多次参与人工智能领域的标准与白皮书撰写。整数智能也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

1.专业级的团队和技术支撑

强大的研发团队持续迭代AI数据平台ABAVA Platform，创造极致的AI数据标注效率

数据专家为您制定数据集构建方案，满足您对数据集的定制化需求

2.满足全领域多场景的数据标注需求

在图像与视频数据方面，支持关键点标注、线标注、框标注、语义分割标注、立体框标注、逐帧标注等标注需求

在点云数据方面，支持3D点云框标注、3D点云语义分割、3D点云车道线标注、2/3D融合标注等标注需求

在文本数据方面，支持NER命名实体标注、SPO文本三元组标注、内容审核、情绪分析等标注需求

在音频数据方面，支持ASR标注、音素标注、MIDI标注等标注需求

3.极致的的数据交付质量

整数智能拥有数十家自建数据产业基地和合作产业基地，覆盖10万名人工智能训练师，逐步形成一套科学专业的人员、质量管控及数据安全保障机制

依托数据标注方面所积累的经验，平台可达成100万张图像标注量级的峰值。整数智能数据管理平台通过流程与机制的双重保障，为您提供质量更优、响应速度更快的数据服务，助力企业用户实现降本增效

联系我们

希望能够与正在阅读这篇文章的您进一步交流沟通，一起探索AI数据的更多可能性。欢迎联系我们：

电话（微信同号）：137-8507-0844

邮箱：[email protected]

也可以关注我们的账号：整数智能AI研究院

你可能感兴趣的:(人工智能,AI作画,大数据)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本