Eric雪菲

2023：生成式AI与存储最新发展和趋势分析（下）

上海市计算机学会存储专委陈雪菲

上一篇关于生成式AI讨论得比较多，这一篇我们聊聊存储以及存储和AI的碰撞。

1. 存储新发展概述

近两年存储领域最大的里程碑事件应该是闪存赢得过半市场，Gartner 连续几个季度的市场分析数据中也多次都确认了这一点，固态存储取代机械硬盘的趋势不可逆转。在这一大背景下，有三个新发展方向日益引起更多关注，分别是存储新介质，可计算存储（存算一体）和进一步的极致性能追求。

2．介质：

Intel曾经用傲腾推动了介质层的革命，它在DRAM和SSD之间硬生生开创出SCM/PMem这一新层级，拓展了存储金字塔的层数。性能好延迟低耐擦写非易失，这种新型相变储存器除了贵和容量小几乎没有缺点。但2022年傲腾突然退出市场，形成了事实上的釜底抽薪，许多基于新介质的产品技术研究和生态都被晾在沙滩上。然而经过几年市场培育，需求的幼苗早就破土而出，已经成为一种客观存在，也留下了一个真空地带需要填补。对于产品的呼唤，业界传言了一年多的三星铠侠大普微或是其他厂商，到底谁能真正推出成熟替代来解决供需矛盾，是非常值得关注的。

在替代产品出现之前，业界有两种思路解决此问题，一是重提NVDIMM（非易失内存模组）的路线，二是回归DRAM+SSD并重新设计软硬件架构，两者都非一蹴而就的简单工作。从硬件上看，NVDIMM-P/NVDIMM-H 都属于SCM，傲腾和NVDIMM-P设计也有相似之处，应该有所参照。但NVDIMM使用了DRAM，导致成本高昂，产品竞争力上有先天短板。其次如果回归DRAM+SSD方案，缓存机制和数据不丢失方案都需要重构，需要承担时间和产品成熟度风险。

3．存算一体

严格来说，存算一体技术所依赖的可编程SSD不能归类到介质，但可以认为和介质绑定非常紧密。最近这几年，两种有趣的相反思路都同时存在：首先，存算一体/可计算存储/可编程SSD，都是“ offload”思路：把原本由主机侧负责的部分数据处理的计算负载主动卸载到存储端（包括智能网卡也都是如此），通过在靠近存储介质的地方加个ARM CPU或者干脆是FPGA来提供计算能力，也就是所谓的让计算靠近数据。它能完成的计算包括数据压缩，视频编解码，加解密等等IO密集型应用所需功能，目前在这个方向有很多参与者，是一个热点。

另一种思路是把本来紧密集成在SSD介质侧的管控能力提到主机侧来处理，例子就是前两年业界广泛讨论的open channel SSD。原本是固化到FLASH主控芯片的功能，开放接口给主机侧，让主机侧根据自身应用负载特点，通过软件算法调整实现优化。实质上是把存储固件FTL的工作提到上层来完成，这样系统能够了解底层的情况，可以做文件系统软件和介质硬件的协同设计，用各种办法提高性能。这和前一种Offload思路形成了有趣的对照。

4．DNA存储

个人兴趣而言，我觉得真正有意思的介质是DNA存储，它属于生物技术与信息技术的跨学科结合，BT+IT。迄今为止，所有的电子信息技术和产业都是基于物理学，能带理论催生了半导体的发现。而DNA的碱基对序列能够储存遗传信息则是生物学的范畴，完全不同的学科。高中生物已经教过DNA的双螺旋结构和ATCG四种嘌呤和嘧啶，用ACTG 分别代表二进制数据00 01 10 11，就能够实现数据的存储，DNA编码合成技术能实现数据写入，而DNA测序技术就能实现数据的读取。

DNA存储有几个突出特点，首先是存储密度大，单位体积能够存储的数据量比闪存大三个数量级（1000倍）。MIT的生物工程学教授Mark Bathe有一个著名观点，“The world in a mug”：使用DNA存储技术，一个咖啡杯就可以放得下全世界175ZB的数据。

其次是保存时间长和保存成本低，磁盘和闪存的有限保存时间通常是十年或几十年以内，但DNA存储的保存时间至少是百年以上，如果保存得当，千年和万年也是有可能的，毕竟从万年前的琥珀里提取飞虫基因的故事大家也都听过了，更夸张的是Nature上的一篇论文提到能提取冻土中120万年猛犸象的遗传物质并对其DNA进行了解析。

但是DNA存储最大的问题是读速度慢和写成本高，合成1MB数据的成本可能超过10万美元；而高速测序技术虽然也叫高速，但和存储行业的高速不可同日而语。

DNA存储的整体研究最近两年有些进展，但还未产生重大突破，21年底22年初，微软+华盛顿大学发了新论文，实现并发读写方法；东南大学使用电化学方法加速合成（写）和测序（读）；22年9月，天津大学团队用BT+IT的完美结合，解决了常温保存后DNA断裂错误问题。利用生物科学的序列重建算法和信息存储技术的喷泉码（纠删码的一种），事先存储于DNA中的敦煌壁画得到了完美数据恢复。他们之前还利用酵母繁殖实现数据生物复制，非常有意思。

另外，国外微软西数牵头的DNA数据存储产业联盟去年发布了白皮书；国内华大基因和中科院深圳先进技术研究院等联合一些单位在22年7月份发布了《DNA存储蓝皮书》也提出组建 DNA数据存储产学联盟。

5. 存储极致高性能

极致高性能的获得不是一件容易的事，它关系到整个数据链路的所有环节，介质、接口、协议、各层级的缓存机制设计和彼此配合都有关系，仅在一两个环节做局部升级和优化，有时候并不能获得如预期般的理想结果，性能瓶颈永远是一个狡猾的动态漂移者，需要全局视野和细致实践才能有所掌握。

衡量存储性能无非是带宽，IOps和时延，以及性能的稳定输出范围QoS，峰值再高，忽上忽下的性能表现肯定也是无法接受的。

从介质上看，Flash，SCM, DRAM都可能出现在数据路径上，搭配相应的缓存机制来提高性能绝对值，从接口上看，过去的PCIe4.0时代，M.2 和U.2使用PCIex4，顺序读带宽可以达到7GBps以上，而4k IOPS可以到100~160万；（另外插卡式的存储直接使用PCIe接口，支持X8和X16,理论带宽能超过20GBp）。现在的PCIe5.0时代，新接口E1.S/E1.L和E3.S/E3.L不仅带来容量的提升，更因为支持PCIe5.0 X8和X16，能够获得翻倍的带宽性能；而未来PCIe6.0到来时，由于通道带宽再次翻倍到128GBps，新接口应该需要更多考虑如何发挥出这一前所未有的通道性能。

至于协议方面，NVMe协议已经被广泛采用，NVMe-oF中的NVMe/RDMA（IB）对极致性能的达成有一定研究价值，而RoCE协议可能在时延上有较难克服的问题，更适合向下走性价比方案路线。近期业界真正广泛关注的可能是CXL3.0协议，通过cxl.io cxl.mem cxl.cache三个子协议模块，它实现了主机直接访问外设内存和外设直接访问主机内存的双向访问和系统内存扩展，同时提供了内存级的互联能力。在2023年8月美国闪存峰会（FMS）上，一家韩国厂商利CXL池化内存，展现了3.32倍优于传统RDMA方案的应用性能。在存储极致性能的研究方面，CXL是一个非常值得关注的协议。

虽然我们分开讨论了介质，接口，协议的新发展，但要实现存储系统的极致高性能，必须统一起来考虑，摸索高速网络和新介质新协议的协同设计，在每一个具体系统中实现各层级的匹配，才能充分发挥出性能潜力。

6. 分布式在做什么？

分布式存储一直是我长期关注和研究的方向，近两年分布式全闪和和全介质覆盖的高端分布式存储呈现出非常明显上升势头，在数据中心级别和高性能计算应用中有很好的表现，高性能海量小文件和混合数据的需求都兼有出现，同时，还看见一些集中式存储的高级功能例如重删也有对应“分布式重删”的实现。一些面向行业如金融的分布式索引和检索的增强特色功能也被引入。

今年我还注意到在底层数据的容错技术中，LDPC - 前向纠错码（ Error Correcting Code）的出现，它原本主要用于通信、视频音频编码中，相比已经熟悉的EC纠删码典型的Reed-Solomon编码，LDPC带来了更好的编解码性能。主要原因是核心编解码算法中采用稀疏编码矩阵，仅使用异或操作，以微小的解码失效可能性换得编解码时间的降低，是一个大胆的技术选择。

另外，分布式融合存储的概念也在今年正式推出，也有的厂商叫分布式智能融合存储，“融合”这个词又一次出现在分布式存储产品中。定义上，主要是有三点，介质融合通过预设的可扩展分级存储机制，支持已有和未来各类介质，从HDD到SCM；广泛支持各种存储协议和大数据协议实现存储服务的融合；通过多协议互通技术和数底层据统一管理技术实现数据融合，不同的应用通过不同的协议可以访问同一份数据，真正实现统一资源池。服务融合、数据融合加介质融合形成了分布式融合存储，是一个值得关注的产品理念，里面更多的还是产品化和工程化的挑战。

谈完存储，我们再看看AI和存储的碰撞。

7. 大模型的基础设施需求

对存储系统来说，生成式AI也是一种应用，那么弄清楚大模型这类应用机制和真正的需求是非常重要的。

目前这个阶段，大模型真正的刚需是什么？毫无疑问，所有的竞争者都在盯一件事，如何能够尽快完成GPU集群的组建部署。如我们在前文所分析，由于产能，政策等原因，NVidia最适合大模型应用的高端产品H100和A100出现了市场短缺和购买困难。AI大模型的算力需求增长达到了每两三个月翻一倍的程度，阿里云的一位架构师给出每两年275倍的估算。面对如此旺盛的需求，NVidia的股价也突破500美元创了新高。除了购买，集群的使用成本也不低，都以小时计；对于如此宝贵的计算资源，尽量提高利用率是第一考虑因素，业界的头部参与者都在算法上想了不少办法，譬如提高计算并行度，避免bubble带来的GPU空转现象等。

无米之炊难为，对于大模型来说，算力是第一优先级，其次是超高速网络；因为本质上，当前的生成式AI是一个非常典型的计算密集型应用，这和传统的科学计算及高性能计算（HPC）非常相似。按照之前的HPC经验，搭建这样的IT基础设施，算力和高速网络是最需要解决也最麻烦的问题，我们发现在大模型应用里同样如此，9成的精力和预算都用于解决以上两个问题，上万张H100/A100卡如何用IB网实现高速互联，是非常头疼的问题。

同时，由于前文所述的“宽度计算”架构，事实上内存也成为函待解决的高优先级问题。Transform架构的万亿参数，梯度都需要放在最快的介质里，利用HBM（高带宽内存）来构建的缓存（显存）显然是不够的，因此业界对于GPU的带外缓存技术也已经推进一段时间，如果按照速度和时延的优先级排序，缓存->DRAM->NVMe外设来看，AI业界最头部的一批参与者的关注点还集中在前两级，存储的关注优先级明显不太高。

最后，即使这一系列基础设施的供应和技术问题都已经解决，找到合适的数据中心资源进行部署也不是太容易的事情，GPU的能耗远大于CPU，例如Dell、H3C的AI服务器都已经采用2400W甚至是3000W的电源，功耗远大于普通服务器，现在市场上大量的IDC还有不少说标准4KW机柜，即使是6KW机柜也很难满足AI基础设施部署的要求，这也是要面对的实际问题。

8. 大模型的数据量和存储需求

真实的大模型训练数据量其实并不惊人，从GPT的5GB到GPT3的570GB训练数据，总量都在一个不大的范围。公开资料显示，浪潮的源1.0大模型收集了几乎整个中文互联网的数据集用于训练，总数据量也不过在5TB上下；如果按照7月份GPT-4的最新分析材料透露，使用了13万亿个token进行训练，以每token4字节计算，整个训练数据集也不过是53TB左右。对于如今的存储行业来说，53TB真的不算一个巨大的容量需求，一台高端全闪存储设备通常就可以提供50~100TB的容量空间，混闪和中端存储能够提供的容量就更大，数量级的差别。

然而，在开始训练之前，数据集需要经过收集和清洗两个预备动作。

以GPT-3为例，训练原始数据来自于网络爬虫工具CommonCrawl所获得的45TB的互联网公开数据，约包含了1万亿Token；当完成了数据清洗工作，数据量缩减了80倍到570GB，而Token数也减少到约40%，4100亿。在这个数据归集和清洗的准备阶段，对于存储容量和并发访问需求还是客观存在的，基本上还是前些年大数据应用和数据湖之类的典型需求。

另外，由于直到GPT-4都未能在训练阶段就启用多模态数据集，在生成式AI领域，非结构化数据的爆发式增长还未真正广泛到来，这可能在未来的半年到一年内有巨大的改变。

9. 大模型与存储相关的机制

前文我们已经讨论过，大模型应用最主要的是训练和推理两个阶段，进入训练阶段，大模型运作机制里有两个点和存储紧密相关。

首先是训练数据集的初次加载。严重膨胀的大模型的训练集群通常规模可观，而神经网络的工作机制要求把所有数据都加载后才能开动，这个过程中数据集有一个类似数据库sharding的动作，对存储产生了大量的并发读写请求，目前大模型对存储主流的访问模式还是通过文件接口协议，经过清洗的数据集里是海量的小文件为主，这种情况下，NAS存储的并发性能包括元数据性能都会遭受考验。

第二个机制是训练过程长达数周数月且过程中经常出错，不得以的AI工程师早已经提出了应对方法Checkpoint，这个机制其实是一个被动的应对，假设每隔8小时就可能出一次错，那么就设置6小时为单位的Checkpoint，每隔6小时就把中间状态数据全备份一次，下次错误发生时就回滚到最近的一个checkpoint状态再次开始即可。这个我称之为土法备份，把AI工程师逼的连备份软件都设计得七七八八了。

天量参数是大模型的特色，这些中间态数据也非常巨大，假设放回到提供最初训练数据集的集中存储或是分布式存储里，读写过程可能很慢，会像第一次数据加载那样持续十几个小时或者更长时间，这会带来问题：“备份没做完，生产系统崩溃了“。因此，比较土豪的方案是直接在训练集群的节点上插个五六七八块NVME SSD，把Checkpoint的数据直接本地缓存下去就行了。没有了网络和并发IO的种种困扰，“备份”和“恢复”的速度都飞快，就是成本高些。

相比训练过程的存储需求，推理阶段的难度基本上可以忽略不计，在推理阶段，由于模型已经完成了训练和微调，大部分的工作负载都是在做计算，或许会获取一些新数据例如来自用户的输入，也会产生推理结果的数据，但是数据量就是一个普通应用的水平，没有不同以往的巨大挑战。

还有一些大模型应用希望延续这个持续优化的过程，上线以后，仍然不断根据真实用户反馈再做调优，那也可能涉及到反馈数据的处理和不同阶段数据归档等全生命周期管理的内容，也可能涉及存储需求，但目前还没太多真正接触到，而且从技术上分析都属于常规应用需求，当前各种存储系统是能够轻松应对的。

10. 从存储视角的AI总结

无可否认，除了Nvidia这个最大受益者，这一轮生成式AI推动了所有IT产业链的需求增长，大大小小的厂商都在庆贺大模型带来的新订单。按照一位资深行业战略专家的说法，从全球2万亿美金的IT市场规模大盘来看，存储只占个位数的百分比，是其中比较少的部分；从AI应用视角来看，无论是资源紧缺程度，亟待解决的技术紧迫度和预算占比，存储尤其是外部存储现在都不在优先考虑范畴。但对于存储行业来说，虽然只是众多需要支持的应用中的一种，但生成式AI应用的未来增长前景是值得优先关注的。

在当前阶段，生成式AI的存储需求首先是高性能低延时，但这个需求并不难满足，按照Nvidia的官方建议性能带宽达到读40GB写20GB即可，它的推荐计算节点配置里，也只有两个40GB的InfiniBand端口，考虑组网冗余，能跑满一个端口带宽即可。如果能够充分发挥闪存的性能，百万级的IOps相信也已经能够满足生成式AI的需求。

第二个需求是并发访问能力和数据共享，但也仅在训练数据加载时有强烈需求，另外如果以向量数据库作为数据存储的方案，那么对存储的需求又再简化到了性能可靠性等传统需求。

最后是一些待研究探讨的高级功能，例如NVidia CUDA中的GDS支持，可以让GPU跳过CPU直接访问存储，提高性能和响应。另外就是前面讨论过AI工程师们用工程化方法实现的一些存储功能替代，checkpoint等等，是否能够转由存储系统更专业的实现方式，Offload到存储层完成，这都是有意思的研究方向。

除外，生成式AI的行业当前还有绝对数据量不大和成本不敏感的特点，综合以上，现在的新NVme SSD和高性能分布式全闪的文件存储两种存储产品是比较适合的，实践中也大多如此。

总的来看，AI应用的特点是发展非常迅速，且时不时就有引爆点，“大模型”方兴未艾，“AI智能体”的新概念业已提上台面，新公司Imbue产品还没有做，已经从NVidia获得两亿美金风投和1万张H100，估值高达10亿美金，革命性的技术迭代一个接一个。2023年，通用大模型的全球化竞争仍然非常激烈，领头羊集团时不时就有开源动作，按照投资行业的观点，每一次都可能会带来重新洗牌。国内垂直行业大模型的百模大战也如火如荼，对相关技术产品方案人才的需求都非常巨大，在终局未了之前，起码会有一个窗口期，值得存储行业好好把握。

（完）

2023．9

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

2023：生成式AI与存储最新发展和趋势分析（下）

你可能感兴趣的:(人工智能)