Juicedata

AI 企业多云存储架构实践 | 深势科技分享

2020 年末，谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度，使得“ AI 预测蛋白质结构”这一领域受到了空前的关注。今天我们邀请到同领域企业，深势科技为大家分享其搭建基础平台时的实践与思考。AI 场景中的使用的数据有哪些新特点？混合云架构如何与超算平台结合？为何会选择 JuiceFS？

背景

深势科技成立于 2018 年，是 “AI for Science” 科学研究范式的先行者，致力于运用人工智能和分子模拟算法，结合先进计算手段求解重要科学问题，为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

新一代分子模拟技术，是深势科技研究问题的本质方法；高性能计算、机器学习、科学计算方法，这些是研究分子模拟技术的一些工具和手段。

Hermite 和 Bohrium 是针对不同行业领域的解决方案，Hermite 是针对药物研发领域的一个计算设计平台， Bohrium 是针对材料和科学领域的微尺度计算设计平台，Lebesgue 是任务调度和算力编排平台。

什么是 AI for Science

一直以来对科学研究有两大范式，第一个是以数据驱动的开普勒范式。第二个是以第一性原理驱动的牛顿范式。

开普勒范式是通过观察、总结的方式，研究事物的规律，开普勒范式三大定律就是通过不断的天文观测，前人积累的天文经验总结出来的。开普勒范式属于数据驱动，通过观察事物的现象，总结规律，然后拿它解决实际的问题。这种方式解决问题有一个缺点，可能会出现知其然不知所以然的情况，很难泛化。

牛顿范式是从事物的本质出发，通过第一性原理，发现事物的规律。牛顿范式属于模型驱动，模型驱动比较准确，但因为计算的量大，很难用以解决实际的问题。

AI for Science (下文简称 AI4S）就是希望把这两大范式结合起来，用 AI 去学习科学原理，然后得到模型，进而去解决实际的问题。

AI for Science 范式如何解决科学原理工程化问题

药物研发领域，大家比较熟悉的是明星公司 Deep Mind 开发的一款人工智能程序 AlphaFold，简单来说是做蛋白质的结构预测；材料研发主要是做材料的性质研究，新材料发现等。这两大领域本质研究的是微观粒子的相互作用，微观粒子的运动轨迹。在高中化学的时候，老师讲过结构决定性质，性质决定用途。微观粒子的研究会用到薛定谔方程、密度泛函方程、牛顿力学方程等基本方程，这些都是在不同的尺度下的微观粒子的运动轨迹、运动状态的方程。

如果直接用第一性原理去解决问题的话，实际上是比较困难的，会陷入维数灾难问题。 AI4S 新范式就是用 AI 去学习和表示一系列的物理方程，进而去攻克维数灾难，在精度和效率之间取一个平衡。

混合云架构的选择与挑战

为什么选择混合云架构

深势科技作为一家初创公司，为什么在开始的时候就选择了混合云的架构，总结下来，主要是有三点：

第一点业务算力的需求， AI4S 领域的主战场是在超算，一些院校和研究所都有自己的超算机器。比较著名的就是天河系列，天河系列在 2014 年的时候拿到过 Top500 的第一名，它对计算的性能和算力的要求是非常高的。

上图计算任务算力需求： 128 张 A100s 的卡运行 5 天的时间。

下图是一个训练任务，分为三步，每一步对资源的需求差别是比较大的。第一步和第三步，对 GPU 的资源要求比较高，第二步它对 CPU 的需求是比较大的，需要 10000+ 核的 CPU 资源。这也是 AI4S 的一个特点，同一任务对资源的需求，在不同阶段差异是比较大的。

第二点是客户的诉求，一些客户在使用深势科技的资源或者产品之前，可能已经是 AWS 、阿里云或者其他超算的用户，客户希望他们的资源能够最大的程度的复用，从而提升资源的利用效率。

第三点是资源的可用性，算力平台负责给 AI4S 领域的工业客户或者科学研究院校提供算力资源，他们对资源的需求是很大的，在资源使用过程中也会用到一些抢占式资源和潮汐资源，对资源的可用性或者资源的丰富度要求高。所以选择混合云架构，也是比较大的一个优势。

混合云架构的挑战

首先是基础设施的差异性，公有云是比较开放的，买了一台机器之后，就有了这台机器的 root 账号，资源在底层做了虚拟化隔离，你可以在这个机器上做任何你想做的事情，不会影响到其他人。但是超算相对是比较封闭的，超算的环境是共用的，用户之间是逻辑隔离的，超算更多的是把资源拿出来让你去使用，但是你很难拥有资源的主导权，你在超算机器上安装一个软件，这个软件可能跟别人的软件是有冲突的，所以不能随意安装。

第二个是运行时环境的差异性，公有云上跑服务的话会打一个镜像，把程序依赖的一些操作系统以及依赖的一些软件都会装到镜像里面，直接做分发，这样就能屏蔽运行时环境的差异性。但在超算里面主要是借助 module 工具管理环境变量，解释下，module是Linux下的一个管理环境变量的工具。如果想用一个软件的话，需要通过 module 的方式把这个软件增加进来，然后再去使用。

第三点是用户体验的一致性，基于上面两点，公有云和超算还是有比较大的差异性。这会导致用户在使用的体验上会有比较大的差异。如何把差异补齐，让用户在日志、监控的查看上都有一致性的体验，对架构上也是一个挑战。

云与超算融合的探索

第一点就是容器化，超算上主要是用的是 Podman 和 Singularity容器镜像，使用Docker 是比较难的，因为 Docker 需要在主机上启动一个 daemon 的进程，其次还需要 root 账号。这两点在超算上实际上都是不太方便的，所以超算上一般用的比较多的就是 Singularity 镜像，Podman 和 Docker 镜像有比较好的兼容性，也慢慢流行起来。

第二点是 Slurm on K8s ，Slurm 在超算平台上是常用的一个资源调度的框架，早期安装 Slurm 是需要在物理机上直接安装，但是随着对资源弹性的需求，我们希望 Slurm 能直接装到 K8s 里面去。当用户需要 Slurm 资源的时候，可以基于 K8s 去分配资源，然后在分配的 pod 上安装 Slurm。

第三点就是 Virtual Kubelet，这是一个虚拟的 kubelet 技术。在阿里云和 AWS 的弹性资源上也都有一些应用，相当于把一些算力资源通过桥接的方式让 K8s 能使用起来。在超算上我们也在探索这种方案，让 K8s 集群通过 Virtual Kubelet 的方式使用超算的资源。

存储架构的思考与实践

举一个业务场景的存储例子，在药物研发场景中，分子对接具有十分重要的应用价值，分子对接就是两个或多个分子之间相互识别的过程，目的是找到药物分子与致命靶点的最佳结合模式。一次分子对接的过程中数据的需求如下：会产生约 6 亿的小文件，文件压缩前有 2.3T，压缩后有 1.5T，单文件的大小大约 4k。

文件比较小的话，数据处理的难度会比较大。比如：在 Linux 上去处理很多的小文件时，它首先会有 inode 个数的限制，其次小文件比较多的话，读取的速度也上不去。

存储诉求

基于上述的业务场景，我们总结下对存储的诉求。
第一是文件的多样性，除了小文件，在实际业务场景中还有中文件、大文件，所以多种大小的文件，都需要有一个比较好的支持。

第二点是存储层的抽象与统一，在 AI 领域，很多都是使用 Python 的服务，Python 的服务对POSIX 接口是比较友好的，如果用户在使用存储的时候，需要频繁地通过 S3或OSS 去下载数据的话，会对用户会有体验上有影响。

第三点是方案的通用性，在公有云上会有很多的存储方案，在一家云上使用，完全没问题，非常的好用。但如果想把这种方案放到超算上去，或者放到一些线下的集群，实际上就不是那么通用了。

第四点是数据的分层，我们的数据是有典型的冷热特性，在一个任务在计算过程中，它用到的数据是热数据，任务计算之后或者过了几天之后，这个数据就变成了冷数据，我们对冷数据的读和操作是比较少的。

最后一点就是安全性的考虑，希望存储上能有一些业务的隔离，配额、授权以及删除之后的回收站等，来保障数据的安全性。

方案选型 & JuiceFS 测试

第一点是功能满足度，这个方案肯定要满足上述我们对存储上的功能需求。
第二点是技术栈，所采用的技术栈最好是能和公司使用的技术栈是匹配的。
第三点是可运维性，希望这个方案的运维相对来说比较容易，如果方案本身的复杂度比较高，那么出了问题之后，解决问题就比较麻烦和复杂。
第四点是社区活跃度，调研的时候我们发现JuiceFS 社区是非常活跃的，在使用过程中，有问题的话，会直接发到 JuiceFS 社区群里面，不论是晚上还是周末，社区的响应都是非常及时的，包括创始人苏锐也经常在群里面回答问题，所以社区的活跃度也是我们在方案选型的时候一个非常重要的考量点。

在做方案选型的时候做了一些测试，供大家参考，主要是以下几点：

第一点是 POSIX 的兼容性，我们对 POSIX 兼容性会考虑得比较多，如果 POSIX 兼容性不好，这个方案基本上是没法用的。

第二点是性能的基准测试，性能测试的数据见下图。

第三点是 K8s的CSI 挂载，我们有一些业务是通过 K8s 调度的，自然是希望存储对 K8s 比较友好。

第四点是业务PoC验证，测试的场景还是比较多的，从小文件中文件大文件，还有包括顺序读，顺序读里面又分为预热和不预热。

JuiceFS 有个功能特别好用，就是预热的功能，当我们需要运算的时候，可以把一些数据提前的去做预热。这功能对我们来说就非常实用，计算过程中任务依赖昂贵的GPU资源，成本是比较高的，一般我们会提前把数据预热到本地，然后再开启任务的运行。

上图是我们整体的存储架构，底层是基于对象存储的统一的存储，然后再往各个地方的计算中心分发数据，不论是超算，还是云机房也好，都是有一个缓存的集群。当任务开始的时候，会把数据从统一的存储中拉到计算集群就近的一个缓存集群里面去，在计算任务运行的过程中，只需要和本地的存储集群做通信。

JuiceFS 可以把数据缓存到本地，当数据比较旧的时候，它就会被淘汰掉。如果没有用 JuiceFS ，我们需要自己去做缓存的淘汰机制，想做好，还是有一定的成本的。但是有了 JuiceFS 之后，我们就不用考虑这个事情了，只需要把 JuiceFS 挂载上去，它就帮我们把这些事情都做了。

深势科技目前使用的是一个开源版本的 JuiceFS，以 redis 作为元数据管理，使用 SSD 做数据缓存。

深势科技生产环境使用情况

总结与展望

云与超算融合是趋势，现在一些公有云上都有超算服务，或者叫高性能计算服务，高性能计算集群等。超算也是不断的在往云上去靠，超算里面提到了一些超算云或者云超算的概念，就是通过虚拟化的技术，通过云原生的技术，把超算的资源更好、更方便的提供出去，让大家使用。

第二点容器化是关键，我们在做云与超算的融合的过程中，怎么样把运行时的环境保持一致，是一个很关键的点。如果在云上用的是容器，但在超算上用的是另一套方案，会出现服务在云上跑得好好的，但放到超算上之后就跑不起来，所以容器化是一个比较关键的点。

第三点统一存储是基础，调度相对来说是比较容易的，把算力从公有云上调度到超算平台上，其实是比较简单的，但是将存储调度过去难度就增加了。

这里面会有几个难点，第一点怎么样把数据从一个地方传输到一个地方。数据量小倒还好，但是数据量比较大就非常困难了。第二点是传输的网络，也会影响到数据传输的速度。第三点是数据的引用，把数据搬迁过去之后，怎么样和原来路径或结构保持一致，在不改程序的情况，也能继续运行。最后是数据的整合，比如整个计算过程中分为 5 步，前 2 步是在云上算的，最后 3 步在超算上算的，会牵涉到数据的整合，日志的整合，监控的整合。

最后，存算分离是必然，如果机器资源和存储是绑定的，是没法去做调度的。早期，我们的存储和机器算力是绑定的，机器上挂载了本地盘，当把计算任务调过去之后，存储是调不过去的，所以说存算分离是必然。

如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟！ (0ᴗ0✿)

SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
使用kubeadm部署高可用IPV4/IPV6集群---V1.32
使用kubeadm部署高可用IPV4/IPV6集群https://github.com/cby-chen/Kubernetes开源不易，帮忙点个star，谢谢了k8s基础系统环境配置配置IP#注意！#若虚拟机是进行克隆的那么网卡的UUID和MachineID会重复#需要重新生成新的UUIDUUID和MachineID#UUID和MachineID重复无法DHCP获取到IPV6地址sshroot@1
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
vant官网-vant ui 首页-移动端Vue组件库 embelfe_segge 面试学习路线阿里巴巴 android 前端后端
Vant是有赞前端团队开源的移动端vue组件库，适用于手机端h5页面。鉴于百度搜索不到vant官方网址，分享一下vant组件库官网地址，方便新手使用vant官网地址https://vant-contrib.gitee.io/vant/#/zh-CN/通过npm安装在现有项目中使用Vant时，可以通过npm或yarn进行安装：#Vue2项目，安装Vant2：npmivant-S#Vue3项目，安装V
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
【最低2万搞定！】10万双枪充电桩平台神级配置：服务器成本直降80%+日志/数据库存储全拆解！慧知开源充电桩平台！！！必看攻略文慧的科技江湖更新日志 -(慧哥)慧知充电桩平台服务器数据库开源直流充电桩充电桩 spring cloud 架构
10万台充电桩设备双枪，需要最小的服务器配置？服务器费用控制2-3万，服务器日志产生多少g,数据库订单数据产生多少g!-慧知开源充电桩平台一、服务器配置方案及逻辑（阿里云）1.需求分析设备规模：10万台双枪充电桩，理论最大并发连接数为20万（每个枪独立通信）。请求类型：心跳包（高频）、充电启停、支付、状态上报等，假设平均每秒请求量约5,000QPS。费用目标：总成本控制在2-3万元/月（按包年包月
Xilinx系ZYNQ学习笔记（二）ZYNQ入门及点亮LED灯贾saisai FPGA学习学习笔记 fpga开发
系列文章目录文章目录系列文章目录前言简单介绍简称xc7z020型号FPGAZYNQ实操通用IO点亮LED灯硬件逻辑基础前言简单入门一下ZYNQ是何种架构，如何编程，至于深入了解应该要分开深入学习Linux和FPGA简单介绍其基本架构都是在同一个硅片上集成FPGA和CPU，并通过高速、高带宽的互联架构连接起来。ARM的顺序控制、丰富外设，开源驱动、FPGA的并行运算、高速接口、灵活定制、数字之王的特
QGIS结合天地图API实现批量经纬度转地址的完整指南网优随笔 QGIS 开源软件
一、技术背景与工具选择地理编码（Geocoding）是将地址转换为地理坐标的过程，反向地理编码（ReverseGeocoding）则是将经纬度坐标转换为结构化地址。QGIS作为开源GIS平台，通过插件扩展可实现批量地理编码操作。天地图作为我国权威地理信息服务平台，其API提供高精度的地理编码服务。本文将以QGIS3.22+版本为基础，结合天地图Web服务API，实现5000条级数据的批量反向地理编
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
OCR识别常见开源库 yxfamyself 计算机视觉 opencv
OCR（OpticalCharacterRecognition，光学字符识别）技术是一种将印刷体或手写文字转化为可编辑文本的技术。亦即将图像中的文字进行识别，并以文本的形式返回。做OCR有很多库可以使用。免费开源库有：Tesseract，PaddleOCR。商业付费OCR有：腾讯云OCR，阿里云OCR。下面分别介绍。准确识别的前提是找到正确的字体进行训练，字体很重要，要覆盖所有识别的场景。Tess
mysql与mariadb版本对应_MySQL与MariaDB及各种版本杂谈 weixin_39616416
MySQL1.MySQLCommunityServer社区版本，开源免费，但不提供官方技术支持。(我们通常使用的MySQL版本)2.MySQLEnterpriseEdition企业版本，需付费，可以试用30天。3.MySQLCluster集群版，开源免费。可将几个MySQLServer封装成一个Server。4.MySQLClusterCGE高级集群版，需付费。5.MySQLWorkbench(G
向量数据库技术系列三-Chroma介绍恰恰虎 chromadb 数据库向量
一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。它提供了简单易用的API，支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。主要有以下特点:轻量级：Chroma是一个基于向量检索库实现的轻量级向量数据库，不需要复杂的配置和大规模基础设施支持，非常适合小型或中型项目。易用性：提供简单的API，易
MariaDB 和 MySQL 版本关联 java我跟你拼了数据库笔记 mariadb mysql 数据库数据库篇版本关联
MariaDB和MySQL是两个常用的关系型数据库管理系统（RDBMS），它们在很多方面非常相似，因为MariaDB是MySQL的一个分支。MariaDB和MySQL之间的版本关联可以通过以下几个方面来理解：1.历史背景MySQL:MySQL是一个开源的数据库管理系统，由MySQLAB开发，后来被SunMicrosystems收购，再之后被Oracle收购。MariaDB:MariaDB是MySQ
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
springBoot 和springCloud 版本对应关系 m0_74824894 面试学习路线阿里巴巴 spring boot spring cloud 后端
请求下面链接：拿到的json数据，格式化https://start.spring.io/actuator/info[这里是图片001]https://start.spring.io/actuator/info云原生脚手架CloudNativeAppInitializer(aliyun.com)[这里是图片002]https://start.aliyun.com/idea阿里云脚手架插件：Aliba
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数