wshzd

LLM推理部署（一）：LLM七种推理服务框架总结

自从ChatGPT发布以来，国内外的开源大模型如雨后春笋般成长，但是对于很多企业和个人从头训练预训练模型不太现实，即使微调开源大模型也捉襟见肘，那么直接部署这些开源大模型服务于企业业务将会有很大的前景，本文将介绍七中主流的LLM推理和服务开源库。

下面首先来总结一下这些框架的特点，如下表所示：

LLM推理有很多框架，各有其特点，下面分别介绍一下表中七个框架的关键点：

vLLM[1]：适用于大批量Prompt输入，并对推理速度要求高的场景；
Text generation inference[2]：依赖HuggingFace模型，并且不需要为核心模型增加多个adapter的场景；
CTranslate2[3]：可在CPU上进行推理；
OpenLLM[4]：为核心模型添加adapter并使用HuggingFace Agents，尤其是不完全依赖PyTorch；
Ray Serve[5]：稳定的Pipeline和灵活的部署，它最适合更成熟的项目；
MLC LLM[6]：可在客户端（边缘计算）（例如，在Android或iPhone平台上）本地部署LLM；
DeepSpeed-MII[7]：使用DeepSpeed库来部署LLM；

下面我们在内存容量为40GB的A100 GPU上，并且使用LLaMA-1 13b模型（因为列表中的所有库都支持它）进行七个部署框架的对比。

一、vLLM

vLLM的吞吐量比HuggingFace Transformers（HF）高14x-24倍，比HuggingFace Text Generation Inference（TGI）高2.2x-2.5倍。

离线批量推理

# pip install vllmfrom vllm import LLM, SamplingParamsprompts = [    "Funniest joke ever:",    "The capital of France is",    "The future of AI is",]sampling_params = SamplingParams(temperature=0.95, top_p=0.95, max_tokens=200)llm = LLM(model="huggyllama/llama-13b")outputs = llm.generate(prompts, sampling_params)for output in outputs:    prompt = output.prompt    generated_text = output.outputs[0].text    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

API Server

# Start the server:python -m vllm.entrypoints.api_server --env MODEL_NAME=huggyllama/llama-13b# Query the model in shell:curl http://localhost:8000/generate \    -d '{        "prompt": "Funniest joke ever:",        "n": 1,        "temperature": 0.95,        "max_tokens": 200    }'

功能：

Continuous batching[9]：有iteration-level的调度机制，每次迭代batch大小都有所变化，因此vLLM在大量查询下仍可以很好的工作。
PagedAttention[10]：受操作系统中虚拟内存和分页的经典思想启发的注意力算法，这就是模型加速的秘诀。

优点：

文本生成的速度：实验多次，发现vLLM的推理速度是最快的；
高吞吐量服务：支持各种解码算法，比如parallel sampling, beam search等；
与OpenAI API兼容：如果使用OpenAI API，只需要替换端点的URL即可；

缺点：

添加自定义模型：虽然可以合并自己的模型，但如果模型没有使用与vLLM中现有模型类似的架构，则过程会变得更加复杂。例如，增加Falcon的支持，这似乎很有挑战性；
缺乏对适配器（LoRA、QLoRA等）的支持：当针对特定任务进行微调时，开源LLM具有重要价值。然而，在当前的实现中，没有单独使用模型和适配器权重的选项，这限制了有效利用此类模型的灵活性。
缺少权重量化：有时，LLM可能不需要使用GPU内存，这对于减少GPU内存消耗至关重要。

这是LLM推理最快的库。得益于其内部优化，它显著优于竞争对手。尽管如此，它在支持有限范围的模型方面确实存在弱点。

使用vLLM的开发路线可以参考：https://github.com/vllm-project/vllm/issues/244

二、Text generation inference

Text generation inference是用于文本生成推断的Rust、Python和gRPC服务器，在HuggingFace中已有LLM 推理API使用。

使用docker运行web server

mkdir datadocker run --gpus all --shm-size 1g -p 8080:80 \-v data:/data ghcr.io/huggingface/text-generation-inference:0.9 \  --model-id huggyllama/llama-13b \  --num-shard 1

查询实例

# pip install text-generationfrom text_generation import Clientclient = Client("http://127.0.0.1:8080")prompt = "Funniest joke ever:"print(client.generate(prompt, max_new_tokens=17 temperature=0.95).generated_text)

功能：

内置服务评估：可以监控服务器负载并深入了解其性能；
使用flash attention（和v2）和Paged attention优化transformer推理代码：并非所有模型都内置了对这些优化的支持，该技术可以对未使用该技术的模型可以进行优化；

优点：

所有的依赖项都安装在Docker中：会得到一个现成的环境；
支持HuggingFace模型：轻松运行自己的模型或使用任何HuggingFace模型中心；
对模型推理的控制：该框架提供了一系列管理模型推理的选项，包括精度调整、量化、张量并行性、重复惩罚等；

缺点：

缺乏对适配器的支持：需要注意的是，尽管可以使用适配器部署LLM（可以参考https://www.youtube.com/watch?v=HI3cYN0c9ZU），但目前还没有官方支持或文档；
从源代码（Rust+CUDA内核）编译：对于不熟悉Rust的人，将客户化代码纳入库中变得很有挑战性；
文档不完整：所有信息都可以在项目的自述文件中找到。尽管它涵盖了基础知识，但必须在问题或源代码中搜索更多细节；

使用Text generation inference的开发路线可以参考：https://github.com/huggingface/text-generation-inference/issues/232

三、CTranslate2

CTranslate2是一个C++和Python库，用于使用Transformer模型进行高效推理。

转换模型

pip install -qqq transformers ctranslate2# The model should be first converted into the CTranslate2 model format:ct2-transformers-converter --model huggyllama/llama-13b --output_dir llama-13b-ct2 --force

查询实例

import ctranslate2import transformersgenerator = ctranslate2.Generator("llama-13b-ct2", device="cuda", compute_type="float16")tokenizer = transformers.AutoTokenizer.from_pretrained("huggyllama/llama-13b")prompt = "Funniest joke ever:"tokens = tokenizer.convert_ids_to_tokens(tokenizer.encode(prompt))results = generator.generate_batch(    [tokens],     sampling_topk=1,     max_length=200, )tokens = results[0].sequences_ids[0]output = tokenizer.decode(tokens)print(output)

功能：

在CPU和GPU上快速高效地执行：得益于内置的一系列优化：层融合、填充去除、批量重新排序、原位操作、缓存机制等。推理LLM更快，所需内存更少；
动态内存使用率：由于CPU和GPU上都有缓存分配器，内存使用率根据请求大小动态变化，同时仍能满足性能要求；
支持多种CPU体系结构：该项目支持x86–64和AArch64/ARM64处理器，并集成了针对这些平台优化的多个后端：英特尔MKL、oneDNN、OpenBLAS、Ruy和Apple Accelerate；

优点：

并行和异步执行--可以使用多个GPU或CPU核心并行和异步处理多个批处理；
Prompt缓存——在静态提示下运行一次模型，缓存模型状态，并在将来使用相同的静态提示进行调用时重用；
磁盘上的轻量级--量化可以使模型在磁盘上缩小4倍，而精度损失最小；

缺点：

没有内置的REST服务器——尽管仍然可以运行REST服务器，但没有具有日志记录和监控功能的现成服务
缺乏对适配器（LoRA、QLoRA等）的支持

四、DeepSpeed-MII

在DeepSpeed支持下，DeepSpeed-MII可以进行低延迟和高通量推理。

运行web服务

# DON'T INSTALL USING pip install deepspeed-mii# git clone https://github.com/microsoft/DeepSpeed-MII.git# git reset --hard 60a85dc3da5bac3bcefa8824175f8646a0f12203# cd DeepSpeed-MII && pip install .# pip3 install -U deepspeed# ... and make sure that you have same CUDA versions:# python -c "import torch;print(torch.version.cuda)" == nvcc --versionimport miimii_configs = {    "dtype": "fp16",    'max_tokens': 200,    'tensor_parallel': 1,    "enable_load_balancing": False}mii.deploy(task="text-generation",           model="huggyllama/llama-13b",           deployment_name="llama_13b_deployment",           mii_config=mii_configs)

查询实例

import miigenerator = mii.mii_query_handle("llama_13b_deployment")result = generator.query(    {"query": ["Funniest joke ever:"]},   do_sample=True,  max_new_tokens=200)print(result)

功能：

多个副本上的负载平衡：这是一个非常有用的工具，可用于处理大量用户。负载均衡器在各种副本之间高效地分配传入请求，从而缩短了应用程序的响应时间。
非持久部署：目标环境的部署不是永久的，需要经常更新的，这在资源效率、安全性、一致性和易管理性至关重要的情况下，这是非常重要的。

优点：

支持不同的模型库：支持多个开源模型库，如Hugging Face、FairSeq、EluetherAI等；
量化延迟和降低成本：可以显著降低非常昂贵的语言模型的推理成本；
Native和Azure集成：微软开发的MII框架提供了与云系统的出色集成；

缺点：

支持模型的数量有限：不支持Falcon、LLaMA2和其他语言模型；
缺乏对适配器（LoRA、QLoRA等）的支持；

五、OpenLLM

OpenLLM是一个用于在生产中操作大型语言模型（LLM）的开放平台。

运行web服务

pip install openllm scipyopenllm start llama --model-id huggyllama/llama-13b \  --max-new-tokens 200 \  --temperature 0.95 \  --api-workers 1 \  --workers-per-resource 1

查询实例

import openllmclient = openllm.client.HTTPClient('http://localhost:3000')print(client.query("Funniest joke ever:"))

功能：

适配器支持：可以将要部署的LLM连接多个适配器，这样可以只使用一个模型来执行几个特定的任务；
HuggingFace Agents[11]：连接HuggingFace上不同的模型，并使用LLM和自然语言进行管理；
支持不同的运行框架：比如Pytorch（pt）、Tensorflow（tf）或Flax（亚麻）；

优点：

良好的社区支持：不断开发和添加新功能；
集成新模型：可以添加用户自定义模型；
量化：OpenLLM支持使用bitsandbytes[12]和GPTQ[13]进行量化；
LangChain集成：可以使用LangChian与远程OpenLLM服务器进行交互；

缺点：

缺乏批处理支持：对于大量查询，这很可能会成为应用程序性能的瓶颈；
缺乏内置的分布式推理——如果你想在多个GPU设备上运行大型模型，你需要额外安装OpenLLM的服务组件Yatai[14]；

六、Ray Serve

Ray Serve是一个可扩展的模型服务库，用于构建在线推理API。Serve与框架无关，因此可以使用一个工具包来为深度学习模型的所有内容提供服务。

运行web服务

# pip install ray[serve] accelerate>=0.16.0 transformers>=4.26.0 torch starlette pandas# ray_serve.pyimport pandas as pdimport rayfrom ray import servefrom starlette.requests import Request@serve.deployment(ray_actor_options={"num_gpus": 1})class PredictDeployment:    def __init__(self, model_id: str):        from transformers import AutoModelForCausalLM, AutoTokenizer        import torch        self.model = AutoModelForCausalLM.from_pretrained(            model_id,            torch_dtype=torch.float16,            device_map="auto",        )        self.tokenizer = AutoTokenizer.from_pretrained(model_id)    def generate(self, text: str) -> pd.DataFrame:        input_ids = self.tokenizer(text, return_tensors="pt").input_ids.to(            self.model.device        )        gen_tokens = self.model.generate(            input_ids,            temperature=0.9,            max_length=200,        )        return pd.DataFrame(            self.tokenizer.batch_decode(gen_tokens), columns=["responses"]        )    async def __call__(self, http_request: Request) -> str:        json_request: str = await http_request.json()        return self.generate(prompt["text"])deployment = PredictDeployment.bind(model_id="huggyllama/llama-13b")# then run from CLI command:# serve run ray_serve:deployment

查询实例

import requestssample_input = {"text": "Funniest joke ever:"}output = requests.post("http://localhost:8000/", json=[sample_input]).json()print(output)

功能：

监控仪表板和Prometheus度量：可以使用Ray仪表板来获得Ray集群和Ray Serve应用程序状态；
跨多个副本自动缩放：Ray通过观察队列大小并做出添加或删除副本的缩放决策来调整流量峰值；
动态请求批处理：当模型使用成本很高，为最大限度地利用硬件，可以采用该策略；

优点：

文档支持：开发人员几乎为每个用例撰写了许多示例；
支持生产环境部署：这是本列表中所有框架中最成熟的；
本地LangChain集成：您可以使用LangChian与远程Ray Server进行交互；

缺点：

缺乏内置的模型优化：Ray Serve不专注于LLM，它是一个用于部署任何ML模型的更广泛的框架，必须自己进行优化；
入门门槛高：该库功能多，提高了初学者进入的门槛；

如果需要最适合生产的解决方案，而不仅仅是深度学习，Ray Serve是一个不错的选择。它最适合于可用性、可扩展性和可观察性非常重要的企业。此外，还可以使用其庞大的生态系统进行数据处理、模型训练、微调和服务。最后，从OpenAI到Shopify和Instacart等公司都在使用它。

七、MLC LLM

LLM的机器学习编译（MLC LLM）是一种通用的部署解决方案，它使LLM能够利用本机硬件加速在消费者设备上高效运行。

运行web服务

# 1. Make sure that you have python >= 3.9# 2. You have to run it using conda:conda create -n mlc-chat-venv -c mlc-ai -c conda-forge mlc-chat-nightlyconda activate mlc-chat-venv# 3. Then install package:pip install --pre --force-reinstall mlc-ai-nightly-cu118 \  mlc-chat-nightly-cu118 \  -f https://mlc.ai/wheels# 4. Download the model weights from HuggingFace and binary libraries:git lfs install && mkdir -p dist/prebuilt && \  git clone https://github.com/mlc-ai/binary-mlc-llm-libs.git dist/prebuilt/lib && \  cd dist/prebuilt && \    git clone https://huggingface.co/huggyllama/llama-13b dist/ && \  cd ../..    # 5. Run server:python -m mlc_chat.rest --device-name cuda --artifact-path dist

查询实例

import requestspayload = {   "model": "lama-30b",   "messages": [{"role": "user", "content": "Funniest joke ever:"}],   "stream": False}r = requests.post("http://127.0.0.1:8000/v1/chat/completions", json=payload)print(r.json()['choices'][0]['message']['content'])

功能：

平台本机运行时：可以部署在用户设备的本机环境上，这些设备可能没有现成的Python或其他必要的依赖项。应用程序开发人员只需要将MLC编译的LLM集成到他们的项目中即可；
内存优化：可以使用不同的技术编译、压缩和优化模型，从而可以部署在不同的设备上；

优点：

所有设置均可在JSON配置中完成：在单个配置文件中定义每个编译模型的运行时配置；
预置应用程序：可以为不同的平台编译模型，比如C++用于命令行，JavaScript用于web，Swift用于iOS，Java/Kotlin用于Android；

缺点：

使用LLM模型的功能有限：不支持适配器，无法更改精度等，该库主要用于编译不同设备的模型；
只支持分组量化[15]：这种方法表现良好，但是在社区中更受欢迎的其他量化方法（bitsandbytes和GPTQ）不支持；
复杂的安装：安装需要花几个小时，不太适合初学者开发人员；

如果需要在iOS或Android设备上部署应用程序，这个库正是你所需要的。它将允许您快速地以本机方式编译模型并将其部署到设备上。但是，如果需要一个高负载的服务器，不建议选择这个框架。

参考文献：

[1] https://github.com/vllm-project/vllm

[2] https://github.com/huggingface/text-generation-inference

[3] https://github.com/OpenNMT/CTranslate2

[4] https://github.com/bentoml/OpenLLM

[5] https://docs.ray.io/en/latest/serve/index.html

[6] https://github.com/mlc-ai/mlc-llm

[7] https://github.com/microsoft/DeepSpeed-MII

[8] https://github.com/microsoft/DeepSpeed

[9] https://www.anyscale.com/blog/continuous-batching-llm-inference

[10] https://vllm.ai/

[11] https://huggingface.co/docs/transformers/main_classes/agent

[12] https://github.com/TimDettmers/bitsandbytes

[13] https://arxiv.org/abs/2210.17323

[14] https://github.com/bentoml/Yatai

[15] https://arxiv.org/abs/2212.09720

你可能感兴趣的:(chatgpt)

人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
Chat GPT带来的几点思考淡定的胡萝卜
OpenAI公司推出的ChatGPT引起了广泛关注，网上出现各类专家开始预测随着ChatGDP的普及，将会有哪些行业的人面临失业，引发人们的焦虑。不可否认它会给我们的教育行业、媒体行业、学术界等众多行业产生影响，面对这些影响，我们该如何看待呢？近期我阅读了不少相关文章，引发的几点思考，想与大家分享。ChatGPT将会倒逼传统教育的改革。中国传统教育是教师对知识点的传授、学生对知识点的掌握，不仅量多
ChatGPT提示词优化大师使用指南 weixin_58606202 AI大模型应用实战 chatgpt 人工智能
我希望你成为我的ChatGPT提示词优化大师。您的目标是帮助我根据自己的需要制定尽可能最好的提示。你提供的提示应该是站在我向ChatGPT发起请求的角度来写的。我的初始提示词如下：此处填入你的初始提示词ChatGPT提示词生成器我希望你充当提示词生成器。比如，我会给你一个这样的标题：《______》。然后，你会给我一个这样的提示：“_______________________”你应该根据我给的主
掌握ChatGPT：高效利用AI助手 kkai人工智能 chatgpt 人工智能媒体学习 ai
2023年3月15日，ChatGPT-4的诞生标志着人类进入了一个全新的人机协作时代。这个时代就像一个混沌初开的新世界，而ChatGPT则是这个新世界里诞生的一个新物种。这个新物种的心智如同一个四五岁的小孩，在与它频繁互动中，人们逐渐发现它既让人惊奇，又让人困惑。ChatGPT宛如一个“天才”儿童，自幼饱读四书五经，拥有着海量的知识储备。每次与它交流，都能让人发现它身上隐藏着无限的潜能。然而，令人
pthread_create/join函数学习 Miqiuha java jvm 开发语言
转自：https://blog.csdn.net/wushuomin/article/details/80051295，chatgpt1.pthread_createintpthread_create(pthread_t*thread,constpthread_attr_t*attr,void*(*start_routine)(void*),void*arg);它的功能是创建线程（实际上就是确定调
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
基于 LangChain 开发应用程序第三章-储存明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统本部分之前的章节可以查看基于LangChain开发应用程序第一章-简介基于LangChain开发应用程序第二章-提示和输出第三章储存在与语言模型交互时，你可能已经注意到一个关键问题：它们并不记忆你之前的交流内容，这在我们构建一些应用程序（如聊天机器人）的时候，带来了很大的挑战，使得对
年薪80w起！零成本快速入门大模型指南 AI产品经理语言模型人工智能自然语言处理机器学习
今年招聘市场确实是好点了，我发现群友都在讨论，得赶快学点AI大模型。他们有的是想正式转到一些新兴的AI行业，需要系统的学习训练。更多的是想跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。这也可以理解，ChatGPT推出仅一年半的时间，就将生成式AI推向主流。从谷歌到亚马逊，从百度到阿里，几乎所有科技巨头都在布局AI，也直接影响到了招聘市场，大模型相关的岗位数量多了不少，年薪甚
微软 Azure AI 服务免费试用及申请：语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景全云在线allcloudonline microsoft azure 人工智能
为方便企业认识和快速上手AzureAI服务，我们总结了一套包括语音识别、文本转语音、基于视觉、语言处理场景、文档分析场景等全面的预构建模型和演示，旨在解决各种用例。这些模型易于访问，可帮助企业无缝实施AI驱动的解决方案，如下是已整理并编录的AzureAI服务中提供的预构建演示，希望这可以帮助您将AI无缝融入您的产品和服务中。微软AzureAI服务可以合规、稳定地提供企业用户使用ChatGPT的可能
人工智能行业深度报告：AI下半场，应用落地，赋能百业小报告达人人工智能
一、大模型行业发展现状及前沿技术观察1.1大模型行业发展现状2022年11月底，OpenAI发布了人机对话模型ChatGPT，在两个月不到的时间内其线上活跃用户规模超过1亿人，生成式大模型受到越来越广泛的关注，人工智能行业进入到以大模型为代表的快速发展阶段，巨量参数和智能涌现是这一轮人工智能变革的典型特征。微软、谷歌、Meta、亚马逊等全球科技巨头将大模型视为重要的发展机遇，在生成式大模型领域加速
python通过pyautogui自动给微信聊天窗口发消息费码程序猿 python python 微信开发语言 pyautogui RPA
使用py脚本自动给聊天窗口发消息1.突然的自我2.编写脚本玩一把i.先获取窗口位置ii.模拟聊天iii.疗效不错呢1.突然的自我突然想到pyautogui可以做那么事情，那么是不是可以模拟聊天呢，如果结合现在的大模型chatGPT一边问然后得到结果一边自动和别人聊天是不是很有趣呢。2.编写脚本玩一把i.先获取窗口位置importpygetwindowasgwdefget_window_positi
新款 GPT-4o mini、Llama 3.1、Mistral NeMo 12B 和其他 GenAI 趋势指南数云界 llama
作者使用GPT-4o创建的图像，用于表示不同的模型欢迎来到雲闪世界。自2022年11月推出ChatGPT以来，几乎每周都会出现新的模型、新颖的提示方法、创新的代理框架或其他令人兴奋的GenAI突破。2024年7月也不例外：仅在本月，我们就看到了MistralCodestralMamba、MistralNeMo12B、GPT-4omini和Llama3.1等的发布。这些模型在推理速度、推理能力、编码
llm-universe学习小记录4--构建RAG应用 Adela0546 学习语言模型
构建RAG应用一、将LLM接入LangChain1、基于LangChain调用ChatGPT2、使用LangChain调用百度文心一言3、使用LangChain调用讯飞星火4、使用LangChain调用智谱GLM具体内容与代码详见将LLM接入LangChain。二、构建检索问答链1、加载向量数据库2、创建一个LLM3、构建检索问答链4、检索问答链效果测试5、添加历史对话的记忆功能（1）记忆（Mem
Xcode 使用技巧，呜呜方法3真的让我效率提升100倍温正实 xcode macos ide
如何快速查找代码里定义的方法ChatGPT说：ChatGPT在Xcode中，有几种快速查找方法的方式：1.使用Command+Shift+O快速查找文件或方法按下Command+Shift+O，然后开始输入方法名或类名，Xcode会自动搜索项目中相关的方法、类或文件。你可以直接输入方法名（例如：updateParentHeight），它会列出匹配的内容。2.使用“跳转栏”快速跳转在Xcode界面顶
ChatLONGYING：大语言模型在银行财富管理领域的应用研究 IT猫仔语言模型人工智能自然语言处理
ChatGPT对话机器人于2022年11月由OpenAI推出，能够学习和精准理解人类的语言，并以接近人类的智能水平进行对话和互动，引发了全球广泛关注。2023年2月，复旦大学发布了国内首个类ChatGPT大语言模型——MOSS，该模型可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。MOSS与ChatGPT相比，最大的差异是参数规模，MOS
新技术前沿-2024-国内主流AI大模型架构及应用场景深度分析皮皮冰燃新技术前沿人工智能
参考国内主流AI大模型架构及应用场景深度分析20241厂商总览1.1国外(1)OpenAI：GPT-4【美国旧金山的人工智能研究公司】GPT-4于2023年3月14日发布，是千亿级参数的多模态预训练模型，能够支持图像和文本的输入。(2)Anthropic(人类的)：Claude【美国人工智能初创公司】Claude于2023年3月14日发布，是Anthropic开发的类似ChatGPT的聊天机器人，
C++ 单例模式实现暮色尽染 C++c++单例模式开发语言设计模式
单例模式(来自ChatGPT)单例模式的定义单例模式（SingletonPattern）是一种创建型设计模式，它确保一个类只有一个实例，并提供一个全局访问点来访问该实例。单例模式的特点单一实例：单例模式确保一个类只有一个实例。全局访问点：单例模式提供一个全局访问点来访问该实例。延迟初始化：单例模式可以延迟初始化实例，直到第一次访问时。线程安全：单例模式可以确保实例的线程安全。单例模式的优点资源共享
你用过最好用的AI工具有哪些？学计算机的睿智大学生人工智能
你用过最好用的AI工具有哪些？简介：探讨人们在使用AI工具时，最喜欢的和认方向一：常用AI工具以下是一些常用的AI工具：ChatGPT：强大的语言模型。文心一言：百度的知识增强大语言模型。通义千问：阿里云推出的一个超大规模的语言模型。豆包：个人很喜欢的彩云小梦：可以进行故事创作的AI。智谱AI：提供多种智能服务的工具。思远：具备一定语言处理能力的AI。方向二：创新AI应用以下是一些创新的AI应用：
ChatGPT+2：修订初始AI安全性和超级智能假设 AI科研视界人工智能 chatgpt
最初的假设是，通过监管大模型可以使[大部分]人工智能变得安全。但自从ChatGPT推出后的这两年，这一假设被证明是不准确的。前沿的人工智能模型，即使没有监管，也在诉讼、媒体、投资者、用户、委员会调查和国会听证的监督下运作，使它们保持在一定的界限内，从而有利于多个安全目标。此外，公司也能够预见大多数监管要求，并为此做好准备或进行调整。在过去的两年里，人工智能被滥用并造成伤害的数十种独特方式并不是主要
写论文不再头秃！教你用ChatGPT一天搞定初稿！芙蓉姐姐陪你写论文 AI论文 chatgpt 数据库人工智能 AI写作论文笔记论文阅读 AIPaperGPT
论文写作，这大概是每个学生避不开的“必修噩梦”吧。尤其是，当你发现截止日期就像明天的天气预报一样迫在眉睫，而文档依然一片空白时，那种无力感，简直就是“说好的秃头，怎么突然就到了呢？”然而，如今我们有了学术界的“救星”——猜猜是什么？是的，你没猜错，就是ChatGPT！想象一下，你一边悠闲地喝着咖啡，一边对着电脑发号施令：“帮我写个引言，顺便再给我整理下文献综述，对了，别忘了结论！”而屏幕那头的Ch
100天精通Python丨黑科技篇 —— 21、大语言模型_100天精通python快速入门到黑科技前端收割机程序员 python 科技语言模型
ChatGPT是OpenAI推出的一种基于GPT-3/4的聊天机器人。chatgpt的颠覆性影响主要体现在提高语言交流的便捷性、个性化服务、自动化客服和教育娱乐等方面，这些应用可以为用户带来更多的便利和乐趣，同时也为企业提供了更多的服务和商机。本文收录于《100天精通Python专栏-快速入门到黑科技》，是由CSDN内容合伙人丨全站排名Top4的硬核博主不吃西红柿倾力打造，分基础知识篇和黑科技应用
OpenAI计划提高ChatGPT的价格——你需要了解的事项 AI小夏 chatgpt 人工智能
据报道，OpenAI正在考虑为ChatGPT提供更高价位的订阅层级，以应对对更高级AI功能日益增长的需求。据TheInformation的报道，OpenAI内部已经讨论过订阅价格，最高可能达到每月2000美元。这些高级订阅将提供正在开发的高性能AI模型中的新高级功能，包括”Strawberry”（草莓）和”Orion”（猎户座）。高级功能即将为专业人士和企业推出目前，ChatGPT提供免费层级和每
连续上多个热搜的chatgpt到底是什么？高省张导师
近日，一款名为ChatGPT的人工智能聊天机器人火了。ChatGPT能做什么呢？除了简单的对话，它能帮你写代码、写文章、写诗、翻译，只要你能想到...，甚至有人用它来写作业。大家好我是氧惠APP最大团队张导师，氧惠首批邀请码520888，注册就帮你推广，一起做到百万团队。氧惠APP，2023全新模式，我的直推也会放到你下面，我曾经1年做到百万团队，现在加入我也会帮你做到百万团队。【氧惠】百度有几百
如何将chatgpt部署微信|微信chatGPT代理|引入微信红匣子实力推荐
ChatGPT是一款智能机器人客服软件，可以为企业提供高效、智能、个性化的客户服务解决方案。现在，越来越多的企业使用微信作为客户服务渠道，因此，将ChatGPT部署到微信中，可以让企业更快地响应和服务客户，提高客户满意度。下面是如何将ChatGPT客服部署到微信的一些步骤。CHATGPT接入-联系电话13642679953（微信同号）首先，注册微信公众平台菜单：在微信公众号平台，需要为企业注册自定
ChatGPT在环境科学领域的应用前沿分享树谷-胡老师科研会议 chatgpt
ChatGPT在环境科学领域的应用前沿在党的二十届三中全会上，明确要求健全因地制宜的发展新质生产力体制机制。新质生产力通过创新驱动，以高科技、高效能、高质量为特征，旨在摆脱传统经济增长方式和生产力发展路径，符合新发展理念。环境科学的新质生产力主要体现在基础数据、数据管理和数据分析三方面。通过增加数据覆盖率、提升数据管理自动化水平和利用人工智能（AI）进行数据分析，实现环境质量的实时监控和管理，为环
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S