舒克与贝克

[NLP] LlaMa2模型运行在Mac机器

本文将介绍如何使用llama.cpp在MacBook Pro本地部署运行量化版本的Llama2模型推理，并基于LangChain在本地构建一个简单的文档Q&A应用。本文实验环境为Apple M1 芯片 + 8GB内存。

Llama2和llama.cpp

Llama2是Meta AI开发的Llama大语言模型的迭代版本，提供了7B，13B，70B参数的规格。Llama2和Llama相比在对话场景中有进一步的能力提升，并且在Safety和Helpfulness的平衡上会优于大部分其他模型，包括ChatGPT。重要的是，Llama2具有开源商用许可，因此个人和组织能够更方便地构建自己的大模型应用。

为了能够在MacBook上运行Llama2的模型推理，并且利用到Apple Silicon的硬件加速，本文使用llama.cpp作为模型推理的Infra

llama.cpp是ggml这个机器学习库的衍生项目，专门用于Llama系列模型的推理。llama.cpp和ggml均为纯C/C++实现，针对Apple Silicon芯片进行优化和硬件加速，支持模型的整型量化 (Integer Quantization): 4-bit, 5-bit, 8-bit等。社区同时开发了其他语言的bindings，例如llama-cpp-python，由此提供其他语言下的API调用。

LLaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型（简易 Python 代码示例）手撸的纯 C/C++ 版本，用于模型推理。所谓推理，即是给输入-跑模型-得输出的模型运行过程。

那么，纯 C/C++ 版本有何优势呢？

无需任何额外依赖，相比 Python 代码对 PyTorch 等库的要求，C/C++ 直接编译出可执行文件，跳过不同硬件的繁杂准备；
支持 Apple Silicon 芯片的 ARM NEON 加速，x86 平台则以 AVX2 替代；
具有 F16 和 F32 的混合精度；
支持 4-bit 量化；
无需 GPU，可只用 CPU 运行；

按照作者给出的数据，其在 M1 MacBook Pro 上运行 LLaMA-7B 模型时，推理过程每个词（token）耗时约 60 毫秒，换算每秒十多词，速度还是相当理想的。

深度神经网络模型在结构设计好之后，训练过程的核心目的是确定每个神经元的权重参数，通常是记为浮点数，精度有 16、32、64 位不一，基于 GPU 加速训练所得，量化就是通过将这些权重的精度降低，以降低硬件要求的过程。

举例而言，LLaMA 模型为 16 位浮点精度，其 7B 版本有 70 亿参数，该模型完整大小为 13 GB，则用户至少须有如此多的内存和磁盘，模型才能可用，更不用提 13B 版本 24 GB 的大小，令人望而却步。但通过量化，比如将精度降至 4 位，则 7B 和 13B 版本分别压至约 4 GB 和 8 GB，消费级硬件即可满足要求，大家便能在个人电脑上体验大模型了。

LLaMA.cpp 的量化实现基于作者的另外一个库—— ggml，使用 C/C++ 实现的机器学习模型中的 tensor。所谓 tensor，其实是神经网络模型中的核心数据结构，常见于 TensorFlow、PyTorch 等框架。改用 C/C++ 实现后，支持更广，效率更高，也为 LLaMA.cpp 的出现奠定了基础。

本地部署7B参数4-bit量化版Llama2

模型下载

为了节省时间和空间，可以从TheBloke下载gguf量化格式的Llama2模型。也可以在Meta AI的官网申请Liscense后下载原始模型文件，再用llama.cpp提供的脚本进行模型格式转化和量化。本文将使用7B参数+4bit量化的版本进行部署

它从TheBloke的huggingface仓库(TheBloke/Chinese-Llama-2-7B-GGUF · Hugging Face)下载

一使用llama.cpp 项目加载

要在本地CPU上执行LLM，我们需要一个本地的GGML格式模型。有几种方法可以实现这一点，但最简单的方法是直接从Hugging Face Models存储库下载bin文件。当前情况下，我们将下载Llama 7B模型。这些模型是开源的，可以免费下载。

什么是GGML?为什么是GGML?如何GGML?LLaMA CPP??

GGML是一种用于机器学习的 Tensor 库，它只是一个C++库，可以让你在CPU或CPU+GPU上运行LLMs。它定义了一种用于分发大型语言模型（LLMs）的二进制格式。GGML利用一种称为量化的技术，使得大型语言模型可以在消费级硬件上运行。

能直接在本地运行属于你自己的LLaMa2 大模型。注意，需要M1或者以上芯片。

xcode-select --install # 确保你下载了Git和C/C++
git clone https://github.com/ggerganov/llama.cpp.git

cd llama.cpp
LLAMA_METAL=1 make
./main -m ../hug-download/models--TheBloke--Chinese-Llama-2-7B-GGUF/snapshots/f81e959ca91492916b8b6f895202b6d478b8930c/chinese-llama-2-7b.Q4_K_M.gguf -n 1024 -ngl 1 -p "用中文回答，上海3日游攻略"

注意：HuggingFace可能有权限要求，直接执行会403，可以在网页端登录，到这个链接直接把模型下载下来放到刚刚Clone的 llama.cpp 目录下的models目录里面。

LLaMa2本身的模型不支持直接在Window或者Mac机器上调用，只能在Linux系统，支持N卡。

我们可以基于llama.cpp开源项目来Mac本地运行Llama 2。

它从TheBloke的huggingface仓库(TheBloke/Chinese-Llama-2-7B-GGUF · Hugging Face)下载Llama2 7B Chat的4位优化权重，将其放入llama.cpp的模型目录中，然后使用Apple的Metal优化器来构建llama.cpp项目。

llama-cpp-python最新版不支持ggmlv3模型，如果是ggml 版本，请使用 python3 convert-llama-ggmlv3-to-gguf.py --input --output (不要有中文路径)，脚本在[这里](github.com/ggerganov/ll)下载

可以下载如下LLama2 Chinese模型.

下载方法：

from huggingface_hub import snapshot_download

snapshot_download(repo_id='TheBloke/Chinese-Llama-2-7B-GGUF',
                  repo_type="model",
                  resume_download=True,
                  max_workers=1,
                  allow_patterns="chinese-llama-2-7b.Q4_K_M.gguf",
                  token="XXX", cache_dir='./')

7B的权重应该可以在拥有8GB RAM的机器上运行（但如果你有16GB的RAM会更好）。像13B或70B这样的更大模型将需要更多的RAM。

Log start
main: build = 0 (unknown)
main: built with Apple clang version 14.0.0 (clang-1400.0.29.202) for arm64-apple-darwin22.1.0
main: seed  = 1699179655
llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from ../hug-download/models--TheBloke--Chinese-Llama-2-7B-GGUF/snapshots/f81e959ca91492916b8b6f895202b6d478b8930c/chinese-llama-2-7b.Q4_K_M.gguf (version GGUF V2)
llama_model_loader: - tensor    0:                token_embd.weight q4_K     [  4096, 55296,     1,     1 ]
llama_model_loader: - tensor    1:              blk.0.attn_q.weight q4_K     [  4096,  4096,     1,     1 ]

。。。。。。

llm_load_print_meta: rope_finetuned   = unknown
llm_load_print_meta: model type       = 7B
llm_load_print_meta: model ftype      = mostly Q4_K - Medium
llm_load_print_meta: model params     = 6.93 B
llm_load_print_meta: model size       = 3.92 GiB (4.86 BPW) 
llm_load_print_meta: general.name   = LLaMA v2
llm_load_print_meta: BOS token = 1 ''
llm_load_print_meta: EOS token = 2 ''
llm_load_print_meta: UNK token = 0 ''
llm_load_print_meta: LF token  = 13 '<0x0A>'
llm_load_tensors: ggml ctx size =    0.11 MB
llm_load_tensors: mem required  = 4017.18 MB
..............................................................................................
llama_new_context_with_model: n_ctx      = 512
llama_new_context_with_model: freq_base  = 10000.0
llama_new_context_with_model: freq_scale = 1
llama_new_context_with_model: kv self size  =  256.00 MB
llama_build_graph: non-view tensors processed: 740/740
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M1
ggml_metal_init: picking default device: Apple M1
ggml_metal_init: default.metallib not found, loading from source
ggml_metal_init: loading '/Users/apple/PycharmProjects/NLPProject/llama.cpp/ggml-metal.metal'
ggml_metal_init: GPU name:   Apple M1
ggml_metal_init: GPU family: MTLGPUFamilyApple7 (1007)
ggml_metal_init: hasUnifiedMemory              = true
ggml_metal_init: recommendedMaxWorkingSetSize  =  5461.34 MB
ggml_metal_init: maxTransferRate               = built-in GPU
llama_new_context_with_model: compute buffer total size = 122.63 MB
llama_new_context_with_model: max tensor size =   177.19 MB
ggml_metal_add_buffer: allocated 'data            ' buffer, size =  4018.28 MB, ( 4018.78 /  5461.34)
ggml_metal_add_buffer: allocated 'kv              ' buffer, size =   256.02 MB, ( 4274.80 /  5461.34)
ggml_metal_add_buffer: allocated 'alloc           ' buffer, size =   116.02 MB, ( 4390.81 /  5461.34)

system_info: n_threads = 4 / 8 | AVX = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 1 | ARM_FMA = 1 | F16C = 0 | FP16_VA = 1 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | SSSE3 = 0 | VSX = 0 | 
sampling: 
        repeat_last_n = 64, repeat_penalty = 1.100, frequency_penalty = 0.000, presence_penalty = 0.000
        top_k = 40, tfs_z = 1.000, top_p = 0.950, min_p = 0.050, typical_p = 1.000, temp = 0.800
        mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
generate: n_ctx = 512, n_batch = 512, n_predict = 1024, n_keep = 0

用中文回答，上海3日游攻略 初来乍到的我和同学一星期五点飞去上海，7:50分就从虹桥机场坐大巴到了外滩附近一家酒店。第一次出国，所以想好好玩一番。1. 第一天晚上住下后，第二天一大早就出去转了一天，主要逛了南京路步行街老城隍庙人民广场新天地。下午去东方明珠，然后回到市区吃晚饭。2. 第三天下午去外滩走走看看，看了中华艺术宫博物馆，晚上和同学在豫园吃饭。3. 最后一天坐地铁去上海植物园看樱花，回酒店后就坐大巴回机场了。第一天早上坐公到了人民广场附近，然后就逛南京路步行街。其实也没什么好买的东西，主要就是感受一下氛围吧。路上看到各种各样的商铺和美食店还有街头表演（卖冰糖葫芦和手鼓） 下午去了老城隍庙，我和朋友是沿着西门进去了。里面好多小吃摊都是蛮好吃的！ 后来又到人民广场看了一会儿晚上要坐的大型花车游行。然后就从人民广场走到外滩，不过路上还是有点堵车的，因为好多人都想走这条路啊，而且路边还有很多表演的小吃卖东西什么的，所以也挺热闹的 第二天一大早我去了上海博物馆，我和同学打算去逛一下中华艺术宫博物馆和东方明珠。不过我们没有时间去看文物展（感觉挺丰富的）就直接到了二楼看了国画和书法作品展览。然后在一楼看到各种不同时期的中国瓷器陶瓷，还有日本的古董什么的（好像还挺值钱啊...） 中午就在外滩附近的餐厅吃了饭，味道还可以 下午先从上博物馆门口坐车去东方明珠，不过我和朋友因为没带身份证所以就没票了QAQ 我们又坐公车在陆家嘴附近转了一圈，然后去了世纪公园，路上看到了各种小摊的后到了世纪公园里面走了很多路，感觉人挺多的 最后我们从新天地出来，先吃了晚饭后就回酒店休息 第三天我和同学一大早坐地铁去植物园看樱花（其实是去拍照），而且当天正好是晴朗的好天气！我和朋友在门口拍了好多照片，然后去了赏樱区走走了一圈。之后又坐地铁回去了 我们的上海行也就这么结束了啊QAQ 哈哈 这次的行程安排比较紧凑，感觉时间都用完了...不过在上海转一转还是很有意思的（虽然我也吃了很多小吃） 现在我就来安利一下我在上海的几个美点吧~ 首先是外滩一带的一些小店和餐厅啦！我和朋友在陆家嘴附近的一个餐厅吃饭的时候路过了一家叫做"爱侬小屋"的网红奶茶店里，当时就买了一杯芒果味奶茶去喝，感觉还蛮好吃的（虽然不是很甜） 后来我又去了旁边一家叫"云顶之梦"的餐厅，他家有各种口味的鸡排还有不同品种的烤肉拼盘。不过我们点的是套餐...不过味道还挺不错！ 然后就是在陆家嘴附近的一个名叫"老上海大丸茶室"的小店了（其实这家茶室是卖奶茶啊）我和朋友在那天下午去了他家喝奶茶，还买了他们家的招牌甜品芒果布丁~感觉还不错 之后我们又去了外滩边的一家叫做"小笼包王"的餐厅！这里有各种口味的小笼包还有特色小吃哦~不过价格也稍有点贵了... 这次来上海我也发现了好多路边摊啦，在陆家嘴附近的一个街上就有很多卖各种风味小吃和饮品的档口。现在就推荐我和朋友当时去的那家的一家吧~他家有一个"麻辣烫"这个牌子，里面还有点类似于小馄饨的东西（好像是叫"汤圆"）我们吃得时候觉得还不错，虽然看起来有点脏... 除了这些外滩一带的，我还去了南京路步行街上的一个叫做"云霄楼大酒楼"的餐厅！这里有各种口味的烤肉套餐还有不同价位的大菜~不过我和朋友当时去吃的是他们家的特色菜包心鲍鱼~感觉味道还蛮不错的呢 除了这些我在外滩一带发现的小店以外，我还去了南京路步行街上的一个名叫"大福记"的老字号餐厅！这家餐厅的口味比较传统一些，但是我朋友点了他家家常豆腐和葱烧肉（还有别的菜我忘了），感觉还不错~不过价格就稍微有点贵啦... 最后是这次我们去的那家上海新天地附近的一火锅店吧！这里有各种口味的锅底可以选择，而且里面还提供自助的小吃。虽然这家餐厅的环境看上去不是很高端啊……但是味道还是不错的呢~下次来上海
llama_print_timings:        load time =    8380.94 ms
llama_print_timings:      sample time =    2122.12 ms /  1024 runs   (    2.07 ms per token,   482.54 tokens per second)
llama_print_timings: prompt eval time =     306.62 ms /    10 tokens (   30.66 ms per token,    32.61 tokens per second)
llama_print_timings:        eval time =  196188.08 ms /  1023 runs   (  191.78 ms per token,     5.21 tokens per second)
llama_print_timings:       total time =  214813.21 ms
ggml_metal_free: deallocating
Log end

二使用llama-cpp-python 项目加载

llama.cpp是c++库，用于开发llm的应用往往还需要使用Python调用C++的接口。我们将使用llama-cpp-python，这是LLaMA .cpp的Python Binding，它在纯C/ c++中充当LLaMA模型的推理。

首先使用pip安装llama-cpp-python。需要注意的一点是，mac安装时要使用支持arm的python版本，若没有可以使用conda先创建一个环境，如果使用的是x86_64架构的python，则在之后运行服务器的时候又会出现Illegal instructions的问题

本文将使用llama.cpp的Python binding: llama-cpp-python在本地部署Llama2模型，llama-cpp-python提供了和OpenAI一致的API，因此可以很容易地在原本使用OpenAI APIs的应用或者框架 (e.g. LangChain) 中替换为本地部署的模型。

安装llama-cpp-python (with Metal support)

为了启用对于Metal (Apple的GPU加速框架) 的支持，使用以下命令安装llama-cpp-python:

CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install llama-cpp-python

安装Web server

llama-cpp-python提供了一个web server，用于提供和OpenAI一直的API，从而可以与现有应用和框架兼容。使用以下命令安装web server:

pip install llama-cpp-python[server]

pip install uvicorn
pip install anyio
pip install starlette
pip install fastapi
pip install pydantic_settings
pip install sse_starlette

启动llama-cpp-python web server (带Metal GPU加速)

python -m llama_cpp.server --model $MODEL_PATH --n_gpu_layers 1

将$MODEL_PATH替换为你下载的模型的路径。

API文档和尝试

Web server启动后可以通过http://localhost:8000/docs访问OpenAPI文档并尝试API的调用。

可以看到web server提供了类OpenAI的接口：

/v1/completions: 提供文本 (String类型)，返回预测的下文 (String类型)

/v1/embeddings: 提供文本 (String类型)，返回文本的embeddings (向量)

/v1/chat/completions: 提供对话历史 (一个Messages的序列)，返回预测的回答 (Message类型)

/v1/models/: 获取语言模型的信息

简单测试一下/v1/chat/completions:

注意到在对话任务中，提供一个Message object包含content和role两个字段:

content: 消息的文本内容 (String)
role: 对话中发出该消息的角色，可取system, user, assistant之一。其中system为高级别的指示，用于指导模型的行为，例如上图的示例中告诉模型: "You are a helpful assistant."。user表示用户发送的消息，assistant表示模型的回答。

API 通过Llama类提供简单的托管接口。请将./models/7B/ggml-model.bin 换成你的模型的路径，下同。

from llama_cpp import Llama
llm = Llama(model_path="./models/7B/ggml-model.bin")
output = llm("Q: Name the planets in the solar system? A: ", max_tokens=32, stop=["Q:", "\n"], echo=True)
print(output)

{
	'id': 'cmpl-456ef388-4cff-494b-b721-23492e06e43a',
	'object': 'text_completion',
	'created': 1699238435,
	'model': './TheBloke--Chinese-Llama-2-7B-GGUF/chinese-llama-2-7b.Q4_K_M.gguf',
	'choices': [{
		'text': 'Q: Name the planets in the solar system? A: 水星,金星,地球,天王星,海王星 ',
		'index': 0,
		'logprobs': None,
		'finish_reason': 'stop'
	}],
	'usage': {
		'prompt_tokens': 15,
		'completion_tokens': 21,
		'tokens': 36
	}
}

macbook m1 本地部署llama2模型_Zaldini0711的博客-CSDN博客

在MacBook Pro部署Llama2语言模型并基于LangChain构建LLM应用 - 知乎 (zhihu.com)

AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
MacOS上安装Homebrew的详细教程
MacOS上安装Homebrew的详细教程一、引言Homebrew（通常简称为brew）是一款专门为MacOS操作系统设计的开源包管理器，它提供了一种简单、高效的方式来安装、管理和升级命令行工具、编程语言环境以及各种应用程序。其核心概念和作用如下：简化安装流程：在MacOS中，用户无需手动下载软件源码并配置编译环境，只需通过Homebrew提供的命令即可一键安装软件。Homebrew会自动处理软件
Mac上安装Claude Code的步骤
以下是基于现有信息的简明安装指南，适用于macOS系统。请按照以下步骤操作：前提条件操作系统：macOS10.15或更高版本。Node.js和npm：ClaudeCode基于Node.js，需安装Node.js18+和npm。请检查是否已安装：打开终端，运行node--version和npm--version。如果未安装，访问Node.js官方网站下载并安装最新LTS版本，或使用Homebrew：
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
Python读取.parquet文件 Henrietta's NOTES python pandas
提示：在MacOS和Jupyternotebook环境下的用法Device:MacOSPython:3.10.9Pandas:1.5.3Jupyternotebook问题描述直接用pandas中pd.read_parquet()即可，但是这个方法在和read_csv一样用之前需要先安装fastparquet活着pyarrow，方法如下：打开MacOS的终端，输入：pipinstallfastpar
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
iOS 26 公测版定了，预计下周发布！ lzhdim ios cocoa macos objective-c
iOS26公测版定了——7月23日正式开放下载！这是彭博社记者MarkGurman等多方消息源确认的时间，苹果将同步推送iOS26、iPadOS26、macOS26等全家桶系统的公测版本，但VisionPro的visionOS26暂不开放。除iOS26外，同步发布的公测版系统还包括：iPadOS26、macOS26、watchOS26、tvOS26、HomePodSoftware26，AirPod
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
Dify丝滑云或本地docker部署步骤适用Linux & macOS neon98 大模型前端 docker 容器 ai macos linux 人工智能
服务器必须有超过4GB的内存！！！Step1:gitclonegitclonehttps://githubfast.com/langgenius/dify.git//从GitHub服务器直接克隆可能会失败。其他GitHub镜像也可以。Step2:docker登录dockerloginghcr.io-u[yourusername]-p[yourGitHubaccesstoken]//此命令用自己的的
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
手动搭建PHP环境：步步为营，解锁Web开发奔跑吧邓邓子项目攻略 php 手动搭建php环境
目录一、引言二、准备工作2.1明确所需软件2.2下载软件三、Windows系统搭建步骤3.1安装Apache服务器3.2安装PHP3.3集成Apache与PHP3.4安装MySQL3.5配置PHP连接MySQL四、Linux系统搭建步骤（以Ubuntu为例）4.1更新系统4.2安装Apache4.3安装MySQL或MariaDB4.4安装PHP及其扩展五、macOS系统搭建步骤5.1安装Homeb
大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
Rust 开发环境搭建与插件 pumpkin84514 rust rust 开发语言后端
生成完整文章用户请求写一篇完整的CSDN文章，要求根据之前的建议生成。文章要包含结构清晰、标题、代码示例、常见提示、跨平台Rust工具链安装差异等内容。文章需准确，包括插件和使用提示，CLI程序示例等。主要内容包括：介绍、Rust工具链安装（Windows/macOS/Linux差异）、VSCode安装与扩展列表、扩展细节与使用、开发者常见提示（如rust-analyzer功能、crate使用等）
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

[NLP] LlaMa2模型运行在Mac机器

Llama2和llama.cpp

本地部署7B参数4-bit量化版Llama2

模型下载

一 使用llama.cpp 项目加载

二 使用llama-cpp-python 项目加载

你可能感兴趣的:(NLP,自然语言处理,macos,人工智能)

一使用llama.cpp 项目加载

二使用llama-cpp-python 项目加载