简vae

PagedAttention: from interface to kernal

1 Overview

PagedAttention灵感来自于操作系统中虚拟内存和分页的经典思想，它可以允许在非连续空间立存储连续的KV张量。具体来说，PagedAttention把每个序列的KV缓存进行了分块，每个块包含固定长度的token，而在计算attention时可以高效地找到并获取那些块。

2 Block management

相比于RaggedAttention，PagedAttention其实就是维护了一个逻辑block到物理block的映射。接下来，我们结合代码，看一下是vLLM如何实现PagedAttention中Block管理的。

2.1 LogicalTokenBlock and PhysicalTokenBlock

先看一下LogicalTokenBlock 和 PhysicalTokenBlock的数据结构，比较简单，看代码注释就好了。

class LogicalTokenBlock:
    """
    Logical blocks are used to represent the states of the corresponding physical blocks in the KV cache.
    """
    def __init__(
        self,
        block_number: int,
        block_size: int,
    ) -> None:
        self.block_number = block_number	// LogicalTokenBlock id, 由零递增
        self.block_size = block_size	// 最多容纳token数量（block大小），默认为 16
        self.token_ids = [_BLANK_TOKEN_ID] * block_size	// 初始化为TOKEN_ID为-1，表示无效token
        self.num_tokens = 0	// 此block中存储的有效token的数量
        
    def append_tokens(self, token_ids: List[int]) -> None:
        """核心api, LogicalTokenBlock中的token只能从左到右append"""
        assert len(token_ids) <= self.get_num_empty_slots()
        curr_idx = self.num_tokens
        self.token_ids[curr_idx:curr_idx + len(token_ids)] = token_ids
        self.num_tokens += len(token_ids)

class PhysicalTokenBlock:
    """Represents the state of a block in the KV cache."""
    def __init__(
        self,
        device: Device,
        block_number: int,
        block_size: int,
    ) -> None:
        self.device = device	// 记录PhysicalTokenBlock物理存储位置，GPU or CPU
        self.block_number = block_number	// PhysicalTokenBlock id, 由零递增
        self.block_size = block_size	// block大小，与LogicalTokenBlock中block_size相等，默认为 16
        self.ref_count = 0	// 引用计数，beam search 里面同一个block可能会被多个sequence引用

2.2 BlockAllocator

BlockAllocator是用来管理空闲block的数据结构。其中最核心的数据结构是一个链表free_blocks，存储空闲的PhysicalTokenBlock。

# Mapping: logical block number -> physical block.
BlockTable = List[PhysicalTokenBlock]

class BlockAllocator:
    """Manages free physical token blocks for a device.

    The allocator maintains a list of free blocks and allocates a block when
    requested. When a block is freed, its reference count is decremented. If
    the reference count becomes zero, the block is added back to the free list.
    """

    def __init__(
        self,
        device: Device,
        block_size: int,
        num_blocks: int,
    ) -> None:
        self.device = device	// 维护的blocks存储位置，GPU or CPU
        self.block_size = block_size	// block大小，默认为 16
        self.num_blocks = num_blocks	// 

        # Initialize the free blocks.
        self.free_blocks: BlockTable = []	// 一个链表，存储空闲的PhysicalTokenBlock
        for i in range(num_blocks):
            block = PhysicalTokenBlock(device=device,
                                       block_number=i,
                                       block_size=block_size)
            self.free_blocks.append(block)

2.3 BlockSpaceManager

BlockSpaceManager是维护BlockSpace的核心数据结构，维护着LogicalTokenBlock到PhysicalTokenBlock的映射。在vLLM初始化的时候，首先会获取系统可用的CPU端和GPU端存储容量，从而计算出可用的block数量。

gpu_allocator
- 将系统可用的GPU端存储按照block进行管理。
- 其中维护一个链表free_blocks，存储空闲的PhysicalTokenBlock。
cpu_allocator
- 将系统可用的CPU端存储按照block进行管理。
- 当GPU显存不够用时，会将存储在GPU显存的block换出至CPU。
watermark_blocks
- 其实就是设置一个阈值，当gpu_allocator内空闲block数量小于watermark_blocks，停止分配新的sequence。
- 以避免频繁的缓存逐出。
block_tables
- 存储sequence的BlockTable
- BlockTable 维护者 logical block number -> physical block 的映射
- 假设一个sequence使用了N个logical block，那么，logical block number 为0~N-1

class BlockSpaceManager:
    """Manages the mapping between logical and physical token blocks."""

    def __init__(
        self,
        block_size: int,
        num_gpu_blocks: int,
        num_cpu_blocks: int,
        watermark: float = 0.01
    ) -> None:
        self.block_size = block_size
        self.num_total_gpu_blocks = num_gpu_blocks
        self.num_total_cpu_blocks = num_cpu_blocks

        self.watermark = watermark
        assert watermark >= 0.0

        self.watermark_blocks = int(watermark * num_gpu_blocks)
        self.gpu_allocator = BlockAllocator(Device.GPU, block_size,
                                            num_gpu_blocks)
        self.cpu_allocator = BlockAllocator(Device.CPU, block_size,
                                            num_cpu_blocks)
        # Mapping: seq_id -> BlockTable.
        self.block_tables: Dict[int, BlockTable] = {}

2.4 Sequence

一个Sequence对应一个推理上下文。

logical_token_blocks
- 一个链表，维护着Sequence使用的LogicalTokenBlock
- 链表中LogicalTokenBlock的logical block number 依次为0~N-1
- 根据logical block number就可以在BlockSpaceManager中的block_tables获取physical block

class Sequence:
    """Stores the data, status, and block information of a sequence.

    Args:
        seq_id: The ID of the sequence.
        prompt: The prompt of the sequence.
        prompt_token_ids: The token IDs of the prompt.
        block_size: The block size of the sequence. Should be the same as the
            block size used by the block manager and cache engine.
    """

    def __init__(
        self,
        seq_id: int,
        prompt: str,
        prompt_token_ids: List[int],
        block_size: int,
    ) -> None:
        self.seq_id = seq_id
        self.prompt = prompt
        self.block_size = block_size
        self.logical_token_blocks: List[LogicalTokenBlock] = []
        # Initialize the logical token blocks with the prompt token ids.
        self._append_tokens_to_blocks(prompt_token_ids)

3 PagedAttention kernal

Transformer推理过程中最重要的算子是attention算子。当拿到物理block，就可以获取到当前context中token对应的kv vector，然后进行attention操作。

这是一张Multi-head attention（NUM_HEAD = 2）的示意图，q向量与kv向量进行attention操作，产生下一个token。

3.1 attention 伪代码

attention 的C语言串行代码非常简单，容易理解。

q 向量与 MAX_SEQ个 k向量分别进行向量内积计算。

计算出来MAX_SEQ个logit，代表了 q 向量和 k 向量之间的相关性。
对MAX_SEQ个logit进行softmax
q 向量和 k 向量之间的相关性作用于v向量，获取最终的ans向量。

typedef struct _query
{
    vector vectors[NUM_HEAD];
} query;
typedef query answer;
typedef struct _kv_cache
{
    uint32_t num_token;
    vector k_cache[NUM_HEAD][MAX_SEQ_LEN];
    vector v_cache[NUM_HEAD][MAX_SEQ_LEN];
} kv_cache;

void multi_head_attention(query *q, kv_cache *kv, answer *ans)
{
    int32_t logits[MAX_SEQ_LEN];
    vector *head_ans;

    answer_init(ans);
    // NUM_HEAD个attention操作相互独立
    for (int i = 0; i < NUM_HEAD; i++)
    {
        // q 向量与 MAX_SEQ个 k向量分别进行向量内积计算。logits[j]代表了q->vectors[i]和kv->k_cache[i][j]之间的相关性
        for (int j = 0; j < MAX_SEQ_LEN; j++)
        {
            logits[j] = vector_dot(&(q->vectors[i]), &(kv->k_cache[i][j]));
        }
        // 对MAX_SEQ个logit进行softmax
        soft_max(logits);
        head_ans = &(ans->vectors[i]);
        // logits[j]作用于kv->v_cache[i][j]，获取最终的ans向量。
        // head_ans+=logits[j]×kv->v_cache[i][j]
        for (int j = 0; j < MAX_SEQ_LEN; j++)
        {
            vector_add(head_ans, &(kv->v_cache[i][j]), logits[j]);
        }
    }
}

3.2 paged_attention_v1_kernel

将上述的 C 串行代码改成cuda并行代码，并且充分发挥出GPU硬件算力，这并不是一件容易的事情。PagedAttention提供了两个version的kernal代码，我们先来看paged_attention_v1_kernel。

3.2.1 Input

const scalar_t* __restrict__ q,         // [num_seqs, num_heads, head_size]
const scalar_t* __restrict__ k_cache,   // [num_blocks, num_kv_heads, head_size/x, block_size, x] 
const scalar_t* __restrict__ v_cache,   // [num_blocks, num_kv_heads, head_size, block_size]

任何一个q k v向量的长度都是head_size。
q 存储没什么好说的，其实就是num_seqs×num_heads个向量存储在连续的内存空间。
k_cache中的 k 向量并没有存储在连续内存空间。其中，最后1维是x ，占用16字节（如果参数为FP16，则x=16/2；如果参数为FP32，则x=16/4）。
- block_size默认为16，也就是说，一个token block中16个token对应的16个 k 向量segment（16字节）存储在一块。
- 这儿太绕了，还是看图吧。
k_cache中的 v 向量也没有存储在连续内存空间。
- block_size默认为16，也就是说，一个token block中16个token对应的16个 k 向量以interleave的方式存储在一块。
- 还是看图吧。一图胜千言。

为了突出重点，图中num_head=1, block_size=4，只有两个token block：

3.2.2 workload partition

attention算子对并行计算很友好。我们来看一下paged_attention_v1_kernel中的并行计算任务划分，其实就是搞清楚cuda block、warp和thread各自承担了那些计算任务。

3.2.2.1 cuda grid

dim3 grid(num_heads, num_seqs, 1);

不同sequence中的attention任务互不干扰，同一sequence中不同head中的attention任务也互不干扰。

因此，paged_attention_v1_kernel将一个head中的attention任务交给一个cuda block完成。这样的话，不涉及不同cuda block间的同步，通信开销会比较小。

3.2.2.2 cuda block

1个cuda block 负责1个 head 中的attention任务。在PagedAttention中1个cuda block 中的任务划分比较复杂，不仅包含warp和thread，还包含group。整个过程可以分成两个主要阶段：1. 计算logits参数；2. 将logits参数作用于v_cache，得出结果。

cuda block中创建了128个cuda thread，也就是4个warp，1个warp中包含32个cuda thread。

阶段1，计算logits参数
- 单独拿出C串行伪代码：
```
// head_ans+=logits[j]×kv->v_cache[i][j]
for (int j = 0; j < MAX_SEQ_LEN; j++)
{
    logits[j] = vector_dot(&(q->vectors[i]), &(kv->k_cache[i][j]));
}
```
- 在paged_attention_v1_kernel中的任务划分：
  - warp
    
    一个或多个token block分配给一个warp执行。
    
    warp 会对 token block 按 x × block_size 字节的连续存储块依次进行处理。
  - thread group
    
    一个warp会划分成block_size个thread group，也就是说一个thread group负责处理一个token。
    
    thread group 会对 token 按 x 字节的连续存储块依次进行处理。
  - thread
    
    将token 中 x 字节的连续存储块划分成 VEC_SIZE = x / sizeof(type) / THREAD_GROUP_SIZE 的 VEC 进行处理。
    
    每一个 thread 负责 head_size / VEC_SIZE 个 VEC。
- 任务划分示意图
阶段2，将logits参数作用于v_cache，得出结果
- 单独拿出C串行伪代码：
```
for (int j = 0; j < MAX_SEQ_LEN; j++)
{
    vector_add(head_ans, &(kv->v_cache[i][j]), logits[j]);
}
```
- 在paged_attention_v1_kernel中的任务划分：
  - warp
    
    一个或多个token block分配给一个warp执行。
    
    warp 会对 token block 按 sizeof(type) × block_size 字节的连续存储块依次进行处理。
  - thread
    
    如果sizeof(type) × block_size 字节的连续存储块大于16字节，则将其切分为16字节的连续存储块。然后，将16字节的连续存储块依次分配给warp内线程进行处理。
    
    如果sizeof(type) × block_size 字节的连续存储块小于等于16字节，则将其依次分配给warp内线程进行处理。
- 任务划分示意图

3.2.3 伪代码

简单写一下paged_attention_v1_kernel的伪代码：

__device__ void paged_attention_kernel(
  scalar_t* __restrict__ out,             // [num_seqs, num_heads, max_num_partitions, head_size]
  const scalar_t* __restrict__ q,         // [num_seqs, num_heads, head_size]
  const scalar_t* __restrict__ k_cache,   // [num_blocks, num_kv_heads, head_size/x, block_size, x]
  const scalar_t* __restrict__ v_cache,   // [num_blocks, num_kv_heads, head_size, block_size]
  const int num_kv_heads,                 // [num_heads]
){
    __shared__ Q_vec q_vecs[THREAD_GROUP_SIZE][NUM_VECS_PER_THREAD];
    /* 
    *	load q_vecs
    */
    __syncthreads();
    // Memory planning.
    float* logits = reinterpret_cast(shared_mem);
	for (int block_idx = start_block_idx + warp_idx; block_idx < end_block_idx; block_idx += NUM_WARPS) {
        K_vec k_vecs[NUM_VECS_PER_THREAD];
        for (int i = 0; i < NUM_TOKENS_PER_THREAD_GROUP; i++) {
            for (int j = 0; j < NUM_VECS_PER_THREAD; j++){
                /* 
                *	load k_vecs
                */
            }
        }
        /* 
        *	compute q k dot
        */
        float qk = scale * Qk_dot::dot(q_vecs[thread_group_offset], k_vecs);
        logits[token_idx - start_token_idx] = mask ? 0.f : qk;
    }
    __syncthreads();
    /* 
    *	Compute softmax.
    */
    __syncthreads();
    float accs[NUM_ROWS_PER_THREAD];
    for (int block_idx = start_block_idx + warp_idx; block_idx < end_block_idx; block_idx += NUM_WARPS) {
        for (int i = 0; i < NUM_ROWS_PER_THREAD; i++) {
            accs[i] += dot(logits_vec, v_vec);
        }
    }
    __syncthreads();
    /* 
    *	Perform accs reduction across warps.
    */
}

3.3 paged_attention_v2_kernel

paged_attention_v1_kernel将一个head中的attention任务交给一个cuda block完成。如果sequence中context比较长，cuda block承担的任务量将会比较大，甚至有可能出现硬件资源（共享内存，寄存器）不够的情况。这时候，就需要将head中的attention任务拆分成多个cuda block。在vLLM中，每512个token创建一个cuda block。

其他计算逻辑与paged_attention_v1_kernel完全相同。

Scala 简介 froginwe11 开发语言
Scala简介引言Scala是一种多范式编程语言，它结合了面向对象和函数式编程的特性。自从2003年由MartinOdersky教授在EPFL开发以来，Scala已经成为了在Java虚拟机（JVM）上运行的高效编程语言。本文将为您详细介绍Scala的起源、特点、应用场景以及学习资源。Scala的起源与发展起源Scala的灵感来源于多种编程语言，包括Java、C++、Self、Haskell和ML。
SQLite 数据库与其他数据库的对比分析数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent 数据库 sqlite ai
SQLite数据库与其他数据库的对比分析关键词：SQLite数据库、其他数据库、对比分析、数据库特性、应用场景摘要：本文旨在对SQLite数据库与其他常见数据库进行全面的对比分析。首先介绍了数据库对比分析的背景和目的，让读者了解为何需要进行这样的对比。接着详细阐述了SQLite以及其他具有代表性数据库（如MySQL、Oracle、PostgreSQL等）的核心概念和架构，通过Mermaid流程图展
star31.6k，Aider：让代码编写如虎添翼的终端神器
ider是一款运行在终端中的AI结对编程工具，它能与大型语言模型（LLM）无缝协作，直接在您的本地Git仓库中编辑代码。无论是启动新项目，还是优化现有代码库，Aider都能成为您最得力的助手。它支持Claude3.5Sonnet、DeepSeekV3、GPT-4o等顶级AI模型，几乎可以连接任何LLM，让编程体验如虎添翼。Stars数35,188Forks数3,230主要特点Git操作：Aider
如何解决ubuntu 中DNS无法修改导致无法联网的问题 BTU_YC linux ubuntu ubuntu linux 服务器
写在前面：在刚开始遇到这个问题的时候，在网上搜了很多资料，都无法解决DNS总是无法修改，一些文章中提到过，直接修改的/etc/resolv.conf，之后确实能够通过pingwww.baidu.com的方式解决，但是当重启电脑的时候，网络有无法使用了。之前的方法就不提了，直接介绍一下我这解决的方法吧如何解决：先使用这个命令进入编辑页面vim/etc/systemd/resolved.conf输入命
python# python:3.5 aarch64构建镜像 Ling丶落 centos
构建失败从ubuntu中尝试构建FROMpython:3.5-slimLABELMAINTAINER="[email protected]"#installrelatedpackagesENVENVIRONMENTDOCKER_PRODWORKDIR/workCOPY./dataset.py/work/dataset.pyCOPY./model.py/work/model.pyCOPY./PyA
openai-agents记忆持久化（neo4j） ZHOU_CAMP oi_agents agent中的记忆模块 neo4j python 开发语言
目录环境安装模型配置Memory配置测试环境安装mem0ai[graph]安装uvpipinstall"mem0ai[graph]"docker启动neo4j数据库dockerrun\-p7474:7474-p7687:7687\-eNEO4J_AUTH=neo4j/password\neo4j:5模型配置fromdotenvimportload_dotenvimportosfromopenaii
Aider：27.6K Star！这个终端AI编程神器能用语音改代码，自动生成Git记录并提交，接入DeepSeek斩获编程基准最高分蚝油菜花每日 AI 项目与应用实例 AI编程 git 人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->尽在微信公众号->搜一搜：蚝油菜花⌨️“每个CLI爱好者都该试试的AI编程革命：对着终端说话自动生成Gitcommit是怎样的体验？”大家好，我是蚝油菜花。如果你也经历过——在vim里卡了半小时，只为给函
使用AutoKeras2.0的AutoModel进行结构化数据回归预测
1、FirstofAll:ReadTheFuckingSourceCodeimportautokerasasakimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_error#生成数据集np.random.seed(42)x=np.random.r
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
企业级Agent是AI创业唯一的大机会我是白泽人工智能大数据语言模型 ai 程序员大模型大模型学习
之前我锐评了AI创业的各个方向，把当前热门的AI方向都质疑了一圈，现在我再多得罪一个，就是ToC的Agent不管出不出海是不是全球市场都没有什么大机会。点对点的批判意义不大，也很得罪人，我先完整论述一下我的逻辑，在这个框架下稍微延伸一点对ToC的质疑，足够委婉、含蓄，只叫醒想醒的人，不得罪装睡的人。我们讲过去的全球SaaS或者说未来的Agent，他们的价值来源到底是什么。没有价值是肯定没有创业机会
5种高效解决Maven依赖冲突的方法代码的余温 maven java
在Maven中排除依赖冲突主要有以下5种方法，结合具体场景说明操作步骤：⚠️一、基础排除法（标签）适用场景：排除直接依赖中的传递性冲突包示例：排除spring-boot-starter-web中的Tomcat依赖org.springframework.bootspring-boot-starter-weborg.springframework.bootspring-boot-starter-tom
【前端进阶】【实战】【性能优化】前端开发中的事件监听与DOM操作优化实践患得患失949 数字孪生前端性能优化前端
前端开发中的事件监听与DOM操作优化实践在前端开发中，事件监听器的管理和DOM操作的优化是提升应用性能和稳定性的关键。本文将结合具体案例，探讨如何通过技术手段解决这些问题，并分享一些实用的优化技巧。问题背景在一个基于高德地图的应用中，我们实现了一个信息窗口组件（InfoWindow），其中包含视频播放功能和轮播图展示。随着用户交互的增加，我们遇到了以下问题：信息窗口频繁打开关闭后，页面性能明显下降
Gemini CLI：AI工程师的黄金规范框架 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型 python 深度学习人工智能机器学习
GeminiCLI的系统提示词：高阶工程规范+安全边界控制+工具编排能力GeminiCLI的系统提示词，它是AI工程师的黄金范本，可看作“高阶工程规范+安全边界控制+工具编排能力”的完整框架，具体内容如下：核心目标：让AI作为专注软件工程任务的交互式CLI代理，遵循指令、利用工具，安全高效地协助用户。核心准则：读改代码要遵守项目规范，验证库和框架的可用性，模仿现有代码风格，修改要自然融入项目，谨慎
1.线性神经网络--线性回归温柔济沧海深度学习神经网络线性回归 python
1.1从零实现线性回归importrandomimporttorch#fromd2limporttorchasd2limportmatplotlib.pyplotaspltdeftrain_data_make(batch_size,X,y):num_examples=len(X)idx=list(range(num_examples))#生成0-999random.shuffle(idx)#样本需
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
别再盯着工具选型了，组织协作真正的问题在这里｜CTO的一线观察
GPT、Agent、多模态、Copilot……新一轮AI热潮涌来，很多企业也跟上了节奏，纷纷把“AI办公”挂上了OKR。你可能也遇到过这样的场景：项目部署了AI助手，但团队协作依然低效；工具用了不少，日报、周报、纪要、方案、流程……依然靠人手“补漏”；系统林立，数据割裂，信息层层递送但任务没人推动，协同像“失速列车”。AI上了，协作没变——问题出在哪儿？作为一线的技术负责人，我们不得不承认：真正的
善用关系网络：开源AI大模型、AI智能名片与S2B2C商城小程序赋能下的成功新路径
摘要：本文聚焦于关系在个人成功中的关键作用，指出关系即财富，善用关系、拓展人脉是成功的重要途径。在此基础上，引入开源AI大模型、AI智能名片以及S2B2C商城小程序等新兴技术工具，探讨它们如何助力个体在复杂的关系网络中更高效地挖掘和利用资源，提升处理关系的能力，从而为事业成功开拓新道路，揭示这些技术元素在当代成功路径中的创新应用与重要意义。关键词：关系网络；开源AI大模型；AI智能名片；S2B2C
探索 Qwen3-0.6B：轻量级大模型的技术突破与应用潜力
在大模型技术飞速发展的今天，轻量化、高性能的模型成为业界关注的焦点。Qwen3-0.6B作为阿里推出的轻量级大模型，凭借其独特的技术架构和卓越性能，在众多模型中脱颖而出。本文将深入探讨Qwen3-0.6B的技术特性、优势以及应用场景，带你领略这款轻量级大模型的魅力。一、Qwen3-0.6B核心技术架构Qwen3-0.6B基于Transformer架构进行优化，采用了一系列先进的技术手段，在保证模型
vllm推理实践 try2find java 前端服务器
1.vllm推理demo实验fromvllmimportLLM,SamplingParams#定义生成参数sampling_params=SamplingParams(temperature=0.7,top_p=0.9,max_tokens=100,)#加载DeepSeek模型（以deepseek-llm-7b为例）#model_name="deepseek-ai/deepseek-llm-7b"
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
.eslintrc.js文件内容/配置eslint/eslint参数是泡沫呀前端工程化 javascript 前端 vue.js webpack npm
首先放一个官网的链接Listofavailablerules-ESLint中文文档然后直接上代码这里以vue项目为例，主要两个文件，1是.eslintrc.js文件（配置），2是.eslintignore（忽略不需要匹配的文件）重点：修改配置文件后，要重启项目才能生效一、这个是.eslintrc.js//ESlint检查配置module.exports={root:true,parserOptio
从0到1打造创始人IP：创客匠人如何用内容构建商业护城河创客匠人老蒋创始人IP 创客匠人 IP变现大数据知识付费
创始人IP为何成为企业破局的关键引擎？在知识付费赛道竞争白热化的当下，创客匠人创始人老蒋以“IP新商业架构师”的身份，将个人IP与企业品牌深度绑定，走出了一条差异化路径。当传统企业还在纠结流量成本时，老蒋通过输出“成事心法”“商业认知”等干货内容，在公众号、短视频等平台积累精准用户，其“正确的事做长期”理念，正是创客匠人9年深耕行业的缩影。这种将创始人个人影响力转化为企业信任背书的模式，让创客匠人
QML与C++交互之创建自定义对象
在qml中，我们一般都是希望使用qml做界面展示，而数据处理转由c++处理；在此篇博客，将介绍如何在c++中给qml定义全局对象；在c++中如何定义对象给qml使用。1给qml定义全局对象正常我们定义了一个qml项目后，main函数是这样的：#include#include#includeintmain(intargc,char*argv[]){QCoreApplication::setAttri
行业锦标赛激励数据集（2008-2023）数据皮皮侠AI 人工智能大数据物联网矩阵动态规划
1771行业锦标赛激励数据集（2008-2023）数据简介坚持创新驱动发展，要强化企业创新主体地位，发挥企业家在技术创新中的重要作用。作为企业组织内部最具有影响力的角色，高级管理人员拥有企业经营管理的自由裁量权，对企业战略决策及由此产生的经营绩效具有举足轻重的影响。合理的薪酬契约安排是促进员工努力工作并提高企业绩效的重要手段。效率视角下的锦标赛理论主要关注企业内部薪酬差距的激励效应，但随着信息技术
Requestium - 将Requests和Selenium合并在一起的自动化测试工具测试界晓晓软件测试测试工具 selenium 自动化软件测试功能测试自动化测试程序人生
Requests是Python的第三方库，主要用于发送http请求，常用于接口自动化测试等。Selenium是一个用于Web应用程序的自动化测试工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。本篇介绍一款将Requests和Selenium结合在一起的自动化测试工具-Requestium简介Requestium是一个Python库，它将Requests、Selenium和P
传统微商困境与开源链动2+1模式、AI智能名片及S2B2C商城小程序的转型破局说私域开源人工智能小程序
摘要：本文聚焦传统微商代理分级模式面临的库存积压、出货困难等“滚雪球”危机，深入剖析其根源。在此基础上，引入开源链动2+1模式、AI智能名片以及S2B2C商城小程序，探讨这些新兴元素如何助力品牌微商实现转型，突破传统困境，实现可持续发展。通过分析各元素的特点与优势，阐述它们在优化供应链、提升营销效率、增强客户关系管理等方面的协同作用，为微商行业的创新发展提供理论支持与实践参考。关键词：传统微商；开
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST