colourmind

ChatGLM的int8量化以及由此对量化的梳理总结

一、ChatGLM的int8量化

二、全流程量化

三、量化校准

目前随着模型规模越来越大，对于没有很多算力的人来说，使用大模型的门槛越来越高，因此ChatGLM提供的模型支持，fp16、int8和int4的量化，来降低加载模型的显存，让更多的人能使用该大模型。两三年之前把玩过tensort fp16 量化加速Bert，但是并没有好好研究模型量化的原理细节，以及int8的量化如何实现。所以近期借着ChatGLM的源码把它的int8实现方案弄懂了，发现其实它的方案比较简单，只是对权重weight进行了量化和反量化(weightOnly)，并没有完整的对weight和activation进行量化。因此也把activation和weight的int8 量化的一些知识进行了梳理，写下该篇博文。

一、ChatGLM的int8量化

首先直接看看chatGLm2-6B在未采用量化和采用量化的显存占用和推理时间对比。加载模型是的显存占用和权重查看，未量化和量化代码如下：

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '1'
from transformers import AutoModel, AutoTokenizer
device = 1
import pynvml

def static_gpu_memory(device):
    pynvml.nvmlInit()  # 初始化
    handle = pynvml.nvmlDeviceGetHandleByIndex(device)
    memo_info = pynvml.nvmlDeviceGetMemoryInfo(handle)
    print("GPU Memory Total: %.4f G" % (memo_info.total / 1024 / 1024 / 1000))
    print("GPU Memory Free: %.4f G" % (memo_info.free / 1024 / 1024 / 1000))
    print("GPU Memory Used: %.4f G" % (memo_info.used / 1024 / 1024 / 1000))

def glm2_noquantize():
    # tokenizer = AutoTokenizer.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b",
    #                                           trust_remote_code=True)
    # model = AutoModel.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm-6b",trust_remote_code=True,device_map='auto')
    model = AutoModel.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b", trust_remote_code=True)
    total = 0
    for _, param in model.named_parameters():
        if len(param.shape) == 1:
            total += param.shape[0]
        else:
            total += param.shape[0] * param.shape[1]

    print(f'glm2 params total {total}')
    print(model)
    for layer in model.transformer.encoder.layers:
        weight = layer.self_attention.query_key_value.weight
        print(weight.dtype)
        print(weight)
        break
    model.cuda()
    for layer in model.transformer.encoder.layers:
        weight = layer.self_attention.query_key_value.weight
        print(weight.dtype)
        print(weight)
        break
    static_gpu_memory(device)


def glm2_quantize(bits=8):
    # tokenizer = AutoTokenizer.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b",
    #                                           trust_remote_code=True)
    model = AutoModel.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b", trust_remote_code=True)
    total = 0
    for _,param in model.named_parameters():
        if len(param.shape) == 1:
            total += param.shape[0]
        else:
            total += param.shape[0] * param.shape[1]

    print(f'glm2 params total {total}')
    print("CPU")
    for layer in model.transformer.encoder.layers:
        weight = layer.self_attention.query_key_value.weight
        print(weight)
        break
    print("quantize")
    model = model.quantize(bits)
    # print(model)
    for layer in model.transformer.encoder.layers:
        weight = layer.self_attention.query_key_value.weight
        print(weight)
        break
    print("transfer tensor to GPU")
    model.cuda()
    for layer in model.transformer.encoder.layers:
        weight = layer.self_attention.query_key_value.weight
        print(weight)
        break
    static_gpu_memory(device)

if __name__ == '__main__':
    # glm2_noquantize()
    bits = 8
    glm2_quantize(bits)

运行结果如下：

不采用量化

采用量化

生成耗时，输入——你好呀，请问你是谁？代码如下：

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '1'
from transformers import AutoModel, AutoTokenizer
device = 1
import pynvml
from transformers.generation.utils import LogitsProcessorList
from transformers.generation.logits_process import LogitsProcessor
import time

import torch
class InvalidScoreLogitsProcessor(LogitsProcessor):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
        if torch.isnan(scores).any() or torch.isinf(scores).any():
            scores.zero_()
            scores[..., 5] = 5e4
        return scores

def glm2_noquantize_inference():
    tokenizer = AutoTokenizer.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b",
                                              trust_remote_code=True)
    # model = AutoModel.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm-6b",trust_remote_code=True,device_map='auto')
    model = AutoModel.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b", trust_remote_code=True).cuda()
    max_length = 1024
    do_sample = True
    top_p = 0.9
    temperature = 0.95
    logits_processor = LogitsProcessorList()
    logits_processor.append(InvalidScoreLogitsProcessor())
    gen_kwargs = {"max_length": max_length, "do_sample": do_sample, "top_p": top_p,
                  "temperature": temperature, "logits_processor": logits_processor}
    text = "你好呀，请问你是谁？"
    t1 = time.time()
    total = 0
    for i in range(20):
        input_ids = tokenizer([text], return_tensors="pt", padding=True)
        input_ids = input_ids.to("cuda")
        outputs = model.generate(**input_ids, **gen_kwargs)
        outputs = outputs.cpu().tolist()[0][len(input_ids["input_ids"][0]):]
        response = tokenizer.decode(outputs)
        total += len(response)
        if i == 19:
            print(response.replace("\n\n","\n"))
    t2 = time.time()
    print(f"glm2_noquantize_inference total time {round(t2-t1,4)} s total tokens {total} each token time cost is {round(1000*(t2-t1)/total,4)} ms")


def glm2_quantize_inference():
    tokenizer = AutoTokenizer.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b",
                                              trust_remote_code=True)
    # model = AutoModel.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm-6b",trust_remote_code=True,device_map='auto')
    model = AutoModel.from_pretrained("/AI_TEAM/cbfeng/ChatGLM-6B-main/THUDM/chatglm2-6b", trust_remote_code=True).quantize(8).cuda()
    max_length = 1024
    do_sample = True
    top_p = 0.9
    temperature = 0.95
    logits_processor = LogitsProcessorList()
    logits_processor.append(InvalidScoreLogitsProcessor())
    gen_kwargs = {"max_length": max_length, "do_sample": do_sample, "top_p": top_p,
                  "temperature": temperature, "logits_processor": logits_processor}
    text = "你好呀，请问你是谁？"
    t1 = time.time()
    total = 0
    for i in range(20):
        input_ids = tokenizer([text], return_tensors="pt", padding=True)
        input_ids = input_ids.to("cuda")
        outputs = model.generate(**input_ids, **gen_kwargs)
        outputs = outputs.cpu().tolist()[0][len(input_ids["input_ids"][0]):]
        response = tokenizer.decode(outputs)
        total += len(response)
        if i == 19:
            print(response.replace("\n\n", "\n"))
    t2 = time.time()
    print(f"glm2_noquantize_inference total time {round(t2-t1,4)} s total tokens {total} each token time cost is {round(1000*(t2-t1)/total,4)} ms")

if __name__ == '__main__':
    glm2_noquantize_inference()

    glm2_quantize_inference()

结果如下：

未量化

我是 ChatGLM2-6B，是清华大学KEG实验室和智谱AI公司共同训练的语言模型。
glm2_noquantize_inference total time 10.3523 s total tokens 605 each token time cost is 17.1112 ms

量化

我是 ChatGLM2-6B，是清华大学KEG实验室和智谱AI公司共同训练的语言模型。我的任务是针对用户的问题和要求提供适当的答复和支持。你有什么问题需要帮助吗？
glm2_noquantize_inference total time 21.3963 s total tokens 579 each token time cost is 36.9539 ms

从效果来看，ChatGLM2-6B不量化的时候加载模型参数显存占用12.8G左右，生成每个token耗时17ms；采用其int8量化占用显存7.3G，生成每个token耗时37ms。也就是说chatGLM的量化并没有加速推理的能力，只有降低显存的能力。

ChatGLM2的int8量化实现细节

量化整体流程示意图如下

1、加载模型权重量化

加载模型的fp16权重，采用min_max对weight_fp16进行int8量化，得到Qweight_int8

2、前向推理反量化

在推理的时候，把上述的Qweight_int8进行反量化得到新的权重Rweight_fp16，然后由这个新权重和输入input_fp16完成后面的前向计算

注意的是模型量化attention模块和mlp相应的权重，没有对输入也进行量化。同时前向计算过程中，相比没有量化的时候，多了一次反量化的计算，而计算精度仍然是fp16之间的计算，所以整体耗时会增加。

量化代码

if weight is None or empty_init:
    self.weight = torch.empty(shape[0], shape[1] * weight_bit_width // 8, dtype=torch.int8, device=device)
    self.weight_scale = torch.empty(shape[0], dtype=dtype, device=device)
else:
    self.weight_scale = weight.abs().max(dim=-1).values / ((2 ** (weight_bit_width - 1)) - 1)
    self.weight = torch.round(weight / self.weight_scale[:, None]).to(torch.int8)
    if weight_bit_width == 4:
                self.weight = compress_int4_weight(self.weight)

可以看到对权重的量化是先采用min_max计算scale，然后权重值除以scale，取整转化为int8类型。

反量化和推理代码

class W8A16Linear(torch.autograd.Function):
    @staticmethod
    def forward(ctx, inp: torch.Tensor, quant_w: torch.Tensor, scale_w: torch.Tensor, weight_bit_width):
        ctx.inp_shape = inp.size()
        ctx.weight_bit_width = weight_bit_width
        out_features = quant_w.size(0)
        inp = inp.contiguous().view(-1, inp.size(-1))
        weight = extract_weight_to_half(quant_w, scale_w, weight_bit_width)
        ctx.weight_shape = weight.size()
        output = inp.mm(weight.t())
        ctx.save_for_backward(inp, quant_w, scale_w)
        return output.view(*(ctx.inp_shape[:-1] + (out_features,)))

    @staticmethod
    def backward(ctx, grad_output: torch.Tensor):
        inp, quant_w, scale_w = ctx.saved_tensors
        weight = extract_weight_to_half(quant_w, scale_w, ctx.weight_bit_width)
        grad_output = grad_output.contiguous().view(-1, weight.size(0))
        grad_input = grad_output.mm(weight)
        grad_weight = grad_output.t().mm(inp)
        return grad_input.view(ctx.inp_shape), grad_weight.view(ctx.weight_shape), None, None

def extract_weight_to_half(weight: torch.Tensor, scale_list: torch.Tensor, source_bit_width: int):
    assert scale_list.dtype in [torch.half, torch.bfloat16]
    assert weight.dtype in [torch.int8]
    return weight.to(scale_list.dtype) * scale_list[:, None]

二、全流程量化

这里的全流程量化指的是包含了激活值和权重两部分量化，在保证模型性能降低的不多的同时，还能减少推理时间。当然要取得这样的效果，需要做好量化和反量化的算法优化，以及适配不同硬件的优化，特别是在大模型上更加困难。

量化的基本公式

量化包含了量化和反量化，量化原理是把高精度的数值转化为低精度，降低存储消耗，同时低精度的计算也能减少计算耗时。反量化就是把低精度转化为之前的进度。基本公式如下：

其中r是浮点数，q是量化后的整数，round表示去整数；s是scale，表示浮点数和整数之间的量化因子，Z是zero point表示浮点数中的0经过量化后的整数值。计算方法如下：

min和max分别表示最小值和最大值，注意的是Z是没有进度损失的。只有在q和r间存在精度损失。

activation和weight量化示意图

输入也把fp32量化为int8，然后和量化后的int8权重进行int8的计算，直到模型的输出，反量化成fp32。上图只是个简单的示意图，中间省略了很多细节，int8量化后计算过程中可能会导致溢出，会采用int32来保存中间激活值；同时又的算子需要高精度的计算，要把激活值反量化为fp32或者fp16进行计算。另外激活值和权重的量化策略可能也不一样，根据INVIDIA的实验，权重的量化接采用Min-Max量化就可以了，而激活值分布不一，不能采用Min-Max量化——(很大概率导致不饱和量化)，因此需要对原始激活值选择一个量化的阈值；同时每一层的量化也有自己的量化阈值，这样才能更充分的利用量化值域，提高模型的性能。

饱和量化

非饱和量化

上图所示饱和量化对量化后的值域利用的更充分，而非饱和量化值域有很多没有被利用起来。因此需要选择一个量化阈值，把阈值之外的量化为最大值或者最小值。

三、量化校准

量化校准就是对激活值进行量化的过程中，不断的调整量化阈值，使得量化前后的激活分布差异最小化。为什么要进行这样的校准呢？如果不进行这样的校准，由于激活值分布不均匀，直接采用Min-Max量化，会导致模型的性能下降太多。

怎么样进行量化校准呢？

对于一个训练好的模型，

1、选择一部分验证集，喂入模型，统计每一层的激活值

2、采用下图所示伪代码算法过程，找到每一层量化前后激活值分布差异最小的量化阈值。

3、更具量化阈值，计算量化scae以及zero point

4、依据scae以及zero point对所有激活值进行量化

详细代码可见——TensorRT基于Entropy的校准

参考

ChatGLM2-6B

大语言模型的模型量化(INT8/INT4)技术

如何用Pyhton实现成绩等级转换（初学者教程）笼中鸟·世间人 python
使用多分枝if-elif-else语句形式如下：if布尔表达式1：语句块1elif布尔表达式2：语句块2elif布尔表达式n：语句块nelse:布尔表达式n：语句块n+1以下的代码不仅可以判断一般的分数，还可以判断负数和超过100的不合法分数。（代码如下）#成绩等级转换.py'''将同学的百分制成绩转化等级：score>=90-->'优秀'，score>=80-->'良好'，score>=70--
使用 Airbyte Typeform 加载器进行数据文档化 shuoac python
在数据集成的世界中，Airbyte是一个非常强大的平台，它为我们的ETL管道提供了从API、数据库和文件到数据仓库和湖泊的连接器。但是，随着技术的快速发展，某些工具和方法可能会被弃用，例如AirbyteTypeform加载器。不过这并不意味着不能使用其他更好的解决方案。因此，这篇文章就带大家一起了解如何使用Airbyte原生支持的加载器来处理Typeform的数据文档化。技术背景介绍Airbyte
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
React的状态管理——Redux miraculous111 react.js javascript 前端
Redux与计数器配套工具使用ReactToolkit创建counterStore为React注入storeReact组件使用store中的数据React组件修改store中的数据绑定用户交互效果展示action传参Redux异步状态管理React中的Redux就像Vue中的Vuex和Pinia一样，都是状态管理工具，通过这种方式可以很方便的实现各个组件中的通信。下面的代码是通过Redux实现一个
Java的包结构 MingDong523 笔记
Java的包结构类就相当于文件夹(目录)。包结构的作用一般有以下两个方面第一个就是Java的包是根据Java文件的功能和性质来区分，方便区分和查找另一个就是重复的文件名可以存在于不同的包(文件夹)里。当我们选择去创建Java包时有两种创建方式，其中一种就是手动创建，手动创建包太过繁琐，不推荐。而另一种就是使用代码去创建(打包语句package)，当我们使用打包语句时要注意一下几点1.在写packa
AF3 rot_matmul 和 rot_vec_mul函数解读 qq_27390023 生物信息学深度学习 pytorch python
AlphaFold3rigid_utils模块的rot_matmul和rot_vec_mul函数实现了手动计算两个旋转矩阵的乘法A×B以及矩阵-向量乘法R×t，避免了直接用矩阵乘法的AMP（AutomaticMixedPrecision）问题。源代码：defrot_matmul(a:torch.Tensor,b:torch.Tensor)->torch.Tensor:"""Performsmatr
Angular与ASP.NET Core：解决表单数据传输问题 t0_54coder 编程问题解决手册 angular.js asp.net 前端个人开发
在现代Web开发中，Angular和ASP.NETCore是两个非常流行的框架，它们的组合可以构建出高效且易于维护的应用程序。然而，在使用Angular发送表单数据到ASP.NETCoreAPI时，开发者常常会遇到一些数据传输的问题。今天我们就来探讨如何正确地处理这种情况，并通过实际例子来展示解决方案。问题描述假设我们有一个Angular前端应用，需要将一个包含文件和其他数据的表单提交到ASP.N
2021-最新Web前端经典面试试题及答案-史上最全前端面试题(含答案)---React篇圆白菜和大白菜前端 react 大前端 react
★★★React事件绑定原理★★★React中的setState缺点是什么呢★★★React组件通信如何实现★★★类组件和函数组件的区别★★★请你说说React的路由是什么？★★★★★React有哪些性能优化的手段？★★★★Reacthooks用过吗，为什么要用？★★★★虚拟DOM的优劣如何？实现原理？★★★★React和Vue的diff时间复杂度从O(n^3)优化到O(n)，那么O(n^3)和O
数据结构——链表专项 seven——seven linux mailbox之线程邮箱数据结构链表算法
数据结构的总结1.定义一组用来保存一种或者多种特定关系的数据的集合（组织和存储数据）程序的设计：将现实中大量而复杂的问题以特定的数据类型和特定的存储结构存储在内存中，并在此基础上实现某个特定的功能的操作；程序=数据结构+算法高内聚，低耦合2.数据与数据之间的关系数据的逻辑结构：数据元素与元素之间的关系集合：关系平等线性结构：元素之间一对一的关系（表，队列。栈。。。）树型结构：元素之间一对多的关系（
TVBOX最新配置地址,TVBOX直播源接口配置地址,TVBOX最新直播接口 keysoso TV电视盒子电视盒子电视电视机
TVbox直播源最新配置地址如何获取与设置？TVbox直播源的配置与获取是许多用户关心的问题，因为这关系到能否顺利观看各类直播节目。下面，我们将逐步向大家介绍如何获取和设置TVbox最新的直播源配置地址。一、TVbox直播源的基本认识TVbox直播源最新配置地址如何获取与设置？上述标题满足了您的要求，它是一个带疑问的中文长标题，且符合用户搜索需求，同时包含了tvbox直播源和最新配置地址的关键词，
探索TriCore架构：AURIX芯片的强大内核裴辰垚Simone
探索TriCore架构：AURIX芯片的强大内核g_tricore_architecture项目地址:https://gitcode.com/gh_mirrors/gt/g_tricore_architecture项目介绍TriCore架构是英飞凌（Infineon）公司开发的一种高性能、低功耗的嵌入式处理器架构，广泛应用于汽车电子、工业控制和消费电子等领域。AURIX系列芯片是基于TriCore
涛哥聊Python | borb，一个好用的 Python 库，处理 PDF 文件好帮手！双木的木 python拓展学习 python库 python 开发语言机器学习 pdf 人工智能深度学习
本文来源公众号“涛哥聊Python”，仅用于学术分享，侵权删，干货满满。原文链接：borb，一个好用的Python库！大家好，今天为大家分享一个好用的Python库-borb。Github地址：https://github.com/jorisschellekens/borbPythonBorb是一个用于处理PDF文件的Python库，它提供了丰富的功能和工具，使得PDF文件的创建、修改和解析变得更
解决mqtt有时候收不到消息技术需要沉淀gogo mqtt 前端
项目场景：mqtt订阅之后有时候收不到消息使用测试工具发订阅消息问题描述mqtt订阅之后有时候收不到消息原因分析：cleanSession:true每次客户端连接到MQTTBroker时，都会创建一个新的会话，原来的订阅、未完成的QoS1、QoS2消息会全部丢弃。解决方案：cleanSession:false持久化会话，当客户端断开后，Broker仍然会保留客户端的订阅关系和QoS1/QoS2等未
无再暴露源站！群联AI云防护IP隐匿方案+防绕过实战群联云防护小杜安全问题汇总人工智能 tcp/ip 网络协议网络安全 http 服务器
一、IP隐藏的核心原理群联AI云防护通过三层架构实现源站IP深度隐藏：流量入口层：用户访问域名解析至高防CNAME节点（如ai-protect.example.com）智能调度层：基于AI模型动态分配清洗节点，实时更新节点IP池回源层：防护节点通过加密隧道与源站通信，源站仅接受来自群联节点的流量二、IP隐藏配置全流程1.DNS配置（域名指向群联CNAME）#域名DNS记录示例@CNAMEai-pr
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
小程序被黑客攻击，如何防御！群联云防护小杜安全问题汇总小程序安全 web 被攻击阿里云 waf
在当今数字化时代，小程序作为连接用户与服务的桥梁，其安全性至关重要。随着小程序生态的日益壮大，也吸引了越来越多的不法分子试图通过各种手段进行攻击，如注入攻击、盗取用户数据、恶意篡改等。为了保护用户隐私和业务安全，开发者必须采取有效的防御措施。本文将深入探讨几种常见的小程序攻击方式及其解决方案，并附带示例代码，以确保您的小程序能够稳健运行。1.SQL注入攻击防范问题描述：攻击者通过在输入字段中插入恶
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
RestTemplate和RPC区别酷爱码经验分享 rpc 网络协议网络
RestTemplate是Spring框架中用于进行RESTful风格的HTTP请求的模板类，通常用于与外部服务进行通信。它基于HTTP协议，使用GET、POST、PUT、DELETE等HTTP方法来进行通信，传输的数据通常使用JSON或XML格式。它是一种基于资源的通信方式，通过URL来标识资源。RPC（RemoteProcedureCall）是一种远程过程调用的通信机制，用于不同进程或不同主机
从边缘到核心：群联云防护如何重新定义安全加速边界？群联云防护小杜安全问题汇总安全分布式 ddos 前端 node.js udp
一、安全能力的全方位碾压1.协议层深度防护四层防御：动态过滤畸形TCP/UDP包（如SYNFlood），传统CDN仅限速率控制。技术示例：基于AI的协议指纹分析，拦截异常连接模式。七层防御：精准识别业务逻辑攻击（如薅羊毛API调用），CDN仅支持基础URL黑名单。文档引用：“支持基于HTTP头部字段的多条件组合精准访问控制”（产品文档）。2.资源调度与成本优势节点复用：群联共享节点池降低单客户成本
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
Centos使用docker搭建Graylog日志平台 moxiaoran5753 centos docker graylog
日志管理系统有很多，比如ELK,Graylog，Loki+Grafana+Promtail适用场景：1.如果需求复杂，服务器资源不受限制，推荐使用ELK（Logstash+Elasticsearch+Kibana）方案；2.如果需求仅是将不同服务器上的日志采集上来集中展示和检索，且需要一个轻量级的框架，那使用PLG（Promtail+Loki+Grafana）最合适不过了。3.Graylog专注于
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
MotionLayout（二）：MotionLayout是什么？MotionLayout调试技巧、KeyFrame关键帧等等前期后期 android kotlin 学习
一、MotionLayout是什么？●定位：AndroidJetpack中的高级布局容器，继承自ConstraintLayout。●核心功能：通过状态（State）和过渡（Transition）定义复杂的界面动画，支持手势交互、路径动画等。●优势：简化动画开发流程，替代传统Animator或TransitionManager，适合处理多视图联动、复杂转场效果。1.1应用场景使用MotionLayo
Android 使用设计模式：装饰者设计模式，对功能进行封装升级，学会可以让我们的代码更加的简洁。前期后期设计模式 android 设计模式
一、前言我遇到什么问题要使用装饰者设计模式？看源码的时候：我们发现明明ui有一个功能，但是在这个ui类找不到，后来发现，这个ui被当做一个参数传递到了一个类里面，后来才在这个类里找到了这个功能。突然醍醐灌顶，这不就是装饰者设计模式吗？写代码的时候：如果我们想给一个功能增加新的东西，可以借助装饰者设计模式来装饰，如果不需要则可以把这个方法去掉，非常的简洁和优雅，并且新增的功能放到了另外一个类里面，也
Android :实现登录功能的思路前期后期 android
android的登录功能和前端一样，需要保存登录的用户信息。创建一个工具类//用户工具类，用于管理用户登录状态和用户信息objectAppUserUtil{//常量定义privateconstvalLOGGED_FLAG="logged_flag"//登录状态的键名privateconstvalUSER_INFO="user_info"//用户信息的键名privateconstvalTAG="Ap
多级缓存设计实践 MClink 架构缓存
缓存是什么？缓存技术是一种用于加速数据访问的优化策略。它通过将频繁访问的数据存储在高速存储介质（如内存）中，减少对慢速存储设备（如硬盘或远程服务器）的访问次数，从而提升系统的响应速度和性能。缓存的基本原理是：当某个数据被请求时，系统首先检查缓存中是否已存储该数据。如果缓存中存在，则直接返回缓存中的数据，称为“缓存命中”；如果缓存中没有该数据，则从源数据存储（如数据库或远程服务器）中获取数据，并将其
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
Windows 图形显示驱动开发-WDDM 2.7功能- 支持跨适配器资源扫描 (CASO) 程序员王马 windows图形显示驱动开发 windows 驱动开发
Microsoft计算驱动程序模型概述在Windows10版本1903（WDDM2.6）及更高版本中，Microsoft计算驱动程序模型（MCDM）可用于为支持仅计算功能的设备编写驱动程序。MCDM驱动程序或仅计算驱动程序是Windows显示驱动程序模型2.0+（WDDM）的缩减子集。在WDDM术语中，驱动程序必须将自身播发为“仅呈现”设备，而无需显示功能。“呈现设备”的内核支持很灵活，因为设备执
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

ChatGLM的int8量化以及由此对量化的梳理总结

一、ChatGLM的int8量化

二、全流程量化

三、量化校准

你可能感兴趣的:(#,模型训练和加速,大模型,人工智能)