未来影子

ChineseBERT Chinese Pretraining Enhanced by Glyph and Pinyin Information

文章目录

- ChineseBERT：中文预训练增强通过字形和拼音信息
- - 摘要
  - 1 - 介绍
  - 2 - 相关工作
  - - 大规模预训练在NLP上
    - 学习字形信息
  - 3 - 模型
  - - 概述
    - 输入
    - 输出
  - 4 - 预训练设置
  - - 数据
    - 掩蔽策略
    - 预训练细节
  - 5 - 实验
  - - Machine Reading Comprehension（MRC）
    - Natural Language Inference (NLI)
    - Text Classification（TC）
    - Sentence Pair Matching (SPM)
    - Named Entity Recognition (NER)
    - Chinese Word Segmentation（CWS）
  - 6 - 消融研究
  - - 字形嵌入和拼音嵌入的影响
    - 训练数据大小的影响
  - 7 - 结论

ChineseBERT：中文预训练增强通过字形和拼音信息

摘要

	最近预训练的模型关于中文的忽视了两个重要因素：字形和拼音。它们在语言理解上携带了重要的语法和语义信息。在本文的工作中，我们提出了ChineseBERT，结合汉字的字形和拼音信息。

- 字形嵌入是基于不同字体，能够从视觉特征捕获字符语义
- 拼音嵌入字符对汉字的发音进行了处理，处理了汉语中常见的同字异义现象（不同发音代表不同含义）

	在大规模未标记的中文语料库上进行预训练，所提出的ChineseBERT模型有显著的性能提升，能以更少的训练步骤提高baseline，在一系列中文NLP任务上产生了新的SOTA性能，包括：机器阅读理解、自然语言推断、文本分类、句对匹配、实体识别上的竞赛表现、分词等

1 - 介绍

	大规模预训练模型已经成为各种自然语言处理任务的支柱，例如自然语言理解、文本分类和问答，除了英语NLP任务，预训练模型也证明了它们对各种中文NLP任务的有效性
	最初的预训练模型被设计是用于英语的，两个重要方面的因素对于中文缺失大规模预训练：字形和拼音信息。对于字形来说，一个关键因素使得中文不同于其他语言（例如：英文、德文），中国是语标语言，字符编码的语标信息的语标，例如，“液(liquid)”、"河(river)"和“湖(lake)”都有"氵(water)"，表示它们都是语义上和水相关。直觉上，汉字字形背后的丰富语义应该增强中文NLP的表达能力，这个想法就哦了各种各样学习和融入中国字形到神经模型中，但还没有大规模预训练
	对于拼音来说，一个中文汉字的音标表示其发音，对于语义建模是至关重要的，无法通过上下文或字形嵌入捕获其语法信息，这主要涉及到了汉语中常见的同字异义现象，同一个字有多种读音，每种读音下都与特定的含义相关联。在语义层面上，例如，汉字“乐”有两个明显的不同发音：“乐”可以发音"yue"，意思是music；也可以发音"le"，意思是happy。同一字符的不同发音不能通过字形嵌入来区分，因为标识是相同的，指向相同的char-ID，但是可以用拼音来表征
	在这份工作中，我们提出了ChineseBERT,一个模型包含汉字的字形和拼音信息，进入大规模预训练的过程。字形嵌入是基于一个汉字的不同字体，能够从视觉表面捕获字符语义，拼音嵌入模型是具有相同字符形式却有不同语义，从而绕过了限制单个字符的交织语素。对于一个汉字，字形嵌入、拼音嵌入和字符嵌入结合起来形成一个融合嵌入，这个模型有独特的语义属性
	所提出的ChineseBERT模型有显著的性能提升，能以更少的训练步骤提高baseline，在一系列中文NLP任务上产生了新的SOTA性能，包括：机器阅读理解、自然语言推断、文本分类、句对匹配、实体识别上的竞赛表现、分词等

2 - 相关工作

大规模预训练在NLP上

	近年来，已开展很多大规模预训练在NLP上，BERT建立于Transformer结构上，以Masked Language Model(MLM)和Next Sentenct Prediction(NSP)方式在大规模未标记文本语料库上预训练，顺应这一趋势，通过修改Mask策略取得了很大进展，预训练任务或模型主干，具体来说，RoBERTa提出移除NSP预训练任务，它被证明没有任何好处对于改善下游性能，GPT系列和其他BERT变体，调整了范式对机器翻译、文本摘要和对话生成等文本生成任务进行大规模无监督预训练，从而使生成模型可以享受大规模预训练的好处
	不同于英语，汉字有其独特特征在语法、词汇和发音上。因此，预训练中文模型应该与中国特色相对应。李等人建议使用中文字符作为基本单位，而不是英语中使用的单词或子词。ERNIE应用了三种类型的屏蔽策略：字符级屏蔽、短语级屏蔽和实体级屏蔽去增强捕获多粒度语义的能力。崔等人使用Whole Word Masking策略去预训练模型，一个汉字的所有字符均被屏蔽了，用了这个方法，该模型正在学习解决更具挑战性的任务而不是预测单词组件。最近，张等人开发了迄今为止最大的中文预训练语言模型 date-CPM,它在100GB中文数据和2.6B参数上进行预训练，可媲美“GPT3 2.7B”。徐等人发布了首个大规模汉语理解评估基准CLUE，主助力大规模汉语预训练研究

学习字形信息

学习字形信息从表面的汉字字符格式获得自从深度神经网络的普及，灵感来源于词嵌入，阴等人使用索引 radical嵌入去捕获字符语义，提高了模型在各种中文NLP任务上的性能。另一种相关字形信息是以图像的方式查看字符，通过字形信息可以自然地通过图像建模。然而，早期在学习视觉特征上不是很流畅，戴等人用CNN从字符图像中提取字形特征，但没有实现所有任务性能的提升。陶等人在此类比和词相似性任务上获得了积极的结果，但它们没有进一步评估学习字形嵌入任务。孟等人讲字形嵌入应用于广泛的中文任务，它们设计了一个特定的CNN结构为字符特征提取和使用图像分类作为辅助目标来规范有限数量图像的影响。宣等显著提高了针对BERT模型的表现

图1：ChineseBERT概述。fusion层组合三个D维嵌入（字符嵌入、字形嵌入、拼音嵌入），首先连接三个嵌入，然后通过一个fusion嵌入形式的全连接层映射到D维嵌入，

字形嵌入（Glyph Embedding）：我们遵循孟等人使用的三种中文字体——仿宋、行楷、隶书，每一种都被实例化维一个24 * 24的图像，像素范围从0-255，不同于孟等人使用了CNNs去转换图像，我们用了FC层。我们首先将24 * 24 *3向量转化为2352向量，将扁平化向量输送给FC层以获得输出字形向量
拼音嵌入（Pinyin Embedding）：用于解耦同一字符形式的不能语义，如图3所示，我们使用开源的pypinyin包为其组成特征生成拼音序列，pypinyin是一个系统，结合机器学习模型与基于字典规则从上下文来推断字符拼音。我们使用特色标记来标识音调，它们被加到字符序列的结尾，我们在拼音序列上应用宽度为2的CNN模型，然后进行最大池化以得出拼音嵌入。这使得输出维度不受输入拼音序列长度的影响。输入拼音序列的长度固定为8，剩余槽位用特殊字母“-”填满
融合嵌入（Fusion Embedding）：当我们有了字符嵌入、字形嵌入和拼音嵌入，我们可以连接它们形成一个3D维度向量，Fusion将3D维向量通过一个全连接层映射到D维，fusion嵌入增加了位置嵌入，输出到BERT层，插图显示在图4

3 - 模型

图2：字形嵌入的概述。N表示向量连接，对于每个汉字，我们使用三种字体：仿宋、行楷、隶书，每一个都是24 * 24的图像，像素值范围是0~255，图像被连接成24 * 24 * 3的张量，张量被平铺后传递给FC以获得字形嵌入

图3：拼音嵌入的概述。对于任何汉字，例如猫，在这个情况下，将宽度维2的CNN应用于罗马拼音字母，后给max-pooling去推导最终的拼音嵌入

融合嵌入的概述。N表示向量连接，x是向量矩阵乘法，我们连接字符嵌入、字形嵌入和拼音嵌入，并使用FC层去学习矩阵WF以实现融入嵌入

概述

图1展示了所提出的ChineseBERT模型概述，对于每个汉字，他的字符嵌入、字形嵌入、拼音嵌入首先被拼接，然后通过一个全连接层进行D维嵌入。将融入其阿努人于位置嵌入一起添加，作为BERT模型的输入。另外，由于我们不使用NSP预训练任务，我们省略段嵌入，同时使用Whole Word Masking(WWM)和Char Masking(CM)的字符掩码去预训练模型

输入

模型的输入是添加了可学习的绝对位置嵌入和融合嵌入。融合嵌入是相关字符的字符嵌入、字形嵌入、拼音嵌入，字符嵌入的执行方式类似于BERT中的token嵌入

输出

输出是每个输入汉字对应的上下文表示

4 - 预训练设置

数据

CommonCrawl（移除过多的英文文本和过滤html标签）数据集，大约10%的高质量数据被使用，含4B中文字符总数。使用LTP工具包去识别中文边界的Whole word masking

掩蔽策略

使用了两种掩码策略——Whole Word Masking(WWM)、Char Masking(CM)

李等人建议使用汉字作为基本的输入单元，能缓解汉语种的out-of-vocabulary问题，因此我们采用了在上下文种随机遮蔽一些字符，表示为CM。另一方面，大量中文单词由多个字符组成，CM策略可能对他们来说太容易了对于要预测的模型。例如，当输入内容“我喜欢逛紫禁[M](i like going to The Forbidden [M])”,模型很容易地预测masked字符是“城(City)”，因此，我们遵循崔等人用WWM，一种能屏蔽所选单词中的所有字符，能缓解CM易于预测的缺点。注意，对于WWM和CM，基本输入单元是汉字，WWM和CM的区别在于如何掩盖字符以及模型如何预测masked字符

预训练细节

崔等人预训练他们的模型是基于官方的中文BERT模型，我们训练ChineseBERT模型是从头开始，为了增强模型在学习长期、短期的依赖，我们建议在packed输入和single输入时交替进行预训练，packed输入是多个句子的串联，最大长度为512，single输入是单个句子。我们以0.9的概率packed输入和0.1的概率single输入，90%的时间用WWM和10%的时间用CM。每个word/char的masking可能性为15%，若第i个word/char被选择，我们将用80%的时间mask它，以10%的时间去替换它为随机的word/char和维持10%的时间。我们也使用动态mask策略去避免重复的训练示例，我们用了两种模型设置：
- 基本：12个Transformer层，输入维度768，12个维度层
- 大型：24个Tranformer层，输入维度1024，16个维度层
这使得我们模型和其他的BERT-style模型就模型大小而言有可比性，基于论文提交，我们已经训练
- 基本模型：500K步；最大学习率1e-4；预热20K步；一个batch3.2K，
- 大模型：280K步；最大学习率3e-4；预热90K步；batch大小8k

在预训练后，模型可以直接进行微调用于同BERT相同的方式去处理下游任务

5 - 实验

表1：ERNIE、BERT-wwm、MacBERT、ChineseBERT的数据统计对比。T：token,P:Phrase,E:Entity,WWM:Whole Word Masking,N:N-gram,CM:Char Masking,MLM:Masked Language Model,NSP:Next Sentence Prediction,MAC:MLM-As-Correlation,SOP:Sentence Order Prediction

我们对各种类型的中文NLP任务进行了实验，模型在特定任务的数据集上单独微调进行评估，具体来说，我们使用了以下任务：

Machine Reading Comprehension (MRC)
Natural Language Inference (NLI)
Text Classification (TC)
Sentence Pair Matching (SPM)
Named Entity Recognition (NER)
Chinese Word Segmentation (CWS)

我们将ChineseBERT与当前sota的ERNIE、BERT、MacBERT进行比较。
- ERNIE采用了各种各样的掩码策略包括token-level、phrase-level、entity-level去预训练BERT在大规模异构数据上
- BERT-wwm/RoBERTa-wwm继续在官方的中国BERT/RoBERTa预训练模型，使用WWM掩码策略
	- 除非特殊，我们用BERT/RoBERTa来表示BERT-wwm/RoBERTa-wwm并省略“wwm”
- MacBERT在RoBERTa的基础上使用了MLM-As-Correlation(MAC)预训练策略以及sentence-order-prediction(SOP)任务

值得注意的是，BERT和BERT-wwm没有在线提高大版本，因此我们省略了相应的展示，这些模型比较如表1所示，值得注意的是，提出的模型明显小于baseline模型，不同于BERT-wwm,MacBERT是被预训练的BERT初始化，而ChineseBERT是从来开始。由于额外考量字形和拼音，过程不能直接使用vanilla BERT模型初始化，模型架构不同，甚至初始化也要从头开始，所提出的模型训练不是少于BERT-wwm和MacBERT

Machine Reading Comprehension（MRC）

表2：不同模型在CMRC上的表现，EM是被比较的。o表示模型预训练在扩展数据上

表3：不同模型在CJRC上的表现，我们的报告baseline模型结果基于他们发布的模型，o表示模型预训练在扩展数据上

MRC：模型能根据给定的上下文回答问题的能力

两个数据集：CMRC、CJRC
 - CMRC：一种跨度提取数据集，包含10k、3.2K、4.9K的训练、开发、测试数据实例
 - CJRC：有yes/no 问题和没有答案问题，包含39k、6K、6K的训练、开发、测试数据实例

结果如表2表3所示，ChineseBERT在两个数据集上都产生了显著的性能提升，并且在CJRC数据集上，EM的提升比F1多。这表面ChineseBERT是更擅长检测准确的答案跨度

Natural Language Inference (NLI)

表4：不同模型在XNLI上的表现，准确度作为比较。o表示模型预训练再扩展数据上

NLI：目标是缺点假设和前提之间的蕴含关系

数据集：XNLI（Cross-lingual Natural Language Inference）
 - XNLI：语料库是一个crowd-sourced集合，5k测试、2.5k开发对于MultiNLI语料库
每个句子对都有包含“entailment”、“neutral”、“contradication”标签，我们使用官方机器翻译中文数据去训练，结果列于表4，这表明Chinese能够再base和lagre设置中实现最佳性能

Text Classification（TC）

表5：不同模型在ChnSentiCorp、THUCNews、TNEWS上的表现。准确度被比较

TC：将一段文本分类为指定的文本类
数据集：ChnSentiCorp、THUCNews、THEWS
 - ChnSentiCorp：有一个二元情感分类数据，包含9.6K/1.2K/1.2K数据，分别是训练/开发/测试
 - THUCNews：是THUCTC的一个字节，含50K/5K/10K的数据，分别是训练/开发/测试，数据包含10个领域
 - THEWS：是15类短新闻文本分类数据集，包含53K/10K/10K,分别是训练/开发/测试

前两个数据集相较而言比较简单，在普通的BERT上准确率达95%以上，最后一个比较难，是CLUE的数据集。如表5所示，在CHunSenitCorp、THUCNews上，ChineseBERT比较之下提示不明显，因为baselines已经相当高了，但在THEWS上，ChineseBERT优于其他型号。
另外，我们可以看到ERNIE模型性能略差于ChineseBERT，这是因为ERNIE受过训练在额外的网络数据上，有利于建模哪些涵盖广泛领域的网络新闻文本

Sentence Pair Matching (SPM)

表6：不同模型在LCQMC和BQ上的表现。准确度被比较

SPM：模型要求对给定的句子对表达相同的语义

数据集：LCQMC、BQ
 - LCQMC：用于判断两个给定问题使用具有相同意图的大规模中文问题匹配语料库，包含23.9K/8.8K/12.5K，用于训练/开发/测试的句子对
 - BQ：另一个大规模的中文数据集，包含100K/10K/10K句子对，用于训练/开发/测试的句子对
 
 结果如表6所示，ChineseBERT在总体上优于MacBERT，但略逊于BERT-wwm在LCQMC数据集上。
 我们假设这是因为BQ的语料库比ChineseBERT更适合于BERT-wwm的预训练数据

Named Entity Recognition (NER)

表7：不同模型OntoNotes 4.0和Weibo上的表现，精度（P）、召回率（R）、和F1（F）被比较

NER：模型识别一段文本中的命名实体，形式化为序列标记任务

数据集：OntoNotes 4.0、Weibo
 - OntoNotes 4.0：有18中命名实体类型，包含15K/4K/4K的训练/开发/测试实例
 - Weibo：有4种命名实体类型，包含1350/270/270的训练/开发/测试实例
 
 结果显示在表7种，ChineseBERT在术语方面明显优于BERT和RoBERTa在F1上，尽管精度对于基础班略有下降，召回收益提高明显，最终F1性能提升

Chinese Word Segmentation（CWS）

表8：不同模型在PKU、MSRA上的表现，F1和准确性被比较

CWS：将文本分成单词并形式化，其作为字符的序列标记任务

数据集；PKU、MSRA数据集
 - PKU：19K/2K个句子组成，用于训练/测试
 - MSRA：87K/4K个句子组成，用于训练/测试
 
 输出字符被送到softmax函数以进行最终的预测，结果如表8所示，其中ChineseBERT在两个数据集上优于BERT-wwm和RoBERTa-wwm

6 - 消融研究

表9：ChineseBERT在去掉字形或拼音信息下的表现

字形嵌入和拼音嵌入的影响

我们想探讨字形嵌入和拼音嵌入的效果，为了公平比较，我们在相同的模型上预训练了不同的模型数据集，具有相同数量的训练步骤，以及具有相同的模型尺寸，包括设置”-glyph“、”-pinyin“、"-glyph-pinyin",我们微调不能的模型在NER数据集的OntoNotes数据集上，结果如表9所示：
 - 删除字形嵌入或拼音嵌入会导致性能下降
 - 去除两者的负面影响最大
这验证了两者的重要性，另外，在"-glyph-pinyin"上表现比RoBERTa差的是我们在这里使用针对较小规模的数据进行训练，使用比较小的训练步骤

训练数据大小的影响

图5：不同训练数据下的表现

	我们还假设字形和拼音嵌入作为文本语义的强正则化，这意味着提出的ChineseBERT模型能够以更少的训练表现更好，我们随机抽取10%-90%的训练数据，同时保持样本同实体w.r.t，样本没有实体。
	我们每个实验进行5次得出F1均值在测试集上，如图5所示，ChineseBERT执行在所有设置中更好，不到30%的训练数据，ChineseBERT的改进是轻微的，但有超过30%的训练数据，性能提升明显。这是因为ChineseBERT仍然需要足够的训练数据全民训练字形和拼音嵌入，训练数据不足会导致训练不够充分

7 - 结论

	在本文中，我们介绍了ChineseBERT，一种大规模预训练中文NLP模型，它利用汉字的字形和拼音信息，增强模型的捕捉能力从表面字符形式和消除汉语多音字中。
	所提出的ChineseBERT模型在广泛的中文NLP任务中表现优异，表明引入字形嵌入和拼音嵌入服务在中文上将作为语义建模的强大正则化工具。未来的工作训练ChineseBERT的尺寸

【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
271万+学术论文数据集 (2007-2025.4) .Android安卓科研室. 数据引用数据分析
文章目录数据下载地址数据指标说明一、数据介绍二、数据指标三、数据概览项目备注数据下载地址数据下载地址点击这里下载数据数据指标说明arXiv是一个向所有人开放的学术资源共享平台，创立于1991年，是开放获取运动的先驱。该平台由全球志愿者团队维护，目前已收录超过200万篇学术论文，涵盖物理学、计算机科学、数学等八大核心学科领域。通过近30年的发展，arXiv不仅为科研人员提供了免费的知识共享渠道，也成
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
AI原生应用必知：5大高效多轮对话框架对比 AI原生应用开发 AI-native easyui 前端 ai
AI原生应用必知：5大高效多轮对话框架对比关键词：AI原生应用、多轮对话、对话框架、自然语言处理、上下文管理、意图识别、对话状态跟踪摘要：本文深入探讨了构建AI原生应用时必备的5大多轮对话框架，包括Rasa、Dialogflow、MicrosoftBotFramework、AmazonLex和IBMWatsonAssistant。通过对比分析它们的架构设计、核心功能和应用场景，帮助开发者选择最适合
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
【科研写作自动化工具】如何用AI技术组合（大模型+多Agent+自动化）打造一个“智能论文生产线”，把枯燥的写作流程变成自动化
n8n是一款开源的工作流自动化工具，类似于Zapier或Make（原Integromat），但更注重灵活性和开发者友好性。在课程文件中提到的n8n自动化流水线主要用于科研写作的自动化流程集成，以下是详细解释：n8n的核心功能可视化工作流设计：通过拖拽节点（Nodes）连接不同工具和服务，无需编写复杂代码即可搭建自动化流程。多平台集成：支持连接文献数据库（如PubMed、arXiv）、AI模型（如O
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl