米朵儿技术屋

基于双层主题模型的技术演化分析框架及其应用

摘要

【目的】 针对开展技术演化分析时依赖主题间相似度计算和人工设定阈值判断窗口技术主题间关联关系的问题,进行方法研究。【方法】 构建基于双层主题模型的技术主题演化分析框架。分别采用基于LDA和基于NMF的双层主题模型识别动态主题,通过主题内一致性和差异度指标评价两种方法的技术主题识别效果,对比选定最优方法,从主题成长性和重要性方面进行技术主题演化分析。【结果】 通过在资源环境领域的应用研究发现,基于NMF的双层主题模型识别的动态主题具有更高的主题内语义一致性和主题间语义差异度,技术演化分析结果能够从《麻省理工科技评论》发布的突破性技术清单中得到验证。【局限】 仅研究了技术从出现到消亡的发展轨迹,未关注技术的分裂、衍生和融合。【结论】 所提方法能够利用特定时间段的文献数据,自动识别动态主题并对主题的演化轨迹进行分析,在科技情报分析工作中具有实际应用价值。

关键词： 技术演化分析; 主题模型; 科技文献挖掘; NMF; 资源环境领域

1 引言

技术演化分析能够刻画技术发展路径,揭示技术发展轨迹,对于新技术布局和创新资源配置具有重要的指导意义,是情报学的热点研究方向之一[1]。随着数据挖掘和机器学习技术的不断发展,技术演化分析已从依赖领域技术专家主观判断向数据驱动的定量化数据分析转变。

目前,基于定量数据开展技术演化分析的思路可以分为三种,分别是基于技术分类号的技术演化分析、基于文献引用关系的技术演化分析和基于科技文献文本挖掘的技术演化分析[2]。其中,基于科技文献文本挖掘是现阶段受关注度较高的研究思路[3],研究过程大致为：利用科技文献（包括论文、专利等）文本数据,采用文本挖掘技术（如主题模型、文本聚类等）,识别技术主题并计算其在各个时间窗口的指标特征,呈现技术演化规律和态势[4,5,6]。这些研究为在实际情报研究工作中开展技术演化分析提供了方法基础,但是这些研究存在的问题在于：在识别到各个时间窗口的技术主题之后,需要较多的人工干预或阈值选择才能判断各个时间窗口的技术主题之间的关系。

双层主题模型能够通过两次主题模型的计算实现多个技术主题关联关系的构建,从而进行动态主题分析,已经在政策文本主题的动态分析中应用[7]。因此,本文引入双层主题模型在技术演化分析这一问题上进行方法应用研究。本文发挥了双层主题模型在自动关联计算各个时间窗口的技术主题之间的关系的方法优势,并通过集成技术演化分析指标,形成一套基于双层主题模型的技术演化分析框架。本文分析框架的优势如下。

（1）应用双层主题模型方法识别动态主题,在获取各个时间窗口的技术主题之后,无需人工干预或阈值选择,即可计算得到各个技术主题之间的关联关系,用于分析技术演化态势。

（2）从主题内一致性和主题间差异性两个角度评价主题模型的主题识别效果,辅助情报分析人员根据分析需求选择合适、有效的主题模型。

（3）从技术主题成长性和重要性方面对特定领域的技术主题进行分析和评价,从而识别在演化趋势上具有高成长性和高重要性特征的技术主题。

2 相关研究现状

学术界已经形成了一系列演化分析的方法研究成果,这些演化分析方法根据分析对象的不同,可分为技术演化分析、学科演化分析等,但是这些分析方法在方法原理上并无区别,因此将相关研究的方法均纳入本文研究的技术演化分析方法的综述范畴。

2.1 现有研究分类

整体来看,相关研究可以分为基于技术分类号的技术演化分析、基于文献引用关系的技术演化分析和基于科技文献文本挖掘的技术演化分析三类。

基于技术分类号的技术演化分析利用科技文献中包含的科技文献分类号（如学科分类、专利IPC分类号等）表示技术[8],虽然分析较为便捷,但是这种方法受限于分类体系的框架和粒度,识别的技术主题粒度较粗,且无法识别新的技术主题;基于文献引用关系的技术演化分析是利用科技文献之间的共被引或耦合关系将科技文献划分为若干技术主题簇,然后结合主题之间的关联分析绘制技术演化进程[9,10],这种方法能够有效分析技术之间的流动性,但是受限于引文时滞的影响;基于科技文献文本挖掘的技术演化分析的思路是基于科技文献的文本数据,利用文本挖掘方法和自然语言处理技术来识别技术主题,能够更为细粒度地刻画技术主题[11],并且不受引文时滞影响,是本文的重点关注方向。

2.2 基于科技文献文本挖掘的技术演化分析研究进展

从实施过程来看,基于科技文献文本挖掘的技术演化分析可分为三个步骤。第一步是对时间序列上各时间窗口的技术主题进行识别;第二步是计算判断各个时间窗口主题之间的关系;第三步是开展技术演化分析。现有研究基本都是围绕前两个步骤进行方法创新,其中第一个步骤的方法创新较为丰富,可以分为基于关键词共现分析、基于关键词聚类或社区探测算法和基于主题模型方法三类。

在基于关键词共现分析方面,通过专家遴选或规则计算发现多个技术主题表证词,然后基于这些表征词的共词关系,借助一些开源工具（如NetDraw、VOSViewer、CiteSpace等）按照时序进行共词网络可视化呈现,从而直观观察技术演化趋势。例如,郑晓月等[12]基于主题-关键词共现分析对计量学的学科主题演化进行分析。这种方法比较简单,但是在技术主题表证词选取方面存在较大的主观性。

在基于关键词聚类或社区探测算法方面,思路是基于关键词共词网络,采用聚类算法（如K-Means、层次聚类等）或社区探测算法（如Louvain算法）识别网络中的若干关键技术主题,然后通过各技术主题随时间的变化分析技术演化规律。例如,巴志超等[13]基于Word2Vec构建关键词语义网络,采用关键词g指数获取不同年份内频次较高的关键词,通过语义聚类方法,获取特定年份的技术主题,以此开展技术演化分析;王康等[14]采用Louvain社区探测算法识别特定时间序列上各时间窗口的论文主题,采用相似度算法测度相邻时间窗口的主题相似度;刘自强等[4]使用Fast Unfolding社区发现算法聚类发现主题,采用余弦相似度计算学科主题相似度,从而判定特定主题的时序演化关系。这种方法得到的结果可解释性较强,但是受聚类或社区探测算法影响较大,可能会出现超大主题簇,且主题个数需要人为判断给定。

在基于主题模型方法方面,研究思路是基于主题模型,自动地从科技文献中发现主题,并通过指标自动确定主题个数。由于主题模型基于较为严密的数学逻辑对文本进行建模,能够自动化识别主题并确定主题个数,近年来颇受学者关注[15]。例如,廖列法等[16]采用隐含狄利克雷分布（Latent Dirichlet Allocation,LDA）模型按时间窗口对专利文本建模,采用困惑度确定最优主题数。但由于经典LDA模型存在主题辨识度低、可解释性弱等问题,基于主题模型开展技术演化分析的改进研究成果不断形成。例如,陈亮等[17]采用hLDA模型对不同时间片段的专利集合进行层次主题结构抽取;吴菲菲等[18]采用在LDA主题模型基础上引入文档作者信息和时间概念的AToT（Author-Topic-Time）模型挖掘文献数据中不同阶段同一主题关注强度的变化情况、内部演化规律和作者兴趣的变化;吴红等[19]同时考虑专利文本和IPC分类号数据,构建WI-LDA模型进行技术主题识别。可以发现,当前基于主题模型开展技术演化分析采用的主流模型是LDA,但也有学者采用非负矩阵分解（Non-negative Matrix Factorization,NMF）,如王园园等[20]采用基于NMF的主题模型方法识别窗口技术主题。

2.3 现有研究评述

通过上述分析发现,基于科技文献文本挖掘的技术演化研究已经形成了一系列窗口主题识别方法的研究成果,其中,基于主题模型方法是当前的热点研究方向。但是,这些研究存在的不足在于：在判断各个时间窗口主题之间的关联关系方面,主要通过计算主题间相似度和人工设定阈值的方式判断窗口技术主题之间的关联关系,这种方式具有较大的主观性;同时,现有方法多侧重采用一种方法（如LDA或NMF）进行技术主题识别,对于模型的效果优劣缺乏对比。

针对这些不足,本文引入双层主题模型,构建了一套基于双层主题模型的技术演化分析框架,该框架能够在无需人工干预或阈值选择的情况下计算各时间窗口技术主题之间的关联关系,从而分析技术演化态势,同时支持对多种主题模型方法效果的对比,还能够从技术主题成长性和重要性方面对特定领域值得关注的技术主题进行识别和重点分析,在情报研究的技术分析工作中具有较高的应用前景。

3 方法框架

本文设计的基于双层主题模型的主题演化分析总体框架如图1所示。

图1

图1 方法总体框架

Fig.1 The Overall Framework of Method

包含三个步骤,分别是基于双层主题模型的动态技术主题识别方法、基于主题一致性判断的最优主题数选定方法和基于主题成长性和重要性的技术主题演化分析方法。在双层主题模型方面,分别采用基于LDA和基于NMF的双层主题模型识别动态主题,通过主题内一致性、主题间差异度指标评价两种方法识别的主题效果,最后选择效果更好的双层主题模型开展演化分析。

3.1 基于双层主题模型的动态技术主题识别方法

（1）双层主题模型

双层主题模型（Two Layer Topic Model）是在基础主题模型的基础上构建。

主题模型（Topic Model）是一种用于在一系列文档中自动计算和发现主题的统计模型,可以分为基于矩阵分解的主题模型（如LSI和NMF）和概率主题模型（如PLSI 和LDA）两种。

非负矩阵分解（NMF）是基于矩阵分解的主题模型的代表[21],它将主题识别问题转化为约束最优化问题来解决,通过矩阵分解的计算实现主题识别,核心思想为：将一个文档-词项的非负矩阵 AA分解成两个非负矩阵 WW和 HH的乘积,表示为公式（1）。

A=WHA=WH

(1)

其中, WW为文档-主题矩阵; HH为主题-词项矩阵。

LDA模型是目前应用最为广泛的概率主题模型[22]。它在PLSI的基础上引入了超参分别为 αα和 ββ的隐含狄利克雷分布 Dir(*)Dir(*)作为文档对主题和主题对词项分布的先验概率分布,是一个生成概率模型。LDA的基本思想是将文档表示为潜在主题（Latent Topic）的随机混合,其中每个主题都由若干单词表示。

由于基础主题模型仅能对某一文档集合进行主题识别,无法实现对某一时间序列上的多个文档集合的主题演变进行分析,因此无法直接用于技术演化分析。而双层主题模型能够在基础主题模型的基础上,通过两轮主题模型计算得到整个时间序列上的动态主题[7],从而实现主题演化的动态分析;同时,该过程无需人工干预或阈值选择,即可计算得到各个主题之间的关联关系,具有较高的客观性。因此,本文引入双层主题模型构建技术演化分析框架。该模型由三个层次组成,分别是输入层、窗口主题识别层和动态主题识别层,如图2所示。

图2

图2 双层主题模型框架[7]

Fig.2 The Framework of Two-Layers Topic Model

其中,输入层的输入数据是 TT个时刻的文档集合,表示为 {D1,D2,…,DT}{D1,D2,…,DT};每个文档集合由若干文档组成,表示为 Di={d1,d2,…,d|Di|}Di={d1,d2,…,d|Di|};每个文档由词的序列构成,表示为 dj=(w1,w2,…,w|dj|)dj=(w1,w2,…,w|dj|)。

第一层为窗口主题识别层,目的是分别对各个时刻的文档集合确定其主题,即对每个时刻的文档集合 DiDi分别利用主题模型算法处理得到其对应的 WiWi和 HiHi,因此,该层对应的输出为式（2）。

{〈W1,H1〉,〈W2,H2〉,…,〈WT,HT〉}{〈W1,H1〉,〈W2,H2〉,…,〈WT,HT〉}

(2)

第二层为动态主题识别层,动态主题识别层的目的是从窗口主题识别层的各个时刻的主题中提取 TT个时刻的文档集合的主题。计算步骤为：首先将第一层处理得到的各个矩阵 HiHi拼接成一个大的矩阵 A'A',该矩阵的行数为 ∑=1iki∑i=1Tki,列数为 |V|V,这样可将第一层识别得到的各个时间段的主题看作第二层的“文档”,第一层主题对于词项的权重可视为第二层“文档”对于词项的权重,也就是矩阵 A'A',然后再利用主题模型算法对 A'A'进行主题提取,得到 W'W'和 H'H'。上述符号的解释如表1所示。

表1 双层主题模型中的符号定义

Table 1 The Symbol Definition in Two-Layer Topic Model

符号	意义
TT	总时刻
DiDi	第 ii个时刻的文档集合
VV	所有时刻的文档集合的词项集合
dd	单篇文档
ww	单个词项
kiki	第 ii个时刻的文档集的主题个数
AiAi	第 ii个时刻的文档集合的文档-词项矩阵, Ai∈R\|Di\|×\|Vi\|Ai∈RDi×Vi
WiWi	第 ii个时刻的由主题模型得到的文档集合的文档-主题矩阵, Wi∈R\|Di\|×kiWi∈RDi×ki
HiHi	第 ii个时刻的由主题模型得到的文档集合的主题-词项矩阵, Hi∈Rki×\|Vi\|Hi∈Rki×Vi
k'k'	第二层主题模型的动态主题个数
A'A'	由所有 HiHi（ i∈[1,T]i∈1,T）合并得到的矩阵, A'∈R∑=iki×\|V\|A'∈R∑i=1Tki×V
W'W'	以 A'A'作为主题模型的输入得到的文档-主题矩阵, W'∈R∑=iki×k'W'∈R∑i=1Tki×k'
H'H'	以 A'A'作为主题模型的输入得到的主题-词项矩阵, H'∈Rk'×\|V\|H'∈Rk'×V

双层主题模型根据所使用的基础主题模型（NMF或LDA）的不同,可分为双层NMF主题模型（Two Layer NMF,TL-NMF）和双层LDA主题模型（Two Layer LDA,TL-LDA）,两种模型均可在技术演化分析中应用,但是应用效果需通过计算效果评价指标来对比选定。

（2）模型效果评价指标

针对TL-NMF和TL-LDA两种模型,本文从识别主题的语义一致性和主题间差异性两个角度分别设计两类效果评价指标,分别是主题内一致性指标和主题间差异度指标。

主题内一致性用于评价各个主题内词项相似度的高低。Word2Vec是谷歌公司提出的一项利用低维度连续分布式向量表示词的语义的技术[23],能够实现同义词、近义词等语义相近的词之间相似关系的表示,可以用来判断主题的内的语义一致性。本文利用现有研究的计算方法[7],计算主题内一致性 InnerSim(TM)InnerSimTM,假设对于一个主题模型以主题数为 kk生成的主题集合表示为 TM={t1,t2,…,tk}TM={t1,t2,…,tk}, ti={wi,1,wi,2,…,wi,t}ti={wi,1,wi,2,…,wi,t}, titi表示与第 ii个主题最相关的前 tt个词的集合。 InnerSim(TM)InnerSim(TM)计算方式如公式（3）所示。

InnerSim(TM)=1k∑ki=11(t2)∑t−1j=1∑+1to=jInnerSimTM=1k∑i=1k1t2∑j=1t-1∑o=j+1tCosSim(w2v(wi,j),w2v(wi,o))CosSim(w2v(wi,j),w2v(wi,o))

(3)

其中, w2v(w)w2v(w)表示词项 ww的词向量; CosSim(*)CosSim*表示词向量余弦相似度。

主题内一致性仅能够反映主题内词的语义一致程度,不能反映主题间词的差异度。因此,本文还采用主题间差异度评价各个主题之间的距离远近,主题间差异度越大,说明主题之间的内容越不相关,距离越远。本文采用两种方式度量主题间差异度,一种是基于词向量相似度的方式 OuterDiffW2VOuterDiffW2V,用来度量主题间语义的距离;另一种是基于Jaccard相似度的方式 OuterDiffJCDOuterDiffJCD,用来度量主题间共现词的多少,如公式（4）和公式（5）所示。主题间差异度的输入与主题一致性保持一致。

OuterDiffW2V(TM)=1−1(k2)∑k−1i=1∑kj=i+11t2∑to=1∑tp=1CosSim(w2v(wi,o),w2v(wj,p))OuterDiffW2VTM=1-1k2∑i=1k-1∑j=i+1k1t2∑o=1t∑p=1tCosSim(w2v(wi,o),w2v(wj,p))

(4)

OuterDiffJCD=1−1(k2)∑k−1i=1∑kj=i+1|ti⋂tj||ti⋃tj|OuterDiffJCD=1-1k2∑i=1k-1∑j=i+1k|ti⋂tj||ti⋃tj|

(5)

其中, |*|*表示集合的个数。

3.2 基于主题一致性判断的最优主题数选定方法

主题个数 kk是主题模型算法中一个重要的超参数,它的确定能够直接影响到主题模型算法的效果。对于本文的任务,如果需要专家逐个时间段确定各个时间段文档的主题数,则需要经过大量对比实验。因此,主题一致性可以用来辅助自动确定主题模型的主题个数,以泛化双层主题模型的使用场景。

本文利用Word2Vec模型计算主题语义一致性程度（ InnerSimInnerSim）确定最优主题个数。最优主题数 k⋆k⋆的确定如公式（6）所示。

k⋆=arg maxk∈[kmin,kmax]InnerSim(TM)k⋆=arg maxk∈[kmin,kmax]InnerSimTM

(6)

其中, kminkmin和 kmaxkmax分别为根据领域特点或经验设定的主题数的适合区间的上界和下界。

3.3 基于主题成长性和重要性的技术主题演化分析方法

通过分析双层主题模型的动态主题识别层的输出 W'W',能够获得各个动态主题在各个时刻的权重,基于此进行主题演化分析。

根据 W'W',对于第 jj个动态主题,第 ii个时刻对其的权重计算如公式（7）所示。

Weight(i,j)=1ki∑∑ip=jkpo=∑i−1p=1kpW′o,jWeight⁡(i,j)=1ki∑o=∑p=1i−1kp∑p=jikpWo,j′

(7)

例如,如图3所示,点A的权重为 Weight(1,j)=1k1∑k1o=0W'o,jWeight(1,j)=1k1∑o=0k1Wo,j',点B的权重为Weight(T,j)=1kT∑k1+⋯+kTo=k1+⋯+kT−1W′o,jWeight(T,j)=1kT∑o=k1+⋯+kT−1k1+⋯+kTWo,j′。因此,基于 W'W'可以得到第 jj个主题随时刻变化的权重序列 (Weight(1,j),(Weight(1,j),Weight(2,j),…,Weight(T,j))Weight(2,j),…,Weight(T,j))。

图3

图3 动态主题在各个时间窗口的权重计算示意图

Fig.3 The Weight Calculation Method of Dynamic Theme in Each Time Window

本文基于主题对时刻的权重序列设置两个指标辅助主题演化分析,分别是主题成长性 GrowthGrowth和主题重要性 ImportanceImportance。

主题成长性 GrowthGrowth用于判断主题的变化趋势。对于第 jj个主题,将时间窗口作为X轴,第 jj个主题随时刻变化的权重序列作为Y轴,通过线性回归分析方法对其走势进行拟合,求解一元线性回归方程,如公式（8）所示。

y=Growth⋅x+by=Growth·x+b

(8)

其中, GrowthGrowth表示斜率,同时也表示主题的成长性; bb为截距。

主题重要性 ImportanceImportance用于判断主题的重要程度。对于第 jj个主题,主题重要性为其在各个时刻权重的平均值,如公式（9）所示。

Importance=1T∑Ti=1Weight(i,j)Importance=1T∑i=1TWeight(i,j)

(9)

4 方法应用

近年来,资环生态环境领域在我国的受关注度不断提高。我国“十四五”规划和2035远景目标提及“生态环境”20次,提及“资源”过百次。解决资源约束趋紧、生态环境问题突出等经济发展过程中的瓶颈问题,是我国实现两阶段发展目标的重要条件。在此背景下,对资源环境领域涉及的技术进行演化分析,对于技术布局和决策参考具有现实意义。因此,本文选择资源环境领域（简称资环领域）进行方法的应用研究。

4.1 数据及预处理

本文采用的文献数据来自Web of Science（WOS）数据库的资环领域Highly Cited Papers①(①Highly Cited Papers：高被引论文,是指最近10年发表的各领域被引频次排名前1%的论文。)和Hot Papers②(②Hot Papers：热点论文,是指最近两年发表的、在最近两个月被引用频次排名前0.1%的论文。),共计15 185篇论文,数据获取时间是2021年1月14日。按照年份划分数据集后,结果如表2所示。

表2 论文数据分布

Table 2 The Distribution of WOS Paper

年份	论文数量
2010	959
2011	1 078
2012	1 103
2013	1 173
2014	1 260
2015	1 268
2016	1 391
2017	1 504
2018	1 703
2019	2 166
2020	1 580

4.2 结果与评价

（1）最优主题k选取

本文通过与资环领域情报专家的研讨,设定TL-NMF和TL-LDA模型的窗口主题识别层的最优主题数的区间为 ki∈[5,20],ki∈Nki∈5,20,ki∈N。

两个模型的窗口主题识别层在各个时刻选取最优主题k的结果分别如图4和图5所示,其中,横轴代表主题个数,纵轴代表主题内一致性的数值。由图4和图5可知,在窗口主题识别层,对于2010-2020年11个年份时刻,TL-NMF模型自动设定的最优主题个数分别为16、17、19、19、15、13、8、16、12、18、19;TL-LDA模型自动设定的最优主题个数分别为19、19、18、12、10、10、13、20、16、10、13。

图4

图4 基于TL-NMF计算的各时间窗口的最优主题个数

Fig.4 Result of the Optimal Number of Window Topics by TL-NMF

图5

图5 基于TL-LDA计算的各时间窗口的最优主题个数

Fig.5 Result of the Optimal Number of Window Topics by TL-LDA

在各时间窗口取最优主题数的条件下,TL-NMF和TL-LDA识别的主题一致性平均值对比结果如图6所示。可以发现,TL-NMF在各个时间窗口的主题一致性平均值均高于TL-LDA模型,并且TL-NMF模型窗口主题识别层各个主题模型的主题内一致性最小值0.306 1（2013年数据）也高于TL-LDA模型窗口主题识别层各个主题模型的主题内一致性最大值0.294 4（2019年数据）。因此,从窗口主题的主题一致性指标来说,TL-NMF模型的效果要优于TL-LDA模型。

图6

图6 在各时间窗口取最优主题数的条件下,TL-NMF和TL-LDA识别的主题一致性平均值

Fig.6 The Topic Consistence Average Value by TL-NMF and TL-LDA When Taking the Optimal Number of Window Topics

对于动态主题识别层的主题模型,本文通过与资环领域情报专家研讨,设定其最优主题数的区间为 k'∈[20,70],k'∈Nk'∈20,70,k'∈N。TL-NMF模型和TL-LDA模型动态主题识别层主题模型的最优主题数分别为50和42,如图7所示。

图7

图7 基于TL-NMF和TL-LDA的动态主题识别层的最优主题个数

Fig.7 Result of the Optimal Number of Dynamic Topics by TL-NMF and TL-LDA

（2）主题模型评价

针对TL-NMF和TL-LDA模型的评价结果如表3所示。可以发现,TL-NMF模型的主题一致性（InnerSim）和利用词向量度量的主题差异度（OuterDiffW2V）都要优于TL-LDA模型,这说明在基于词向量的评价指标下,TL-NMF模型产生的动态主题主题内的一致性更高,主题间词的差异更大。在基于Jaccard度量的主题差异度（OuterDiffJCD）方面,两个模型的主题差异度均在0.98以上,且模型间差异极小,TL-LDA比TL-NMF高约0.006 1,这说明两个模型生成的主题间的共现词都很少。

表3 模型效果对比

Table 3 Comparison of Model Effect

模型	主题一致性 InnerSimInnerSim	主题差异度 OuterDiffW2VOuterDiffW2V	主题差异度 OuterDiffJCDOuterDiffJCD
TL-NMF	0.366 9	0.806 9	0.986 7
TL-LDA	0.351 3	0.714 5	0.992 8

因此,从主题间词的共现角度来看,TL-NMF和TL-LDA模型识别的主题均具有较高的区别度;而从主题间词的语义角度看,语义上相近的词在TL-LDA模型中有可能分到不同的主题,TL-NMF识别的主题间具有更高的语义差异度,主题内具有更高的语义相似度,更利于技术主题的区别和发现。

此外,本文将两种模型识别的主题结果进行了专家判断。如表4和表5所示,TL-NMF模型的主题（Top5）在专家看来更合适解读为一个主题,如主题0属于气候变化主题,主题7属于锂金属电池主题,主题27表示神经网络主题,主题35属于流行病主题。相比较而言,TL-LDA模型的主题（Top5）可解释性较差,如主题26,虽然与该主题最相关的词是COVID（冠状病毒）,但是后4个词并不与此相关,如Mediterranean（地中海）、Soil Erosion（水土流失）等。

表4 基于TL-NMF的动态技术主题识别示例

Table 4 Examples of Dynamic Topics Based on TL-NMF

Top5	t0t0	t7t7	t10t10	t27t27	t35t35	t49t49
1	Climate	Lithium	GIS	Network	COVID	Microalgae
2	Change	Ion Batteries	Support Vector Machine	Prediction	Coronavirus	Biodiesel
3	Impacts	Li	Spatial Prediction	Artificial Neural	SARS	Algae
4	Temperature	Capacity	Regression	Algorithm	COV	Biodiesel Production
5	Climate Change	Storage	Logistic	ANN	Pandemic	Biofuels

表5 基于TL-LDA的动态技术主题识别示例

Table 5 Examples of Dynamic Topics Based on TL-LDA

Top5	t0t0	t5t5	t17t17	t26t26	t32t32	t41t41
1	Membrane Bioreactor	Trend Analysis	Model	COVID	Membrane Fouling	Hydraulic Fracture
2	Temporal	Microgrids	Water	Holocene	Aerobic Granular Sludge	Neural Network
3	Flower Pollination Algorithm	Monitor	Climate	Ecological Footprint	Biosynthesis	Electricity Market
4	Nanoscale Zero	Water Management	Carbon	Mediterranean	Density Functional Theory	Transfer Learning
5	Artificial Bee Colony	Statistics	Temperature	Soil Erosion	Hydrogen Generation	Surface Mass

基于以上分析,结合客观指标和实际结果综合考虑,本文认为TL-NMF模型的效果要好于TL-LDA模型,并选择TL-NMF模型开展进一步的技术主题演化分析。

（3）技术主题演化分析结果

针对TL-NMF模型得到50个技术主题,本文分别从主题成长性和主题重要性角度开展技术主题演化分析。

主题成长性反映某个主题随时间的演化趋势,根据本文对主题成长性的定义,如果其值越大,则说明拟合的一元方程的斜率越大,能够反映该主题随时间变化越来越受到重视（权重越大）。

50个技术主题中成长性排名Top3的主题分别为的主题10、主题27和主题7,其演化图如图8所示,它们的主题的成长性分别为0.004 9、0.004 6和0.004 2,主题分别为关于智能遥感卫星数据分析、人工智能防灾减灾和锂金属电池技术,具体的词项见支撑数据。

图8

图8 成长性排名Top3的动态技术主题演化分析

Fig.8 The Evaluation Analysis of Top3 Dynamic Topics in Growth

①技术主题10主要围绕智能遥感卫星数据分析,该主题相关的词项涉及了一些机器学习模型（如Support Vector Model和Random Forest等）和GIS（Geographic Information System）相关的一些词汇（如Spatial Prediction和Landslide Susceptibility等）。在2021年《麻省理工科技评论》发布的十大突破性技术[24]中,第6项技术超高精度定位（Hyper-Accurate Positioning）技术与该技术契合。

②技术主题27主要围绕人工智能防灾减灾,该主题相关的词项涉及人工智能模型（如Artificial Neural Network、ANN、Genetic Algorithm、Particle Swarm Optimization和Hybrid Model等）和任务词汇（如Prediction、Regression、Optimization、Application和Forecasting等）。该技术主题与2020年《麻省理工科技评论》发布的十大突破性技术[25]中第10项气候变化归因（Climate-Change Attribution）契合。

③技术主题7主要围绕锂金属电池,该主题相关的词项涉及锂离子电池（如Lithium、Ion Batteries和Solid等）和电池容量存储电极（如Capacity Predict、Storage、Electrode和Electrode Material等）,与2021年《麻省理工科技评论》发布的十大突破性技术中的第4项锂金属电池（Lithium-Metal Batteries）技术[24]契合。

主题重要性反映了某个主题在整个时间段的重要性。根据本文对主题重要性的定义,如果其值越大,说明该主题越重要。

50个技术主题中重要性排名Top3的主题分别为主题4、主题3和主题6,其演化图如图9所示,它们的主题的重要性分别为0.033 7,0.033 0和0.031 6,主题分别为关于模型模拟、减少碳排放和生物多样性,具体的词项见支撑数据。

图9

别为0.033 7,0.033 0和0.031 6,主题分别为关于模型模拟、减少碳排放和生物多样性,具体的词项见支撑数据。

图9

图9 重要性排名Top3的动态技术主题演化分析

Fig.9 The Evaluation Analysis of Top3 Dynamic Topics in Importance

①技术主题4主要围绕模型模拟,相关主题词有Model（模型）、Simulation（模拟）、Validation（验证）、Numerical（数值）和Uncertainty（不确定性）。该主题涉及科学实验的模型验证,是开展研究的必要方法手段。

②技术主题3主要围绕降碳问题,相关主题词有Energy Efficiency（能源效率）、Energy Consumption（能源消耗）、CO2 Emission（二氧化碳排放）、Circular Economy（循环经济）和Urbanization（城市化）等。降碳一直是资环领域的重要研究问题,是全球应对气候变化的共识,大多数国家均提出了碳达峰和碳中和的目标,我国也在2020年提出了力争于2030年前达到峰值,努力争取到2060年前实现碳中和的目标。

③技术主题6主要围绕保护生物多样性问题,相关主题词有Biodiversity（生物多样性）、Ecosystem Service（生态系统服务）、Conservation（保护）、Diversity（多样性）、Ecological System（生态系统）和Governance（治理）等。该主题也是资环领域具有共识性的重要研究问题。

50个技术主题的成长性和重要性分布如图10所示。可以发现,主题7“锂金属电池技术”同时兼具高成长性（第3名）与高重要性（第4名）,表现最为突出,代表性的主题词包括Lithium（锂）、Ion Batteries（离子电池）、Storage（储能）、Solid（固态）等。该技术主题在两项指标上的突出表现与科技界认知一致。近年来,随着便携电子设备、电动汽车、储能电站等新生事物的不断涌现,锂电池技术的受重视程度不断提升,但是目前普遍使用的锂离子电池由于其所依赖的液体电解质在碰撞时极易起火,因此需要新的技术突破来弥补安全缺陷。基于固态电解质的锂金属电池能够兼顾能量密度、安全性和快充性能,将有望实现与锂离子电池相互补充甚至替代,近年来颇受科技界重视,硅谷初创公司QuantumScape声称已经开发出全新的锂金属,《麻省理工科技评论》也在2021年将锂金属电池列为十大突破性技术之一[24]。基于以上分析可知,本文方法识别出的高成长性和高重要性的技术主题是具有可解释性的,能够证明本文方法具有较好的应用效果。

图10

图10 50个主题的成长性和重要性分布

Fig.10 The Growth and Importance Distribution of 50 Dynamic Topics

5 结语

开展技术演化分析,揭示技术演化规律,洞察技术趋势对于新技术布局和创新资源配置具有重要决策价值。本文针对现有研究开展技术演化分析时依赖主题间相似度计算和人工设定阈值判断窗口技术主题间关联关系的问题,提出一套基于双层主题模型的技术主题演化分析框架,该框架利用双层主题模型识别特定时间周期的动态主题,通过基于Word2Vec的主题一致性指标选择最优主题个数,从主题成长性和重要性两方面进行技术主题演化分析;在双层主题模型方面,分别采用基于LDA和基于NMF的双层主题模型识别动态主题,通过主题内一致性和主题间差异度指标评价两种方法识别的技术主题效果,最后选择效果更好的主题识别结果开展演化分析。

通过在资源环境领域的应用研究发现,基于NMF的双层主题模型在动态主题识别上的效果更优,基于技术演化分析发现的“锂金属电池技术”“智能遥感卫星数据分析技术”“人工智能防灾减灾”等代表性技术能够从《麻省理工科技评论》2020年以来发布的突破性技术清单中得到验证。

但是,本文仍存在一些不足。仅对技术从出现到消亡的发展轨迹进行了研究,未关注技术的分裂、衍生和融合等技术演化现象,这些现象如何揭示需要在未来的研究中予以关注。同时,本文专注于对两种双层主题模型（LDA和NMF）的动态主题识别效果进行了深入对比,并未与其他动态主题模型（如DTM[26]等）的效果进行对比,这项工作将在下一步研究中开展。

整体来看,本文方法能够利用特定时间段的文献数据,自动识别动态主题,判断动态主题间关联关系并对主题的演化轨迹进行分析,在实际的科技情报分析工作中具有较高的应用价值,值得推广。

你可能感兴趣的:(数据挖掘,人工智能)

MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【力扣（LeetCode）】数据挖掘面试题0013：1264. 页面推荐（泛化后，基于MySQL题解）言析数智数据挖掘常见面试题 leetcode 数据挖掘 mysql 笔试笔试题
文章大纲一、题目要求：二、模拟数据构建三、题解参考方案朋友关系列表：Friendship+---------------+---------+|ColumnName|Type|+---------------+---------+|user1_id|int||user2_id|int|+---------------+---------+(user1_id,user2_id)是这张表具有唯一值的列
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S