融合聚类信息的技术主题图可视化方法研究

摘要

【目的】 弥补主题聚类后单一色彩技术主题图可视化辨识度有限,增强聚类后技术主题图的表现力,丰富科技情报分析人员的技术主题图可视化方法和软件工具选择范围。【方法】 提出融合聚类信息的技术主题图可视化方法,应用网络布局算法进行主题词的平面布局,建立平面像素点类密度函数、色彩强度函数,依据类密度和色彩强度值进行色彩渲染,得到聚类后的技术主题图。【结果】 该可视化方法嵌入到文本挖掘与可视化软件工具ItgInsight,并应用于量子密码通信专利数据进行案例分析,结果表明该方法简单有效。【局限】 绘制的技术主题图是非矢量图,绘制效率可进一步优化。【结论】 融合聚类信息的技术主题图可视化方法增强了主题区分度,可更好地揭示技术主题结构、技术主题之间的关系。

关键词: 技术分布主题图可视化聚类

1 引言

随着科学技术的交叉融合发展和科技资源的爆炸式增长,对技术主题的追踪变得越来越困难。文字适合传达详细的信息,但不适合传达关系以及数据集的概要信息。人类的视觉系统非常善于观察、解释大量信息,探测模式和异常,对于关系以及数据集的概要信息的揭示,可视化方式更加有效。因此,采用可视化进行科技资源的内容分析、揭示关系、发现模式、追踪技术主题是图书情报领域的常用方法之一。如何最大限度地利用人类视觉,需要软件工具来辅助。本文研究融合聚类信息的技术主题图可视化方法,弥补主题聚类后单一色彩技术主题图可辨识度有限的不足,增强聚类后技术主题图的表现力,丰富科技情报分析人员的技术主题图可视化方法和软件工具的选择。

2 相关工作

在科技情报领域,技术主题图采用类似于地理信息系统中的等高线图、热力成像中的热力图、宇宙空间中的星系图、天气预报中的气象图以及彩虹图、密度图等形式,以颜色的深浅度表征技术主题的强弱、文献的多少,以色彩之间的聚集程度表征技术主题之间的关系。技术主题图广泛应用于技术布局分析、技术竞争分析、技术结构分析等情报分析场景。与典型的网络图相比,技术主题图可表征的信息更加丰富,不受网络节点规模的限制,在情报分析软件工具中广泛存在,受到广大科研人员关注。

在技术主题图可视化实现方面,Wise[1]介绍了技术主题图在文本内容分析中的优势、图形绘制的基本思路和过程。Davidson[2]介绍了VxInsight软件的技术主题图实现细节,包括相似度计算、点的空间位置设定、可视化渲染等。Honkela[3]介绍了应用自组织映射进行文档主题分析的过程。刘玉琴等[4]设计了一种简易的技术主题图实现方法,融合Fruchterman-Reingold LayoutVosMapping算法进行主题词的平面布局,建立平面像素点密度函数,依据密度值进行色彩渲染,得到技术主题图。陈挺等[5]采用t-SNE算法进行空间节点布局,利用核密度函数+热力图形式进行主题图可视化,并应用于基金资助热点发现。

在技术主题图可视化软件工具方面,既有开源免费软件,VOSviewer,也有商业化软件,VxInsightTrue-TellerInnovationIncoPatItgInsightVOSviewer[6]由荷兰莱顿大学科学和技术研究中心(Centre for Science and Technology Studies,CWTS)的研究人员设计研发,采用热力图和密度图形式主题分析,该软件工具是目前应用较为广泛的情报分析软件工具之一。日本野村研究所开发了用于日文和英文的技术热力图可视化分析工具True Teller[7],其技术主题图呈现形式采用与VOSviewer类似的热力图形式。VxInsight[8]是由美国桑迪亚国家实验室研发的技术主题图工具,由于该工具受到美国技术出口政策限制,国内用户不能直接接触和使用[9]Innovation[10]是加拿大科睿唯安旗下的专利信息服务平台,针对用户检索结果实时生成专利地图,也是技术主题图的表现形式之一。其核心技术ThemeScape[11]源于20世纪90年代美国能源部太平洋西北国家实验室,早期的发展由美国联邦政府指导,用于情报分析。1996,Cartia公司获得了这项技术的专有权,并重新设计了地图引擎和用户界面,开始将其应用于商业。2000,Aurigin收购Cartia;2002,MicroPatent收购Aurigin;2004,汤森路透收购MicroPatent;2016,汤森路透知识产权与科技事业部并入加拿大科睿唯安。目前ThemeScape集成在科睿唯安Innovation专利信息服务平台中。IncoPat[12]是北京合享智慧科技有限公司设计研发的在线专利检索分析平台,3D专利沙盘三维地形图展示技术的竞争态势,波峰代表技术密集区,波谷代表技术空白点,不同颜色标记不同的专利申请人,用以展示竞争态势。目前,该公司已被加拿大科睿唯安收购。ItgInsight最初是由北京理工大学知识管理与数据分析实验室设计开发的文本挖掘与可视化软件工具,多用于学术研究,2018年后逐步开始商业化应用,其技术主题图样式较多,既有VOSviewerTrue-Teller的热力图、密度图,也有自己独立设计开发的主题图[4]。除此之外,在软件工具使用方面,部分研究人员借助RPythonMatlab软件工具包或自行编程实现主题图效果,但使用范围有限,对编程技术有一定要求,费时费力。

在技术主题图可视化应用方面,存在大量的文献,主要集中在知识组织方面[13,14,15,16,17,18]、科技管理方面[19,20,21]、领域分析方面[22,23,24,25,26,27,28],以及主题分析工具的介绍和结果解读方面[29,30]

对于技术主题图可视化的研究呈现出以下特点:

1)关于技术主题图可视化技术细节的文献很少,更多文献是从基本思路、实现过程、软件工具特点方面对技术主题图进行介绍。

2)关于技术和算法的介绍有限,以空间点的布局算法介绍为主,如自组织映射、多维标度、力导模型、t-SNE,对于图形表示层的可视化渲染方法研究不足。

3)国内关于技术主题图可视化的研究以应用为主,对主题图可视化的技术方法研究、软件工具研究较少涉猎。

4)由于技术限制或出口限制,与数据源分离的国外商业化软件在国内的应用有限,VxInsightTrue-Teller

5)在免费的技术主题图可视化工具选择上,目前国内用户可选的软件工具仅限于VOSviewerItgInsight,选择范围十分有限。

6)在主题图可视化上,多以颜色的深浅度和色彩亮度表征主题及其之间的关系,不同主题的基础颜色采用同一种颜色,即便采用多个基础颜色,也是用于区分文献数量或主题强度,很少用于主题之间的区分。VOSviewer采用多颜色密度图区别主题,但可辨识度和美观程度不足,用户较少使用。

综上,本文将聚类信息融入技术主题图可视化过程中,以不同基础颜色表征不同主题,增强主题的区分度;以同一颜色的深浅度表征同一主题的数量或主题强度。同时,设计软件工具,构建可视化与原始数据交互接口,增强对技术主题图的交互,降低技术主题图使用的技术门槛,扩大情报分析人员的软件工具选择范围。

3 融合聚类信息技术主题图可视化方法与工具实现

3.1 技术主题图可视化思路

针对技术主题图可视化方法的不足以及软件工具选择上的限制,本文设计融合聚类信息的技术主题图可视化方法:采用聚类算法对技术主题进行聚类,以不同颜色表征技术主题,以颜色的深浅表征技术主题的强度或文献的多少,以不同主题间颜色的深浅度和渐变效果表征主题之间的关系,借鉴地理信息系统地图绘制的基本思想,将技术主题映射到二维空间多颜色的地形图。将该方法嵌入到文本挖掘与可视化软件ItgInsight中供用户使用。

3.2 技术主题图可视化过程

现有文献涉及技术主题图可视化方法的研究以布局算法为主,如自组织映射、多维标度、力导模型、t-SNE,很少涉及技术主题词的选择与可视化图形渲染技术的介绍。用户使用技术主题图可视化相关软件工具时,大多将其看待为技术黑盒,只关注结果,忽略其原理。本文介绍技术主题图可视化整体技术实现方案,重点描述技术主题图可视化渲染方法。其基本过程如下。

1 主题词识别

对文献数据集进行分词处理,构建语法规则词典,采用术语识别算法C-Value[31]建立候选主题词集合,计算文献与主题词之间的隶属关系矩阵,假设 mm个文档 nn个主题词之间的隶属关系矩阵如式(1)所示。

2 主题词关系强度计算

基于文献与主题词之间的隶属关系矩阵,计算主题词之间的关系强度矩阵,计算方法可以采用同现数量、倒排文档频率TF-IDF、信息熵、互信息等。 nn个主题词之间的关系强度矩阵如式(2)所示。

⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢Document1Document2DocumentiDocumentmKeyword1b11b21bi1bm1Keyword2b12b22bi2bm2⋯⋯⋯⋯⋯⋯⋯Keywordib1ib2ibiibmi⋯⋯⋯⋯⋯⋯⋯Keywordnb1nb2nbinbmn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥Keyword1Keyword2KeywordiKeywordnDocument1b11b12b1ib1nDocument2b21b22b2ib2n⋯⋯⋯⋯⋯⋯⋯Documentibi1bi2biibin⋯⋯⋯⋯⋯⋯⋯Documentmbm1bm2bmibmn

(1)

⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢Keyword1Keyword2KeywordiKeywordnKeyword1r11r21ri1rn1Keyword2r12r22ri2rn2⋯⋯⋯⋯⋯⋯⋯Keywordir1ir2iriirni⋯⋯⋯⋯⋯⋯⋯Keywordnr1nr2nrinrnn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥Keyword1Keyword2KeywordiKeywordnKeyword1r11r12r1ir1nKeyword2r21r22r2ir2n⋯⋯⋯⋯⋯⋯⋯Keywordiri1ri2riirin⋯⋯⋯⋯⋯⋯⋯Keywordnrn1rn2rnirnn

(2)

3 关系强度矩阵再调整

为提升计算速度,同时聚焦于主题分析中显著的主题关系,调整关系强度矩阵。延续文献[4]的处理方案,设定关系强度阈值,大于该阈值的节点强度保留原值,小于等于该阈值的节点强度重新设定为0。软件应用过程中的阈值由人机交互接口进行动态调整。

4 主题词聚类

应用聚类算法对主题词进行聚类,将主题词加上类别标签。这一步是本文技术主题图可视化必不可少的基础过程,也是区别于其他技术主题图可视化方法之处。各种聚类算法均可使用,本文实验和实证部分采用K-Means聚类。假定聚类后的类别数为 CC,也就是主题词被分为 CC组。

5 主题词空间映射

将主题词映射到空间平面中的点,是技术主题图可视化的主要环节,算法有自组织映射、多维标度、力导模型、t-SNE等。笔者所在团队设计开发的文本挖掘与可视化工具ItgInsight中嵌入了Spring-Embedded Model[32]Kamada-Kawai Layout[33]Fruchterman-Reingold Layout[34]VosMapping[6]LinLog Layout[6]t-SNE[5]等布局算法。对于各种布局算法,很难找到一种满足所有情况的布局方法。因此,有时也采用任意两种算法的组合,:局部采用A布局,整体采用B布局。同时,还要注意孤立点的空间映射,即那些与其他主题词关系强度为0的主题词,这些词的布局往往影响整体可视化效果和准确性。本文实验和实证部分,对非孤立点采用LinLog Layout布局算法进行空间位置映射,对于孤立点则直接将其按照椭圆形式均匀分布在可视化绘图区的周围。

6 构建平面像素点类密度函数

在地理信息测绘领域常用核密度进行地理信息的密度图绘制,文献[4,5]中的技术主题图可视化方法采用类似的原理或方法。本文基于核密度的基本思想,进一步融合聚类信息,采用主题词数量与布局坐标构建平面像素点类密度函数。

假设 nn个主题词的坐标分别为 (xi,yi),i=1⋯n,(xi,yi),i=1n,主题词之间的二维欧氏距离平均值为 Distance¯¯¯¯¯¯¯¯¯¯¯¯¯Distance¯,每个主题词的数量为 Numberi,i=1⋯n,Numberi,i=1n,经过聚类后共有 CC个类别,每个类别下分别有 ncnc个主题词f(Numberi)f(Numberi)为主题词 ii的标准化值;像素点P的坐标为 (x,y)(x,y)。定义像素点的密度函数和类密度函数如公式(3)和公式(4)所示。

Density(x,y)=ni=0f(Density(x,y)=∑i=0nf( Number i)eα((xxi)2+(yyi)2Distance¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯)βα>0,β>0i)e−α((x−xi)2+(y−yi)2Distance¯)βα>0,β>0

(3)

Density(x,y,c)=nci=0f(Density(x,y,c)=∑i=0ncf( Number i)eα((xxi)2+(yyi)2 Distance )βα>0,β>0i)e−α((x−xi)2+(y−yi)2 Distance )βα>0,β>0

(4)

其中,密度函数与文献[4]中的构造方法一致α,βα,β为非负数,其取值不同,主题图效果不同。进一步,融合聚类信息后, DensitymaxDensitymax表示最大的密度值ColoriColori表示类别 i=1⋯nci=1ncRGB模式颜色。

像素点 P(x,y)P(x,y)RGB模式颜色如公式(5)所示。

Color(x,y)=nci=0Density(x,y,ci)/Densitymax×ColoriColor(x,y)=∑i=0ncDensity(x,y,ci)/Densitymax×Colori

(5)

其中ColoriColoriRGB模式颜色的各通道取值。

色彩强度函数是为实现类似地形图等高线的可视化效果。同时等高线既能对同一类别下的主题词进行区分,又能对不同类别下的主题词进行区分,构建色彩强度函数 f(Density(x,y)/Density(max))f(Density(x,y)/Density(max))。该函数应该是阶梯函数,才能达到等高线的效果,简单的色彩强度函数如公式(6)所示。

Strength(x,y)=(Density(x,y)/Density(max))×N/NStrength(x,y)=(Density(x,y)/Density(max))×N/N

(6)

其中为向下取整NN为强度级别,例如NN10,色彩强度值范围{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},绘制的主题图可视化效果上会呈现10个强度级别。强度级别直接影响绘制效果,使得可视化结果区别于热力图、密度图、一般地形图形式的技术主题图。本文实验和实证部分N均取值为10。也可以应用幂函数或对数函数构建变化趋势更加缓和的色彩强度函数,使得可视化结果更具有层次性,幂函数色彩强度函数如公式(7)所示。本文实验部分对比了两种色彩强度函数的可视化效果。

Strength(x,y)=L((( Density (x,y)/ Density (max))δ^)1/δ×N⊥/>0Strength(x,y)=L((( Density (x,y)/ Density (max))δ^)1/δ×N/Nδ>0

(7)

确定 P(x,y)P(x,y)的颜色,如公式(8)所示。

Color(x,y)=Color(x,yStrength(x,y)Color(x,y)=Color(x,y)×Strength(x,y)

(8)

最后,RGB模式的颜色值转化为Lab模式的颜色值与背景色做线性插值[35,36,37],再将颜色转化为RGB模式。这一步可以使可视化渲染结果更易于被人的视觉感应系统进行分析和区分,颜色过渡也更加自然。

在实际计算中,为加快密度函数、类密度函数计算和像素点颜色的渲染,将整个屏幕划分为若干格子,将每个格子作为一个像素点对待,计算每个格子的密度函数;计算密度函数、类密度函数时,设定一个区域范围,该区域范围内的主题词节点参与计算,区域之外的不参与计算,通过图形拉伸使图形与电脑屏幕重合。其示意图如1所示。

1

融合聚类信息的技术主题图可视化方法研究_第1张图片

1   屏幕格子划分与密度函数计算范围示意

Fig.1   Screen Lattice Division and Density Function Calculation Rang Diagram


 

3.3 技术主题图技术实现

ItgInsight[4,38]应用C#+WPF技术组合设计实现中英文术语识别、各类科研关系构建、可视化、技术主题图绘制,其中涉及技术主题图的功能模块主要包括文本数据处理模块、关系计算模块、节点布局模块、图形渲染模块、人机交互模块。文本数据处理模块负责技术主题词的抽取,关系计算模块负责主题词关系强度计算,节点布局模块将技术主题词映射到平面空间中的点,图形渲染模块完成主题图可视化呈现,人机交互模块实现人工干预图形显示的交互功能,如密度函数参数值调整、节点坐标调整、节点和节点文字的显示效果调整、可视化图形与原始数据间交互等。

4 可视化对比

为直观感受本文融合聚类信息的技术主题图可视化效果,将其与热力图形式、密度图形式、地形图形式进行对比,采用相同的主题词抽取方法、相同的密度函数计算参数、相同的布局算法,结果如2-7所示。从技术实现和主题内容揭示上来看,密度图和热力图实现起来相对简单,但无法有效区别技术主题边界,尤其是密度图的揭示效果不佳,这也是密度图在图书情报领域应用较少的原因。多色地形图和单色地形图技术实现复杂度有所提升,尽管仍然无法有效揭示主题边界、主题之间的关系,但同一主题层次感更加强烈。多色地形图用颜色区分主题强度、主题词多少,对于主题之间的关系揭示不足。融合聚类信息的技术主题图,技术实现复杂度相对较高,但对于主题之间的边界、主题与主题之间的关系、主题内部主题词的多少具有更好的揭示能力,可视化更易为人类视觉系统所接受。6-7分别是采用两种色彩强度函数的可视化结果,幂函数形式的色彩强度颜色变化趋势更加缓和,适用那些主题词数量差距较大的情况。

2

融合聚类信息的技术主题图可视化方法研究_第2张图片

2   热力图形式技术主题图

Fig.2   Technology Theme Map in the Form of Heat Map


 

3

融合聚类信息的技术主题图可视化方法研究_第3张图片

3   密度图形式技术主题图

Fig.3   Technology Theme Map in the Form of Density


 

4

融合聚类信息的技术主题图可视化方法研究_第4张图片

4   多色地形图形式技术主题图

Fig.4   Technology Theme Map in the Form of Multicolor Topographic Map


 

5

融合聚类信息的技术主题图可视化方法研究_第5张图片

5   单色地形图形式技术主题图

Fig.5   Technology Theme Map in the Form of Monochrome Topographic Map


 

6

融合聚类信息的技术主题图可视化方法研究_第6张图片

6   融合聚类信息的技术主题图(普通色彩强度函数)

Fig.6   Technology Theme Map Integrating Clustering Information General Color Intensity Function


 

7

融合聚类信息的技术主题图可视化方法研究_第7张图片

7   融合聚类信息的技术主题图(幂函数色彩强度函数)

Fig.7   Technology Theme Map Integrating Clustering Information Power Function Color Intensity Function

总体来看,本文构建的基于聚类的技术主题图采用不同基础颜色区分技术主题,能增强主题的区分度;以同一颜色的深浅度表征同一主题的数量或主题强度,可以更好地揭示技术主题结构。

5 实证应用

随着通信技术的不断发展,人们对信息通信安全的要求越来越高,量子密码通信能够有效解决传统密码面临的一些技术难题,在通信安全方面有着更为显著的优势。量子密码通信技术已经成为一种具有战略意义的前沿技术,对量子密码通信技术进行分析,有助于推动量子密码通信技术更好地发展。为此,本文基于科睿唯安德温特专利数据库,检索量子密码通信相关专利。设定检索策略如下:

TS=Quantum Communication or TS = Quantum Private Communication or TS=Quantum teleportation or TS=quantum channel or ((TS=quantum entanglement or TS = Entanglement or TS = quantum state AND TS = Communication or TS = Cryptography)) or TS = quantum key distribution or TS = Quantum Cryptography or TS = Quantum Secret Sharing or TS = Semiquantum Secret Sharing or TS = Blind Quantum Computation

时间截止到201912,检索得到专利家族共计8 060个记录。应用本文的方法绘制其技术主题图,8-10所示。

8

融合聚类信息的技术主题图可视化方法研究_第8张图片

8   聚类形式的量子密码通信技术主题图

Fig.8   Quantum Cryptographic Communication Technology Theme Map in the Form of Clustering


 

9

融合聚类信息的技术主题图可视化方法研究_第9张图片

9   热力图形式的量子密码通信技术主题图

Fig.9   Quantum Cryptographic Communication Technology Theme Map in the Form of Heat Map


 

10

融合聚类信息的技术主题图可视化方法研究_第10张图片

10   多色地形图形式量子密码通信技术主题图

Fig.10   Quantum Cryptographic Communication Technology Theme Map in the Form of Multi-colored Topography

根据三幅技术主题图可视化结果可以看出,量子密码通信技术主题主要涵盖:一是以主题词“light source”为中心,二是以主题词“active layer”为中心,三是以主题词“quantum dot”为中心,四是以主题词“quantum key distribution system”为中心,五是以主题词“personal digital assistant”为中心,六是以主题词“channel region”为中心,七是以主题词“optical fiber”为中心,八是以主题词“semiconductor substrate”为中心,九是以主题词“optical fiber”为中心等。相对于9108对于技术主题的区分效果更明显,并且可以更好地揭示主题之间的关系,比如通信系统、通信设备主题,量子设备、能量消耗、量子效率主题关系更密切;“半导体器件、半导体衬底、光通信系统主题与电子设备主题、活动层、半导体激光器、半导体层、多量子、半导体灯主题关系更密切。

6 结语

本文提出融合聚类信息的技术主题图可视化方法,应用网络布局算法进行主题词的平面布局,建立平面像素点类密度函数、色彩强度函数,依据类密度和色彩强度值进行色彩渲染,得到技术主题图。本文所构建的整体技术方案是一种集成应用式创新,类密度函数与阶梯型色彩强度函数的引入则是一种方法上的创新。本文的技术主题图可视化方法能增强主题区分度,更好地揭示技术主题结构、技术主题之间的关系。采用科研实体替换本文的主题词,该方法可扩展应用于科研实体的关系挖掘。目前该技术方案已嵌入到文本挖掘与可视化软件工具ItgInsight,单台普通计算机可处理约10 000篇文献(http://cn.itginsight.com/.)

该方法依然存在不足之处:应用本文渲染绘制的技术主题图非矢量图,图形清晰度受缩放、绘制参数影响;像素级的技术渲染方案有明显的时间等待;在类别较多的情况下,如聚类结果成百上千时,应用不同颜色进行主题区分的辨识度降低;参数较多,又很难找到适应所有场景的统一参数设置,因此需要用户进行动态调整。未来将进一步优化技术主题图的可视化效果,提高图形可视化效率。

你可能感兴趣的:(聚类,机器学习,算法)