基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法

  • 基于分类
    需要认为提前设定好一定的分类标准,并需要规定好各个主题类别信息,它是一种有监督或者半监督的方法,对于一个新文本的归类过程也是对其文本主题信息解读的过程。
  • 基于聚类
    无监督
    通过对聚类各个类簇进行解读,从而发现文本的主题信息。

三种流程

  • 基于分类号
    从分类角度识别专利技术主题信息
    专利文本通常都有IPC分类号,该分类号对解读文本技术主题信息具有重要作用。一个专利通常都有一个以上IPC分类号,第一个为主分类号,体现专利文本的主要技术主题西悉尼。专利文本的IPC分类号是传统专利计量分析的重要指标,通过考察某个领域的IPC分布情况,可以在整体上把握该领域的技术主题的分布、研究热点或发展趋势。
    使用IPC分类号识别专利文本涉及的技术主题需要结合《国际专利分类表》,即IPC对照表,通过该对照表便可对相应的IPC分类号进行解读,进而识别专利文本涉及的主要技术主题信息。
    IPC分类号的构成形式一般为:

    • 部(用1个字母表征)
    • 大类 (用2个数字表征)
    • 小类(用1个字母表征)
    • 大组(用1-3个数字表征)/
    • 小组(用2-4个数字表征)
      在传统的专利分析计量中,常用的是提取每个具体IPC分类号的前3至4位代码作为统计分析的基准。
      基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法_第1张图片
      基于IPC分类号的专利文本主题挖掘方法的优点是简单易行,便于统计分析,是传统专利计量分析常用的方法之一,有着广泛的应用基础。但是其缺点在于对IPC分类表的使用需要具备较强的专业知识,并且IPC分类表中对各个类别技术主题的解释说明是总体上的规约,并不指代各个专利文本所具体表达的技术主题信息。
      另外,这种统计分析方法不深入到具体的文本内容,识别的技术主题粒度较粗,当需要细粒度的专利文本主题识别与分析时,该种方法的适用性就会变得较弱。
  • 基于共词分析
    共词分析法是内容分析法的一种常用方法,最早由法国的文献计量学家在20世纪70年代中后期提出和使用。该方法已经被广泛地应用在许多研究领域,在分析领域研究热点,把我主题演化趋势等方面有着重要的作用。
    共词分析的基本原理是基于文本的关键词或主题词为基本研究单元,通过两两统计它们在同一个文本中出现的频词,然后基于词频确定高频关键词并构建共词关系矩阵,然后再结合聚类分析等方法分析共词间的亲疏关系,进而揭示研究领域的主题结构、研究热点等。常用的聚类方法有K-means聚类、层次聚类等。
    将共词分析法用于专利文本的主题挖掘通常需要解决:一是文本关键词的获取;二十共词关系矩阵的构建。不同于论文等文献有作者标注关键词或者主题词可直接使用,专利文本一般不提供关键词或主题词,需要先采用一定的方法从文本中提取关键词,常用的关键词提取算法有基于词频的TF-IDF算法、基于词间图关系的TextRank算法等。而共词关系矩阵的构建主要是将提取的关键词构建成相应的共现关系矩阵,以便用于聚类分析等。
    基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法_第2张图片
    基于共词分析的专利文本技术主题挖掘方法的原理简单,可操作性强,相比基于IPC分类号的方法,该方法再一定程度上实现了对专利文本非结构化内容的分析,特别是再研究热点分析方面有较大优势。但是由于该方法主要依据对文本关键词的聚类分析来识别主题信息,提取的关键词的质量直接影响着分析结果的好坏。而专利文本非结构化部分通常具有较为复杂的文本结构信息和富含语义信息,仅依靠提取的少量关键词有时并不能充分表征文本内容,并且关键词间还可能存在同义词、近义词等,这些都影响着共词分析法对专利文本主题挖掘效果。

  • 基于LDA模型
    从聚类角度实现
    LDA是文本语义主题挖掘的一大利器,已经被广泛地应用再各个领域。该模型实现了对文本从“文本-词”的模式到“文本-主题-词”模式的转变,文本被看作是一系列抽象主题的混合,而抽象主题又被看作是一系列词的混合。这种模式的转变显著降低了文本表示维度,并且还很大程度上保留了文本的语义信息。主题模型中最终名和被广泛使用的就是LDA模型。
    将LDA模型用于专利文本的技术主题挖掘需要关注:一是专利文本的特征选择问题;二是主题数量K的确定。由于LDA模型架设了文本的词袋模型,词与词之间是相互独立的,并且主题的词分布是基于词共现的,而词频会影响主题中词分布比例,另外,文本的长度也影响主题识别效果,文本太短不利于模型的训练。因此文本的特征选择是应用LDA模型的关键一步,需要加以重视。LDA模型是一种基于聚类思想的文本分析方法,需要提前指定主题树K,该值影响着模型拟合文本集的效果。擦汗给你简单确定最优K值的方法有基于困惑度的方法,基于主题相似度的方法和基于主题连贯性的方法等,使用较多的是基于困惑度的方法。困惑度反映着主题模型推断文本术语哪个主题有多么不确定,困惑度值越小就说明模型聚类效果越好,也就是主题推断效果越好。模型训练中,通过设置不同的K值,困惑度值最低时对应的K被认为是莫i行的最优K值。

    基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法_第3张图片
    相比基于IPC分类号和基于共词分析的方法,LDA模型的数学原理和模型训练过程都较为复杂,但是其优点是可以从文本集全局角度表达文本、主题和词之间的关系,不需要人工标注语料库,便能够从文本及章抽取文本语义主题信息,并对文本主题建模,并且使用主题表征文本内容可以很大程度改善文本的同义词、近义词和多义词问题,也降低了文本表示维度。但是由于LDA模型架设了文本的词袋模型,词间是相互独立的,并且主题的分布是基于全局词共现词频计算的,再模型训练过程中,文本集中所有不重复的词通常都会以不同的概率出现再每个主题中,这样导致主题挖掘的结果容易受到非文本主题词的干扰,不利于对文本主题的识别和解读。较多研究表明,较好地进行文本预处理工作,并适当引入文本特征信息,让具有类似特征的我那本的词分配尽可能地再其所在类范围之中,减少非文本主题词的分配,可以获取较好的文本主题挖掘效果。

你可能感兴趣的:(基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法)