nickname_oo

词干提取（stemming）与词形还原（lemmatization）

在英语中，一个单词常常是另一个单词的“变种”，如：happy=>happiness，这里happy叫做happiness的词干（stem）。在信息检索系统中，我们常常做的一件事，就是在Term规范化过程中，提取词干（stemming），即除去英文单词分词变换形式的结尾。

应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法，也叫波特词干器（Porter Stemmer）。详见官方网站。比较热门的检索系统包括Lucene、Whoosh等中的词干过滤器就是采用的波特词干算法。

简单说一下历史：

马丁.波特博士（Dr. Martin Porter）于1979年，在英国剑桥大学，计算机实验室，发明了波特词干算法。
波特词干算法当时是作为一个大型IR项目的一部分被提出的。它的原始论文为：
C.J. van Rijsbergen, S.E. Robertson and M.F. Porter, 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587).
最初的波特词干提取算法是使用BCPL语言编写的。作者在其网站上公布了各种语言的实现版本，其中C语言的版本是作者编写的最权威的版本。
波特词干器适用于涉及到提取词干的IR研究工作，其实验结果是可重复的，言外之意是说，波特词干器的输出结果是确定性的，不是随机的。（还有基于随机的高级词干提取算法，虽然会更准确，但同时也更加复杂）。

词干提取算法无法达到100%的准确程度，因为语言单词本身的变化存在着许多例外的情况，无法概括到一般的规则中。使用词干提取算法能够帮助提高IR的性能。

波特词干算法的官方网站上，有各个语言的实现版本（其实都是C标准的各个翻译形式）。各位要应用到实际生产中可以直接下载对应的版本。本文将会分析Java语言的源码。在今后的文章中，再介绍使用Python特性优化过的版本。（Python原版几乎就是C语言版本的翻译，这也就意味着不能充分利用Python的语言特性。）

在实际处理中，需要分六步走。首先，我们先定义一个Stemmer类。

 
     ? 
    
          class 
          Stemmer 
         
          {  
          private 
          char 
          [] b; 
         
          private 
          int 
           i,      
          /* b中的元素位置（偏移量） */ 
         
          i_end, /* 要抽取词干单词的结束位置 */ 
         
          j, k; 
         
          private static final int INC = 50; 
         
          /* 随着b的大小增加数组要增长的长度（防止溢出） */ 
         
          public 
          Stemmer() 
         
          {  b =  
          new 
          char 
          [INC]; 
         
          i =  
          0 
          ; 
         
          i_end =  
          0 
          ; 
         
          } 
         
          }

这里，b是一个数组，用来存待词干提取的单词（以char的形式）。这里的变量k会随着词干抽取而变化。

接着，我们要添加单词来进行处理：

 
     ? 
    
          /** 
         
          * 增加一个字符到要存放待处理的单词的数组。添加完字符时， 
         
          * 可以调用stem(void)方法来进行抽取词干的工作。 
         
          */ 
         
          public 
          void 
           add( 
          char 
          ch) 
         
          {  
          if 
          (i == b.length) 
         
          {  
          char 
          [] new_b =  
          new 
          char 
          [i+INC]; 
         
          for 
          ( 
          int 
          c =  
          0 
          ; c < i; c++) new_b[c] = b[c]; 
         
          b = new_b; 
         
          } 
         
          b[i++] = ch; 
         
          } 
         
          /** 增加wLen长度的字符数组到存放待处理的单词的数组b。 
         
          */ 
         
          public 
          void 
           add( 
          char 
          [] w,  
          int 
          wLen) 
         
          {  
          if 
          (i+wLen >= b.length) 
         
          {  
          char 
          [] new_b =  
          new 
          char 
          [i+wLen+INC]; 
         
          for 
          ( 
          int 
          c =  
          0 
          ; c < i; c++) new_b[c] = b[c]; 
         
          b = new_b; 
         
          } 
         
          for 
          ( 
          int 
          c =  
          0 
          ; c < wLen; c++) b[i++] = w[c]; 
         
          }

大家可能会觉得这么处理字符串太麻烦了吧，要明白，整个代码是从C移植过来的。

接下来，是一系列工具函数。首先先介绍一下它们：

cons(i)：参数i：int型；返回值bool型。当i为辅音时，返回真；否则为假。
m()：返回值：int型。表示单词b介于0和j之间辅音序列的个度。现假设c代表辅音序列，而v代表元音序列。<..>表示任意存在。于是有如下定义；
- 结果为 0
- vc 结果为 1
- vcvc 结果为 2
- vcvcvc 结果为 3
- ....
vowelinstem()：返回值：bool型。从名字就可以看得出来，表示单词b介于0到i之间是否存在元音。
doublec(j)：参数j：int型；返回值bool型。这个函数用来表示在j和j-1位置上的两个字符是否是相同的辅音。
cvc(i)：参数i：int型；返回值bool型。对于i，i-1，i-2位置上的字符，它们是“辅音-元音-辅音”的形式，并且对于第二个辅音，它不能为w、x、y中的一个。这个函数用来处理以e结尾的短单词。比如说cav(e)，lov(e)，hop(e)，crim(e)。但是像snow，box，tray就辅符合条件。
ends(s)：参数：String；返回值：bool型。顾名思义，判断b是否以s结尾。
setto(s)：参数：String；void类型。把b在(j+1)...k位置上的字符设为s，同时，调整k的大小。
r(s)：参数：String；void类型。在m()>0的情况下，调用setto(s)。

简单贴出来这些工具函数的代码。

 
     ? 
    
          // cons(i) 为真 <=> b[i] 是一个辅音 
         
          private 
          final 
           boolean 
           cons( 
          int 
          i) 
         
          {  
          switch 
          (b[i]) 
         
          {  
          case 
          'a' 
          : 
          case 
          'e' 
          : 
          case 
          'i' 
          : 
          case 
          'o' 
          : 
          case 
          'u' 
          : 
          return 
          false 
          ; 
          //aeiou 
         
          case 
          'y' 
          : 
          return 
          (i== 
          0 
          ) ?  
          true 
          : !cons(i- 
          1 
          ); 
         
          //y开头，为辅；否则看i-1位，如果i-1位为辅，y为元，反之亦然。 
         
          default 
          : 
          return 
          true 
          ; 
         
          } 
         
          } 
         
          // m() 用来计算在0和j之间辅音序列的个数。 见上面的说明。 */ 
         
          private 
          final 
           int 
           m() 
         
          {  
          int 
          n =  
          0 
          ; 
          //辅音序列的个数，初始化 
         
          int 
          i =  
          0 
          ; 
          //偏移量 
         
          while 
          ( 
          true 
          ) 
         
          {  
          if 
          (i > j)  
          return 
          n;  
          //如果超出最大偏移量，直接返回n 
         
          if 
          (! cons(i))  
          break 
          ; 
          //如果是元音，中断 
         
          i++; 
          //辅音移一位，直到元音的位置 
         
          } 
         
          i++; 
          //移完辅音，从元音的第一个字符开始 
         
          while 
          ( 
          true 
          ) 
          //循环计算vc的个数 
         
          {  
          while 
          ( 
          true 
          ) 
          //循环判断v 
         
          {  
          if 
          (i > j)  
          return 
          n; 
         
          if 
          (cons(i))  
          break 
          ; 
          //出现辅音则终止循环 
         
          i++; 
         
          } 
         
          i++; 
         
          n++; 
         
          while 
          ( 
          true 
          ) 
          //循环判断c 
         
          {  
          if 
          (i > j)  
          return 
          n; 
         
          if 
          (! cons(i))  
          break 
          ; 
         
          i++; 
         
          } 
         
          i++; 
         
          } 
         
          } 
         
          // vowelinstem() 为真 <=> 0,...j 包含一个元音 
         
          private 
          final 
           boolean 
           vowelinstem() 
         
          {  
          int 
          i;  
          for 
          (i =  
          0 
          ; i <= j; i++)  
          if 
          (! cons(i))  
          return 
          true 
          ; 
         
          return 
          false 
          ; 
         
          } 
         
          // doublec(j) 为真 <=> j,(j-1) 包含两个一样的辅音 
         
          private 
          final 
           boolean 
           doublec( 
          int 
          j) 
         
          {  
          if 
          (j <  
          1 
          ) 
          return 
          false 
          ; 
         
          if 
          (b[j] != b[j- 
          1 
          ]) 
          return 
          false 
          ; 
         
          return 
          cons(j); 
         
          } 
         
          /* cvc(i) is 为真 <=> i-2,i-1,i 有形式： 辅音 - 元音 - 辅音 
         
          并且第二个c不是 w,x 或者 y. 这个用来处理以e结尾的短单词。 e.g. 
         
          cav(e), lov(e), hop(e), crim(e), 但不是 
         
          snow, box, tray. 
         
          */ 
         
          private 
          final 
           boolean 
           cvc( 
          int 
          i) 
         
          {  
          if 
          (i <  
          2 
          || !cons(i) || cons(i- 
          1 
          ) || !cons(i- 
          2 
          )) 
          return 
          false 
          ; 
         
          {  
          int 
          ch = b[i]; 
         
          if 
          (ch ==  
          'w' 
          || ch ==  
          'x' 
          || ch ==  
          'y' 
          ) 
          return 
          false 
          ; 
         
          } 
         
          return 
          true 
          ; 
         
          } 
         
          private 
          final 
           boolean 
           ends(String s) 
         
          {  
          int 
          l = s.length(); 
         
          int 
          o = k-l+ 
          1 
          ; 
         
          if 
          (o <  
          0 
          ) 
          return 
          false 
          ; 
         
          for 
          ( 
          int 
          i =  
          0 
          ; i < l; i++)  
          if 
          (b[o+i] != s.charAt(i))  
          return 
          false 
          ; 
         
          j = k-l; 
         
          return 
          true 
          ; 
         
          } 
         
          // setto(s) 设置 (j+1),...k 到s字符串上的字符, 并且调整k值 
         
          private 
          final 
           void 
           setto(String s) 
         
          {  
          int 
          l = s.length(); 
         
          int 
          o = j+ 
          1 
          ; 
         
          for 
          ( 
          int 
          i =  
          0 
          ; i < l; i++) b[o+i] = s.charAt(i); 
         
          k = j+l; 
         
          } 
         
          private 
          final 
           void 
           r(String s) {  
          if 
          (m() >  
          0 
          ) setto(s); }

接下来，就是分六步来进行处理的过程。

第一步，处理复数，以及ed和ing结束的单词。

 
     ? 
    
          /* step1() 处理复数，ed或者ing结束的单词。比如： 
         
          caresses  ->  caress 
         
          ponies    ->  poni 
         
          ties      ->  ti 
         
          caress    ->  caress 
         
          cats      ->  cat 
         
          feed      ->  feed 
         
          agreed    ->  agree 
         
          disabled  ->  disable 
         
          matting   ->  mat 
         
          mating    ->  mate 
         
          meeting   ->  meet 
         
          milling   ->  mill 
         
          messing   ->  mess 
         
          meetings  ->  meet 
         
          */ 
         
          private 
          final 
           void 
           step1() 
         
          {  
          if 
          (b[k] ==  
          's' 
          ) 
         
          {  
          if 
          (ends( 
          "sses" 
          )) k -=  
          2 
          ; 
          //以“sses结尾” 
         
          else 
          if 
           (ends( 
          "ies" 
          )) setto( 
          "i" 
          ); 
          //以ies结尾，置为i 
         
          else 
          if 
           (b[k- 
          1 
          ] !=  
          's' 
          ) k--;  
          //两个s结尾不处理 
         
          } 
         
          if 
          (ends( 
          "eed" 
          )) {  
          if 
          (m() >  
          0 
          ) k--; }  
          //以“eed”结尾，当m>0时，左移一位 
         
          else 
          if 
           ((ends( 
          "ed" 
          ) || ends( 
          "ing" 
          )) && vowelinstem()) 
         
          {  k = j; 
         
          if 
          (ends( 
          "at" 
          )) setto( 
          "ate" 
          ); 
          else 
         
          if 
          (ends( 
          "bl" 
          )) setto( 
          "ble" 
          ); 
          else 
         
          if 
          (ends( 
          "iz" 
          )) setto( 
          "ize" 
          ); 
          else 
         
          if 
          (doublec(k)) 
          //如果有两个相同辅音 
         
          {  k--; 
         
          {  
          int 
          ch = b[k]; 
         
          if 
          (ch ==  
          'l' 
          || ch ==  
          's' 
          || ch ==  
          'z' 
          ) k++; 
         
          } 
         
          } 
         
          else 
          if 
           (m() ==  
          1 
          && cvc(k)) setto( 
          "e" 
          ); 
         
          } 
         
          }

第二步，如果单词中包含元音，并且以y结尾，将y改为i。代码很简单：

 
     ? 
    
          private 
          final 
           void 
           step2() {  
          if 
          (ends( 
          "y" 
          ) && vowelinstem()) b[k] =  
          'i' 
          ; }

第三步，将双后缀的单词映射为单后缀。

 
     ? 
    
 
      
        
        
          /* step3() 将双后缀的单词映射为单后缀。 所以 -ization ( = -ize 加上 
         
 
              
          -ation) 被映射到 -ize 等等。 注意在去除后缀之前必须确保 
         
 
              
          m() > 0. */ 
         
 
          private 
          final 
           void 
           step3() {  
          if 
          (k ==  
          0 
          ) 
          return 
          ;  
          switch 
          (b[k- 
          1 
          ]) 
         
 
          { 
         
 
               
          case 
          'a' 
          : 
          if 
          (ends( 
          "ational" 
          )) { r( 
          "ate" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "tional" 
          )) { r( 
          "tion" 
          ); 
          break 
          ; } 
         
 
                         
          break 
          ; 
         
 
               
          case 
          'c' 
          : 
          if 
          (ends( 
          "enci" 
          )) { r( 
          "ence" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "anci" 
          )) { r( 
          "ance" 
          ); 
          break 
          ; } 
         
 
                         
          break 
          ; 
         
 
               
          case 
          'e' 
          : 
          if 
          (ends( 
          "izer" 
          )) { r( 
          "ize" 
          ); 
          break 
          ; } 
         
 
                         
          break 
          ; 
         
 
               
          case 
          'l' 
          : 
          if 
          (ends( 
          "bli" 
          )) { r( 
          "ble" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "alli" 
          )) { r( 
          "al" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "entli" 
          )) { r( 
          "ent" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "eli" 
          )) { r( 
          "e" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "ousli" 
          )) { r( 
          "ous" 
          ); 
          break 
          ; } 
         
 
                         
          break 
          ; 
         
 
               
          case 
          'o' 
          : 
          if 
          (ends( 
          "ization" 
          )) { r( 
          "ize" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "ation" 
          )) { r( 
          "ate" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "ator" 
          )) { r( 
          "ate" 
          ); 
          break 
          ; } 
         
 
                         
          break 
          ; 
         
 
               
          case 
          's' 
          : 
          if 
          (ends( 
          "alism" 
          )) { r( 
          "al" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "iveness" 
          )) { r( 
          "ive" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "fulness" 
          )) { r( 
          "ful" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "ousness" 
          )) { r( 
          "ous" 
          ); 
          break 
          ; } 
         
 
                         
          break 
          ; 
         
 
               
          case 
          't' 
          : 
          if 
          (ends( 
          "aliti" 
          )) { r( 
          "al" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "iviti" 
          )) { r( 
          "ive" 
          ); 
          break 
          ; } 
         
 
                         
          if 
          (ends( 
          "biliti" 
          )) { r( 
          "ble" 
          ); 
          break 
          ; } 
         
 
                         
          break 
          ; 
         
 
               
          case 
          'g' 
          : 
          if 
          (ends( 
          "logi" 
          )) { r( 
          "log" 
          ); 
          break 
          ; } 
         
 
          } } 
         
 
      
 
    

第四步，处理-ic-，-full，-ness等等后缀。和步骤3有着类似的处理。

第五步，在vcvc情形下，去除-ant，-ence等后缀。

你可能感兴趣的:(算法)

【数组模拟邻接表】奋斗的阿庆 c++算法图论深度优先
前言在做图论算法题的过程中，总会遇到用数组来模拟邻接表进而表示图。之前一直没弄明白在用数组模拟邻接表相关的细节。如今明白了，记录一下。帮助不理解的小伙伴。一、所用变量constintN=1010;//表示点的个数constintM=10100;//表示边的条数inth[N];//h[i]表示以当前点i为起点所相连的第一条边的序号inte[2*M];//e[i]表示第i条边所对应的终点intne[2
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
补偿算法之相位补偿算法傻童:CPU Qt 自动控制理论算法 android
补偿算法之相位补偿算法相位补偿算法：在一些控制系统中，系统的相位裕度可能不足，导致系统稳定性变差。相位补偿算法通过增加或减少特定频率下的相角来调整系统的相位特性。例如，在电机调速系统中，为了提高系统在高速运行时的稳定性，可能会采用相位超前补偿算法，通过在控制回路中添加适当的滤波器或控制器结构，使系统在高频段的相位提前，从而增加相位裕度，防止系统出现振荡或失稳现象。相位补偿算法的核心目标是对信号或系
代码随想录算法训练营第三十五天（20250303） |01背包问题二维，01背包问题一维，416. 分割等和子集 -[补卡20250316] ZXZ_13 算法
01背包问题二维链接遍历物品没有大小顺序要求重点是模拟，推导出递推公式#include#includeintmain(){intm,n;std::cin>>m>>n;std::vectorweight(m,0),value(m,0);for(inti{0};i>weight[i];}for(inti{0};i>value[i];}std::vector>dp(m,std::vector(n+1,0
32.代码随想录算法训练营第三十二天|509. 斐波那契数,70. 爬楼梯，746. 使用最小花费爬楼梯白鹭鸣鸣！算法 java dp
32.代码随想录算法训练营第三十二天|509.斐波那契数,70.爬楼梯，746.使用最小花费爬楼梯DP数组的定义以及下标的含义递推公式动态规划的初始化是很重要的遍历顺序打印数组509.斐波那契数-力扣（LeetCode）斐波那契数（通常用F(n)表示）形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
gralloc usage flags Damon_X gralloc
下面这些示例主要说明了grallocusageflags在图像处理和多媒体应用中如何影响性能和正确性。让我们逐个详细分析每个问题的根因和修复方案，并深入解析gralloc标志对缓存管理和数据流的影响。✅Example1:长曝光快照耗时异常问题描述症状：长曝光快照（longexposuresnapshot）在某些内存优化后，拍摄时间异常变长。根因：第三方算法在多个快照帧上执行，耗时约1.2秒。Buf
基于知识图谱的个性化智能教学推荐系统(文档+源码) 「已注销」 python 知识图谱人工智能 python pygame pyqt dash
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
JVM垃圾回收器详解高锰酸钾_ jvm 测试工具 java
JVM垃圾回收器详解年轻代与老年代我们知道在分代GC算法中，将我们的堆内存分为了年轻代与老年代，那为什么要将内存分为年轻代和老年代呢？可以通过调整年轻代和老年代的比例来适应不同类型的应用程序，提高内存的利用率和性能.新生代和老年代使用不同的垃圾回收算法，新生代一般选择复制算法，老年代可以选择标记-清除和标记-整理算法，由程序员来选择灵活度较高。分代的设计中允许只回收新生代(minorgc)，如果能
自动驾驶AVM环视算法--鱼眼相机的畸变矫正原理和实测（图片和视频测试）金书世界手撸AVM全景代码数码相机
参考：金书世界测试工程和视频：链接：https://pan.baidu.com/s/11GNLuIxcONGCeobp0MbXFQ?pwd=0z6l提取码：0z6l1、平面相机的成像和坐标系如下所示说明1、f（ud，vd）就是以图像中心为原点坐标(和p(x，y)坐标相对，就是坐表原点不同)。2、p（x，y）就是在图像坐标系下的坐标点，坐标点的为图像的左上角点，这个和世界图像的保存数据的坐标一直。3
华为OD机试九日集训第2期 - 按算法分类，由易到难，循序渐进，提升编程能力和解题技巧，从而提高机试通过率哪吒搬砖工逆袭Java架构师华为od 算法九日集训 Java
目录一、适合人群二、本期训练时间三、如何参加四、数据结构与算法大纲五、华为OD九日集训第1期第1天、逻辑分析第2天、队列第3天、双指针第4天栈第5天滑动窗口第6天、二叉树第7天、并查集第8天、矩阵第9天、贪心算法六、国内直接使用满血ChatGPT4o、o1、o3-mini-high、Claude3.7Sonnet、满血DeepSeekR11、纯原版ChatGPT、Claude2、技术支持3、支持所
芒格的“思维格栅“：构建全面的投资分析框架 AGI大模型与大数据研究院 DeepSeek ai
芒格的"思维格栅"：构建全面的投资分析框架关键词：芒格、思维格栅、投资分析框架、跨学科思维、投资决策摘要：本文深入探讨了芒格的“思维格栅”理论及其在构建全面投资分析框架中的应用。首先介绍了“思维格栅”理论的背景和重要性，接着阐述了其核心概念与联系，包括跨学科思维的原理和架构。通过详细讲解核心算法原理和具体操作步骤，结合数学模型和公式进行举例说明，帮助读者理解如何运用这一理论进行投资分析。随后通过项
算力技术演进与多场景融合路径智能计算研究中心其他
内容概要算力技术的演进正经历从异构计算到量子计算的范式跃迁。当前技术图谱中，芯片制程突破与架构创新持续推动算力密度提升，如5nm以下先进工艺与存算一体设计显著增强运算单元效率。与此同时，模型压缩、数据预处理等算法优化手段使单位算力产出提高30%以上。典型应用场景中，工业互联网通过自适应计算实现毫秒级实时控制，医疗影像领域借助分布式计算完成TB级数据处理，而智能安防系统依托边缘计算降低端到端时延至5
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
联邦学习算法安全优化与可解释性研究智能计算研究中心其他
内容概要本研究围绕联邦学习算法的安全性优化与模型可解释性增强展开系统性探索。首先，针对联邦学习中数据隐私泄露与模型性能损耗的固有矛盾，提出一种融合差分隐私与动态权重聚合的协同优化框架，通过分层加密机制降低敏感信息暴露风险。其次，引入可解释性算法（如LIME与SHAP）构建透明化决策路径，结合注意力机制实现特征贡献度的可视化映射，有效提升模型在医疗影像异常检测与金融欺诈识别场景中的可信度。此外，研究
算力融合创新与多场景应用生态构建智能计算研究中心其他
内容概要算力作为数字经济的核心驱动力，正经历从单一计算范式向融合架构的跨越式演进。随着异构计算、光子计算等底层技术的突破，算力资源逐步形成跨架构协同、多模态联动的智能供给体系，支撑工业互联网、医疗影像、智能安防等场景实现效率跃升。与此同时，量子计算与神经形态计算的前沿探索，正在重塑科学计算与实时决策的技术边界。建议行业关注算力可扩展性与安全标准的协同设计，通过动态调度算法与分布式架构优化，构建弹性
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
C语言的回溯算法苏墨瀚包罗万象 golang 开发语言后端
C语言中的回溯算法引言回溯算法（Backtracking）是一种通过搜索所有可能的候选解，找到符合条件的解的算法。它常用于解决一些组合问题、约束满足问题和优化问题。回溯算法的核心思想是通过尝试并逐步构建解的过程，在发现某个解不能继续时，从当前解的最后一个决策点“回溯”到之前的状态，进行其他可能性的探索。在这篇文章中，我们将探讨回溯算法的基本思想、基本框架及其在C语言中的具体实现，应用实例等。回溯算
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
区块链Blockchain weixin_33827590 区块链密码学数据结构与算法
区块链Blockchain区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。狭义来讲，区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构，并以密码学方式保证的不可篡改和不可伪造的分布式账本。广义来讲，区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来
怎样用Java实现快速排序与找到数组中第k小的值？上官美丽 java 算法排序算法
大家好，今天我们来聊聊在Java中如何实现快速排序算法，以及如何利用这个排序算法来找到一个数组中的第k小的值。这两个主题在算法和数据结构的学习中都非常重要，理解这些内容对编写高效程序有很大的帮助！快速排序（QuickSort）是一种非常流行的排序算法，因为它在平均情况下表现得非常迅速。它的基本思路是通过一个“基准”值将数组分为两部分，然后递归对这两部分进行排序。听起来简单吧！接下来，我们深入了解一
一种基于swagger 2.0 yaml文件的接口异常用例生成算法，单因子变量法 xiyubaby.17 java 测试用例
详细解决方案一、设计思路基于Swagger2.0的YAML定义，为每个参数生成两类测试用例：正常用例：所有参数均符合约束。异常用例：仅一个参数违反约束，其他参数正常，且每个参数需覆盖所有可能的异常场景。二、实现步骤解析Swagger文件使用SnakeYAML解析YAML，提取参数定义（类型、约束、是否必填等）。生成正常值根据参数类型和约束生成合法值。生成异常值针对每个参数的所有约束，生成违反每个约
【算法设计-链栈和链队列】链栈和链队列的实现 baimeng5720 算法设计
1.链队列。利用带有头结点的单链表来实现链队列,插入和删除的复杂度都为o(1)代码：#include#includetypedefstructQnode{intdata;Qnode*next;}Qnode;typedefstructLinkQueue{Qnode*front;Qnode*rear;}LinkQueue;voidinitialize(LinkQueue*LinkQueue){Link
分布式系统中的负载均衡樽酒ﻬق 架构设计负载均衡网络运维
目录分布式系统中的负载均衡引言1.什么是负载均衡？1.1负载均衡的目标2.负载均衡的类型2.1网络负载均衡（NetworkLoadBalancing）2.2应用负载均衡（ApplicationLoadBalancing）2.3全局负载均衡（GlobalLoadBalancing）2.4计算负载均衡（ComputeLoadBalancing）3.负载均衡算法3.1轮询（RoundRobin）3.2加
数据结构与算法——栈和队列深度学习&目标检测实战项目算法数据结构 java 开发语言
目录第三章：栈和队列第一节：栈（Stack）1.1：栈的基本运算：1.2：栈的存储结构和基本运算第二节：队列2.1：定义及基本运算2.2：队列的存储结构和基本运算本章小结：第三章：栈和队列第一节：栈（Stack）是限制在表一端进行插入和删除操作的线性表。允许进行插入、删除操作的这一端称为栈顶（Top），另一个固定端称为栈底。例如栈中有三个元素，近栈的顺序是a1、a2、a3，当需要出栈时顺序为a3,
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
《算法笔记》9.2小节——数据结构专题(2)-＞二叉树的遍历问题 A: 复原二叉树（同问题 C: 二叉树遍历）圣保罗的大教堂《算法笔记》算法
题目描述小明在做数据结构的作业，其中一题是给你一棵二叉树的前序遍历和中序遍历结果，要求你写出这棵二叉树的后序遍历结果。输入输入包含多组测试数据。每组输入包含两个字符串，分别表示二叉树的前序遍历和中序遍历结果。每个字符串由不重复的大写字母组成。输出对于每组输入，输出对应的二叉树的后续遍历结果。样例输入DBACEGFABCDEFGBCADCBAD样例输出ACBFGEDCDAB分析：不建树直接找的方法。
贪心算法：将数组和减半的最少操作次数神里流~霜灭贪心算法精讲贪心算法算法数据结构 c语言 c++动态规划
题目描述：给你一个正整数数组nums。每一次操作中，你可以从nums中选择任意一个数并将它减小到恰好一半。（注意，在后续操作中你可以对减半过的数继续执行操作）请你返回将nums数组和至少减少一半的最少操作数。示例1：输入：nums=[5,19,8,1]输出：3解释：初始nums的和为5+19+8+1=33。以下是将数组和减少至少一半的一种方法：选择数字19并减小为9.5。选择数字9.5并减小为4.
【leetcode hot 100 46】全排列 longii11 leetcode 算法数据结构
解法一：回溯法回溯法：一种通过探索所有可能的候选解来找出所有的解的算法。如果候选解被确认不是一个解（或者至少不是最后一个解），回溯算法会通过在上一步进行一些变化抛弃该解，即回溯并且再次尝试。用回溯算法来解决，遍历数组的每一个元素，然后尝试生成所有的排列，当生成一个完整的排列时，记录该排列，并退回到上一步，然后继续生成新的排列。就比如说“123”，我们可以先固定1，然后递归处理“23”。把“123”
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。