余弦方法计算相似度算法实现

(1)余弦相似性

          通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。所以,它通常用于文件比较。

          详见百科介绍(点击打开链接)

(2)算法实现的中未使用权重(IDF ---逆文档频率),使用词项的出现次数作为向量空间的值。

 

import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;

public class SimilarDegreeByCos
{
	/*
	 * 计算两个字符串(英文字符)的相似度,简单的余弦计算,未添权重
	 */
     public static double getSimilarDegree(String str1, String str2)
     {
    	//创建向量空间模型,使用map实现,主键为词项,值为长度为2的数组,存放着对应词项在字符串中的出现次数
    	 Map vectorSpace = new HashMap();
    	 int[] itemCountArray = null;//为了避免频繁产生局部变量,所以将itemCountArray声明在此
    	 
    	 //以空格为分隔符,分解字符串
    	 String strArray[] = str1.split(" ");
    	 for(int i=0; i



你可能感兴趣的:(算法设计)