数据检索---空间向量模型VSM

向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。

VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
M个无序特征项ti,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较1)Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积.2)内积计算,直接计算内积,计算强度低,但是误差大。
向量空间模型 (或词组向量模型) 是一个应用于信息过滤,信息撷取,索引 以及评估相关性的代数模型。SMART是首个使用这个模型的信息检索系统。
文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。
搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。
实际上,计算夹角向量之间的余弦比直接计算夹角容易:
余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。
通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。

这里举一个简单的例子,说明VSM的作用:

   /** 
     * 计算比对文章和样本的余弦值 
     *  
     * @param content 
     * @param samples 
     */  
    public void samilarity(String content, Vector> samples) {  
        for (int i = 0; i < samples.size(); i++) {  
            Vector single = samples.get(i);  
            // 存放每个样本中的词语,在该对比文本中出现的次数  
            Vector wordCount = new Vector();  
            for (int j = 0; j < single.size(); j++) {  
                String word = single.get(j);  
                int count = getCharInStringCount(content, word);  
                wordCount.add(j, count);  
                //System.out.print(word + ":" + tfidf + ",");  
            }  
            //System.out.println("\n");  
            // 计算余弦值  
            int sampleLength = 0;  
            int textLength = 0;  
            int totalLength = 0;  
            for (int j = 0; j < single.size(); j++) {  
                // 样本中向量值都是1  
                sampleLength += 1;  
                textLength += wordCount.get(j) * wordCount.get(j);  
                totalLength += 1 * wordCount.get(j);  
            }  
            // 开方计算  
            double value = 0.00;  
            if(sampleLength > 0 && textLength > 0){  
                value = (double)totalLength/(Math.sqrt(sampleLength) * Math.sqrt(textLength));  
            }  
              
            System.out.println(single.get(0) + "," + sampleLength + ","  
                    + textLength + "," + totalLength + "," + value);  
  
        }  
    }  
  
    /** 
     * 计算word在content中出现的次数 
     *  
     * @param content 
     * @param word 
     * @return 
     */  
    public int getCharInStringCount(String content, String word) {  
        String str = content.replaceAll(word, "");  
        return (content.length() - str.length()) / word.length();  
  
    }  
  
    /** 
     * 加载样本 
     *  
     * @param path 
     * @return 
     */  
    public Vector> loadSample(String path) {  
        Vector> vector = new Vector>();  
        try {  
            try {  
                FileReader reader = new FileReader(new File(path));  
                BufferedReader bufferReader = new BufferedReader(reader);  
                String hasRead = "";  
                while ((hasRead = bufferReader.readLine()) != null) {  
                    String info[] = hasRead.split(",");  
                    Vector single = new Vector();  
                    for (int i = 0; i < info.length; i++) {  
                        single.add(info[i]);  
                    }  
                    vector.add(single);  
                }  
            } catch (FileNotFoundException e) {  
                e.printStackTrace();  
            }  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
        return vector;  
    }  
  
    /** 
     * 读取对应path的文件内容 
     *  
     * @param path 
     * @return 
     */  
    public String getContent(String path) {  
        StringBuffer buffer = new StringBuffer();  
        try {  
            try {  
                FileReader reader = new FileReader(new File(path));  
                BufferedReader bufferReader = new BufferedReader(reader);  
                String hasRead = "";  
                while ((hasRead = bufferReader.readLine()) != null) {  
                    buffer.append(hasRead);  
                }  
            } catch (FileNotFoundException e) {  
                e.printStackTrace();  
            }  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
        return buffer.toString();  
    }  
  




你可能感兴趣的:(数据检索)