简单的查重系统-基于文本相似度对申报项目进行查重设计

https://www.cnblogs.com/baiboy/p/check.html#_label4

背景:科技相关工作者通过计划项目管理平台进行项目申报,这个过程中存在涉嫌造假,修改本人以往项目等一系列违规操作。为了遏制这种现象,开发一款智能的项目查重系统必然不能或缺。

需求:低版本主要控制申报项目的标题和简介查重问题,实现对相似度较高的项目进行查重。用户提交申报项目后,自动审查是否存在违规行为。

解决:1 从服务器中导出今年真实的申报项目作为训练集(目前采用真实项目2400多个),通过对训练数据集的一系列数据清洗,然后进行语料库构建工作。2 采用文本相似度原理对测试文本进行建模,最后通过文本相似算法的实现,完成查重系统。3 PHP调用python查重文件,实现操作。

问题:1 真实语料规模有所限制,伴随语料扩大效果更好。2 文本相似度多种算法比较,包括:欧几里德距离、余弦定理、皮尔逊相关度、曼哈顿距离、Jaccard系数、gensim相似度等,改进版采用合适的相似度算法。3 对同义词、近义词、稀有词、核心词等权重问题的改进 4 后续改进针对整篇文章和主题识别

你可能感兴趣的:(机器学习相关,项目系统)