大数据过滤

大数据过滤

灵玖软件:www.lingjoin.com

软件下载:http://vdisk.weibo.com/s/xYka8

 

系统简介:


大数据体量巨大,数据类型繁多,价值密度低,要求处理速度快,业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。因此,大数据过滤需要快速高效地过滤出有价值的知识与情报,需要达到的性能要求包括:海量处理规模、多字段过滤、智能筛选、高效过滤。灵玖IFCA系统是灵玖中科软件(北京)有限公司自主研发的大数据信息智能过滤与内容审计系统,可以快速便捷地匹配大量自定义的关键字、词,智能过滤违法国家法律法规以及侵犯用户权益的内容,达到净化网络空间、提取情报的目的,确保国家、社会与个人的信息内容安全。


IFCA系统充分融合了灵玖软件在自然语言理解、信息检索等方面多年的技术积累,具有智能、高效、自学习三大特点:


智能主要体现在专家启发式知识与机器学习的有机融合;


高效体现在本系统在保证准确率的情况下,可以单机每秒处理10MB的文本数据;


自学习是指通过机器学习,自动抽取新的语言知识,以适应新的网络语言变化,做到因时而变。


IFCA系统可应用于公安、广播、电视、报刊杂志以及广泛的网络信息内容安全服务。并可在IFCA基础上,提供进一步的数据信息监控等解决方案。


主要功能


关键字、词智能高速匹配:


输入关键字、词,自动匹配,计算出该有关该字词的相关信息;用户定义的关键词数目不限,可以并发支持百万级别的关键词;


丰富的智能逻辑关系运输:


支持关键字、词复杂匹配,包括常用的与、或、非,同时支持“NEAR“临近关系的复杂算法;


按照用户自定义的类别体系分类整理过滤出的信息内容:


用户可以根据自身业务的特点,自定义内容过滤体系,IFCA系统将按照用户自定义的类别输出;


样本机器学习:


在没有关键词的时候,机器通过自动学习技能,同样能够达到对信息文本的相似类划分。



应用案例


灵玖IFCA系统已经广泛的运用于各大公司和机构。


下面是IFCA为国家广电总局进行负面信息过滤的部分案例。


案例一:A片的信息过滤


下图分别给出了简单关键词匹配方法与IFCA智能过滤方法的对比结果图:


A片:


大数据过滤



1:简单关键词匹配方法的结果准确率不到10%

 

大数据过滤




2:灵玖IFCA系统处理后的结果


技术特点


1.精准的切词


使用先进的灵玖LJWS切词技术,准确高效的对句子切分,避免了歧义的产生;


2.
快速高效:


IFCA系统单线程每秒可处理10MB的文本数据。;


3.准确率高:


根据100万条数据的实际测试,准确率高达99.97%


4.支持微博客、短信等短文本内容过滤:


支持微博客、短信等内容短小而又不规范的内容过滤。


5.智能学习功能:


IFCA系统的所有的知识库是通过机器学习,自动抽取新的语言知识,以适应新的网络语言变化,做到因时而变


6.技术先进:


IFCA系统综合运用了自然语言理解技术、信息检索技术、模糊匹配与机器学习技术,技术含量高。

 

你可能感兴趣的:(大数据过滤,数据过滤,数据分析过滤)