Web挖掘技术可实现应用目标

一、未来物流市场上的货物流向。

二、确定有价值的客户,得到相似客户群体,单个客户的消费习惯,潜在的消费趋向,从而针对不同的客户群体或个体制定出对应的服务方式同时也为商家调整网站的拓扑结构优化网站资源的配置提供了依据。

三、基于使用挖掘的个性化服务推送。

四、数据挖掘在指挥控制系统中有很多用武之地。用基于知识发现的模糊专家系统、遗传算法来完成部队的兵力区分、 战术编组、战斗队形配置等辅助决策。用关联算法、统计决策理论和基于知识发现的模糊专家系统等技术确定敌人的主攻方向确定目标的重要程度和打击顺序进而进行威胁分析。运用决策树方法人工神经网络方法及可视化技术进行目标火力分配。运用基于知识发现的模糊专家系统技术辅助生成作战方案。运用神经网络和遗传算法的多属性决策技术结合情报分析技术、决策树方法、可视化技术形成有效的辅助决策方案。数据挖掘还可以进行战场环境分析。利用空间聚类分析、空间关联分析、缓冲区分析、地理信息系统可视化技术等数据挖掘手段可进行战场地形分析。还可利用信息可视化技术实现战场态势显示给指挥员提供清晰、逼真的战场态势显示环境。

五、知识发现:数据分类、数据聚类、衰退和预报、关联和相关性、顺序发现、描述和辨别、时间序列分析。

六、比较文本挖掘包括以下任务:①发现所有文本集的共同主题;②对每一个发现的主题,刻画出哪些主题是所有文本集共有的,哪些主题是每个文本集特有的。CTM是探索性文本分析的基本任务,除了进行看法比较和摘要之外,它还有其他一些应用,如商业智能(对不同的公司进行比较)、客户关系管理(比较不同的用户组)和文本的语义组合(比较组合文本集)

七、将地理信息数据集成到政务信息数据仓库系统中,构建起具有空间分析能力的政务智能系统无疑是GI 发展的必然途径。

八、只要有原始数据,它就能迅速整理出人物、地点和事件三者之间的联系。数据挖掘软件梳理出的人物关系网可能非常有价值,因为它分析出所有参与其中的人物之间的关系,能够提供新的线索。

九、网络信息挖掘在情报信息中的应用使得我们在信息搜集、情报分析方面掌握了得力工具,得情报者得天下。我们所需要的情报系统是从海量的信息中抽取的极微舆情,是能够分析整个互联网信息,从中发现社会热点敏感信息及网上动态的情报分析系统。该系统的应用在于采集和发现互联网上相关信息,挖掘这类信息并对信息深加工后成为有用的情报等,并使用海量数据挖掘功能,寻找事件线索。利用综合数据库中存储的海量数据,实现互联网日志查询、海量信息检索和海量信息分析挖掘;通过建立正确的网上情报信息分析决策体系和决策支持模型,提高网上情报信的发现、研判能力,从而及时、有针对性地制定出有利于形势发展的策略,为领导部门的决策提供科学依据。根据网络用户点击的频率状况,从海量数据中分析社会热点敏感信息,掌握所控对象网上动态,针对所控对象的网上行为进行智能的持续跟踪,对所控事件进行分析追踪,从而找出关联的人物及线索,对查清事件提供帮助。并根据线索对所控对象的网络行为进行分析,找出其网上活动规律,做出未来预测。

十、知识获取及学习模块是通过各种可行的方式获取人类已掌握的各种知识或通过一种学习机制使其获得更多的新知识。这些知识包括:1 由原有的事实、关系推导出新的事实、规则,构成新的知识(库);2 通过向用户不断地询问而得到新的知识(新的事实、规则)3 通过知识采集及学习功能从书本、期刊或其它方面收集各种新知识 (即书面知识采集)或常识性知识;4 通过神经网络模型或其它学习机制从现有的系统中不断获取和产生新知识。

十一、       目前在军用作战电子战系统数据库中,存储了大量的关于威胁目标信息,包括敌我双方电子部队编制、人员配备、电子武器配备、敌电子战系统性能参数、敌电子战系统平台的性能、敌攻击武器的性能、参数,我方侦察配系、兵地要志、作战预案、态势图、气象水文等信息,这些数据库中所包含的目标信息量十分巨大。 关联分析就是一组或一个记录集合,通过分析记录集合,推导出目标的相关性,目的是为了挖掘出隐含在数据间的相互关系,对目标的身分进行属性识别。 利用分类法有利于电子战系统学习和记忆种类威胁目标,使之与自身系统保持长期的对抗与反对抗关系,并从中选出自身系统最有威胁的类目标进行自发性的处理。防空电子战系统为了记忆有威胁的类目标就必须对目标数据库中的目标参数进行学习,再利用模型进行自发性的处理,从而为整个系统在作战遇到类威胁目标时,系统更有效迅速的做出反应。 与分类分析不同,聚类分析通过无指导学习,按类相似性最大化、类间相似性最小化的原则,自动对数据分类。聚类分析的输入集是一组没有进行任何分类的数据记录,其目的是根据一定的规则,采取显式或隐式的方法描述不同的类型。在许多情况下,对电子战系统的攻击具有相当大的类似性,因而形成了具有共性目标,经过聚类分析,发现它们的共性,掌握攻击方式,提供针对性的措施,进而指导整个系统进行防护和反对抗行动。这样既可以提高对威胁目标的抗击满意度,又可以降低电子战系统的作战消耗成本。 利用数据挖掘技术,对抗击敌方攻击的风险因素如:攻击强度、攻击频率、威胁目标性能水平、历史成功率等进行相关性分析,找出影响抗击成功率的关键性因素,再根据敌方目标攻击的方式的选择而做出具体的应对措施,这样可以降低系统自身生存风险。同时,利用数据挖掘技术中的聚类分析和偏差分析对攻击目标所采用的干扰行为和欺骗行为做出有效的辨别并做出相关结论。如利用聚类分析法对反辐射导弹的过程中,综合电子战系统就可以得到是什么型号的导弹,采用了什么样的攻击方式,就可以监测出该导弹对电子战系统所采用的各种压制和欺骗干扰,可以从中辨别出真实目标。数据挖掘技术提高了防空电子战系统生存能力和抗击敌威胁目标的能力。最大限度的降低了被击毁风险。

十二、       因此,目前高校信息网络对于文本挖掘的需求非常强烈,文本挖掘技术应用前景广阔。信息融合技术应用于检索系统,通过对信息的取舍和集合划分,可以合理地组织查询结果,减少不必要的信息冗余,同时又能使各种来源的信息连接为一个有机的整体,使用户获得完整、准确、及时有效而且简洁明了的信息;可以避免数据富有、信息贫乏情况的出现,从而大大加快数字化的建设进程,缩短与世界先进技术水平的差距。在高校信息网络领域,利用文本挖掘与信息融合技术,设计出满足于不同客户群体需要的个性化网站,教师可以有针对性的制定教学策略,做到因材施教。学生可通过智能搜索引擎找出了大量与自己感兴趣的问题相关的网页; 通过使用文本挖掘系统针对某一十分感兴趣的主题进行更为详细的分类和聚类,促进学生学习的积极性。

十三、       网络信息挖掘技术的应用,使互联网能够根据用户的需求采取更主动、更有针对性的服务。网络信息挖掘在情报信息中的应用使得我们在信息搜集、情报分析方面掌握的得力工具,得情报者得天下。我们所需要的情报系统是从海量的信息中抽取的极微舆情,是能够分析整个互联网信息,从中发现的社会热点敏感信息及网上动态的情报分析系统。该系统的应用在于采集和发现互联网上相关信息,挖掘这类信息并对信息深加工后成为有用的情报等,并使用海量数据挖掘功能,寻找事件线索。利用综合数据库中存储的海量数据,实现互联网日志查询、海量信息检索和海量信息分析挖掘;通过建立正确的网上情报信息分析决策体系和决策支持模型,提高网上情报信息的发现、研判能力,从而及时、有针对性地制定出有利于形势发展的策略,为领导部门的决策提供科学依据。根据网络用户点击的频率状况,从海量数据中分析社会热点敏感信息,掌握所控对象网上动态,针对所控对象的网上行为进行智能的持续跟踪,对所控事件进行分析追踪,从而找出关联的人物及线索,对查清事件提供帮助。并根据线索对所控对象的网络行为进行分析,找出其网上活动规律,做出未来预测。

十四、       在企业竞争情报工作中有两个重要方面就是获取竞争对手和客户的信息。随着互联网在企业中应用的不断深入从网上可挖掘的企业信息越来越多涉及的内容也越来越广泛。从网络信息挖掘技术的实现流程来看网络信息挖掘不仅能够从大量的数据中发现信息而且它还能够发现权威站点、有重要价值的“隐藏”信息并且能够监视和预测用户的访问习惯这对于企业开展竞争情报工作是非常重要的。通过浏览分析权威站点企业可以了解本行业的最新动态信息以及一些著名的大型企业的发展动态;同时通过分析站点链接可获得零售商、中间商、合作商及竞争对手的信息。

十五、       1) 挖掘竞争者网站可以获得公司的相关统计数据,通过分析这些数据可以获知公司目前的处境。标准会计报告和报表比如财政概要、利润率(销售回报率、资产回报率和净资产回报率、负债率和现金流量都能帮助我们了解竞争对手的技术前景。2) 挖掘竞争者网站可以了解竞争对手对自身的评价以及他们在特殊的处境下所做出的反应。你只需看看一个公司的组织结构、所有制结构以及关键部门的经理你就会对它的状况有一个大致的了解再结合它的组织目标、与市场的沟通程度、公司政策和战略等情报你就会了解该公司的个性。这是非常有用的。 可以通过对研发、生产、市场、销售、分配和顾客服务这些情况的分析来发现公司是否具备竞争优势。3) 可以通过对公司的关键决策人物进行剖析以便预测公司的发展方向。比如说我们经常看到当新的首席执行官上任之后公司的企业文化就会发生变化这是显而易见的。           下面是一个你可能在竞争者网站上获得的信息的列表你将发现这些情报是多么的有用。1) 社区慈善活动。通过公司的慈善活动可以获得公司企业哲学的情报网站上可以实际列出公司支持的团体或组织。当进入竞争者已经进入的市场时要考虑这些因素以便有效地开展公共关系并且建立自己的社区关系。2)公司的历史。公司的历史对于评估一个企业的文化是非常有用的如果一个公司已经存在了10 年或者更长时间的话它的管理者可能十分清楚公司的奠基者在一定场合已经做的或说的话他们的决策会反映这些知识或遵循这些先例。如果你熟悉公司的历史你可以预测企业的行为。3) 公司的杂志。大部分公司会为股东或员工出版杂志或通讯公司在一定程度上认为它们是有用的公共关系或市场工具你可以在网站上发现它们。那些出版物可能包含一些工作现场的一些照片和设备、项目描述或其他有用的竞争情报。通常这些内容在编辑过程中是经过仔细过滤的因此显然你不会发现未来年公司的市场战略计划。但是你仍然会发现许多关于人、地点和事件方面的信息。4)企业哲学信仰。公司对一些形势的描述非常有助于你掌握公司的发展战略当你计划你公司的形势表述时这些信息也可能很有帮助。      网页监视是一项新的服务它能使用户跟踪网页当网页内容发生变化时用户会收到Email 通知。而且你能够准确地知道你所关注的网页哪里发生了变化,因为ChangeDetect 通过有色的编码清楚地标出了网页文本的变化。

十六、      

十七、      

十八、       (1) W eb 挖掘在竞争情报搜集和处理分析子系统中的应用。随着互联网在企业中应用的不断深入从网上可挖掘的企业信息越来越多涉及的内容也越来越广泛。利用W eb 挖掘技术中的关联、序列、聚类、分类等方法可以从大量完整、彼此关系不明确的敏感性信息中找出隐含的和事先未知的有用信息揭示数据内在的复杂性帮助情报人员进行深层次的分析获得更多、更有价值的竞争情报。①充分获取、开发和利用竞争对手和客户的信息。从W eb 挖掘技术的实现流程来看, W eb 挖掘不仅仅是像网络信息检索那样只是把符合查询要求的纪录返回给用户这样得到的结果集不仅数量庞大而且包括很多不相关信息。正如前面所提到的,W eb 挖掘不仅能够从WWW 的大量的数据中发现信息而且它还能发现权威站点、有重要价值的“隐藏”信息并且能够监视和预测用户的访问习惯、购买行为并能够发现顾客购买模式趋势。W eb 不仅由页面组成而且还包含了从一个页面指向另一个页面的超链接。当一个W eb 页面的作者建立指向另一个页面的指针时这可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来就可以用来反映该页面的重要性,并可以很自然地用于权威页面的发现。通过浏览权威网站企业可以了解本行业的最新动态信息了解一些著名的大型企业的发展动态。但是由于很少有W eb 页面会指向其竞争领域的权威页面例如可口可乐不会链接到其竞争对手百氏可乐的页面。基于这个问题人们又提出了另外一种重要的W eb 页面称为hub。一个hub 是指一个或多个W eb 页面,它提供了指向权威页面的链接集合。hub 页面本身可能并不突出或者说可能没有几个链接指向它们。但是hub页面却提供了指向就某个公共话题而言最为突出的站点链接。此类页面主要是主页上的推荐链接列表例如商业站点上的专业装配站点。通过分析这类站点信息企业可以获得零售商、中间商、合作商以及竞争对手的信息。利用hub 查找权威网页的算法是H ITS (Hyperlink- Induced Top icSearch)。②挖掘W eb 日志纪录来发现用户访问W eb 页面的模式。通过分析和探究W eb 日志纪录中的规律可以识别电子商务的潜在客户增强对最终用户的互联网信息服务的量和交付并改进W eb 服务器系统的性能。热点的W eb 站点每天可以记录下数以百兆字节的W eb 日志纪录, W eb日志纪录数据库提供了有关W eb 动态的丰富信息。基于U RL、时间、IP地址和W eb 页面内容信息可以在网络日志数据库上构造多维试图进行多维OLA P 分析用于找出头个用户个被访问页面最频繁访问时间期等等这有助于发现潜在客户、用户和市场等。挖掘W eb 日志访问纪录有助于聚类用户并将用户分门别类以便实现个性化的市场服务。(2) W eb 挖掘在反竞争情报子系统中的应用。反竞争情报子系统是企业竞争情报活动的重要组成部分忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在已有越来越多的企业建立了自己的W eb 站点企业上网已成为一股不可逆转的潮流。W eb 站点是企业与外界进行交流的窗口同时也是竞争对手获取竞争情报的一个重要信息源因此对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中可以充分利用W eb 挖掘技术,通过运用分析访问者的IP 地址、客户端所属域、信息访问路径等W eb 监控技术、统计敏感信息访问率等方法实现对竞争对手的防范以达到识别竞争对手保护企业敏感性信息的目的。

十九、       利用Web信息挖掘获取网络犯罪情报:来自网络的策反、情报诱饵、网络攻击、间谍网络。

二十、       数据挖掘与专利情报分析 基于数据挖掘技术的专利情报分析即以专利数据以及期刊文献为研究对象,将专利情报的技术内容集成化、数据化,然后进行加工和分析,识别有效的、新颖的、潜在有用的,以及最终可理解的知识的过程。用此方法处理专利情报,易于综合地把握大量专利信息。实际应用中,大量的应用数据挖掘技术的目的是搜集、分析特定技术或产品的专利情报,掌握该专利领域中不同公司的专利技术研究情况,并把每个单一的情报综合起来,然后采取统计分析、技术群组、文本挖掘、组合理论、专利地图等技术,对其进行情报分析,并以统计图谱、关联图谱和报告等形式展现出来。可以应用在军事科研情报的收集、整理、统计、可视化。(台湾省军事科技形势图).

二十一、              秘密攻击侦察秘密攻击侦察也称秘密网络侦察有的也称破网侦察或解网侦察是指通过秘密非法侵入、攻击侦察对象的计算机网络搜集所需的机密、核心情报的侦察。它利用对方计算机网络的安全防护漏洞通过猜测、破译口令和利用各种网络、节点伺机进入对方的计算机网络系统获取所需重要情报。秘密攻击侦察具有秘密、非法的特点获取的情报质量高、威胁大同时实施的难度也较大。秘密攻击侦察也包括利用“黑客”程序在网上冒充敌合法用户,秘密破译敌军数据库系统获取机密情报。

二十二、              在犯罪规律性的认识方面。由于数据挖掘技术运用一定的方法可以在数据库中自动发现某种模式,因此,通过对侦查情报资料数据库和违法犯罪信息数据库中数据的深入分析,可能发现意想不到的关于犯罪活动在人、事、物、时、空等方面的某些关联和规律性,如“首次作案与年龄分布的关系”、“不同地区同一时期某类案件的发案规律性”、“同一地区不同时期某类案件的发案规律性”以及“重复犯罪”等问题,并通过对这些关联和规律性的进一步认识,揭示出犯罪活动的原因和条件,从而为制定科学的侦查决策以及预防、控制和打击刑事犯罪活动提供依据。(在团伙犯罪案件和系列犯罪案件的串案分析和并案侦查方面。团伙犯罪案件以及由流窜犯罪和惯犯犯罪形成的系列案件,是当前刑事犯罪案件高发的特点之一,也是近年来重特大刑事案件增多的一个重要原因。不论是团伙犯罪还是系列犯罪案件,其共同特点就是作案动机、手段、特点、工具、痕迹、物证、人员纠合以及在作案对象和时机的选择等方面有相同或相似之处。传统的检索方式在案件的串联分析中取得了较好的效果,但在团伙犯罪和流窜犯罪等系列案件规律性的认识上却无能为力。通过数据挖掘技术能够解决这类深层次的数据分析问题,可以从更广泛的角度去研究和理解案件的串并联,从而达到搜集侦查线索的目的。(在恶性经济犯罪案件的侦查方面。由于数据库技术的广泛应用,在商业、金融、行政、税务、海关等领域已经形成了庞大的交易数据库,如银行交易数据库、证券交易数据库、海关报关数据库、纳税数据库等。一些非法交易诸如走私、诈骗、洗钱、偷税漏税等犯罪信息可能就存在于这些数据库当中。在此可以利用数据挖掘技术,采用多种数据分析工具,在浩如烟海的交易数据中查找出某些异常模式,如在某段时间内,通过某一组人发生的大量现金流动情况等,再结合违法犯罪信息进行分析研究,从而帮助侦查人员聚集可疑线索,确定侦查方向。

二十三、              网络信息发现与管理   通过对网页内容的挖掘,可以实现对网页内容的主题发现与跟踪,并进行聚类和分类,实现网络信息的分类浏览与检索;通过用户使用的提问式(Query)历史记录分析,可以有效地进行提问扩展,提高用户的检索效果(查全率、查准率);通过运用 Web挖掘技术改进关键词加权算法,可以提高网络信息的标引准确度,改善检索效果。

二十四、              在电子商务领域[16 ] ,网络信息挖掘可以提供不同用户的特定信息,有的放矢地传播网络广告,可以建立客户关系管理系统,极大地提升企业的竞争优势;在电子政务领域,通过对政务数据进行定性和定量分析,可为高层管理者提供决策参考;可以提高搜索引擎获取信息的准确性,并可以对用户搜索结果进行相关处理,可以提高查准率和查全率。目前,各种应用服务越来越多,电子邮件、BBS 等成为人们普遍采用的信息传播手段,网络信息的管理工作成为大家越来越关注的问题。

二十五、              军事方面的应用。使用数据挖掘技术进行军事信息系统中的目标特征提取、态势关联规则挖掘等。

二十六、              美国政府部门积极参与或正在筹划的数据挖掘项目为199个,其中14个项目明确用于抓捕恐怖分子和预防恐怖袭击。美国政府的数据挖掘项目分为两大类:一类是基于监控对象的系统。它能够帮助分析专家跟踪某个恐怖头目;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑行为。

二十七、              利用数据挖掘发现的知识类型    数据挖掘所能够发现的知识主要包括以下几种类型:(1)广义知识:根据数据的微观特性发现其表征的、带有普遍性的、较高层次的、中观和宏观的知识,反映同类事物的共同’}生质,是对数据的概括、精炼和抽象。其发现方法和实现技术有:数据立方体、面向属性的归约方法等。(2)关联知识:反映一个事件和其他事件之间相关联的知识,最为著名的关联规则发现方法是Apriori算法。识别或发现所有频繁项目集是关联规则发现算法的核心,计算量很大。(3)分类知识:反映同类事物共同性质的特征性知识和不同事物之间的差异性特征知识。最典型的分类方法是基于决策树的分类方法,从实例集中构造决策树,是一种有指导性的学习方法。(4)预测型知识:根据时间序列数据,由历史的和当前的数据去推测未来数据,是以时间为关键属性的关联知识。时间序列预侧方法有经典的统计方法、神经网络和机器学习等。(5)偏差型知识:是对差异和极端特例的描述,提示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。

二十八、              保证数据挖掘成功有以下关键因素.一是准确的定义你所要解决的问题最好的回报,二是使用正确的数据,你需要对数据做有效的数据整合和转换.定位准确的问题通常会带来,三是建立并发现好的模型.   

二十九、              针对当前作战仿真领域中存在的不能充分理解和使用想定的问题,根据作战仿真工程的需要,提出了一种利用数据挖掘技术帮助理解和使用想定数据的方案。对想定数据的挖掘是文本挖掘的具体应用,其基本过程包括建立语料库、增加词典库、确立特征匹配规则、设计分类学习算法、形式化描述挖掘结果等五个步骤,设计了想定挖掘的工作流程,确定了想定挖掘的基本目标,并根据挖掘过程的特点和技术需求探讨了想定挖掘面临的各项关键技术,对进一步实施想定挖掘的研究具有重要意义。数据挖掘在军事领域中的应用目前未见报道但美国国防部于2001月向国会提交了《网络中心战报告》网络中心系统就是利用通信系统和计算机系统组成的信息栅网,将分布在陆、海、空、天的各种侦察探测系统、指挥控制系统和打击武器系统有机结合,形成统一高效的作战体系。通过信息优势达成决策优势和行动优势实现战场态势高度共享部队协调自我同步作战行动近乎实战作战效能极大提高。网络中心战是联合作战在信息化战场的高级形态实现了传感系统、指挥控制系统和武器控制平台的无缝连接。网络信息战系统实现了战争中信息向作战能力的迅速转化同时也意味着实现战场上信息的迅速转化、防止信息的阻塞。指挥控制系统是网络中心战系统最关键的环节。来自传感系统的信息大量地流向指挥控制系统指挥控制系统的任务就是快速消化这些数据作出正确的决策并将决策传向武器控制平台对敌人实行快速有效的打击。在这个环节中快速处理信息避免信息的堵塞是非常重要的。然而现代战争中信息包括敌我双方武器装备、编制体制、作战理论、兵力部署、作战行动、火力运用等诸多因素,陆、海、空、天、电各方位每时每刻都有信息产生信息的数量成几何级数剧增而这些信息有的是冗余的有的完全无用。在这种情况下指挥员凭借自身的专业知识和作战经验,难以迅速、准确地获取有用的战场知识最终将影响作战决策的效果。为了不使指挥员被信息的汪洋大海所淹没,就需要使用能迅速发现信息中知识的工具数据挖掘就是能实现这一目标的行之有效的工具。如果能将数据挖掘技术应用于指挥控制系统就可为指挥员的决策分析提供智能化、自动化的辅助手段提高系统的智能化程度及决策的科学性和时效性。节省了时间就争取到了更多的主动权数据挖掘技术就会在指挥控制系统中大显身手。


转载自http://blog.csdn.net/tvetve/article/details/2155073

你可能感兴趣的:(数据挖掘,海量数据,数据挖掘)