转载;原文地址:https://gitbook.cn/gitchat/geekbook/5c67b4207fa9074fde996ecd/topic/5c6d0b9e7fa9074fde9d6481
AMiner 根据数据挖掘领域的相关论文画了分别绘制了数据挖掘领域的近期热点、全局热点和早期热点图,旨在基于历史的科研成果数据的基础上,对数据挖掘各个时间段的热度甚至发展趋势进行研究。图中,每个彩色分支表示一个关键词领域,其宽度表示该关键词的研究热度,各关键词在每一年份(纵轴)的位置是按照这一时间点上所有关键词的热度高低进行排序。
图 64 Data Mining 全局热点
图 65 Data Mining 近期热点
图 66 Data Mining 早期热点
AMiner 根据数据挖掘领域的近十年的相关论文可以从数据挖掘的技术层面进行分析,可以更直观的展现数据挖掘相关的关系图和发展趋势图,旨在基于历史的科研成果数据的基础上,对数据挖掘技术发展趋势进行研究。
选取的热门关键词分别为:social network, big data, association rule, clustering, time series, text mining, user behavior, recommender system, outlier detection, expert system。
为了研究 Data Mining 与其他领域交叉研究的情况,我们做了以下尝试。
先选取 Data Mining 域近期热度、全局热度最高、相关性最强的 11 个相关领域作为研究对象,它们分别是:
data mining
social network
big data
association rule
clustering
time series
text mining
user behavior
recommender system
outlier detection
expert system
同时选取 Health Care 域近期热度、全局热度最高、相关性最强的 11 个相关领域作为研究对象,它们分别是:
health care
electronic health records
patient safety
health economics
clinical decision support
public health
biomedical research
risk factors
breast cancer
cancer cells
cancer research
对两个领域的细分子领域进行笛卡尔乘积热点挖掘,得出历史交叉热点图如下所示:
图 67 2007 至今 Data Mining 与 Health Care 领域交叉分析
图中方格的底色代表研究热度,颜色越深,交叉研究热度越高。同时计算得出,2007 年至今,全球共有 170757 位专家投入了 Data Mining 和 Health Care 领域的交叉研究中,共产生了交叉研究论文 38219 篇。
10 余年间最热的交叉研究点包括 text mining & biomedical research、clustering & risk factors、clustering & biomedical research、clustering & breast cancer 以及 clustering & public health 等。
基于历史数据,我们对外来三年可能的交叉热点进行了预测,趋势预测图如下图所示。
图 68 Data Mining 与 Health Care 未来 3 年交叉研究趋势预测
根据历史数据,我们预测未来三年内运用交叉较热领域包括以下,可以看出目前热力较高的交叉领域热度还将延续。
Text Mining & Biomedical Research
Clustering & Biomedical Research
Clustering & Risk Factors
Clustering & Public Health
Clustering & Cancer Cells
随着数据量的日益增大和技术的进一步发展,可以预见,数据挖掘酱油如下几个发展趋势:
随着信息技术的发展,越来越多的数据涌入了网络,其中包括大量的个信息,而挖掘技术的发展和科技的更新,使得各行业可以利用这些数据,得到有用的数据信息或结果,从而帮助决策者制定更好的决策,但是在数据挖掘促进各行各业的运行更加有效率的同时,也使大量的个人信息受到了威胁,因此保护隐私的数据挖掘方法愈显重要[1]。
数据库日益庞大、计算机硬件处理能力飞速发展,需要存储和表现于用户之前的信息也不断增长,但是人类的视觉系统和大脑不足以满足人类以数据本身的形式来工作的要求,因此,可视化的工具成为迫切的要求。利用可视化技术和新型计算机的处理能力可以使用户在发现知识的过程中进行很好的人机交互,推动着人们主动进行知识发现[2]。
数据挖掘是为了应用而生,数据挖掘的另一个发展趋势就是与各个专业领域的结合越来越紧密。目前,数据挖掘在零售业、物流业、旅游业、医学等领域已经得到了广泛的应用,随着信息社会的来临,各行各业的数据爆炸式增长,数据挖掘与各个专业领域的结合将会越来越广泛。
目前的数据挖掘大多集中在文本的挖掘,随着数据形式越来越丰富,视频、音频等多媒体数据的大量涌现,形成了很多海量的多媒体数据库。多媒体数据挖掘就是于大量多媒体集中,通过综合分析视听特性和语义等,发现隐含的、有效的、有价值的、可理解的模式,进而发现知识,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。未来,多媒体数据的挖掘将会是一个热点趋势。
[1] 韩家炜,堪博 数据挖掘概念与技术 [M] 范明,孟小峰译 北京:机械工业出版社,2007
[2] 李晓梅等 并行与分布式可视化技术及应用 [M] 北京:国防工业出版社 2001