今年以来,大数据成为各界人士谈论的时髦话题。何谓大数据?大数据能给产业界带来什么价值?投资者如何从中获取投资收益?《证券日报》一直密切关注大数据领域的最新动态,近日就投资者关心的几个问题采访了中国科学院软件研究所人机交互技术与智能信息处理实验室的邓昌智博士。
《证券日报》:有人认为,大数据就是将人的意志和行为全部数据化,请您用最简单的一句话概括什么是大数据?
邓昌智:业界对大数据至今还没有一个准确的定义,都是从其4V(数量Volume、多样性Variety、速度Velocity、和真实性Veracity)特征来理解其内容。但是如果只是用一句话来概括的话,我个人认为大数据是一种人类信息化的结果和现象,它不只是大规模的数据,还包括其相关的技术、领域应用、社会学和道德法律等。
《证券日报》:各种各样的大数据应用如雨后春笋般不断涌现,形成一股令人敬畏的力量。而透过这些纷繁的现象,您认为大数据整个产业链发展到什么程度了?未来将沿着什么样的方向继续深化?
邓昌智:大数据是一个高技术密集型的产业链。大数据的量已成呈现爆炸式发展,但是从产业角度来说,目前还是属于探索和整合重组阶段。目前,在我国电商领域的大数据发展比较快,他们不仅有着大量的数据来源和完善的计算基础设施,而且吸引了很多大数据方面的人才,随着大数据被很多企业逐渐重视,电商大数据应用的商业模式、技术也开始向其他行业进行扩散。
大数据的发展从两个方面继续发展。第一方面,技术的提升和整合,大数据的分析处理技术需要进一步进行突破,譬如实时分析、历史海量数据的整合和分析、结构化和非结构化数据的存储处理等等,同时也需要不同软件企业的技术整合,以达到大数据对技术的更高需求和突破;另一方面,大数据行业的细分,就是垂直行业的大数据,如何从业务角度,从大数据视角上,能够挖掘出更利于企业发展的价值,而不是单纯的从技术层面上说数据挖掘、数据分析,而是挖掘“我”需要的有用的信息,利于“我”企业发展的信息。
《证券日报》:日前,中央政治局常委踏访中关村了解大数据的情况,您认为,在国家层面应该如何发掘大数据的价值?
邓昌智:从国家层面来说,大数据确实是需要从国家战略高度来考虑。目前美国、日本、欧洲都将大数据列为本国或者本地区的重要的战略需求。
大数据将会影响国家的方方面面。一方面,国家层面的一些政策需要参考我们整个国家的准确而实时的经济数据,而不是再依靠于逐层书面统计的数据,那么大数据技术将起着非常重要的作用,当然一些政府部门也在收集自己职责范围之内的数据,进行数据价值分析。另一方面,国家的安全也需要大数据的支持,譬如疾病的预防、自然灾害的预警、反恐、金融安全等等。
首先将有些核心数据作为一种国有的无形资产,有专门的部门去管理、协调,打破目前部门间的数据隔阂,能做到数据可以交换共享,共同满足国家战略需求,这样一方面可以避免很多IT设施的重建,另一方面不会造成数据之间的矛盾;然后由专门的政府机构对数据进行应用。国家对于一些非核心的数据由市场为导向,由企业去利用发挥其价值,国家只需制定相应法律规范进行正确引导。一些政府部门正进行大数据园区的建设,确实对大数据的发展起着推动作用,但是要有正确的整体目标和规划,真正服务于地区的发展。
《证券日报》:以我粗浅的理解来看,要大数据发挥价值,要迈过这么几道坎儿。一是打破各个数据孤岛,使有数据可用。二是,积极培养相关人才。三是完善相关法律法规。而仅仅开放大数据这一关,就特别难,没有政府的主导恐怕难以实现。您个人怎么看待数据开放的现实以及未来的可能性,大数据产业发展还要再迈过几道坎。
邓昌智:你说的没错,大数据的潜在价值到底如何去发挥,打破数据孤岛、培养人才和制定相关法律这几个方面确实很重要。但是数据完全开放是非常困难的事情,很多企业本来就是依赖于这些大数据进行盈利,数据属于企业的核心资产,企业间属于竞争性的关系,所以去完全开放比较难。但在企业内部、行业内部进行信息的整合,打通信息孤岛之间的连接,从中去发掘数据的潜在价值,可以做到的。如果国家层面需求,很有必要有一个总体协调部门去解决国家数据的需求。我国大数据方面的高端人才确实比较少,不过随着我国发展,会得到有所改善;关于完善相关法律法规,更多的应该从信息安全保护方面多立法。
汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来,历时14年,全球用户突破30万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名,已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造,即将推出的NLPIR2014版,是迄今为止最大的一次更新,在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器,值得期待!
我们即将召开NLPIR2014发布暨ICTCLAS用户大会,由北京理工大学大数据搜索挖掘实验室主办,计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户,中文分词及中文信息处理的技术爱好者莅临参加,分享中文语言智能理解的美妙。届时,张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展,并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧,同时还有不同背景的资深用户分享他们的使用开发经验。
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
基本信息
会议形式 |
(a) PPT算法讲解; (b) NLPIR2014系统演示与实际开发操作; (c) 针对学员具体需求的互动交流会 (d) 提供专属U盘:保护NLPIR2014的演示系统、各类试用的API以及新版开发手册; |
会议时间 |
12月21日上午9:00-12:00,下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 ) |
门票费用 |
(a)1400元 (包含门票,NLPIR2014演示系统、开发包与文档, U盘,工作餐,赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著); (b) 12月10日前缴费优惠价1300元;老学员或同单位三人以上报名九折优惠;全日制学生凭学生证会费优惠价格980元,不含发票。 (c)名额有限,参会者需在参会前提前购买门票。 (d)差旅及食宿费用自理。 |
与会嘉宾 |
主讲人:张华平:NLPIR(ICTCLAS)创始人与开发者,北京理工大学大数据搜索挖掘实验室主任,博士,副教授 主持人:赵燕平:北理工经管学院教授,北京理工大学大数据搜索挖掘实验室副主任 特邀ICTCLAS典型用户嘉宾待定(将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户) |
会议地址 |
北京理工大学理工国际交流中心 |
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
ICTCLAS创始人张华平博士简介
2005年博士毕业于中科院计算所,研究方向为:微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛的应用。并作为特邀技术专家,先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。
会议日程
时间 |
讲师 |
环节 |
主要内容 |
8:00-9:00 |
各位参会人员 |
会议报到 |
签到,领取各项资料。 |
9:00-9:20 |
赵燕平教授 |
大会开幕式 |
开幕式致辞,嘉宾与学员介绍 |
9:20-09:50 |
张华平博士 |
NLPIR2014发布 |
1) NLPIR2014功能展示:分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取; 2) NLPIR2014开发包介绍 |
09:50-10:10 |
|
合影留念及茶歇 |
|
10:10-12:00 |
张华平博士 |
NLPIR2014汉语分词关键技术及最新进展 |
1. ICTCLAS的层叠隐马分词模型(汉语分词、未登录词识别、词性标注) 2. ICTCLAS的词典管理专利算法:完美双数组TRIE树; 3. 新词识别与关键词提取算法原理; 4. NLPIR2014英语词法分析技术; |
12:00-13:30 |
|
工作午餐 |
|
13:30-15:00 |
张华平博士 康肖钰硕士生 张冰波硕士生 |
NLPIR2014汉语分词开发包使用实训 |
1. NLPIR2014 C/C++语言调用实训 2. NLPIR2014 Java语言调用实训 3. NLPIR2014 Linux调用实训 4. NLPIR2014 高级编程实训(多线程安全、用户自适应分词、python调用、关键词提取等) |
15:00-15:30 |
朱勇高级工程师 |
NLPIR示范应用:黄金眼Web大数据搜索与挖掘平台 |
主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台,展示主要功能与背后的实战应用经验,目前已经应用于工信部、总参、财经杂志等单位。 |
15:30-16:00 |
姜伟(北京外事办信息中心主任) |
NLPIR示范应用:政务公文主题词提取系统 |
主要介绍利用NLPIR系统开发的政务公文主题词系统,历经十余年,目前已经应用于大部分政府机关。 |
16:00-16:30 |
罗文川(缔元信CTO) |
NLPIR示范应用:缔元信网站统计数据挖掘与应用 |
主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用,是目前网站统计方面权威的机构。 |
16:30-17:00 |
待定 |
|
|
17:00-18:00 |
张华平博士 |
交流沙龙 |
可与ICTCLAS创始人张华平博士直接交流讨论 |
名额有限,先到先得,参会报名热线:
张老师 :13681251543 Email: [email protected]
官网支持:http://ictclas.nlpir.org
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)