唐名威

【2017年第2期】大数据的若干基础研究方向

朱扬勇¹，熊贇²

1. 复旦大学计算机科学技术学院，上海 200433

2. 上海市数据科学重点实验室，上海 200433

摘要：大数据问题的关键技术挑战在于：找到隐含在低价值密度数据中的价值；在希望的时间内完成。指出前者需要将领域知识和数据技术结合，这种结合的理论和新型算法构成大数据的分析基础和应用基础；后者需要设计新的计算机、集群体系、计算框架、存储体系和数据管理方法，这些构成大数据的计算基础和数据基础。另外，这两个挑战都涉及数学理论，这是大数据的数学基础。系统地分析了大数据的数学基础、计算基础、数据基础、分析基础和应用基础等基础研究方向。

关键词：大数据；数据科学；大数据基础；数据资源

中图分类号：TP311 文献标识码：A

doi:10.11959/j.issn.2096-0271.2017023

Foundation issues for big data research

ZHU Yangyong¹, XIONG Yun²

1. School of Computer Science, Fudan University, Shanghai 200433, China

2. Shanghai Key Lab of Data Science, Shanghai 200433, China

Abstract: The key technical challenges for big data lie in how to discover the value of the low-value-density data and how to complete the task in the desired time.The ways to take up these challenges from three aspects were discussed.First is that the former challenge requires the combination of domain knowledge and data technology.This combination of theory and new algorithms forms the basis of application and analysis of big data.Second is that the latter challenge needs to design new types of computer，cluster system，computing framework，storage system and data management method，which forms the basis of computing and data of big data.Thirdly，both challenges relate to mathematical theory，which is the basis of mathematics of big data.In conclusion，several foundation issues for big data research including the basis of mathematics，computing，data，analysis and application of big data were analyzed.

Key words: big data ; data science ; foundation of big data ; data resource

论文引用格式：朱扬勇, 熊贇. 大数据的若干基础研究方向[J]. 大数据, 2017, 3(2): 104-114.

ZHU Y Y, XIONG Y. Foundation issues for big data research[J]. Big Data Research, 2017, 3(2): 104-114.

1 引言

数据资源开发利用的目的是实现大数据价值。大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称[1]；大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题^[1]。就当下而言，现有技术难以处理PB级别以上的数据。PB级别的数据规模已经超过了大部分企业和机构自身积累的业务数据规模，这说明PB级别数据规模的应用涉及了企业和机构外部的数据，这是质的转变。在PB级别数据规模下，企业和机构可以用历史数据、跨界数据等足够多的数据来做决策。这将对科学研究、政府治理、民生改善、产业发展发挥革命性的作用。PB级别数据规模带来的技术挑战也是非常明显的，即“大数据问题”。从技术角度看，PB级别的数据量给计算机的硬件和软件都带来了挑战：机械硬盘、盘阵、体系结构、计算框架、数据移动、多地计算/异地计算、数据管理、数据分析等。随着计算技术的进步，这些技术问题是否就会得到解决？回答是否定的。摩尔定律（Moore’s Law）不能解决大数据问题，摩尔定律是由英特尔（Intel）创始人之一戈登·摩尔（Gordon Moore）提出来的[2]。其内容为：当价格不变时，集成电路上可容纳的元器件的数目，每隔18～24个月便会增加一倍，性能也将提升一倍。换言之，每一美元所能买到的电脑性能，将每隔18～24个月翻一倍以上。这一定律揭示了信息技术进步的速度。自从PC时代以来，每次技术进步生产的计算机以亿万台计，每台计算机都在生产数据。现在想将很多台计算机生产的数据集中起来处理和分析，显然是现有技术不能实现的。这就是大数据问题产生的根源。大数据问题的关键技术挑战在于：找到隐含在低价值密度数据资源中的价值；在希望的时间内完成所有的任务。前者需要领域业务知识和数据技术相结合，这种结合的理论和新型算法构成了大数据的分析基础和应用基础；后者需要设计新的计算机、集群体系、计算框架、存储体系和数据管理方法，这些构成了大数据的计算基础和数据基础。另外，这两个挑战都涉及了一些抽象的数学理论，这是大数据的数学基础。面对大数据问题的挑战，需要研究如何发展大数据，如何从实践总结经验，抓住核心问题重点突破，实现原始创新，从基础做起，掌握核心技术，探索大数据的基础理论，为解决大数据如何用、如何管、如何算等关键问题提供理论指导。

2 大数据的基础

信息化和大数据二者的关系是“不混淆、不冲突”。

● 不混淆是指信息化和大数据是不同的，不能混为一谈，信息化是生产数据的，大数据是开发数据的。从技术角度来看，信息化是技术进步促进数据增长；大数据是数据增长促进技术进步。

● 不冲突是指大数据不取代信息化，信息化不包含大数据。这样，信息化工作照样做，并且信息化仍然将快速发展。但大数据已经从信息化工作中独立出来，如果说信息化对应的技术叫信息技术（information technology，IT），那么大数据对应的技术可以叫数据技术（data technology，DT）。

核心点是数据增长促进技术进步。例如，当前10 PB规模的数据无论是从上海到北京，或者是从一个数据中心到另外一个数据中心，甚至从一个存储集群到另一个存储集群，都是困难的、难以忍受的。既然数据大到难以移动，那么如何集成多个数据资源进行计算，如何设计数据不移动、软件移动的计算模型，实现多地计算、异地计算。又如，如何开发利用数据资源，如何确保数据安全和数据主权，这些都是数据量增长对技术进步的要求。

信息化的技术和大数据的技术是不同的，参考文献[1]给出了二者技术的对比。这样，信息化的基础研究和大数据的基础研究也是不一样的。大数据的基础包括：应用基础、分析基础、数据基础、计算基础和数学基础5个方面。

大数据的应用基础包括各学科、各领域的基于数据的新方法、新范式、新理论等，用于支撑基于大数据的科学研究方法、社会发展方式、经济建设模式和国防安全手段。大数据的应用基础是建立在大数据技术、产品、工具和解决方案之上的，而这些产品和工具的开发需要大数据的分析基础。大数据的分析基础包括大数据分析理论与框架、大数据分析方法和算法、业务驱动的分析理论和方法等，大数据分析方法和算法的实现和实施需要大数据的数据基础、计算基础和数学基础。大数据的数据基础包括大数据的治理和管理、存储理论和模型、可视化等；大数据的计算基础包括多地计算/异地计算、计算框架、硬件设备、网络设备等；大数据的数学基础包括数据的数学结构、数据代数、数据相似性等。图1给出了大数据基础的逻辑关系。

图1 大数据基础逻辑关系

自2012年起，国家自然科学基金委员会对大数据研究开始立项，总体资助情况分布如图2所示。

图2 2012—2016年国家自然科学基金资助的以“大数据”为主题词的项目数

从图2可以看出，在这5年期间，大数据相关项目资助数持续增长，尤其是在2014年，相对于2013年有较大幅度的增长。2012年，大数据概念刚刚兴起，国家自然科学基金项目申请时间点已过，所以2012年几乎没有什么项目。2013年，各学部开始支持大数据项目，全社会掀起大数据热，各行各业都在讨论大数据。于是，到2014年，大数据项目大幅度增长，主要是应用基础的研究项目大幅度增长，几乎每个学部都支持了大数据的研究项目（如图3所示）。受资助的大数据相关项目在应用基础、分析基础、数据基础、计算基础和数学基础各方面的项目资助占比情况如图4所示。总体来看，科研项目关注最多的是对各个领域大数据应用问题的研究（应用基础占62%），其次主要集中在大数据挖掘方法研究（即分析基础占18%），其他依次为：数据基础（占11%）、计算基础（占7%）和数学基础（占2%）。

图3 2012—2016年国家自然科学基金委员会各学部资助项目数分布

图4 2012—2016年在五大基础方面的项目数总占比

从2012—2016年每年的占比情况来看（如图5所示），应用基础有明显的上升趋势；分析基础在2013年有明显的上升，随后占比较为平稳；数据基础历年占比都较为平稳，且所占比重也并不大；计算基础所占比例呈现出逐年下降的趋势（2016年稍有回升）；数学基础被关注的比例历年很低，并维持稳定（低比例）。

图5 2012—2016年在五大基础方面的项目数年度占比

从图5可以看出，在2012年大数据发展初期，计算框架和计算能力是推动大数据发展最急需的基础，而之后随着开源计算框架的出现，计算基础的比例又开始下降。然而，2016年，数据开放共享成为趋势和重点，数据迁移、异地交换的需求又促进研究者探索新的计算框架。并且，分析基础在2013年的突增也说明当时对大数据方法需求的增长，随后相对稳定。在计算基础下降的过程中，应用基础占比逐渐上升，这说明越来越多的领域参与到大数据的研究中来。

图6为2012—2016年国家自然科学基金项目在五大基础方面的项目数的变化情况。可以看出，大数据研究过程中数学基础方面还需要更多的研究者参与和关注。在应用基础研究方面目前已经涉及众多领域，应该总结共性技术和理论，减少重复研究。数据的资源性迫切需要开放共享，数据基础的新问题、新技术、新理论的研究应该建立起来。

图6 2012—2016年在五大基础方面的项目数年度变化情况

3 大数据的应用基础

大数据的应用渗透到越来越多的领域，各领域大数据理论和方法的研究将为创新大数据应用、提升大数据价值奠定基础，创造出基于大数据的新型科学研究、管理决策、社会发展、经济建设方法和模式等。大数据的应用基础主要表现在各个学科基于大数据的创新，以科学研究的第四范式为代表[3]，包括对人文社会科学的研究、管理决策新方法、外部事件驱动的管理决策方法、基于微观数据的宏观经济学等。

GRAY J指出[3]：几千年前，科学研究是用实验解释自然现象的；几百年前，科学研究用理论模型探索科学规律，用实验验证理论；几十年前，科学研究用计算机模拟复杂现象，探索其中的奥秘；现在，科学研究是基于对数据的探索。科学的目的是认识宇宙、认识物质、认识生命、认识社会。

● 在认识宇宙方面：人们用了很多方法，早期科学家用肉眼观测天空，后来用望远镜，现在用射电望远镜。这些望远镜得到的结果是各种各样的宇宙图像，天文学家通过分析这些图像来研究宇宙。

● 在认识物质方面：人类还在研究物质的构成，为此于2008年建成并运行了欧洲强子对撞机装置。每一次正负电子的对撞，都产生了巨量的数据。科学家们经过不懈的努力，用了150个计算站点对200 PB数据用了3年时间分析，继而科学家发现上帝粒子[4]。

● 在认识生命方面：自从DNA被发现，人类对生命的认识进入了全新的阶段，人类似乎找到生命的本质、遗传的本质。DNA可以用A（腺嘌呤）、C（胞嘧啶）、G （鸟嘌呤）、T（胸腺嘧啶）4个字母的字符串表示，于是DNA变成了可以用计算机计算的数据，生命科学研究就出现计算生物学的分支，并且迅速发展。生命科学家开始分析数据，或者通过分析数据来研究生命。

● 在认识社会方面：信息化极大地推动了社会的发展和进步，社会的抽样调查、问卷之类的研究方法将被淘汰，国家统计局已经和百度、阿里巴巴等数十家互联网公司合作进行数据收集和统计工作，共同推进大数据在政府统计中的应用，不断增强政府统计的科学性和及时性。

从上述分析可知，不论是自然科学还是社会科学，先进的研究方法是在数据上开展研究，这也说明，认识数据先于认识宇宙、认识物质、认识生命和认识社会。

大数据应用基础的主要研究方向如下。

● 各学科基于大数据的新方法、新范式、新理论等，包括生命科学、物理、化学、天文、历史、社会、管理、经济等学科的大数据方法和模型研究与探索。

● 各领域基于数据的新方法、新范式、新理论等，包括医疗、金融、交通、环保、商业等领域的大数据创新模式、智能决策方法和模型研究与探索。

● 用于支撑基于大数据的科学研究方法、社会发展方式、经济建设模式和国防安全手段。

国家自然科学基金委员会也已对上述各个研究方向开展资助，例如在生命科学的大数据方法研究项目有：“利用大数据信息挖掘和基因进化方法研究禽流感病毒的跨地域传播”“基于大数据整合挖掘的肾细胞癌分子进化机制研究”等；商业、交通、环保等领域的大数据方法研究项目有：“大数据背景下的商业模式创新机制研究”“大数据驱动的产品精确设计理论、方法及其应用研究”“大数据环境下的复杂城市交通系统预测与控制”“数据驱动的我国PM2.5污染规律模型智能构建方法研究”“大数据驱动的我国典型重点流域水污染防控决策研究”以及“数据驱动的军事复杂系统风险决策分析方法及其应用研究”“面向军事情报的多媒体大数据分析与展示”等项目。

4 大数据的分析基础

开发数据的核心是数据分析，也就是说大数据技术的核心是数据分析技术。目前，大数据分析技术主要在传统方法上延伸拓展，还没有从本质上解决大数据利用面临的挑战。这需要探索大数据分析技术的共性问题，主要研究方向如下。

（1）传统数据分析算法的改进原理

现有的大数据分析理论与方法大多从传统的统计分析、数据挖掘、机器学习、数据融合等领域派生出来，例如K-means++[5]、K-meansⅡ[6]等聚类算法对经典K-means算法进行了改进，实现了大规模数据高效聚类。大数据的特点使现有方法超出了其使用条件和范围。因此，如何在拓展原有方法的基础上，研究适用于大数据特征的数据分析方法成为大数据时代的挑战，包括研究扩展传统的数据挖掘、机器学习、数据融合算法的原理。

（2）新型数据挖掘算法

大数据挖掘是从大数据中寻找其规律的技术[7]。大数据具有高价值、低密度的特性，“寻找”变得更具挑战性。分类分析需要有标签的训练集指导建模，但是大数据集中大多是没有经过专家打好标签的数据，需探索新的分类方法，以利用较少的有标签样本和较多的无标签样本进行学习。此外，面向高价值低密度的大数据集，存在这样一类数据挖掘需求：发现给定大数据集里面少数相似的数据对象组成的、表现出相异于大多数数据对象而形成异常的群组，被称为特异群组挖掘[8-10]新的大数据挖掘方法研究包括特异群组挖掘方法、面向海量数据查询的相似性计算方法、大规模带时序可信知识图谱自动构建方法、动态大图分析方法等。

（3）高维数据分析方法

通过对大数据本身的压缩来适应有限存储和计算资源，除了研发计算能力更强、存储量更大的计算机之外，维规约技术（包括选维、降维、维度子空间等）是一类有效的方法，但也具备技术挑战。需要面向不同类型的数据研究语义保持下的大数据维规约技术（包括特征分析、特征选择、降维、子空间等），形成新的高维大数据分析方法和理论。

（4）深度学习方法

深度学习[11]已成为机器学习研究中的一个热点领域，通过构建具有多隐层的学习模型和大量训练数据学习特征。对深度学习的研究不仅仅聚集在视觉、图像、语音、文本等分析研究中，也需要拓展到时间序列、复杂网络等数据集上。深度学习模型优化、计算能力等方面仍然是当前深度学习的难点，需要形成理论体系。

国家自然科学基金委员会在大数据分析基础方面资助的项目有：“大数据机器学习分布式算法的可行性理论”“基于知识指导和模糊信息粒化的时序大数据分析和挖掘”“RADIUS K-means算法及其拓展问题的研究”“基于多源异构不确定数据的高效用信息挖掘的研究”“面向图像序列的深度学习理论与方法”“面向大数据的快速关联分析关键技术研究”“面向大数据分析的自学习网络关键技术研究”“基于认知计算的大数据挖掘理论与技术”项目等。

5 大数据的数据基础

数据是基础资源和战略资源，对资源竞争就会产生很多问题。国家之间的竞争涉及数据主权和数据安全，还有全球数据治理；一个国家内部涉及政府和公共数据资源的开放共享、交易流通，涉及数据权属和隐私安全保障，还涉及数据管理、数据质量、可视化等数据可用性问题。大数据研究需要有各种各样的数据环境，数据环境要与来源多样、类型多样的数据结合，并且数据规模要足够大。需要从数据质量保障、数据存储和数据索引等方面，研究大数据管理和治理的基础方法，包括以下几个方面。

（1）大数据治理

确保数据稀缺性不丧失和隐私不泄露是推动和实现数据开放共享的关键，有必要探索数据隐私保护机制及模型、大数据权属认定与保障理论及体系、区块链技术，构建数据自治开放理论体系，推动大数据交易。

（2）外部数据的质量保障机制

大数据来源广泛，也导致了数据的可靠性下降，如果不经过处理而将非确定的大数据用在后续分析中，必然会导致最终结果的不确定或不准确。因而要研究数据清洁的收益和代价计算，高效量化出单个数据清洗对全局结果判决质量的提升以及清洗单个数据耗费的开销，从而选择最高性价比的数据进行清洗。研究多数据源融合的清洗问题，梳理融合中多数据源之间的依赖关系，确定数据清洗的时机与策略，达到最优的清洗性价比。研究大数据可用性的定义与表达、大数据的错误传播与可用性相关模型，大数据可用性中的可计算与计算复杂性度量模型，基于群智计算的迭代数据清洗机制等基础理论和框架。

（3）大数据建模

关系模型、面向对象模型在以前的数据管理技术中发挥了核心作用。但原有的数学模型多是针对一种类型的数据，而大数据中包含结构化数据、半结构化数据和非结构化数据，因此需要研究相应的建模方法，将不同类型的数据从语义上关联在一起，以复杂关联网络等技术为基础研究连接各种不同类型数据的数据描述机制，支撑对大数据的管理。

（4）大数据索引

传统索引结构常用于结构化数据库系统，能够提高小规模数据检索速度和查询表连接效率。然而，大数据环境下，传统索引结构存在冗余、存储空间过大、更新困难以及不适用于分布式存储环境等缺陷，这需要针对大数据的存储与数据特性研究大数据索引，包括非结构化数据索引结构、基于分布式存储的数据索引结构、高维与多目标需求下的数据索引结构等多种索引模型和索引性能评估模型。

（5）大数据可视化机理和方法

可视化是刻画数据之间关联性的有效手段，可视化分析贯穿于大数据全过程，如何实现可视化方法协助分析大规模、高维度、多来源、动态演化的数据，是当前可视化面临的挑战。因此，需要探索大数据全局视图可视化机理、时空相关的交互可视化机理、超大规模节点的高速数据渲染方法。

（6）知识图谱

知识图谱用于刻画实体或概念及其之间的关系，在大数据环境下，知识图谱更新和复杂性都急剧增加，为构建高质量知识图谱和实现有效推理，需要研究复杂知识图谱的语义描述方法、不确定知识图谱的构建与管理、基于知识图谱的多种类型数据表示模型、跨结构数据的存取机制和语义表示等。

国家自然科学基金委员会对数据基础研究方向的资助项目有：“大数据协同计算及查询服务的隐私保护”“大数据环境下的首席数据官、数据治理及组织绩效关系研究”“高质量大数据集成关键技术的研究”“大数据一致性错误管理理论与关键技术”“大数据集背景下概念格的多粒度构造和存储研究”“分布式不确定数据查询处理关键技术研究”“面向大数据的信息可视化设计方法研究”“高维大数据可视化的散度模型、算法及评价”“基于外存的海量知识图谱数据的查询处理”等。

6 大数据的计算基础

大数据通常需要有能够分析处理这些数据的软硬件环境，即需要具有足够计算能力的计算环境。以深度学习为例， Hinton G E于2006年在《Science》上发表的论文《Reducing the dimensionality of data with neural networks》[11]提出了数据降维方法—— deep autoencoder，这成为深度学习开创性标志算法之一。然而，却并没有作为被广泛关注和使用的方法，而是随着数年后计算条件和计算能力的提升，深度学习方法才开始发挥更为重要的应用价值。这意味着需要探索新型高效能系统结构、性能导向的大数据计算框架和多地计算/异地计算理论与方法。

（1）新型高效能系统结构

当前，计算机系统的计算部件、存储部件、通信部件的功能和性能已朝着高速、高容量、高带宽的方向发展，并具有可编程、可定制等特点。如何利用这些部件构建新型高效能计算机系统满足大数据处理需求，是一个迫切需要解决的问题。这需要探索可重构、高度可配置的新型高效能系统结构；研究计算、存储和通信部件的有机结合、按需配置、弹性伸缩的方法；研究可变结构、软硬件结合的拟态计算机系统结构；研究高效能分布式存储系统的构建原理。

（2）性能导向的大数据计算框架

大数据的规模、计算时效性以及异构数据分布存储的特征，对计算机系统的高通量、高时效和高并行提出了挑战。性能导向的并行计算框架是应对大数据挑战的关键和基础。这需要研究分析大数据应用的计算特征、通信特征和存储特征；研究并行计算系统的高通量、高时效计算技术，包括实时分布式内存系统、内存计算系统、异构多核平台的性能加速技术等；研究性能可预测的并行计算模型。

（3）多地计算/异地计算理论与方法

数据大的难以移动、数据重要的不愿移动，在此背景下，如何求解一个全局问题是一大挑战。通常在大数据所属地计算局部解，即大数据应用具有数据存储的分布性问题，在数据所在地进行计算，产生的部分计算结果可能出现不一致、相互背离等现象，需要通过不同方式的计算进行验证，这给求解全局问题带来挑战。因此，需要研究大数据多地计算/异地计算基础问题，包括异地计算行为建模；研究局部解的局限性评估机制、局部解发送接收的身份验证机制、局部解的优化融合策略；研究全局解的最优性评估机制、提高全局解最优率的异地选取策略等。

国家自然科学基金委员会对上述各个研究方向开展资助的项目有：“云计算环境下大数据本地化技术研究”“结合逻辑与物理I/O访问信息的存储系统优化策略的研究”“互联云环境下面向数据中心的服务资源分配与调度机制研究”“面向大数据的高时效并行计算机系统结构与技术”“大数据高效能存储与管理方法研究”“面向大数据的计算与存储融合CPU体系结构研究”“分布式计算与系统”“面向大数据内存计算的计算机体系结构”“大数据环境下增量式迭代计算框架的研究与优化”“云计算环境下面向大数据的在线聚集并行优化机制研究”等。

7 大数据的数学基础

现有的大数据研究大多关注将传统方法应用于大数据的实际场景，而没有从大数据的内在结构、本质特征出发，这制约了大数据研究的深度发展，使得大数据技术面临瓶颈。因此，研究大数据需要从数据本身出发，这离不开数学方法的支持。大数据的表示和度量是大数据研究的关键和基础，相应地，与之密切相关的大数据代数系统、大数据内在数学结构和大数据相似性度量成为大数据的数学基础的重要内容。

（1）大数据的代数系统

关系代数为关系型计算提供理论依据。然而，高扩展性是大数据分析的重要需求，传统的关系数据模型难以胜任当前存在的非结构化数据（如文本数据、序列数据、流式数据等）的处理。近年来，已出现一些非关系型数据库（如HBase、MongoDB等），在非结构化数据上的复杂数据分析能力有所提高，并得到广泛应用。但是，目前缺少对非关系型数据库的数据代数的研究。对于非关系型数据，定义由数据集构成的集合上的度量方法和运算，形成一定论域上的数据代数等，这些都将在数学基础上对非关系型数据提供理论支持，有望突破现有技术瓶颈。

（2）大数据内在数学结构

数据有复杂的拓扑、网络等不同结构，在大数据问题中，数据本身往往具有更为复杂的内在数学结构，例如，高维数据空间中因为具有一定的约束条件而具有流形的数据结构；又如，在图像等非结构化数据中，先天性地具有低秩的数学性质。在深刻理解和挖掘内在相应结构的基础上，才能有效建立分析模型。针对大数据集的流形或复形等复杂数学结构和稀疏、低秩等数学性质，设计合理描述的数据结构，构建相应的度量，选取多尺度自适应的基底表示，为构建分析模型、形成反映内在结构参数的分析算法提供理论支撑，并通过数学结构的性质，保证算法的适用性。

（3）大数据的相似性度量

相似性是数据挖掘分析任务的核心。简单数据类型的相似性度量支撑传统数据分析模型，然而，针对复杂数据类型，这些相似性度量难以真实反映数据之间的关系。针对大数据复杂性特征，定义空间非刚性结构的相似性度量和超高维、多类型的大数据相似性度量，发展非线性降维方法、核理论以及相应的高效算法和稳定性分析。

如前所述，大数据研究过程中数学基础方面还需要更多的研究者参与和关注，目前，国家自然科学基金用在大数据的数学基础方面的相对较少，但也有对上述研究方向的涉及，例如：“大数据环境下服务的存储范式理论及操作代数研究”“大数据中的广义稀疏几何结构学习方法研究”“适应大数据处理的概率相似度学习研究”等。

8 结束语

数据作为一种基础性资源已经得到广泛认可，大数据开始在各行各业发挥作用，同时也遇到了很多难题，例如数据质量、数据权属、数据开放共享、数据快速分析、异地数据计算等，这些问题可以统称为大数据问题。由于大数据的广泛性，大数据问题是多层次、多样的，需要各领域的科学家共同努力。本文将大数据的基础问题归类为应用基础、分析基础、数据基础、计算基础和数学基础五大类别。特别地，将各学科基于大数据的创新研究也归类为大数据的应用基础。这是因为科学研究进入了所谓的第四范式，第四范式的科学研究需要先行积累数据、研究数据、分析数据、观察数据，然后才进行业务研究，或者说，认识宇宙、认识物质、认识生命、认识社会，需要先行认识相应的数据，即认识数据先于认识宇宙、物质、生命和社会。建议国家层面研究基金全面部署，探究大数据各层面的基础问题，实现大数据原始创新，推动数据科学发展，有利于形成大数据的核心竞争力。

参考文献：

[1] 朱扬勇，熊贇 . 大数据是数据、技术，还是应用[J]. 大数据，2015007

ZHU Y Y, XIONG Y. Defining big data[J].Big Data Research, 2015007. Big Data Research, 2015007.

[2] MOORE G E. The microprocessor: engine of the technology revolution[J]. Communications of the ACM, 1997, 40(2): 112.

[3] HEY T, STEWART T, KRISTIN T. The forth paradigm:data-intensive scientific discovery[M]. Beijing: Microsoft ResearchPress, 2009.

[4] CARMI D, FALKOWSKI A, KUFLIK E, et al. Higgs after the discovery:a status report[J]. Journal of High Energy Physics, 2012, arXiv:1207.1718.

[5] BAHMANI B, MOSELEY B, VATTANI A, et al. Scalable k-means++[J]. Proceedings of the VLDB Endowment, 2012, 5(7): 622-633.

[6] ARTHUR D, VASSILVITSKII S. K-means++:the advantages of careful seeding[C]// 18th ACM-SIAM Symposium on Discrete Algorithms, January 7-9, 2007, New Orleans, Louisiana, USA. New York: ACM Press, 2007: 1027-1035.

[7] 熊贇, 朱扬勇, 陈志渊. 大数据挖掘[M]. 上海: 上海科学技术出版社, 2016.

XIONG Y, ZHU Y Y, CHEN Z Y. Big data mining [M]. Shanghai: Shanghai Scientific& Technical Publishers Press, 2016.

[8] 熊贇, 朱扬勇. 特异群组挖掘：框架与应用[J]. 大数据, 2015020.

XIONG Y, ZHU Y Y. Abnormal group mining: framework and applications[J]. Big Data Research, 2015020.

[9] XIONG Y, ZHU Y Y, YU P S, et al. Towards cohesive anomaly mining[C]// 27th AAAI Conference on Artificial Intelligence (AAAI), July 14-18, 2013, Bellevue, Washington, USA. San Francisco: AAAI Press, 2013: 984-990.

[10] XIONG Y, ZHU Y Y. Mining peculiarity groups in day-by-day behavioral datasets[C]// IEEE International Conference on Data Mining (ICDM), December 6-9, 2009, Miami, Florida, USA. New Jersey: IEEE Press, 2009: 578-587.

[11] HINTON G E, SALAKHUDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

朱扬勇（1963-），男，博士，复旦大学计算机科学技术学院教授、学术委员会主任，上海市数据科学重点实验室主任。1989年起从事数据领域研究，2008年提出数据资源保护和利用，2009年发表了数据科学论文《Data explosion，data nature and dataology》，并出版专著《数据学》，对数据科学进行了系统探讨和描述。2010年创办了“International Workshop on Dataology and Data Science”，2014年和石勇、张成奇共同创办了“International Conference on Data Science”。担任第462次香山科学会议“数据科学与大数据的理论问题探索”的执行主席、《大数据技术与应用丛书》主编。主要研究方向为数据科学、大数据。

熊贇（1980-），女，博士，复旦大学计算机科学技术学院教授。2004年起从事数据领域方面的研究工作，作为项目负责人主持国家自然科学基金、上海市科委发展基金以及企业合作项目。相关研究成果在本领域国际权威期刊或会议发表论文40余篇，出版著作3本。主要研究方向为数据科学、大数据。

你可能感兴趣的:(【2017年第2期】大数据的若干基础研究方向)

swiper移入暂停_用Swiper插件实现无缝轮播的品牌展示，鼠标移动停止，鼠标移出无缝移动视觉效果... weixin_39726971 swiper移入暂停
正常操作，正常分析，大家好，我是D1n910。文章关键词：技术前端JQuery入门滚动文章前言：公司要求做官网呀呀呀，其中有一部分设计是要求我们最亲爱的品牌商的LOGO能够在底部无缝轮播，鼠标移上去就停下来。效果如下：一、使用插件介绍1、使用的框架是JQuery，因为讲究快速、兼容、展示，所以没有用vue、react之类的看起来高大上的框架。2、使用的是优秀的轮播插件Swiper3.0版(实际上S
threejs学习笔记：CSS2DObject 2d文字渲染九段刀客 threejs 学习 javascript 开发语言
import{CSS2DRenderer,CSS2DObject}from"three/examples/jsm/renderers/CSS2DRenderer.js";//2d文字渲染function_createBox1Label(object
Javascript和jquery事件-鼠标移入移出事件 weixin_30740295 javascript ViewUI
javascript使用mouseover和mouseout，只在css中支持hoverjquery支持mouseover和mouseout，封装了mouseenter、mouseleave事件函数和hover函数1、有关js中的mouseover和mouseout原生js的事件类型是mouserout和mouseover，之前提到的事件冒泡的缺陷就在这里，之前说的使用阻止冒泡就行，大概说得太轻易
MySQL Connector/Python 接口（一） weixin_33750452 python 数据结构与算法数据库
这里仅介绍MySQL官方开发的Python接口，参见这里：https://dev.mysql.com/doc/connector-python/en/Chapter1IntroductiontoMySQLConnector/Python这个接口是用纯Python写成的，仅依赖PythonStandardLibrary。MySQLConnector/Python支持以下几点：1、MySQLServe
华为OD机试D卷 --最大社交距离--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例1题目解析java源码js源码python源码c源码c++源码题目描述疫情期间需要大家保证一定的社交距离，公司组织开交流会议。座位一排共N个座位，编号分别为[0,N-1]。要求员工一个接着一个进入会议室，并且可以在任何时候离开会议室。满足：每当一个员工进入时，需要坐到最大社交距离（最大化自己和其他人的距离的座位）；如果有多个这样的座位，则坐到索引最小的那个座位。
后端传入文件流，前台pdf展示（pc端和手机端） w001yy 前端 javascript
近日项目用到的用文件流传递pdf文件的情况，后端将数据流传到前端，需要前端进行处理然后再预览下载，总结了一下几点方法，1.PC端一开始想引用pdf.js插件进行实现，但是总是白屏，借鉴的文章是https://www.jianshu.com/p/242525315bf6，用了里面的方法测试了，但是一直是白屏，展示不出pdf，也没有看到错误提示，最后直接用window.open(url),其中url表
推荐系统的未来发展方向：大模型的主流化 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《推荐系统的未来发展方向：大模型的主流化》关键词：推荐系统，大模型，深度学习，人工智能，未来趋势摘要：本文深入探讨了推荐系统的发展历程及其在当前人工智能时代的重要性。重点分析了深度学习在大模型中的应用，探讨了大模型的主流化趋势及其面临的挑战。通过案例研究，展示了大模型在实际推荐系统中的应用效果，并对未来的发展方向进行了展望。目录大纲推荐系统的概述1.1推荐系统的发展历程1.2推荐系统的基本架构深度
MyBatis性能调优——优化SQL查询和分页查询速度 AI天才研究院大数据AI人工智能自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1.0什么是MyBatis?MyBatis是MyBatisSQLMapperFramework的简称，是一个Java框架，用于存取数据库中的数据。MyBatis将sql映射到java对象上，并将对象映射成sql，最终实现对关系数据库进行持久化操作。MyBatis使用xml或注解的方式来配置映射关系，并通过xml文件或注解来生成mybatis核心配置文件mybat
linux 权限的设置与查看 chmod 与 ls -l 等相关命令 drebander 脚本
本文为转载文章出处：http://blog.csdn.net/sinchb/article/details/11746427本文着重介绍与Linux文件权限相关等问题，比如用户与用户组，文件权限，文件默认权限和文件特殊权限等。Linux为什么需要那么多的权限限制呢？其实这些都是为了“安全起见”啊！如果你的Linux系统里存了你给心上人写的情书，或者是某亚洲岛国的动作大片，你总不希望谁都可以翻翻看吧
使用 Spring AI 调用本地模型实现 drebander AI 编程 spring java springAI
在本篇博客中，我们将学习如何使用SpringAI框架调用本地的PyTorch模型，并通过SpringBoot提供一个预测接口。SpringAI是一个用于将人工智能应用集成到Spring生态系统中的框架，它支持多种AI模型和数据源的集成，帮助开发者将AI模型无缝地集成到Java应用中。1.准备PyTorch模型首先，我们需要训练并保存一个PyTorch模型。这里我们使用一个简单的神经网络模型作为示例
facebook 获取广告费用的api TerryWater
http://stackoverflow.com/questions/33106651/facebook-graph-api-getting-daily-spend-per-ad-sethttps://developers.facebook.com/docs/marketing-api/reference/adgroup/insights/https://developers.facebook.c
使用Zapier Natural Language Actions与LangChain集成实现自动化工作流 srudfktuffk langchain 自动化 windows python
技术背景介绍ZapierNaturalLanguageActions（NLA）提供了一种通过自然语言接口访问Zapier平台上5000多个应用和20000多个操作的方法。通过NLA，你可以将自然语言翻译成具体的API调用并获取简化的输出。这使得在复杂的多应用环境中进行自动化操作变得更加轻松。然而需要注意的是，ZapierNLA将在2023年11月17日停用。核心原理解析NLA的核心思想是通过类似O
使用Swing制作类似QQ界面|圆角界面光芒再现0394 JAVA swing qq 任务 jdk class 图形
制作这个界面需要jdk1.6update10以上的版本，因为使用了透明窗体。完成的界面如下：这里只列出部分关键代码：首先是制作圆角界面：Shapeshape=null;shape=newRoundRectangle2D.Double(0,0,width,height,5.5D,5.5D);AWTUtilities.setWindowShape(frame,shape);制作渐变：finalPain
OSGI启动级别服务规范光芒再现0394 OSGI osgi osgi框架框架 system service 任务
1.简介本章规范描述了在OSGi服务平台下，如何实现管理代理对启动和停止bundle的顺序进行控制。启动级别服务给每一个bundle分配一个启动级别（startlevel）。管理代理可以修改bundle的启动级别，并通过设置框架激活启动级别（activestartlevel）来启动和停止相关的bundle。只有启动级别小于或者等于激活启动级别的bundle才可以激活。启动级别服务的目的在于允许管理
个人程序化交易软件有哪些？各自的优缺点及适用人群是什么？财云量化 python炒股自动化量化交易程序化交易个人程序化交易软件优缺点适用人群股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
如何在 UniApp 中实现 iOS 版本更新检测 SHENHUANJIE Uniapp IOS 版本更新
随着移动应用的不断发展，保持应用程序的更新是必不可少的，这样用户才能获得更好的体验。本文将帮助你在UniApp中实现iOS版的版本更新检测和提示，适合刚入行的小白。我们将分步骤进行说明，每一步所需的代码及其解释都会一一列出。整体流程概述在实现版本更新的过程中，可以将流程划分为几个主要步骤：步骤操作描述1配置更新后端搭建一个服务，提供当前版本的信息，建议使用JSON格式返回数据。2在应用中调用更新接
元宇宙浪潮下，3D线上展厅有了新的发展方向商迪3D 3d vr
这一年来，置身互联网听得最多的就是元宇宙了，元宇宙话题从未断过，衍生出来的产物更是非常多，互联网巨头也在纷纷占领元宇宙这个商机，Facebook将公司名字更名为“Meta”，同时把元宇宙开发作为未来的发展核心；国内互联网巨头像字节跳动等公司也在纷纷布局元宇宙开发，商迪3D为助力线上展会成功举办，强势推出元宇宙展厅，给观众带来沉浸式元宇宙展厅体验。简单的了解元宇宙概念在元宇宙概念上，我们可以看到，元
【Elasticsearch】_reindex api请求 risc123456 Elasticsearch elasticsearch
在Elasticsearch中，你可以使用`_tasks`API来检查`_reindex`任务的状态。当你发起一个`_reindex`请求时，Elasticsearch会返回一个任务ID，你可以使用这个任务ID来查询任务的详细状态。以下是如何检查`_reindex`任务状态的步骤：###1.获取任务ID首先，你需要获取`_reindex`任务的ID。当你发送`_reindex`请求时，Elasti
数据结构与算法分析：专题内容——人工智能中的寻路3之广度优先搜索（代码详解）梅见十柒数据结构与算法分析算法 c语言广度优先笔记
一、前言广度优先搜索尝试在不重复访问状态的情况下，寻找到一条最短路径。广度优先搜索保证如果存在一条到目标状态的路径，那么找到的肯定是最短路径。事实上，深度优先搜索和广度优先搜索的唯一不同就是广度优先搜索使用队列来保存开放集，而深度优先搜索使用栈。每次迭代时，广度优先搜索从队列头拿出一个未访问的状态，然后从这个状态开始，计算后继状态。如果达到了目标状态，那么搜索结束。任何已经在闭合集中的后继状态将会
Google广告数据分析与优化总结奔跑的栀子计算广告广告计算广告数据分析数据可视化 google
一、概述广告优化师虽属于广告行业，但在实际的优化过程中无不考验着优化师的数据分析能力。不同的计划在不同时期情况不一样，具体的优化应当以当时的状态跟所处情形来进行，因此对于这个行业来讲没有百分之百奏效的优化方式，广告优化师能做的就是根据自己的经验分析和判断可能是什么原因导致了计划出现问题，以及通过尝试去改变效果不好的现状。以下是我曾经优化比较成功的案例之一，下面将分日期对计划所处的状态、猜测结果出现
数字水印算法分类以及区别（含有变换域python代码链接） Nefelibat 数字水印数字水印变换域
目录看代码前需要知道的理论知识使用场景分类水印算法运行名词解释历史信息的两个丢失其他抗打印水印数字水印技术变换域算法。去github上下载了一个用python写的源码:https://codeload.github.com/Messi-Q/python-watermark/zip/master然后自己跑了一下，该代码包括两个部分。一个是图像数字水印代码实现，一个是PDF数字水印代码实现。看代码前需
uniapp H5+锁定和解除锁定屏幕方向及关闭应用启动界面及页面刷新流氓也是种气质 _Cookie uni-app H5+HTML5+重力感应
锁定屏幕方向plus.screen.lockOrientation(Stringorientation);说明：锁定屏幕方向后屏幕只能按锁定的屏幕方向显示，关闭当前页面后仍然有效。可再次调用此方法修改屏幕锁定方向或调用unlockOrientation()方法恢复到应用的默认值。plus.screen.lockOrientation('landscape-primary');锁定屏幕方向可取以下值
uniapp uni.navigateTo 传值的几种方式流氓也是种气质 _Cookie uni-app html
一、传字符串传入lettitle='hello'uni.navigateTo({url:`buttonPage/buttonPage?title=${title}`})接收onLoad(option){let{title}=option},二、传对象传入letdata={title:'hello',id:1}uni.navigateTo({url:`buttonPage/buttonPage?da
doris:Insert Into Select 向阳1218 大数据 doris
INSERTINTO支持将Doris查询的结果导入到另一个表中。INSERTINTO是一个同步导入方式，执行导入后返回导入结果。可以通过请求的返回判断导入是否成功。INSERTINTO可以保证导入任务的原子性，要么全部导入成功，要么全部导入失败。使用场景用户希望将已经在Doris表中的数据进行ETL转换并导入到一个新的Doris表中，此时适合使用INSERTINTOSELECT语法。与Multi-
架构基础常识每天三杯咖啡数据库
系统系统（System）是由多个相互作用的组成部分构成的整体，这些组成部分通过特定的方式组织在一起以实现某种功能或目标。系统可以是物理的、生物的、社会的、经济的，也可以是抽象的信息系统等。一个系统的定义通常包含以下几个要素：边界：明确区分系统内部与外部环境的界限。元素：构成系统的各个部分或组件。关系：元素之间的相互联系和交互方式。输入/输出：系统从外界获取的信息、资源或指令（输入），以及它对外界产
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
y98.第六章微服务、服务网格及Envoy实战 -- 集群管理(九) Raymond运维云原生-微服务治理企业实战 (已完结)microservices envoy 运维云计算云原生
8.集群管理8.0本节话题集群管理器与服务发现机制主动健康状态检测与异常点探测负载均衡策略分布式负载均衡负载均衡算法：加权轮询、加权最少连接、环哈希、磁悬浮和随机等；区域感知路由全局负载均衡位置优先级位置权重均衡器子集熔断和连接池8.1集群管理器（ClusterManager）Envoy支持同时配置任意数量的上游集群，并基于ClusterManager管理它们；ClusterManager负责为集
如何将3D模型嵌入正在Web网页？支持什么模型格式？ mirrornan 3d
在Web网页中嵌入3D模型，通常涉及以下几个步骤，并且支持多种模型格式。以下是详细的指南：一、嵌入步骤1、准备3D模型：确保你有要嵌入的3D模型文件。常见的支持模型格式包括obj、fbx、stl、glb、gltf、dae、3ds等。2、选择平台或工具：你可以选择专业的3D模型展示平台，如51建模网等，平台提供模型上传、编辑（如材质定制、热点添加、爆炸效果设置等）以及内嵌代码生成服务。3、上传模型：
Web3D技术应用的场景有哪些？有何优势？ mirrornan 3D行业资讯 web3 3D模型三维扫描 3D建模 3d
Web3D技术，即将三维图形技术与Web技术结合，使用户无需额外软件即可通过浏览器体验三维场景。其应用场景广泛，且具备诸多优势，以下是对Web3D技术应用场景及其优势的详细阐述：一、应用场景电商领域：Web3D技术可以提供3D商品展示，让消费者能够全面了解商品的每一个细节，并且进行定制等交互操作，提升购物体验。51建模网的Web3D展示引擎，让3D交互展示制作更简单，轻松赋予用户制作Web3D的能
这些可以免费下载3D模型网站，一定要收藏！ mirrornan 3D模型 3d 3D模型模型下载
免费下载3D模型可以通过多个途径实现，以下是一些推荐的网站和方法：1、Sketchfab（sketchfab.com）模型资源丰富，涵盖各个类目。可以直接在线查看3D效果，无需插件。很多模型都是免费的，但部分可能需要注册账号后下载。2、Turbosquid（turbosquid.com）模型素材非常全面，分类清晰。提供多种格式的3D文件，如max、fbx、obj、c4d、maya等。需要注册登录后
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro