唐名威

《大数据》2015年第2期“前沿”——大数据技术发展的十个前沿方向（上）

大数据技术发展的十个前沿方向（上）

吴甘沙

英特尔中国研究院

doi:10.11959/j.issn.2096-0271.2015023

Ten Fronties for Big Data Technologies (Part A)

Wu Gansha

Intel China Research Institute

1 引言

“大数据”的发展与IT产业其他领域的发展相辅相成，近年来互联网、移动互联网、物联网、云计算和高性能计算等方面的高速发展从内涵上不断推动大数据的技术演进，从外延上不断延展大数据的应用范围。

多年来，笔者有幸接触国内外学术界和工业界的大数据研究，2014年底受清华数据科学研究院之邀，把所见、所得、所思总结为《大数据的十个技术前沿》的演讲。这次得到《大数据》杂志邀请，将其改为综述文章，并分为3期刊出，分别为：膨胀宇宙、巴别之难、数据有价；软硬兼施、多快好省、天下三分、分久必合；精益求精、人机消长、智能之争。笔者尝试从广度视角介绍大数据发展前沿的一些技术趋势和实践。限于篇幅，论述可能不够严密，介绍可能不够深入，唯愿抛砖引玉，激发同仁的思考和讨论。

2 十大前沿方向综述

大数据的根本出发点是指数思维方式。美国未来研究院（Institute of the Future）的发起人Roy Amara提出的Amara法则^[1]认为人们往往会高估技术的短期影响力，而低估技术的长期影响力。数据总量的积累正是如此，在经历很长时间的缓慢增长之后，增长斜率会突然在一个临界点后急剧增加，变为爆炸式增长。人们常说：“最近两年产生的数据量相当于人类历史上产生的数据量总和的90%”、“现在产生的数据总量每两年翻一番”。所有这些桥段都指向同一个现象——指数增长效应。

在过去50年里，指数效应的主要驱动力是摩尔定律。英特尔的联合创始人之一戈登·摩尔（Gordon Moore）预言：每过18个月，晶体管数量翻一番，相应地中央处理器（central processingunit，CPU）性能翻番，成本折半，功耗折半。这种指数增长以链式反应的方式波及各个方面，如磁介质机械硬盘的容量增长以及主干网带宽的增长，甚至是每美元能够买到的数码相机的像素数都呈现了指数级的增长效应。最后，带来了数据的摩尔定律。

大数据发展的拐点已经到来，目前正在逐渐成为经济活动的主要承载者。数据被称为资产、原油、原材料、货币，无论哪种形容的方法都不过分。据IDC预测：2020年，70亿人的数据化生存以及500亿个互联设备的感知、互联和智能，将产生35 ZB的数据。1 ZB相当于1 000 EB，目前谷歌公司的数据量级为数十EB，这就意味着，一年将产生相当于1000个谷歌公司的数据量。

从数据中提取出价值，海量数据才有存在的意义。大数据的生命周期和价值链条通常可以分成4个阶段：数据生成、获取、存储和分析。目前主流的大数据技术基本上是为了解决这4个问题。本文提到的10个技术前沿，基本上都落到这4个需求里，但总体来看又可以分成三大类。

●解决数据本身的问题。分别为膨胀宇宙、巴别之难、数据有价。

●解决大量的数据前提下，如何能够实时计算的问题。这里涉及技术手段与范式变迁，分为软硬兼施、多快好省、天下三分、分久必合。

●分析如何能够提取更好、更精确的价值问题。分别为精益求精、人机消长、智能之争。

本期主要介绍膨胀宇宙、巴别之难、数据有价3个技术前沿。

3 前沿方向一：膨胀宇宙

面对数据量的爆炸，IDC创造了一个名词——数据宇宙（datauniverse）。现在单机硬盘的容量已在TB级别，而商业公司的数据存储量级从PB到EB再到ZB，甚至再到下一步YB（美国国家安全局已经在犹他规划YB级别的数据中心）。与之对应的是存储技术的突飞猛进：存储介质技术发展、单服务器设计突破、分布式文件系统创新以及形形色色的分布式数据库爆发。

3.1 不断涌现的新存储介质

近年来，新的存储介质不断涌现，在性能和成本上都取得了长足的进步，构成了大数据发展的基础。

首先，磁介质的机械硬盘技术快速发展，单碟容量在TB级别翻倍增长。

其次，固态硬盘（solid state drives，SSD）获得了广泛普及，对革新存储体系结构起到画龙点睛的作用，例如SA P HANA^[2]架构。又如AWS的SSD存储I2，Databricks用它在2014年的Daytona Gray 类Sort Benchmark夺魁（并列）。

第三，PCIe SSD和闪存存储（flash storage）更为激进。从特立独行的Fusion-io到众望所归的NVMe，以其轻量级栈、低CPU开销、直接闪存访问带来高吞吐量和高IOPS（input/output operations persecond，每秒进行读写（I/O）操作的次数）。

第四，包含闪存和磁盘的混合存储或联合存储是对软硬件协同设计的创新。谷歌公司的Janus智能地把数据在闪存和磁盘之间进行分配和迁移，闪存只存放1%的数据，却能服务28%的读操作。

第五，下一代非易失性随机访问存储器（non-volatile random ac cess memory，NVRAM）也将渐渐走上舞台中央，它的特点包括访问性能接近动态随机存取存储器（dynamic random accessmemory，DRAM）（最短时延为DRAM的2倍）、容量大、数据不易失、字节寻址（闪存只能块访问）等。这些特性将改写整个存储体系结构的版图，必将带来内存空间和文件系统的融合。

第六，磁带在超大规模数据备份和管理上仍有一席之地。谷歌公司作为世界上最大的磁带机买家，利用磁带对EB级别的数据进行备份和管理，并通过位置隔离、应用层问题隔离、存储问题隔离、存储介质问题隔离等多种混合手段保证数据的可用性。

3.2 不断突出的单服务器的存储极限

在新存储介质层出不穷的同时，单服务器的存储极限也在不断突破。从2008年到2014年，主流单服务器内存从8 GB发展到现在的96～192 GB。货架产品里，单服务器最高内存容量可达48 TB。在硬盘方面，从2008年到2014年，主流单服务器磁盘容量从1 TB发展到48 TB。

2014年9月，英特尔开发者峰会展示了2U服务器可以容纳1.5 TB内存和100 TB 硬盘，使高密度部署更上台阶。微软公司在同年10月份宣布推出的Azure G系列虚拟机，能够提供单虚拟机448 GB内存。这不但推动了大数据“内存计算^[2,3]”的普及，而且模糊了内存和磁盘的边界，越来越多内存被用于缓存，甚至当成RAM Disk使用^[4]。

3.3 创新的分布式文件系统

大数据技术的发展起始于分布式文件系统（distributed filesystem，DFS）。当前，分布式文件系统以Apache HDFS为主，但用户需求在持续变化。一方面，数据中心的资源开始统一管理调度，分离的小集群被转换成统一的大集群，对存储系统的容量上限、存储的空间效率、访问控制和数据安全有了更高的要求。另一方面，存储系统的使用模式由周期性的批处理应用变成了交互式的查询和实时流式应用。

下面简单描述分布式文件系统的几个最新发展。

首先，HDFS（Hodoop Distributed File System,Hadoop分布式文件系统）新实现的HDFS缓存功能允许用户把某些常用数据块保留在堆外内存中，一方面可以增加数据带宽，减少时延；另一方面，可以用于不同应用之间的高速数据共享。

第二，支持分层的存储设备。数据中心一般都有内存、SSD和硬盘等存储设备，新型非易失存储器（nonvolatile memory， NVM）也呼之欲出，还有各类传统存储系统，如SAN（存储区域网络）、NAS（网络附属存储）和NETFS（网络文件系统）。因此，HDFS推出新功能heterogene ous storages（HDFS-2832）以支持异构的存储设备，适用不同应用的存储需求。

第三，加密文件系统。现在的典型部署是一个大集群容纳所有用户，由此带来的问题就是数据安全。HDFS的新功能——加密式文件系统（HADOOP-10150），使用AES-CTR加密算法，能够透明地对HDFS 上的文件块加密、解密，并且只有很小的性能损失。

第四，内存文件系统，如RAMCloud^[6]。它是由成千上万台普通服务器的主存组成的大规模存储系统，所有信息都存储在这些快速的DRAM中，内存取代了传统系统中的硬盘，而硬盘只作为备份使用。其目标是同时实现大规模（100～1 000 TB）和低时延（5～10 ms），比目前系统快100～1 000倍。在Spark^[4]软件栈中也加入了内存文件系统Tachyon，特别适合迭代式的计算需求以及多应用共享数据。

最后值得一提的是纠删码（erasure coding），它最早应用于通信领域，通过编码机制实现传输过程中容错甚至纠错，如今它也被用到了大数据方向。英特尔公司和Cloudera公司一起推出了一种新的纠删码实现。

3.4 蓬勃发展的NoSQL数据库

同时，基于DFS技术和MapReduce技术的演进，发展出品类丰富的NoSQL 数据库技术^[3,6~12]。NoSQL数据库摒弃了关系模型的约束，弱化了一致性的要求，从而获得水平扩展能力，支持更大规模的数据。其模式自由（schema free），不再坚持SQL查询语言，因此催生了多种多样的数据库类型，目前被广为接受的如下。

（1）类表结构数据库

类表结构数据库是最早出现且在模式上也是最接近于传统数据库的NoSQL 数据库，但多采用列存储。其源头是谷歌公司的BigTable^[7]，并且在此之上发展出HBase、Hypertable、Cassandra和着重安全的Accumulo（美国国家安全局使用）。

（2）文档数据库

数据保存载体是XML或JSON文件，从而能够支持灵活丰富的数据模型。一般文档数据库可以通过键值或内容进行查询。MongoDB是典型的文档数据库，也是DB Engines数据库排行榜中排名最前的NoSQL数据库（前10名当中只有两个NoSQL数据库，另一个是Cassandra）。

（3）键—值存储

因其易用性和普适性形成了NoSQL家族中最大的一支。键—值是最简单的一种数据模型，在此之上可以实现更丰富的数据模型。目前，基于不同一致性和存储介质（内存、SSD或硬盘）形成了很多选择。比如，亚马逊Dynamo^[9]以最终一致性为主，而Berkeley DB^[10]则保证串行一致性； Memcached^[11]和Redis是基于主内存的，而BigTable一族则是基于磁盘的。

除了上面3 种数据库类型外，值得一提的是图数据库，将数据存储在高效的图结构中，典型代表是Neo4j。另一个案例，由谷歌公司工程师开发的开源图数据库Cayley针对Linked Data和图数据（如语义网络和社交网络）。

在NoSQL的蓬勃发展中，其重要理论支持“CAP（consistency，availability，partition tolerance）理论”也在演进。传统上CAP必须保证P（partition tolerance，分区容错性），而在C（consistency，一致性）、A（availability，可用性）中取舍。Eric Brewer在名为《CAP 理论十二周年回顾：“规则”变了》^[12]一文中指出：CAP理论的3选2这一结论太过简单化，实际情况要更复杂。首先，在同一数据中心，分区的情况很少出现，意味着在系统不存在分区的情况下未必要牺牲C或A；其次，C和A之间的取舍可以在同一系统内以非常细小的颗粒度反复发生，其取决于特定的操作、数据或用户；再者，这3 种性质都不是非黑即白的，每个属性都有多种度量。在这个前提下，CAP理论的应用会更加复杂。Eric提出：CAP要在大部分时候允许完美的C和A；当分区存在或者可以感知时，需要定义一种策略来探知其存在，并根据CAP理论的指导对其进行处理。换句话说，创建一个CAP全都有的系统是可能的。

NoSQL一般损失强一致性以换取性能，而抽样方法允许用户牺牲精度，以加快大规模数据集上查询的响应速度。其代表为BlinkDB，主要思想包括两个方面：一个是自适应优化框架，从原始数据中建立和维护一个多维度的采样集合；另一个是动态采样策略，根据查询的精度和响应时间要求，决定采样数据的规模。在VLDB 2012的展示上，BlinkDB使用100个Amazon EC2 节点组成的机群处理17 TB的数据，能够在2 s之内响应一系列的查询，速度是Hive的200倍，而错误率也被控制在2%～10%。

在NoSQL提出近4年后，来自The 451 Group的Matthew Aslett在2011年提出了NewSQL^[13]数据库的概念。NewSQL既能提供近似NoSQL的性能和可扩展性，又能提供类似于传统关系数据库那样的关系模型、事务和SQL语言接口。从架构或者实现角度来看，NewSQL系统可以分成三大类。

（1）使用全新的架构

该类又可以分成两类：第一类系统一般使用shared-nothing（无共享）架构，所有的节点都具有处理事务的能力，系统具有近似线性的扩展能力，其可以是通用的数据库（如Google Spanner^[3]）或者为某种特定场合设计的数据库（如VoltDB ^[14]）；第二类系统则使用主从架构，有专门的节点进行事务处理，这种设计使得系统的扩展能力会受到一定限制。

（2）各种MySQL存储引擎

MySQL是一个高度可扩展的架构，可以根据特定的应用场景为MySQL编写各种存储引擎，比较出名和成熟的有TokuDB、MemSQL、ScaleDB等。最新版本的MySQL 6.5既支持传统的关系数据模型，又支持键值对数据模型，此外还支持Memcached的访问协议。

（3）透明数据分区技术

与Cobar很相似，能够自动地对数据分区，并进行分布式事务管理，如dbShards、Scalearc和ScaleBase等。

作为NewSQL的一种主流，内存数据库以其优越性能成为新宠，主要包括两类：一类是传统数据库加上内存选项，如Oracle 12c^[15]（包括Exalytics和Exadata）、IBM DB2带BLU加速以及微软SQL Serve r 2014等；另一类是完全重起炉灶设计的新型数据库，包括Altibase、MemSQL、VoltDB、EXASOL、H20和SAP HANA等。不断增加的内存容量也为商业数据分析带来了新的可能：hybridtransaction/analytical processing （HTAP）在同一片内存中完成事务性的数据存取与分析过程，消除了数据ETL的代价。

Hadoop不支持ACI D事务限制了其应用场景，如删除旧的记录、更新表格中任意一项等均无法在Hadoop生态圈的工具中完成。因此，Hadoop最新推出的特性也体现了NewSQL的影响。首先是Hive，从0 .14版本开始能够在给定的限制下支持NewSQL操作；随后HBase也开始支持Transaction操作。

针对执行时间较长的操作，Hive推出了LLAP优化。其包括如下特性：有效降低启动开销；充分利用JIT优化引擎；对于向量算子采用多线程执行，并在这些线程之间共享元数据；异步I/O。这些优化与Tez等执行引擎相互独立，协同工作，以加快Hive的查询速度。被认为是Hadoop接班人的Spark也启动了称为Tungsten 的项目，对Spark的核心引擎进行加速。Tungsten专注于改善Spark对内存和CPU 的利用情况，主要包括以下3个改动：使用程序语义以改善JVM的对象模型和垃圾收集功能；设计cache - aware的算法和数据结构，以更好地利用层次存储体系（memory hierarchy）；利用代码生成（code generation），以更好地发挥现代编译器和CPU的能力。

谷歌公司仍然推动着超大规模广域数据库研究的前沿，连续推出Metastore、Spanner和F1。尤其值得一提的是Spanner，可扩展到几百万个机器节点，跨越成百上千个数据中心，具备几万亿个数据库行的规模。在最高抽象层面，Spanner 就是一个数据库，把数据分片存储在许多Paxos状态机上，这些机器位于遍布全球的数据中心内，通过复制技术实现全球可用性和地理局部性，保证即使面对大范围的自然灾害时数据依然可用（它的开源克隆CockroachDB名字取自蟑螂，寓指其超强的生存能力）。与Spanner同时现身的是新一代的谷歌文件系统Colossus，它们将取代BigTable和上一代谷歌文件系统的核心地位。F1是建筑在Spanner之上的关系数据库。在上述的NoSQL/NewSQL数据库上衍生出很多针对特定用途的数据库。如OpenTSDB和KairosDB是基于HBase 和Cassandra的时间序列数据库。

传统上，比较“小众”的科学计算数据库也开始向大数据融合，主要体现为并行数组数据库（array DBMS）。目前得到最多关注的是SciDB，其作为开源的科学领域数据库，设计初衷旨在提供多维数据管理，更好地支持具有科学计算特点的分析，比如它使用数组数据模型，允许行列交换，支持查询语言和数学计算，性能上比传统RDBMS快两个数量级。另一个相关工作是TileDB，作为一个针对数组数据做优化分块（tiling）策略的存储管理器，也将发展成为完整的分布式DBMS。它针对物理世界数据的高度skew和稀疏性，实现了非规则分块的策略，从而达到更高效的存储和负载均衡。

4 前沿方向二：巴别之难

圣经里有一个巴别寓言：在人类文明初期，曾经是“天下人用同一种口音语言说话”，人类语言相同，因而能够高效地合作。于是他们聚在一起要造“一座城和一座塔，塔顶通天”。但是，神不容许人类破坏神所定的纲纪，所以一夜之间扰乱了人类的口音和语言，让人类沟通困难，最终放弃建造工程，从而分布到不同的地方去。那个城叫巴别城，塔叫巴别塔。自此以后，“大一统”成为人类的梦想，但是语言障碍是最大的阻碍。

数据世界也面临同样的问题。不同来源、不同地方的数据用不同语言（格式）表示，即使相同格式，其语意和度量衡也可能不同。这些因素极大地阻碍了数据共享，限制了数据使用的范围。另一方面，数据可能是不完备的，甚至是相互之间矛盾的，这样导致了一个问题，即没有办法利用更多的数据产生更好的价值。

为解决这些问题，Data Curation应运而生，中文可译为“数据治理”。其原意是指在科学计算中的数据抽取、转换、保存和复用。后来逐渐扩展，数据治理包含在科学、人文、社会、教育所有领域，对数据进行发现、获取、质保、增值、重用的活动。在这里强调的是数据治理中与数据分享相关的技术——data munging / datawrangling（数据再加工）。数据再加工是指把数据从原始格式中抽取出来，然后向其他格式转化的过程。以前这个过程以手工为主，现在将逐渐变为半自动和自动过程。这是一个很难的题目，参考NP困难的提法，将其称为DB困难。

数据再治理技术希望打破数据的语义隔阂。新科图灵奖得主Michael Stonebraker目前就在做data wrangling。他的goby.com项目（如图1所示），根据某些条件返回与suicide six相关的几个选项，如何甄别这几个选项是否代表着同一个东西。Stonebraker开发的Data Tamer系统能够模拟人的推理思路，从不同的选项里面发现不同的线索。首先比较这些选项的源网站，接着进入选项所指的网页，分析数据的异同。通过对数据进一步发掘，发现数据描述的主体有很多特征，以这些这些特征为基础，发现相似特征。通过证据的不断叠加，发现数据与数据之间的关联性。

图1 数据发现示例

DataTamer技术的关键在于通过自动化的学习方式，发现数据中的规律和关联。首先是在文本这种典型的非结构化数据中发现结构；其次是发现重要的实体（entity）。而这一切都希望能够通过自动化学习来完成。同样在这个领域发力的还有Trifacta，该公司提出了“live in visualizations, not code”的口号，致力于让用户通过可视化完成data wrangling的工作。其基础是专门针对data wrangling 任务设计的DSL，追求灵活和扩展的用户也可以在Trifacta提供的DSL上编写自己的脚本。

DataWrangling下一步希望从半结构化或者多结构化的数据进一步扩展到完全非结构化的数据，如图片和语音。

数据治理完毕和数据质量提升以后，就是数据组织问题。

在今天的许多商业场景下，传统数据库和数据仓库在数据治理上暴露出难以操作和缺乏弹性的缺点。Schroeder认为Data Agility的重要性将不断上升，其关键在于组织数据。数据组织的复杂性使得数据很难被及时利用，更遑论进行实时更新，这极大地提高了数据使用成本。

主流的大数据处理框架纷纷提升其数据描述和组织的灵活性。Spark在1.4版本中引入了称为DataFrame的新API。一个Data Frame就是许多列数据的集合，每一列都是被命名的。可以将其看作结构化数据中的表格或R/Python中的data frame，不同之处在于其支持许多优化算子。DataFrame可由多种来源构成，如结构化数据文件、Hive表格、外部数据库或者RDD结构。而GraphLab在图数据之外，也开始支持表结构SFrame。

另一个值得关注的数据组织工具是Apache的UIMA。IBMWatson在知识竞赛jeopardy中战胜了两个此项目的前世界冠军，其组织多种形态数据的基础就是UIMA，它的优点是组织数据以便于后期的分析。

5 前沿方向三：数据有价

数据作为未来经济的石油，自身必须有一个特性——价值。

数据的物理实质是记录在介质上的比特。比特是可以低成本无限复制的，这就和物品稀缺性矛盾了。物品失去了稀缺性后，其价值也就趋近于零。所以，数据有价首先要确保数据的权利。

为了确保数据的权利，先要保证数据的安全。大数据的安全本身又分为大数据系统的安全、数据本身的安全以及数据使用中的安全。

有了数据权利和保障数据权利的数据安全，数据才能进行定价。

5.1 数据权利

在互联网和物联网时代，数据的存在形式已经变得非常复杂。在整个价值链条中，有数据源头、数据收集者、数据存储者、数据使用者等。在多数商业场景下，他们都是不同客体。所以整个价值链中，权利的定义是一个重要的技术、商业和法律的课题。

如图2所示，笔者初步认为有如下5个基本权利。

图2 数据的权利

●拥有权。必须明确数据的拥有权，像其他的物理财产一样，拥有权可以出现变更和分割。

●数据隐私权。即明确什么数据能够披露、什么数据不能披露、披露到什么样的粒度。

●数据许可权。哪些人在什么时间有权利看数据，是有约束的，比如今天允许给某个人看数据，明天就不允许。这个权利是可撤销的，也是可转移的。

●数据审计权。监督用户按照某个规范许可使用数据。需要有一种审计机制，确保用户按照约定的许可规范使用数据。

●数据分红权。基于数据外部性，获得数据使用许可的一方在反复使用数据中会产生新的价值，那么数据拥有者有没有可能得到分红？

5.2 数据安全

保障数据权利的核心是数据的安全问题。既有传统的信息系统安全问题，也有复杂的数据内容安全问题。

信息系统安全主要是大数据系统的安全控制，正在迅速地发展成熟。以Hadoop 为例，加入了基于Kerberos的用户和服务鉴权、HDFS文件和数据块权限控制。比如Apache Accumulo是一个开源数据库，美国国家安全局几十个PB的数据存在这里，它采用了一种基于标签（label）的非常灵活的访问控制机制。在HBase里面也利用coprocessor的机制实现了类似的访问控制。

数据内容安全超越了访问控制和数据加密，更加复杂，可以称为“动态数据安全”。动态数据安全是大数据安全特有的新问题。

动态数据安全产生的原因是在监控和审计数据使用的过程中，不能简单地使用“允许/不允许”的静态策略来管理数据访问。数据一定要能被访问，否则数据就不能流动。关键是要在数据被访问和被加工的过程中动态地对数据流动方向、数据使用范围、数据使用粒度进行跟踪和监控。

数据监控主要分以下几个步骤完成。

（1）在数据产生的源头进行监控和规划

首先，个人对数据的控制。现在个人用户对自己的数据有了一定的控制能力，比如do not track功能可以防止互联网服务商根据cookie不断地跟踪用户行为，可以避免广告的retargeting，比如在京东商城上看中一双鞋，到了淘宝上它的广告还是跟着消费者这种情况。

另外，个人数据的删除。目前可以要求一些互联网的服务提供商把个人的数据删掉。值得一提的是MIT的创新项目OpenPDS（open personal data store），允许个人对自己的数据进行收集和控制，在保护隐私的前提下向第三方提供数据，并且获得价值。

（2）对数据分享的粒度进行控制

数据脱敏或匿名化是目前数据安全中最热的一个研究领域。如何保证开放数据里不泄露个人的隐私信息，是一个重大课题。在历史上很多的数据开放都导致了这样的问题。比如美国在线开放的匿名搜索数据，有人把这个跟美国选举公开信息进行了匹配，使得某些个人的隐私被暴露出来。

传统的脱敏方法是去标识符。比如一张表有姓名、年龄、性别、邮编和疾病几列，姓名是可以唯一标识个人的，叫做标识符。针对隐私的攻击方式还有很多。比如多数据源的相互匹配，Netflix尝试在去标识后开放了一些数据，但是有人把去标识后的数据跟IMDB做了匹配，把一些有同性恋倾向的人找了出来，这就是多数据源的攻击。而研究表明，根据年龄、性别和邮编的信息，有90%以上的概率可以定位个人，这些属性叫准标识符，而这种攻击基于数据概率分布。

要防止这些隐私攻击，现在推出了很多技术，如K-anonymity^[16]。K的意思是在所有准标识符都相同的组别里（比如，在上述的数据表例子中，年龄、性别和邮编都相同的所有数据记录）保证至少有k个相同的记录，从而提高单个记录被多数据源交叉定位的难度。后续发展出了L-diversity^[17]和T-Closeness^[18]，继续对跨组别敏感信息的统计分布提出更高的可区分度的要求。

2006年提出的差分隐私（differential privacy）^[8]是近几年最热门的匿名化方法。这项技术提出，在数据中人为地插入噪声，同时通过精确模型设定保证噪音的程度不足以干扰各种数据分析算法（已经实际展示的有决策树、分类、聚类等），这样可以实现数据价值（信息粒度）和数据安全的平衡。

（3）建立数据使用的安全框架

未来，数据使用能够做到可用但不可见，相交但不相识。因为在几乎所有的大数据场景下，真正重要的数据分析结果，其实原始数据不是必须被公开或者传递的。为了实现这个目标，牵扯到以下几种技术。

●同态加密。典型的是CryptDB / Monomi^[19]，能够在加密的数据库上运行正常的SQL查询，而不用担心数据的明文被泄露，谷歌、SAP等公司都采用或借鉴了CryptDB的技术。

●基于加密协议的多方安全计算。图灵奖得主姚期智先生1982年开始研究这个问题，叫做“百万富翁的窘境”：两个百万富翁要比谁更有钱，但是谁都不愿意说出自己的财富数值，这就是典型一种保护隐私下的多方安全计算场景。

●基于可信计算环境的多方安全计算。前两种需要涉及晦涩难懂的加密算法，而基于可信计算环境的多方安全计算对数据计算的改变最小，也最有前途。当然，可信计算环境需要一些硬件支持。英特尔平台上开发了TXT、TPM、VT-d，目的都是保证应用计算环境是可信、可溯源的，计算中的数据被隔离保护。即将推出的下一个技术叫SGX^[20]，它保证数据在磁盘和内存里面都是加密的，只有载入CPU里面进行计算的时候才是明文，更进一步隔离了磁盘和内存的物理攻击机会。

（4）区块链与零知识证明、多方安全计算等融合

在未来高度分布、去中心化场景下，可能会发展出各个数据实体之间不存在单个核心节点的安全控制机制。最典型的就是比特币所依赖的区块链（block chain）技术被广泛看好，将承担全球规模的去中心化金融系统中事务记录、支付、数据资产管理和交易、智能合约等业务，以太坊（Ethereum）是实现这些业务的开放应用开发环境。区块链技术也将被应用于个人数据控制（如上述Open PDS的下一代Open Mustard Seed框架）和分布式数据存储（如MaidSafe）。区块链与零知识证明、多方安全计算等融合，将有可能成为下一代互联网基础设施平台。

5.3 数据审计监管的技术

系统安全、数据安全、使用安全都需要审计作为保证。所谓审计就是给出一个数据使用的条款，按照条款监控数据的使用。设计条款必须有形式化的描述，其目的在于让非IT的专业领域人员编写这些条款，如企业法务。如果一个企业的数据要开放给另外一个企业，需要法律人士给出逻辑严格的使用条例，条例的内容本质上不是IT范畴。同时，因为条例规范是形式化的，IT技术方案也可以据此对数据的使用进行必要的审计监控。

5.4 数据定价的技术

数据定价是最具挑战性的研究方向，尚无成熟的研究成果。目前数据的定价有两个依据：一是根据效用，二是根据稀缺性。数据效用简单来说，就是数据使用的频率，也可以理解为从分析结果逆推数据的渊源（lineage），从而量化各方数据对结果的贡献度。稀缺性则是根据数据价值的密度以及历史价格的稀缺性进行定价。

5.5 数据咖啡馆

基于上述这些前沿技术，英特尔中国研究院开发了一个数据分享原型平台—— 数据咖啡馆。咖啡馆的寓意是让不同的人能够聚在一起进行思想的碰撞，产生新的价值。数据咖啡馆希望能够让不同方的数据碰在一起，产生新的价值。

许多独立垂直电商或者线下行业用户，仅靠其自身收集的消费者数据不足以对消费者建立精准的营销模型。因此，他们需要彼此间开放数据，甚至从通信、地图等专业数据源持续地购买数据服务。

另一个案例是癌症的研究和治疗。癌症是一个长尾病症，过去50年癌症的治愈率只提升了8%，在所有的疑难杂症中是提升最少的，很大的原因是不同研究机构癌症的基因组样本非常有限。但是，共享基因组样本受到严格的隐私法律的限制。英特尔中国研究院希望通过技术创新把这些数据汇聚到一起，加速癌症研究的技术突破。现在，英特尔中国研究院跟美国几家研究机构有一个愿景：在2020年前，一天之内一个癌症患者来到医院能够完成全基因组测序，同时分析出致癌的基因，并且给出个性化的治疗方案。

数据咖啡馆的目标就是帮助这样的场景能够持续、高效、低成本地运作。其创新点包括：集成了分布式云环境下的可信任大数据计算环境；形式化地描述数据使用规范；探索基于数据使用规范的程序检查器，包括对代码的静态检查以及对结果的动态检查。

未来数据咖啡馆的应用场景：企业的数据拥有方是一方，但是没有分析能力；具有分析能力的独立的数据使用者又是一方。数据拥有方的IT人员准备了数据存储和数据格式，商务和法务人员编写数据使用规范。将数据格式和数据使用规范提交到数据咖啡馆云。数据使用方的分析师们编写分析代码，并提交到云上。云首先对代码进行检查，把它拆成预处理和全局分析两部分，其中预处理部分在数据拥有方的防火墙内执行。发送前，在云内先运行一个静态的检查器，根据数据使用规范检查代码的合法性。只有通过合法性检查的代码才会被送到数据提供方进行计算。然后，把阶段性的处理结果送回云。在送回前，由动态检查器对结果进行审计检查。只有完全符合数据使用规范，全局分析部分才能收到预处理结果，并在云里面完成最后的计算。这个架构可以自然地衍生到多方的数据计算。

这个架构创新点在于：数据的提供方和数据使用方实现了可控的隔离。原始数据和核心分析算法作为参与各方的核心资产，在计算过程中得到保护，并且计算过程不受保护措施干扰。英特尔中国研究院愿意与各位同仁在这一领域共同开展前沿研究。

参考文献

[1] Amara R, Lipinski A J. Business Planning for AnUncertainFuture: Scenarios & Strategies. New York: Pergamon Press, 1983

[2] Färber F, Cha S K, Primsch J, et al. SAP HANA database: datamanagement for modern business applications. ACM Sigmod Record, 2012, 40(4):45~51

[3] Corbett J C, DeanJ, Epstein M, et al. Spanner:Google’s globally distributed database. ACM Transactions on Computer Systems,2013, 31(3)

[4] Zaharia M, Chowdhury M, Das T, etal. Resilient distributed datasets: a fault-tolerant abstraction forin-memory cluster computing. Proceedings of the 9th USENIX Conference onNetworked Systems Design and Implementation, San Jose, CA, USA, 2012

[5] Li H, Ghodsi A, Zaharia M, et al. Tachyon: reliable, memory speed storage for clustercomputing frameworks. Proceedings of the ACM Symposium on Cloud Computing,Seattle, Washington, USA, 2014: 1~15

[6] Ousterhout J, Agrawal P, Erickson D, et al. The case for RAMClouds: scalablehigh-performance storage entirely in DRAM. ACM SIGOPS Operating Systems Review,2010, 43(4): 92~105

[7] Chang F, Dean J, Ghemawat S, et al. Bigtable: a distributed storage system for structured data.ACM Transactions on Computer Systems, 2008, 26(2)

[8] Dwork, Cynthia. Encyclopedia of Cryptography and Security.New York: Springer US, 2011

[9] DeCandia G, Hastorun D, Madan J, et al. Dynamo: amazon’s highly availablekey-value store. ACM SIGOPS Operating Systems Review, 2007, 41(6)

[10] OlsonM A, Keith B, Seltzer M I. Berkeley DB. Proceedings ofUSENIX Annual Technical Conference, Monterey, CA, USA, 1999

[11]Jose J, SubramoniH, Luo M, et al. Memcached design onhigh performance rdma capable interconnects. Proceeding of IEEE InternationalConference on Parallel Processing (ICPP), Taipei,China, 2011

[12]Brewer E. CAP twelve years later: how the “rules” have changed. Computer,2012, 45(2): 23~29

[13]Moniruzzaman A B M. NewSQL: towards next-generation scalable RDBMSfor online transaction processing (OLTP) for big data management. arXiv Preprint,2014, arXiv:1411.7343

[14]Stonebraker M, Weisberg A. The VoltD Bmain memory DBMS. IEEE DataEngineering Bulletin, 2013, 36(2): 21~27

[15]Greenwald R, Stackowiak R, Stern J. Oracle Essentials: OracleDatabase 12c. Sebastopol: O’Reilly Media Inc, 2013

[16]Sweeney L. K-anonymity: a model for protecting privacy.International Journal of Uncertainty, Fuzziness and Knowledge- Based Systems,2002, 10(5): 557~570

[17]Machanavajjhala A, Kifer D, Gehrke J, et al. l-diversity: privacy beyond k-anonymity. ACM Transactions onKnowledge Discovery from Data, 2007, 1(1)

[18]Li N H, Li T C, Venkatasubramanian S. T-closeness: privacy beyondk-anonymity and L-diversity. Proceedings of the 23rd International Conferenceon Data Engineering, Istanbul, Turkey, 2007

[19]Popa R A, Redfield C M S, Zeldovich N, et al. CryptDB: protecting confidentiality with encrypted queryprocessing. Proceedings of the 23rd ACM Symposium on Operating Systems Principles,Cascais, Portugal, 2011

[20]McKeen F,Alexandrovich L, Berenzon A, et al. Innovative instructions and software model for isolatedexecution. Proceedings of the 2nd International Workshop on Hardware andArchitectural Support for Security and Privacy, New York, NY, USA, 2013

你可能感兴趣的:(《大数据》2015年第2期“前沿”——大数据技术发展的十个前沿方向（上）)

右移的错误使用造成超出时间限制解决方案 aPurpleBerry LeetCode做题总结算法力扣二分查找
题目链接：https://leetcode.cn/problems/guess-number-higher-or-lower/?envType=study-plan-v2&envId=leetcode-75最开始的代码varguessNumber=function(n){letl=1,r=n;while(l>1;if(guess(m)===-1){r=m-1;}elseif(guess(m)===
【问题解决】pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 aPurpleBerry 问题解决前端
今天配置完poetry环境变量之后pnpm不能用了具体报错pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。所在位置行:1字符:1+pnpmrundev+~~~~+CategoryInfo:ObjectNotFound:(pnpm:String)[],CommandNotFoundException+F
将字符串数组String[]转换成List的三种方法积极向上的Elbert java学习 java 开发语言
通过Arrays.asList(strArray)方式,将数组转换List后，不能对List增删，只能查改，否则抛异常。String[]strArray=newString[2];Listlist=Arrays.asList(strArray)；list.add("1");//此处会报错原因解析：Arrays.asList(strArray)返回值是java.util.Arrays类中一个私有静态
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
[Python] 使用 dataclass 简化数据结构：定义、功能与实战踏雪无痕老爷子 Python python 开发语言
在经典面向对象编程中，为了保存和操作数据往往需要定义多个类，手写__init__()、__repr__()、__eq__()等方法。Python3.7引入了@dataclass装饰器，它能自动生成这些常见方法，大幅减少样板代码。本文将介绍dataclass的定义与参数、比较与普通类的差别、实战示例，以及常见注意事项。一、什么是dataclass@dataclass是一种类装饰器，它通过类成员的类型
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
RAG应用的评估（一） AI老炮 AIGC ai 机器学习人工智能语言模型
前言上篇文档主要是对Advanced-RAG的定义、策略和适用场景做了一个细致的分析，那么当我们准备将一个基于大模型的RAG应用投入生产时，如何去判断这个RAG是否合理呢？下面有一些问题是需要提前考并应付的：LLM输出的不确定性会带来一定的不可预知性。一个RAG应用在投入生产之前需要科学的测试以衡量这种不可预知性。在LLM应用上线后的持续维护中,需要科学、快速、可复用的手段来衡量其改进效果,比如回
Go语言--包(Package) yunfan188 #Go语言学习笔记 go go语言 golang package
1命名空间和作用域1.1命名空间命名空间（Namespace）在编程语言中常用来表示标识符（identifier）的可见范围。编程语言借助命名空间来解决标识符不能同名的问题，命名空间实际上相当于给标识符添加了标识前缀，使标识符变得全局唯一。另外，命名空间是程序组织更加模块化，降低了程序内部的耦合性。一个标识符可以在多个命名空间中定义，它在不同命名空间中的含义是不互相干的。新的命名空间中可定义任意的
【RAG面试题】LLMs已经具备了较强能力,存在哪些不足点? 一叶千舟 AI面试题【RAG】RAG
目录LLMs核心不足点1、知识过时与静态性（LackofReal-Time&DynamicKnowledge）：2、幻觉与事实性错误（Hallucinations&FactualInaccuracies）：3、领域专业知识深度不足（LimitedDomain-SpecificExpertise）：4、缺乏透明度和可追溯性（LackofTransparency&Traceability）：5、上下文
如何在FastAPI中打造坚不可摧的Web安全防线？
url:/posts/9d6200ae7ce0a1a1a523591e3d65a82e/title:如何在FastAPI中打造坚不可摧的Web安全防线？date:2025-06-28T08:37:03+08:00lastmod:2025-06-28T08:37:03+08:00author:cmdragonsummary:Web安全三要素包括机密性、完整性和可用性。机密性通过加密算法保护数据传输和
PCDN如何提升网络流量的传输效率数据库
PCDN如何提升网络流量的传输效率在当今数字化时代，网络流量的快速增长对传统的CDN（内容分发网络）提出了更高要求。PCDN（P2PCDN）作为一种创新的内容分发技术，通过利用边缘节点的带宽资源，显著提升了宽带流量的传输效率，为用户带来更流畅的网络体验。分布式节点优化宽带流量传输传统CDN依赖中心化服务器分发内容，当用户请求激增时，容易导致服务器负载过高，影响宽带流量的传输速度。PCDN则采用分布
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
HarmonyOS从入门到精通：WebView开发逻极 harmonyos 华为鸿蒙 webview UI 前端实战
引言WebView是现代移动应用中不可或缺的组件，它使应用能够显示Web内容，实现混合开发。本文将详细介绍鸿蒙系统中WebView的开发技术，包括基本使用、性能优化和最佳实践。WebView基础知识1.WebView类型鸿蒙系统支持多种WebView实现：系统WebView自定义WebViewWeb组件2.WebView权限配置在开发WebView应用前，需要在配置文件中添加相关权限：{"modu
Java Fork/Join 框架详解 empti_ 数据结构与算法 java
JavaFork/Join框架详解Fork/Join框架是Java7引入的一个并行编程框架，专门设计用来高效地实现分治算法（Divide-and-Conquer）。它通过工作窃取（Work-Stealing）算法来最大化多核处理器的利用率。一、核心概念1.基本组成ForkJoinPool：特殊的线程池，管理工作线程ForkJoinTask：表示任务的抽象类，有两个重要子类：RecursiveAct
Java注解的实现原理 empti_ Java基础 java
Java注解的实现原理Java注解的实现涉及Java语言规范、编译器处理和JVM支持等多个层面。下面我将详细解释注解在Java中的实现机制。一、注解的本质注解本质上是一种特殊的接口，所有注解类型都隐式继承自java.lang.annotation.Annotation接口。当你定义一个注解时：public@interfaceMyAnnotation{Stringvalue();}编译器实际上会生成
程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？股票程序化交易接口量化交易股票API接口 Python股票量化交易程序化交易系统 macd指标 kdj指标 boll指标股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>基础指标在程序化交易系统中的重要性基础指标对交易决策的指导意义MACD、KDJ、BOLL等基础指标在程序化交易系统中扮演着重要角色。MACD可以帮助判断市场的趋势和买卖信号，通过分析其快线和慢线的交叉情况，能为投资者提供入场和出场的参
股票程序化交易软件如何选择？这些要点你知道吗股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链股票程序化交易软件功能特性稳定性成本股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>了解软件功能特性基础交易功能基础交易功能是股票程序化交易软件的核心。它应具备快速下单、撤单等基础操作能力。比如在行情快速变化时，能让投资者迅速抓住机会下单，或者及时撤单避免损失。软件的交易界面要简洁明了，方便投资者操作。还应支持多种交
【网络】Linux 内核优化实战 - net.core.rmem_max 锅锅来了 Linux性能优化原理和实战网络 linux 运维
目录参数作用与原理默认值与查看方法调整场景与方法适用场景调整方法与其他参数的协同性能影响与注意事项典型案例总结net.core.rmem_max是Linux内核中控制套接字接收缓冲区（ReceiveBuffer）最大允许值的参数。它与net.core.rmem_default（默认值）共同决定了网络数据接收的性能上限和内存使用策略。以下是详细解析：参数作用与原理核心功能：限制单个套接字接收缓冲区的
RK3566系统移植 | 基于rk-linux-sdk移植uboot（2017.09） Mculover666 linux
文章目录一、测试已有的配置二、移植到fireflyROC-RK3566开发板1.新建单板2.新建设备树3.编译4.测试一、测试已有的配置查看rksdk中提供的uboot中对于rk3566的配置：rk3566.config内容如下：CONFIG_BASE_DEFCONFIG="rk3568_defconfig"CONFIG_LOADER_INI="RK3566MINIALL.ini"因为rk3566
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
Linux I/O 文件操作详解：从系统调用到实际工程应用平凡灵感码头 linux学习 linux 运维服务器
一、写在前面在Linux或任何类Unix操作系统中，文件是一切的核心——无论是硬盘上的文本文件，还是串口设备、GPIO寄存器、甚至网络接口，几乎都被抽象为“文件”。理解Linux下的I/O文件操作机制，不仅是嵌入式开发的基础，也是进行系统编程与底层控制的关键。二、I/O的本质：一切皆文件Linux将外设抽象成文件的方式，统一了对各种资源的操作模型。你可以用open打开串口设备/dev/ttyS0，
英国留学生顺利拿到offer！博士学历+微软MOS国际认证加buff！全球认证考试中心 microsoft
在全球化职场竞争日益激烈的当下，英国留学生若想提升自身竞争力，考取高含金量的国际证书是一条有效途径。MicrosoftOfficeSpecialist（MOS）国际认证作为微软官方推出的办公软件专业认证，在全球168个国家和地区得到认可，每年吸引近百万人次报考，已成为众多外企筛选人才的重要标准。正值暑假，不少同学计划利用这段时间备考MOS，本文将结合实际经验，为大家提供一套系统的备考方案。一、为何
构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践
前言在当今医疗科技快速发展的时代，每天都有数以千计的医学研究成果在全球范围内发表。从临床试验报告到基础研究论文，从流行病学调查到药物研发数据，这些专业文献承载着推动医学进步的重要知识。然而，面对如此海量且专业性极强的文献资料，医疗从业者往往感到力不从心。如何在有限的时间内，准确把握文献核心价值，并将其转化为临床实践的指导？这个问题一直困扰着整个医疗行业。1.项目背景与业务价值1.1医学文献阅读的困
JVM(9)——详解Serial垃圾回收器十六点五 jvm java 开发语言后端
Serial垃圾回收器是JVM最古老、最基础、最简单的垃圾回收器，也是理解其他更复杂回收器的基础。一、Serial回收器的定位与设计目标核心特点：单线程(Single-Threaded)这是Serial回收器最根本的特征。无论是进行垃圾标记(Marking)、清除(Sweeping)、复制(Copying)还是整理(Compacting)，它都只使用一个单独的线程来执行所有垃圾回收工作。工作模式：
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
【C++】atoi和std::stoi bluebonnet27 编程语言 #C++c++算法开发语言
两个将字符串转为int的方法atoi（C语言）atoi是C库中的一个函数，它定义在头文件里。其作用是把一个字符串转换为对应的整数。/*Convertastringtoaninteger.*/externintatoi(constchar*__nptr)__THROW__attribute_pure____nonnull((1))__wur;转换的原则如下：此函数接收一个以空字符'\0'结尾的字符串
并行归并排序的 Java 实现 empti_ 数据结构与算法 java 算法排序算法
并行归并排序Java实现importjava.util.concurrent.RecursiveAction;importjava.util.concurrent.ForkJoinPool;publicclassParallelMergeSort{//主方法，供外部调用publicstaticvoidparallelMergeSort(int[]array){ForkJoinPoolpool=ne
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源