秃桔子

大数据是什么

大数据本身是一个抽象的概念。从一般意义上讲，大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。

目前，业界对大数据还没有一个统一的定义，但是大家普遍认为，大数据具备 Volume、Velocity、Variety 和 Value 四个特征，简称“4V”，即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低，如图 1 所示。下面分别对每个特征作简要描述。
大数据特征

Volume：表示大数据的数据体量巨大。

数据集合的规模不断扩大，已经从 GB 级增加到 TB 级再增加到 PB 级，近年来，数据量甚至开始以 EB 和 ZB 来计数。

例如，一个中型城市的视频监控信息一天就能达到几十 TB 的数据量。百度首页导航每天需要提供的数据超过 1-5PB，如果将这些数据打印出来，会超过 5000 亿张 A4 纸。图 2 展示了每分钟互联网产生的各类数据的量。
互联网每分钟产生的数据

Velocity：表示大数据的数据产生、处理和分析的速度在持续加快。

加速的原因是数据创建的实时性特点，以及将流数据结合到业务流程和决策过程中的需求。数据处理速度快，处理模式已经开始从批处理转向流处理。

业界对大数据的处理能力有一个称谓——“ 1 秒定律”，也就是说，可以从各种类型的数据中快速获得高价值的信息。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。

Variety：表示大数据的数据类型繁多。

传统 IT 产业产生和处理的数据类型较为单一，大部分是结构化数据。随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现，产生的数据类型无以计数。

现在的数据类型不再只是格式化数据，更多的是半结构化或者非结构化数据，如 XML、邮件、博客、即时消息、视频、照片、点击流、日志文件等。企业需要整合、存储和分析来自复杂的传统和非传统信息源的数据，包括企业内部和外部的数据。

Value：表示大数据的数据价值密度低。

大数据由于体量不断加大，单位数据的价值密度在不断降低，然而数据的整体价值在提高。以监控视频为例，在一小时的视频中，有用的数据可能仅仅只有一两秒，但是却会非常重要。现在许多专家已经将大数据等同于黄金和石油，这表示大数据当中蕴含了无限的商业价值。

根据中商产业研究院发布的《2018-2023 年中国大数据产业市场前景及投资机会研究报告》显示，2017 年中国大数据产业规模达到 4700 亿元，同比增长 30%。随着大数据在各行业的融合应用不断深化，预计 2018 年中国大数据市场产值将突破 6000 亿元达到 6200 亿元。

通过对大数据进行处理，找出其中潜在的商业价值，将会产生巨大的商业利润。

大数据时代是什么意思

近年来，信息技术迅猛发展，尤其是以互联网、物联网、信息获取、社交网络等为代表的技术日新月异，促使手机、平板电脑、pc 等各式各样的信息传感器随处可见，虚拟网络快速发展，现实世界快速虚拟化，数据的来源及其数量正以前所未有的速度增长。

伴随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化的转型，数据量呈现几何级增长，根据市场研究资料显示，全球数据总量将从 2016 年的 16.1ZB 增长到 2025 年的 163ZB （约合 180 万亿 GB），十年内将有 10 倍的增长，复合增长率为 26%，如图 1 所示。
若以现有的蓝光光盘为计量标准，那么 40ZB 的数据全部存入蓝光光盘，所需要的光盘总重量将达到 424 艘尼米兹号航母的总重量。而这些数据中，约 80% 是非结构化或半结构化类型的数据，甚至更有一部分是不断变化的流数据。因此，数据的爆炸性增长态势，以及其数据构成特点使得人们进入了“大数据”时代。

如今，大数据已经被赋予多重战略含义。

在资源的角度，数据被视为“未来的石油”，被作为战略性资产进行管理。

在国家治理角度，大数据被用来提升治理效率，重构治理模式，破解治理难题，它将掀起一场国家治理革命。

在经济增长角度，大数据是全球经济低迷环境下的产业亮点，是战略新兴产业的最活跃部分。

在国家安全角度，全球数据空间没有国界边疆，大数据能力成为大国之间博弈和较量的利器。

总之，国家竞争焦点将从资本、土地、人口、资源转向数据空间，全球竞争版图将分成新的两大阵营：数据强国与数据弱国。

从宏观上看，由于大数据革命的系统性影响和深远意义，主要大国快速做出战略响应，将大数据置于非常核心的位置，推出国家级创新战略计划。

美国 2012 年发布了《大数据研究和发展计划》，并成立“大数据高级指导小组”，2013 年又推出“数据一知识一行动”计划，2014 年进一步发布《大数据：把握机遇，维护价值》政策报告，启动“公开数据行动”，陆续公开 50 个门类的政府数据，鼓励商业部门进行开发和创新。

欧盟正在力推《数据价值链战略计划》；英国发布了《英国数据能力发展战略规划》；日本发布了《创建最尖端 IT 国家宣言》；韩国提出了“大数据中心战略”。中国多个省市发布了大数据发展战略，国家层面的《关于促进大数据发展的行动纲要》也于 2015 年 8 月 19 日正式通过。

从微观上看，大数据重塑了企业的发展战略和转型方向。

美国的企业以 GE 提出的“工业互联网”为代表，提出智能机器、智能生产系统、智能决策系统，将逐渐取代原有的生产体系，构成一个“以数据为核心”的智能化产业生态系统。

德国的企业以“工业 4.0”为代表，要通过信息物理系统（Cyber Physical System, CPS）把一切机器、物品、人、服务、建筑统统连接起来,形成一个高度整合的生产系统。

中国的企业以阿里巴巴提出的“DT 时代”（Data Technology）为代表，认为未来驱动发展的不再是石油、钢铁，而是数据。

这 3 种新的发展理念可谓异曲同工、如出一辙，共同宣告“数据驱动发展”成为时代主题。

与此同时，大数据也是促进国家治理变革的基础性力量。正如《大数据时代》的作者舍恩伯格在定义中所强调的：“大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的。”

在国家治理领域，大数据为解决以往的“顽疾”和 “痛点”，提供了强大支撑，如建设阳光政府、责任政府、智慧政府；大数据使以往无法实现的环节变得简单、可操作，如精准医疗、个性化教育、社会监管、舆情监测预警。

大数据也使一些新的主题成为国家治理的重点，如维护数据主权、开放数据资产、保持在数字空间的国家竞争力等。

中国具备成为数据强国的优势。中国的数据量在 2013 年已达到 576EB，到 2020 年这个数字将会达到 8.06ZB，增长超过 12 倍。

从全球占比来看，中国成为数据强国的潜力极为突岀，2010 年中国数据占全球数据的比例为 10%，2013 年占比为 13%，2020 年占比将达到 18%。

届时，中国的数据规模将超过美国位居世界第一。中国成为数据大国并不奇怪，因为中国是人口大国、制造业大国、互联网大国、物联网大国，这都是最活跃的数据生产主体，未来几年，中国成为数据大国也是逻辑上的必然结果。

大数据的产生和作用（详细分析）

从采用数据库作为数据管理的主要方式开始，人类社会的数据产生方式大致经历了 3 个阶段，而正是数据产生方式的巨大变化才最终导致大数据的产生。

运营式系统阶段。

数据库的出现使得数据管理的复杂度大大降低，在实际使用中，数据库大多为运营系统所采用，作为运营系统的数据管理子系统，如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。

人类社会数据量的第一次大的飞跃正是在运营式系统开始广泛使用数据库时开始的。这个阶段的最主要特点是，数据的产生往往伴随着一定的运营活动；而且数据是记录在数据库中的，例如，商店每售出一件产品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。

用户原创内容阶段。

互联网的诞生促使人类社会数据量出现第二次大的飞跃，但是真正的数据爆发产生于 Web 2.0 时代，而 Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长。

主要有以下两个方面的原因。
是以博客、微博和微信为代表的新型社交网络的岀现和快速发展，使得用户产生数据的意愿更加强烈。
是以智能手机、平板电脑为代表的新型移动设备的出现，这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段的数据产生方式是主动的。

感知式系统阶段。

人类社会数据量第三次大的飞跃最终导致了大数据的产生，今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。

随着技术的发展，人们已经有能力制造极其微小的带有处理功能的传感器，并开始将这些设备广泛地布置于社会的各个角落，通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据，这种数据的产生方式是自动的。

简单来说，数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源，但其中自动式的数据才是大数据产生的最根本原因。
大数据的作用
大数据虽然孕育于信息通信技术，但它对社会、经济、生活产生的影响绝不限于技术层面。更本质上，它是为我们看待世界提供了一种全新的方法，即决策行为将日益基于数据分析，而不是像过去更多凭借经验和直觉。具体来讲，大数据将有以下作用。

对大数据的处理分析正成为新一代信息技术融合应用的结点。

移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。

云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值，大数据具有催生社会变革的能量。

大数据是信息产业持续高速增长的新引擎。

面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。

在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生出一体化数据存储处理服务器、内存计算等市场。

在软件与服务领域，大数据将引发数据快速处理分析技术、数据挖掘技术和软件产品的发展。

大数据利用将成为提高核心竞争力的关键因素。

各行各业的决策正在从“业务驱动”向“数据驱动”转变。

在商业领域，对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对，可以为商家制定更加精准有效的营销策略提供决策支持，可以帮助企业为消费者提供更加及时和个性化的服务。

在医疗领域，可提高诊断准确性和药物有效性。

在公共事业领域，大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

大数据时代，科学研究的方法手段将发生重大改变。

例如，抽样调查是社会科学的基本研究方法，在大数据时代，研究人员可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据，进行挖掘分析，揭示出规律性的东西，提出研究结论和对策。

大数据时代的10个重大变化

对研究范式的新认识：从第三范式到第四范式

2007 年 1 月，图灵奖得主、关系型数据库鼻祖 JimGray 发表演讲，他凭着自己对于人类科学发展特征的深刻洞察，敏锐地指出科学的发展正在进入“数据密集型科学发现范式”——科学史上的“第四范式”。

在他看来，人类科学研究活动已经历过三种不同范式的演变过程。

“第一范式”是指原始社会的“实验科学范式”。18 世纪以前的科学进步均属于此列，其核心特征是对有限的客观对象进行观察、总结、提炼，用归纳法找出其中的科学规律，如伽利略提出的物理学定律。

“第二范式”是指 19 世纪以来的理论科学阶段，以模型和归纳为特征的“理论科学范式”。其核心特征是以演绎法为主，凭借科学家的智慧构建理论大厦，如爱因斯坦提出的相对论、麦克斯方程组、量子理论和概率论等。

“第三范式”是指 20 世纪中期以来的计算科学阶段的“计算科学范式”。面对大量过于复杂的现象，归纳法和演绎法都难以满足科学研究的需求，人类开始借助计算机的高级运算能力对复杂现象进行建模和预测，如天气、地震、核试验、原子的运动等。

然而，随着近年来人类采集数据量的爆炸性增长，传统的计算科学范式已经越来越无力驾驭海量的科研数据了。例如，欧洲的大型粒子对撞机、天文领域的 Pan-STARRS 望远镜每天产生的数据多达几千万亿字节（PB）。很明显，这些数据已经突破了“第三范式”的处理极限，无法被科学家有效利用。

正因为如此，目前正在从“计算科学范式”转向“数据密集型科学发现范式”。

“第四范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识，无须直接面对所研究的物理对象。例如，在大数据时代，天文学家的研究方式发生了新的变化，其主要研究任务变为从海量数据库中发现所需的物体或现象的照片，而不再需要亲自进行太空拍照。

对数据重要性的新认识：从数据资源到数据资产

在大数据时代，数据不仅是一种“资源”，更是一种重要的“资产”。因此，数据科学应把数据当作一种“资产”来管理，而不能仅仅当作“资源”来对待。也就是说，与其他类型的资产相似，数据也具有财务价值，且需要作为独立实体进行组织与管理。

大数据时代的到来，让“数据即资产”成为最核心的产业趋势。在这个“数据为王”的时代，回首信息产业发展的起起伏伏，我们发现产业兴衰的决定性因素，已不是土地、人力、技术、资本这些传统意义上的生产要素，而是曾经被一度忽视的“数据资产”。

世界经济论坛报告曾经预测称，“未来的大数据将成为新的财富高地，其价值可能会堪比石油”，而大数据之父维克托也乐观地表示，“数据列入企业资产负债表只是时间问题”。

“数据成为资产”是互联网泛在化的一种资本体现，它让互联网不仅具有应用和服务本身的价值，而且具有了内在的“金融”价值。数据不再只是体现于“使用价值”方面的产品，而成为实实在在的“价值”。

目前，作为数据资产先行者的 IT 企业，如苹果、谷歌、IBM、阿里、腾讯、百度等，无不想尽各种方式，挖掘多种形态的设备及软件功能，收集各种类型的数据，发挥大数据的商业价值，将传统意义上的 IT 企业，打造成为“终端+应用+平台+数据”四位一体的泛互联网化企业，以期在大数据时代获取更大的收益。

大数据资产的价值的衡量尺度主要有以下 3 个方面的标准。

独立拥有及控制数据资产

目前，数据的所有权问题在业界还比较模糊。从拥有和控制的角度来看，数据可以分为 Ⅰ 型数据、Ⅱ 型数据和 Ⅲ 型数据。

Ⅰ 型数据主要是指数据的生产者自己生产出来的各种数据，例如，百度对使用其搜索引擎的用户的各种行为进行收集、整理和分析，这类数据虽然由用户产生，但产权却属于生产者，并最大限度地发挥其商业价值。

Ⅱ 型数据又称为入口数据，例如，各种电子商务营销公司通过将自身的工具或插件植入电商平台，来为其提供统计分析服务，并从中获取各类经营数据。虽然这些数据的所有权并不属于这些公司，在使用时也有一些规则限制，但是它们却有着对数据实际的控制权。

相比于前两类数据，Ⅲ 型数据的产权情况比较复杂，它们主要依靠网络爬虫，甚至是黑客手段获取数据。与 Ⅰ 型和 Ⅱ 型数据不同的是，这些公司流出的内部数据放在网上供人付费下载。这种数据在当前阶段，还不能和资产完全画等号。

计量规则与货币资本类似

大数据要实现真正的资产化，用货币对海量数据进行计量是一个大问题。尽管很多企业都意识到数据作为资产的可能性，但除了极少数专门以数据交易为主营业务的公司外，大多数公司都没有为数据的货币计量做出适当的账务处理。

虽然数据作为资产尚未在企业财务中得到真正的引用，但将数据列入无形资产比较有利。

考虑到研发因素，很多高科技企业都具有较长的投入产出期，可以让那些存储在硬盘上的数据直接进入资产负债表。对于通过交易手段获得的数据，可以按实际支付价款作为入账价值计入无形资产，从而为企业形成有效税盾，降低企业实际税负。

具有资本一般的增值属性

资本区别于一般产品的特征在于，它具有不断增值的可能性。只有能够利用数据、组合数据、转化数据的企业，他们手中的大数据资源才能成为数据资产。

目前，直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。
数据租售主要通过对业务数据进行收集、整理、过滤、校对、打包、发布等一系列操作，实现数据內在的价值。
信息租售则通过聚焦行业焦点，收集相关数据，深度整合、萃取及分析，形成完整数据链条，实现数据的资产转化。
数据使能是指类似于阿里这样的互联网公司通过提供大量的金融数据挖掘及分析服务，为传统金融行业难以下手的小额贷款业务开创新的行业增长点。

总而言之，作为信息时代核心的价值载体，大数据必然具有朝向价值本体转化的趋势，而它的“资产化”，或者未来更进一步的“资本化”蜕变，将为未来完全信息化、泛互联网化的商业模式打下基础。

对方法论的新认识：从基于知识到基于数据

传统的方法论往往是“基于知识”的，即从“大量实践（数据）”中总结和提炼出一般性知识（定理、模式、模型、函数等）之后，用知识去解决（或解释）问题。因此，传统的问题解决思路是“问题→知识→问题”，即根据问题找“知识”,并用“知识”解决“问题”。

然而，数据科学中兴起了另一种方法论——“问题→数据→问题”，即根据“问题”找“数据”，并直接用“数据”（在不需要把“数据”转换成“知识”的前提下）解决“问题”.

对数据分析的新认识：从统计学到数据科学

在传统科学中，数据分析主要以数学和统计学为直接理论工具。但是，云计算等计算模式的出现及大数据时代的到来，提升了我们对数据的获取、存储、计算与管理能力，进而对统计学理论与方法产生了深远影响。大数据带给我们 4 个颠覆性的观念转变。

不是随机样本，而是全体数据

在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。

以前我们通常把随机采样看成是理所应当的限制，但是真正的大数据时代是指不用随机分析法这样的捷径，而采用对所有数据进行分析的方法，通过观察所有数据，来寻找异常值进行分析。

例如，信用卡诈骗是通过异常情况来识别的，只有掌握了所有数据才能做到这一点。在这种情况下，异常值是最有用的信息，可以把它与正常交易情况作对比从而发现问题。

不是纯净性，而是混杂性

数据量的大幅增加会造成一些错误的数据混进数据集。但是，正因为我们掌握了几乎所有的数据，所以我们不再担心某个数据点对整套分析的不利影响。

我们要做的就是要接受这些纷繁的数据并从中受益，而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。

不是精确性，而是趋势

研究数据如此之多，以至于我们不再热衷于追求精确度。之前需要分析的数据很少，所以我们必须尽可能精确地量化我们的记录，但随着规模的扩大，对精确度的痴迷将减弱。

拥有了大数据，我们不再需要对一个现象刨根问底，只要掌握了大体的发展方向即可，适当忽略微观层面上的精确度，会让我们在宏观层面拥有更好的洞察力。

例如，微信朋友圈中朋友发动态的时间，在一小时以内的会显示多少分钟之前，在一小时以外的就只显示几小时前；微信公众号中显示的阅读量，超过十万以后显示的就是 100000+，而不是具体数据，因为超过十万的阅读量已经让我们觉得这篇文章很优秀了，没必要精确。

不是因果关系，而是相关关系

在数据科学中，广泛应用“基于数据”的思维模式，重视对“相关性”的分析，而不是等到发现“真正的因果关系”之后才解决问题。

在大数据时代，人们开始重视相关分析，而不仅仅是因果分析。我们无须再紧盯事物之间的因果关系，而应该寻找事物之间的相关关系。相关关系也许不能准确地告诉我们某件事情为何会发生，但是它会告诉我们某件事情已经发生了。

在大数据时代，我们不必非得知道现象背后的原因，而是要让数据自己发声。知道是什么就够了，没必要知道为什么。例如，知道用户对什么感兴趣即可，没必要去研究用户为什么感兴趣。

相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时，其他数据值很有可能也会随之增加。相关关系是通过识别关联物来帮助我们分析某一现象的，而不是揭示其内部的运作。

通过找到一个现象良好的关联物，相关关系可以帮助我们捕捉现在和预测未来。例如，如果川和万经常一起发生，我们只需要注意方是否发生，就可以预测力是否也发生了。

对计算智能的新认识：从复杂算法到简单算法

“只要拥有足够多的数据，我们可以变得更聪明”是大数据时代的一个新认识。因此，在大数据时代，原本复杂的“智能问题”变成简单的“数据问题”。

只要对大数据进行简单查询就可以达到“基于复杂算法的智能计算的效果”。为此，很多学者曾讨论过一个重要话题——“大数据时代需要的是更多的数据还是更好的模型？”

机器翻译是传统自然语言技术领域的难点，虽曾提出过很多种算法，但应用效果并不理想。IBM 有能力将《人民日报》历年的文本输入电脑，试图破译中文的语言结构。

例如，实现中文的语音输入或者中英互译，这项技术在 20 世纪 90 年代就取得突破，但进展缓慢，在应用中还是有很多问题。近年来，Google 翻译等工具改变了“实现策略”，不再依靠复杂算法进行翻译,而是通过对他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率。

他们并不教给电脑所有的语言规则，而是让电脑自己去发现这些规则。电脑通过分析经过人工翻译的数以千万计的文件来发现其中的规则。这些翻译结果源自图书、各种机构（如联合国）及世界各地的网站。

他们的电脑会扫描这些语篇，从中寻找在统计学上非常重要的模式，即翻译结果和原文之间并非偶然产生的模式。一旦电脑找到了这些模式，今后它就能使用这些模式来翻译其他类似的语篇。

通过数十亿次重复使用，就会得出数十亿种模式及一个异常聪明的电脑程序。但是对于某些语言来说，他们能够使用到的已翻译完成的语篇非常少，因此 Google 的软件所探测到的模式就相对很少。这就是为什么 Google 的翻译质量会因语言对的不同而不同。

通过不断向电脑提供新的翻译语篇，Google 就能让电脑更加聪明，翻译结果更加准确。

对管理目标的新认识：从业务数据化到数据业务化

在传统数据管理中，企业更加关注的是业务的数据化问题，即如何将业务活动以数据方式记录下来，以便进行业务审计、分析与挖掘。

在大数据时代，企业需要重视一个新的课题——数据业务化，即如何“基于数据”动态地定义、优化和重组业务及其流程，进而提升业务的敏捷性，降低风险和成本。业务数据化是前提，而数据业务化是目标。

电商的经营模式与实体店最本质的区别是，电商每卖出一件产品，都会留存一条详尽的数据记录。也正是因为可以用数字化的形式保留每一笔销售的明细，电商可以清楚地掌握每一件商品到底卖给了谁。

此外，依托互联网这个平台，电商还可以记录每一个消费者的鼠标单击记录、网上搜索记录。所有这些记录形成了一个关于消费者行为的实时数据闭环，通过这个闭环中源源不断产生的新鲜数据，电商可以更好地洞察消费者，更及时地预测其需求的变化，经营者和消费者之间因此产生了很强的黏性。

线下实体商店很难做到这一点，他们可能只知道一个省、一个市或者一个地区卖了多少商品，但是，他们很难了解到所生产、经营的每一件商品究竟卖到了哪一个具体的地方、哪一个具体的人，这个人还买了其他什么东西、查看了哪些商品、可能会喜欢什么样的商品。

也就是说，线下实体店即使收集了一些数据，但其数据的粒度、宽度、广度和深度都非常有限。由于缺乏足够的数据，实体店对自己的经营行为，对消费者的洞察力，以及和消费者之间的黏性都十分有限。

就此而言，一家电商和一家线下实体店最本质的区别就是是否保存了足够的数据。其实，这正是互联网化的核心和本质，即“数据化”。这并不是一个简单的数据化，而是所有业务的过程都要数据化，即把所有的业务过程记录下来，形成一个数据的闭环，这个闭环的实时性和效率是关键的指标。这个思想就是一切业务都要数据化。

在大数据时代，企业不仅仅是把业务数据化，更重要的是把数据业务化，也就是把数据作为直接生产力，将数据价值直接通过前台产品作用于消费者。

数据可以反映用户过去的行为轨迹，也可以预测用户将来的行为倾向。比较好理解的一个实例就是关联推荐，当用户买了一个商品之后，可以给用户推荐一个最有可能再买的商品。个性化是数据作为直接生产力的一个具体体现。

随着数据分析工具与数据挖掘渠道的日益丰富与多样化，数据存量越来越大，数据对企业也越来越重要。数据业务化能够给企业带来的业务价值主要包括以下几点：提高生产过程的资源利用率，降低生产成本；根据商业分析提高商业智能的准确率，降低传统“凭感觉”做决策的业务风险；动态价格优化利润和增长；获取优质客户。

目前，越来越多的企业级用户已经考虑从批量分析向近实时分析发展，从而提高 IT 创造价值的能力。同时，数据分析在快速从商业智能向用户智能发展。数据业务化可以让数据给企业创造额外收益和价值。

对决策方式的新认识：从目标驱动型到数据驱动型

传统科学思维中，决策制定往往是“目标”或“模型”驱动的，也就是根据目标（或模型）进行决策。然而，大数据时代出现了另一种思维模式，即数据驱动型决策，数据成为决策制定的主要“触发条件”和“重要依据”。

小数据时代，企业讨论什么事情该做不该做，许多时候是凭感觉来决策的，流程如图所示，由两个环节组成：一个是拍脑袋，另一个是研发功能。

基本上就是产品经理通过一些调研，想了一个功能，做了设计。下一步就是把这个功能研发出来，然后看一下效果如何，再做下一步。

整个过程都是凭一些感觉来决策。这种方式总是会出现问题，很容易走一些弯路，很有可能做出错误的决定。

数据驱动型决策加入了数据分析环节，如图所示。

基本流程就是企业有一些点子，通过点子去研发这些功能，之后要进行数据收集，然后进行数据分析。基于数据分析得到一些结论，然后基于这些结论，再去进行下一步的研发。整个过程就形成了一个循环。在这种决策流程中，人为的因素影响越来越少，而主要是用一种科学的方法来进行产品的迭代。
例如，一个产品的界面到底是绿色背景好还是蓝色背景好，从设计的层面考虑，两者是都有可能的。那么就可以做一下 A/B 测试。

可以让 50% 的人显示绿色背景，50% 的人显示蓝色背景，然后看用户点击量。哪个点击比较多，就选择哪个。这就是数据驱动，这样就转变成不是凭感觉，而是通过数据去决策。

相比于基于本能、假设或认知偏见而做出的决策，基于证据的决策更可靠。通过数据驱动的方法，企业能够判断趋势，从而展开有效行动，帮助自己发现问题，推动创新或解决方案的出现。

对产业竞合关系的新认识：从以战略为中心到以数据为中心

在大数据时代，企业之间的竞合关系发生了变化，原本相互竞争，甚至不愿合作的企业，不得不开始合作，形成新的业态和产业链。

所谓竞合关系，即在竞争中合作，在合作中竞争。它的核心思想主要体现在两个方面：创造价值与争夺价值。创造价值是个体之间相互合作、共创价值的过程；争夺价值则是个体之间相互竞争、分享价值的过程。

竞合的思想就是要求所有参与者共同把蛋糕做大，每个参与者最终分得的部分都会相应增加。

传统的竞合关系以战略为中心，德国宝马汽车公司和戴姆勒公司旗下的奔驰品牌在整车制造领域存在着品牌竞争，但双方不仅共同开发、生产及采购汽车零部件，而且在混合动力技术——领域进行研究合作。

为了能够在激烈的市场竞争中获取优势，两家公司通过竞合战略，互通有无、共享资源，从而在汽车业整体利润下滑的趋势下获得相对较好的收益，最终取得双赢。

在大数据时代，竞合关系是以数据为中心的。数据产业就是从信息化过程累积的数据资源中提取有用信息进行创新，并将这些数据创新赋予商业模式。

这种由大数据创新所驱动的产业化过程具有“提升其他产业利润”的特征，除了能探索新的价值发现、创造与获取方式以谋求本身发展外，还能帮助传统产业突破瓶颈、升级转型，是一种新的竞合关系，而非一般观点的“新兴科技催生的经济业态与原有经济业态存在竞争关系”。

所以，数据产业培育围绕传统经济升级转型，依附传统行业企业共生发展，是最好的发展策略。例如，近年来发展火热的团购，就是数据产业帮助传统餐饮业、旅游业和交通行业的升级转型。提供团购业务的企业在获得收益的同时，也提高了其他传统行业的效益。

但是，传统企业与团购企业也存在着一定的竞争关系。传统企业在与团购企业合作的过程中，也尽力防止自己的线下业务全部转为自己不能掌控的团购企业。

团购网站为了能获得更广的用户群、更大的流量来提升自己的市场地位，除了自身扩展商户和培养网民习惯之外，还纷纷采取了合纵连横的发展战略。

聚划算、京东团购、当当团购、58 团购等纷纷开放平台，吸引了千品网、高朋、满座、窝窝等团购网站的入驻，投奔平台正在成为行业共识。

对于独立团购网站来说，入驻电商平台不仅能带来流量，电商平台在实物销售上的积累对其实物团购也有一定的促进作用。

对数据复杂性的新认识：从不接受到接受数据的复杂性

在传统科学看来，数据需要彻底“净化”和“集成”，计算目的是需要找出“精确答案”，而其背后的哲学是“不接受数据的复杂性”。

然而，大数据中更加强调的是数据的动态性、异构性和跨域等复杂性，开始把“复杂性”当作数据的一个固有特征来对待，组织数据生态系统的管理目标开始转向将组织处于混沌边缘状态。

在小数据时代，对于数据的存储与检索一直依赖于分类法和索引法的机制，这种机制是以预设场域为前提的。这种结构化数据库的预设场域能够卓越地展示数据的整齐排列与准确存储，与追求数据的精确性目标是完全一致的。

在数据稀缺与问题清晰的年代，这种基于预设的结构化数据库能够有效地回答人们的问题，并且这种数据库在不同的时间能够提供一致的结果。

面对大数据，数据的海量、混杂等特征会使预设的数据库系统崩溃。其实，数据的纷繁杂乱才真正呈现出世界的复杂性和不确定性特征，想要获得大数据的价值，承认混乱而不是避免混乱才是一种可行的路径。

为此，伴随着大数据的涌现，出现了非关系型数据库，它不需要预先设定记录结构，而且允许处理各种各样形形色色参差不齐的数据。

因为包容了结构的多样性，这些无须预设的非关系型数据库设计能够处理和存储更多的数据，成为大数据时代的重要应对手段。

在大数据时代，海量数据的涌现一定会增加数据的混乱性且会造成结果的不准确性，如果仍然依循准确性，那么将无法应对这个新的时代。

大数据通常都用概率说话，与数据的混杂性可能带来的结果错误性相比，数据量的扩张带给我们的新洞察、新趋势和新价值更有意义。

因此，与致力于避免错误相比，对错误的包容将会带给我们更多信息。其实，允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度，未来我们应当习惯这种思维。

对数据处理模式的新认识：从小众参与到大众协同

在传统科学中，数据的分析和挖掘都是具有很高专业素养的“企业核心员工”的事情，企业管理的重要目的是如何激励和考核这些“核心员工”。

但是，在大数据时代，基于“核心员工”的创新工作成本和风险越来越大，而基于“专家余（Pro-AmT 的大规模协作日益受到重视，正成为解决数据规模与形式化之间矛盾的重要手段。

大规模生产让数以百计的人买得起商品，但商品本身却是一模一样的。

企业面临这样一个矛盾：定制化的产品更能满足用户的需求，但却非常昂贵；与此同时，量产化的商品价格低廉,但无法完全满足用户的需求。

如果能够做到大规模定制，为大量用户定制产品和服务，则能使产品成本低，又兼具个性化，从而使企业有能力满足要求，但价格又不至于像手工制作那般让人无法承担。

因此，在企业可以负担得起大规模定制带来的高成本的前提下，要真正做到个性化产品和服务，就必须对用户需求有很好的了解，这就需要用户提前参与到产品设计中。

在大数据时代，用户不再仅仅热衷于消费，他们更乐于参与到产品的创造过程中，大数据技术让用户参与创造与分享成果的需求得到实现。

市场上传统的著名品牌越来越重视从用户的反馈中改进产品的后续设计和提高用户体验，例如，“小米”这样的新兴品牌建立了互联网用户粉丝论坛，让用户直接参与到新产品的设计过程之中，充分发挥用户丰富的想象力，企业也能直接了解他们的需求。

大众协同的另一个方面就是企业可以利用用户完成数据的采集，如实时车辆交通数据采集商 Inrix。该公司目前有一亿个手机端用户，Inrix 的软件可以帮助用户避开堵车，为用户呈现路的热量图。

提供数据并不是这个产品的特色，但值得一提的是，Inrix 并没有用交警的数据，这个软件的每位用户在使用过程中会给服务器发送实时数据，如速度和位置，这样每个用户都是探测器。使用该服务的用户越多，Inrix 获得的数据就越多，从而可以提供更好的服务。

大数据处理的基本流程：数据抽取与集成+数据分析+数据解释

大数据的数据来源广泛，应用需求和数据类型都不尽相同，但是最基本的处理流程是一致的。

整个大数据的处理流程可以定义为，在合适工具的辅助下，对广泛异构的数据源进行抽取和集成，将结果按照一定的标准进行统一存储，然后利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识，并利用恰当的方式将结果展现给终端用户。

具体来讲，大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释等步骤。

数据抽取与集成

大数据的一个重要特点就是多样性，这就意味着数据来源极其广泛，数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。

要想处理大数据，首先必须对所需数据源的数据进行抽取和集成，从中提取出数据的实体和关系，经过关联和聚合之后采用统一定义的结构来存储这些数据。

在数据集成和提取时，需要对数据进行清洗，保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系，大数据时代的数据往往是先有数据再有模式，并且模式是在不断的动态演化之中的。

数据抽取和集成技术并不是一项全新的技术，在传统数据库领域此问题就已经得到了比较成熟的研究。随着新的数据源的涌现，数据集成方法也在不断的发展之中。

从数据集成模型来看，现有的数据抽取与集成方式可以大致分为 4 种类型：基于物化或 ETL 方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎，以及基于搜索引擎的方法。

数据分析

数据分析是整个大数据处理流程的核心，大数据的价值产生于分析过程。

从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。

小数据时代的分析技术，如统计分析、数据挖掘和机器学习等，并不能适应大数据时代数据分析的需求，必须做出调整。大数据时代的数据分析技术面临着一些新的挑战,主要有以下几点。

数据量大并不一定意味着数据价值的增加，相反这往往意味着数据噪音的增多。

因此,在数据分析之前必须进行数据清洗等预处理工作，但是预处理如此大量的数据，对于计算资源和处理算法来讲都是非常严峻的考验。

大数据时代的算法需要进行调整。

首先，大数据的应用常常具有实时性的特点，算法的准确率不再是大数据应用的最主要指标。

在很多场景中，算法需要在处理的实时性和准确率之间取得一个平衡。其次，分布式并发计算系统是进行大数据处理的有力工具，这就要求很多算法必须做出调整以适应分布式并发的计算框架，算法需要变得具有可扩展性。

许多传统的数据挖掘算法都是线性执行的，面对海量的数据很难在合理的时间内获取所需的结果。因此需要重新把这些算法实现成可以并发执行的算法，以便完成对大数据的处理。

最后，在选择算法处理大数据时必须谨慎，当数据量增长到一定规模以后，可以从小量数据中挖掘出有效信息的算法并一定适用于大数据。

数据结果的衡量标准。

对大数据进行分析比较困难，但是对大数据分析结果好坏的衡量却是大数据时代数据分析面临的更大挑战。

大数据时代的数据量大，类型混杂，产生速度快，进行分析的时候往往对整个数据的分布特点掌握得不太清楚，从而会导致在设计衡量的方法和指标的时候遇到许多困难。

数据解释

数据分析是大数据处理的核心，但是用户往往更关心对结果的解释。如果分析的结果正确，但是没有采用适当的方法进行解释，则所得到的结果很可能让用户难以理解，极端情况下甚至会引起用户的误解。

数据解释的方法很多，比较传统的解释方式就是以文本形式输出结果或者直接在电脑终端上显示结果。这些方法在面对小数据量时是一种可行的选择。

但是大数据时代的数据分析结果往往也是海量的，同时结果之间的关联关系极其复杂，采用传统的简单解释方法几乎是不可行的。

解释大数据分析结果时，可以考虑从以下两个方面提升数据解释能力。

引入可视化技术。

可视化作为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。

该方法通过将分析结果以可视化的方式向用户展示，可以使用户更易理解和接受。常见的可视化技术有标签云、历史流、空间信息流等。

让用户能够在一定程度上了解和参与具体的分析过程。

这方面既可以采用人机交互技术，利用交互式的数据分析过程来引导用户逐步地进行分析，使得用户在得到结果的同时更好地理解分析结果的过程，也可以采用数据溯源技术追溯整个数据分析的过程，帮助用户理解结果。

你可能感兴趣的:(大数据是什么)

MQTT 是什么？一文读懂 MQTT 协议的原理与优势头发那是一根不剩了网络物联网
1，MQTT是什么MQTT（MessageQueuingTelemetryTransport）是一种发布/订阅消息协议，最早由IBM提出，用于低功耗、低带宽场景下的数据传输，尤其适用于物联网（IoT）设备通信。全称：MessageQueuingTelemetryTransport角色：定义“设备如何发送/接收消息”的规则（通信协议）关键机制：发布/订阅模型（Publish/Subscribe）它不
Spring Boot 项目启动时按需初始化加载数据我叫晨曦啊 spring boot spring boot java 后端
1、新建类，类上添加注解@Component，该类用于在项目启动时处理数据加载任务；2、该类实现ApplicationRunner接口，并重写run方法；3、在重写的run方法里处理数据加载任务；注意：有定时加载数据需求的话，添加定时任务即可；一次性加载大数据量时可能内存溢出；同一个项目中，可以定义多个ApplicationRunner的实现类；存在多个ApplicationRunner的实现类时
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Git 子模块 (Submodule) 完全使用指南 BIBI2049 版本托管 Git Windows git TortoiseGit 子模块
Git子模块(Submodule)完全使用指南核心原理解析：子模块是什么？想象一下，你在开发一个大项目（父项目），需要用到另一个独立的项目（例如一个公共库、一个UI组件库）。你不想直接复制粘贴它的代码，因为那样就无法方便地获取那个库的后续更新。Git子模块就是来解决这个问题的。它允许你将一个Git仓库作为另一个Git仓库的子目录。最重要的核心原理：父项目不存储子模块的所有文件内容。它只存储一个“指
java项目报错405_405报错是什么原因_状态码405是什么错误跳动的数字 java项目报错405
今天网站遇到一个问题：httppost请求网页会出现405，分析了下原因：是因为Apache、IIS、Nginx等绝大多数web服务器，都不允许静态文件响应POST请求。下面是解决方案：将post请求改为get请求XF405/XF400支持拍摄4KUHD(3840x2160)50P影像。采用了一枚1.0型大尺寸影像传感器，该传感器的尺寸约为传统机型传感器的6.8倍。MP4格式的文件可设置为自动继续
Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
在WPF中使用CommunityToolkit.Mvvm——（一）为什么使用CommunityToolkit.Mvvm 永远的久远 wpf
前言阅读我文章的同学可能已经发现了，我总是会在一个系列文章的第一篇抛出问题，为什么要用到这个技术。因为一些成熟的库和技术会给我们带来生产力大幅的提升，同时通过学习一些优秀的开源项目，对我们个人的能力提升也会有帮助。接下来我们一起来看一下MVVMToolkit能为我们带来哪些惊喜～～CommunityToolkit.Mvvm是什么微软的官方文档这样介绍的CommunityToolkit.Mvvm包（
关于uniapp m0_73928262 开发语言 uni-app
目录前言一、uniapp是什么？二、uniapp的由来三、uniapp的基本概念四、uniapp的使用场景五、uniapp框架格式和基本概念六、如何使用uniapp七、如何使用uniapp创建文件总结前言Uni-app是由Dcloud公司推出的一个多端开发框架，可以使用Vue开发一次代码，产出多个平台的应用程序，包括iOS、Android、H5、小程序等。这种“一次开发，多端输出”的开发方式大大减
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
Java SDN：用代码造出会自己变魔术的网络？虚拟化+资源管理全攻略墨夶 Java学习资料1 java 网络 php
一、SDN是什么？网络界的「乐高超人」1.1传统网络：像在玩「俄罗斯方块」传统网络设备就像被焊死的积木，每个路由器都是一块「脾气古怪的石头」，想改个路由规则？得一台台敲命令，**这不比给Excel表格涂色还费劲？**1.2SDN：给网络装个「超脑」SDN=控制平面+数据平面分离，就像把交通指挥中心从马路上搬进控制室，用代码说：“嘿，交换机，数据包该左转还是右转，我远程指挥！”二、Java写SDN控
软件项目中的静态缺陷是什么悟能不能悟 java
软件项目中的静态缺陷（StaticDefects）是指在不运行程序代码的情况下，通过分析源代码、配置文件或设计文档发现的代码质量问题或潜在风险。这类缺陷通常通过静态代码分析（StaticCodeAnalysis）工具（如SonarQube、ESLint、Checkstyle等）或人工代码审查识别。核心特点无需运行程序静态分析仅检查代码的结构和语法（例如变量定义、函数调用、控制流程），而不需要编译或
防火墙知识点总结知新zx 服务器网络运维
一、是什么定义：不同区域，安全策略的一台硬件设备二、为什么要用作用：保护内网终端、服务器和一些通信设备的安全三、怎么用（工作原理）分类：传统防火墙、下一代防火墙1、传统防火墙①包过滤工作层次：3/4层原理：类似于路由交换的ACL，路由交换基于端口in/out，防火墙基于区域与区域之间（默认任何区域deny）优缺点：只检测3，4层，处理速度快，开销小，但应用层威胁无法防御或检测，无会画状态跟踪②状态
大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
【ARM AMBA AXI 入门 5.1 - QoS是什么？QoS是怎么工作的？】主公讲 ARM #ARM AMBA AXI 系列 QoS是什么？QoS 怎么工作的？AXI QoS
请阅读【嵌入式及芯片开发学必备专栏】转自：揭秘数通知识：QoS是什么？QoS是怎么工作的？（一）文章目录QoS概述综合服务和差分服务QoS工具报文分类报文标记流量监管和整形工具拥塞管理工具拥塞避免工具队列策略FIFO（先进先出队列，FirstInFirstOutQueue）PriorityQueue（优先队列PQ）Weighted-fairQueue（加权平均队列WFQ）丢弃策略我们在学习嵌入的时
C盘隐藏的神秘巨无霸文件hiberfil.sys到底是什么？ qzy0621 电脑诊断电脑诊断
C盘隐藏的神秘巨无霸文件hiberfil.sys到底是什么？一、hiberfil.sys：Windows的“内存保险箱”二、让“巨无霸”显形：查看hiberfil.sys的方法三、为何如此巨大？体积≈你的内存条容量！四、安全释放空间：关闭休眠功能五、想用休眠/快速启动怎么办？六、取舍指南：关不关闭？看你的需求！建议关闭休眠释放空间的情况：建议保留休眠功能的情况：检查你的睡眠模式最后总结：C盘隐藏的
解锁WSL：Windows下的Linux新世界奔跑吧邓邓子必备核心技能 windows linux WSL 跨平台开发
目录一、WSL是什么二、WSL的功能特点2.1运行Linux环境2.2开发工具支持2.3文件系统集成2.4命令行交互2.5性能和兼容性三、WSL的版本区别3.1WSL1介绍3.2WSL2介绍3.3两者对比四、WSL的安装教程4.1安装前准备4.2安装步骤4.3安装Linux分发版五、WSL的常用命令5.1系统镜像管理5.2系统启动与关闭5.3镜像导出与导入5.4其他常用命令六、WSL的应用场景6.
Rust 是什么叶落 Rust 基础课程 rust rust编程语言 Rust 基础 Rust 入门
Rust是一门比较热门的新编程语言。为什么是热门语言，可以看编程语言流行趋势：https://www.tiobe.com/tiobe-index/为什么是新语言，Rust的诞生可以追溯到2006年，但它的正式公开亮相和成熟是在2010-2015年。Rust文件的文件后缀是.rs，Rust的logo是一只黄色的螃蟹：Rust的应用场景下面的截图来自官网（https://www.rust-lang.o
C#的接口有什么用？ alincea C#C#接口interface
转自：https://blog.csdn.net/seanbei/article/details/37812477接口对于初学者来说是一个太抽象的东西。看了教材之后基本都是一个感觉：接口到底是用来干嘛的？书上讲声明接口，实现接口，并不难，难的是什么时候用接口呢？网上有几个非常通俗的讲解，很受益。再用自己的思路梳理一下，应该不算抄袭吧。案例：猫狗叫声明接口：interface接口-叫{方法-叫();
12.Java SDK源码分析系列笔记-PriorityQueue Thinker QAQ Java SDK源码分析 java 笔记 python
文章目录1.PriorityQueue是什么2.使用3.源码分析3.1.属性3.2.有参构造3.2.1.初始化元素到数组中3.2.2.维护堆的属性3.2.2.1.下沉操作3.3.插入3.3.1.上浮操作3.4.删除3.4.1.下沉操作4.参考1.PriorityQueue是什么是一个队列，只不过加上了优先级的概念，换句话说队列里的元素是根据某种规则排好序的2.使用publicclassPriori
人工智能-基础篇-23-智能体Agent到底是什么？怎么理解？（智能体=看+想+做） weisian151 人工智能人工智能
1、智能体是什么？想象你有一个超级聪明的小助手，它能：自己看环境（比如看到天气、听到声音、读到数据）；自己做决定（比如下雨了要关窗，电量低要去充电）；自己动手干活（比如帮你订外卖、打扫房间、开车）；越用越聪明（比如记住你的习惯，下次不用你提醒）。这个“小助手”就是智能体（Agent）——它是一个能自主感知、思考、行动并学习的系统，可以是软件（比如手机里的AI助手）、硬件（比如机器人），或者软硬结合
2023.7.19 totoro12138 笔记
《你当像鸟飞往你的山》看完啦，这周末整理下摘抄内容和导图。《亲密关系》罗兰·米勒P6人类是非常社会化的动物。如果剥夺了和他人的紧密接触，这会令人很痛苦，人类社会属性的核心部分正是对亲密关系的需要。那么，亲密关系究竟是什么？仁者见仁，智者见智，因为亲密关系是一个复杂的概念，包含许多不同的成分。然而研究者和普通人都认为亲密关系和泛泛之交至少在六个方面存在程度差异：了解、关系、相互依赖性、相互一致性、信
前端全部文档 loodcover 任澎涛前端 xhtml javascript
HTML基础1.HTML文件中的DOCTYPE是什么作用？HTML超文本标记语言:是一个标记语言,就有对应的语法标准DOCTYPE即DocumentType，网页文件的文档类型标准。主要作用是告诉浏览器的解析器要使用哪种HTML规范或XHTML规范来解析页面。DOCTYPE需要放置在HTML文件的标签之前，如：...(目前主流)...(早期)2.HTML、XML、XHTML之间有什么区别？它们都属
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
Unix/Linux系统上用于构建图形用户界面的核心协议和架构标准行之文 unix linux
目录前言一、X11/Wayland是什么？‌X11(XWindowSystem)‌Wayland‌关键差异总结‌：二、如何使用？‌1.查看当前使用的协议‌2.切换X11/Wayland（Ubuntu示例）‌3.开发适配（Qt等）‌三、3个常见用例‌四、总结建议‌前言本文介绍下Unix/Linux系统上用于构建图形用户界面的核心协议和架构标准X11和Wayland一、X11/Wayland是什么？‌
Redis命令郭尘帅666 redis 数据库缓存
1.Redis五大常用数据类型字符串(String)列表(List)哈希表(Hash)集合(Set)有序集合(ZSet)2.key的常用命令语法作用keys*查看当前库所有的keyexistskey判断某个key是否存在typekey查看你的key是什么类型unlinkkey根据value删除非阻塞删除，仅仅将keys从keyspace元数据中删除，真正的删除会在后续异步中操作。delky删除指定
Wordless: 一个周末打造的小爆游戏 node.jsreact
这个项目是什么Wordless就是个类似Wordle的猜单词游戏，用Next.js搭建的。玩家有6次机会猜出单词，支持3到8个字母的单词。说实话，开始只是想做点跟wordle不一样东西，没想到做着做着就越来越有意思了。点击这里可以体验：https://wordless.online/我用了一个周末把代码撸完以后，直接发布上线，也没怎么关注，没想到几个月过去了，这个小游戏的流量一直很稳定，有50%的
【PHP开发900个实用技巧】498.事件溯源：可追溯状态变更的架构设计精通代码大仙 PHP开发900个实用技巧 php android android studio 程序员创富
事件重构时间：用事件溯源让系统变更轨迹清晰可见——本文带你掌握PHP领域状态可追溯的核心架构设计方法论事件溯源：可追溯状态变更的架构设计事件溯源是什么？为什么传统方法会失忆PHP实现事件溯源四步法关键难点与破局技巧实战：用户积分系统改造事件=事实记录状态=事件叠加传统CRUD的痛点审计追踪困境定义领域事件事件存储设计状态重建逻辑快照优化策略并发事件处理版本迁移方案老系统改造过程事件处理器实现目录事
python二维表转一维表_Excel、Power BI及Python系列：使用Power BI转化一维表与二维表...
上篇文章，老海分享了如何使用Excel完成一维表与二维表之间的转化本篇老家继续分享使用PowerBI来完成一维表与二维表的转化操作。可能很多小伙伴，不太了解PowerBIPowerBI是什么？它是微软近些年推出的一款可视化BI工具，依托Office家族，以及巨大的用户基础，目前已经平台体系化了，同时针对不同用户群体需求，对应出多个版本，100%支持简体中文。界面介绍版本很多，一般选择Desktop
自动化测试，如何平衡效率与质量十二测试录自动化测试经验分享自动化面试职场和发展
最近，十二面试了很多求职者，简历上包装的自动化经验，但在面试时连最基本的，什么是自动化？为什么要做自动化？自动化的优缺点是什么？这些问题都不清楚，今天十二就结合自己的工作经验和理解，在此分享下这几个问题。一、什么是自动化测试？自动化测试，顾名思义，自动完成测试工作。通过一些自动化测试工具或自己造轮子实现模拟之前人工点点/写写的工作并验证其结果完成整个测试过程，这样的测试过程，便是自动化测试。自动化
SQL Server 临时表、表变量与WITH语句的用法与区别 Favor_Yang SQL调优及高级SQL语法编写数据库 sql sqlserver
引言在SQLServer数据处理中，临时表、表变量和WITH语句（CTE）是关键的中间结果集管理工具。临时表适合大数据量操作，表变量优化小数据量场景，而CTE则简化复杂查询逻辑。三者选择需综合考量数据量级、事务需求及代码可读性。本文将深入解析其工作机制，通过实测对比指导场景化选型。1.临时表（TemporaryTables）定义与创建通过#（本地）或##（全局）前缀创建物理表：--本地临时表CRE
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc