会飞的金色流年

《大数据时代》读书笔记——知道“是什么”就够了，没必要知道“为什么”。我们不必非得知道现象背后的原因，而是要让数据自己“发声”

引言——一场生活、工作与思维的大变革

今天，一种可能的方式，亦是本书采取的方式，认为大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉；大数据还为改变市场、组织机构，以及政府与公民关系服务。

这仅仅只是一个开始，大数据时代对我们的生活，以及与世界交流的方式都提出了挑战。最惊人的是，社会需要放弃它对因果关系的渴求，而仅需关注相关关系。也就是说只需要知道是什么，而不需要知道为什么。这就推翻了自古以来的惯例，而我们做决定和理解现实的最基本方式也将受到挑战。

人类存储信息量的增长速度比世界经济的增长速度快4倍，而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。

事实上，尽管规律相同，但是我们能够感受到的约束，很可能只对我们这样尺度的事物起作用。对于人类来说，唯一一个最重要的物理定律便是万有引力定律。……但对于细小的昆虫来说，重力是无关紧要的。对它们而言，物理宇宙中有效的约束是表面张力，这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。……对于万有引力产生的约束力而言，生物体的大小是非常重要的。类似地，对于信息而言，规模也是非常重要的。（如谷歌能够基于大量真实病例信息能够实时的得到流感情况，Farecast可以预测机票价格波动）它们之所以如此给力，都因为存在供其分析的数千亿计的数据项。

大数据的核心就是预测。

大数据的精髓在于我们分析信息时的三个转变，这些转变将改变我们理解和组建社会的方法。

第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。……大数据让我们更清楚地看到了样本无法揭示的细节信息。

第二个改变就是，研究数据如此之多，以至于我们不再热衷于追求精确度。……拥有了大数据，我们不再需要对一个现象刨根问底，只要掌握大体的发展方向即可。……适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

第三个转变因前两个转变而促成，即我们不再热衷于寻找因果关系。……应该寻找事物之间的相关关系。……大数据告诉我们“是什么”而不是“为什么”。

例如，对冲基金通过剖析社交网络Twitter上的数据信息来预测股市的表现；亚马逊和奈飞根据用户在其网站上的类似查询来进行产品推荐；Twitter，Facebook和LinkedIn通过用户的社交网络图来得知用户的喜好。

数据化意味着我们要从一切太阳底下的事物中汲取信息，甚至包括很多我们以前认为和“信息”根本搭不上边的事情。

01更多——不是随机样本，而是全体数据

统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。

在对一个量（例如年收入）进行估计的时候，如果总体可以分为很多层（例如所有人口按照不同年龄或者不同职业分成很多层），一种直观的想法是每一层随机抽样的样本大小应该正比于这个层所包含人口的多少。奈曼指出，最优分配并非如此简单，实际上，层越大，层内待估计量的变化越大，该层抽样的单位费用越小，则该层的抽样就应该越多。

采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。为什么会这样？原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。

边际效用递减，是指在一定时间内，在其他商品的消费数量保持不变的条件下，当一个人连续消费某种物品时，随着所消费的该物品的数量增加，其总效用(total utility)虽然相应增加，但物品的边际效用（marginal utility, 即每消费一个单位的该物品，其所带来的效用的增加量）有递减的趋势。

认为样本选择的随机性比样本数量更重要，这种观点是非常有见地的。

随机采样取得了巨大的成功，……它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。

随机采样不适合考察子类别的情况。

当人们想了解更深层次的细分领域的情况时，随机采样的方法就不可取了。（你设想一下，一个对1000个人进行的调查，如果要细分到“东北部的富裕女性”，调查的人数就远远少于1000人了。即使是完全随机的调查，倘若只用了几十个人来预测整个东北部富裕女性选民的意愿，还是不可能得到精确的结果啊！而且，一旦采样过程中存在任何偏见，在细分领域所做的预测就会大错特错。）

大数据与乔布斯的癌症治疗——他与癌症斗争的过程中采用了不同方式，成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。对于一个普通的癌症患者，医生只能期望他的DNA排列同试验中使用的样本足够相似。但乔布斯的医生们能够基于他的特定基因组成，按所需效果用药。如果癌症病变导致药物失效，医生可以及时更换另一种药，也就是乔布斯所说的，“从一片睡莲叶跳到另一片上。”乔布斯开玩笑说：“我要么是第一个通过这种方式战胜癌症的人，要么就是最后一个因为这种方式死于癌症的人。”

Xoom与跨境汇款异常交易报警——……单独来看，每笔交易都是合法的，但是事实证明这是一个犯罪集团在试图诈骗。而发现异常的唯一方法就是，重新检查所有的数据，找出样本分析法错过的信息。

大数据是指不用随机分析法这样的捷径，而采用所有数据的方法。

社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析，社会科学不再单纯依赖于分析实证数据。这么学科过去曾非常依赖样本分析、研究和调查问卷。

如果把一个在社区内有很多连接关系的人充社区关系网中剔除掉，这个关系网会变得没那么高效但却不会解体；但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除，整个关系网很快就会破碎成很多小块。……谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人有联系的人呢？这说明一般来说无论是针对一个小团体还是整个社会，多样性是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。

作者对这项研究的理解稍有不妥。该研究并未关注从网络中移除节点（手机用户）的情形，而是考察从网络中移除链路（通话关系）对网络结构的影响。借鉴渗流理论，作者发现，移除弱关系而非强关系反而会导致快速破碎成若干小碎片。

02更杂——不是精确性，而是混杂性

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下的95%的非结构化数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足的世界的窗户。

假设你要测量一个葡萄园的温度，但是整个葡萄园只有一个温度测量仪，那你就必须确保这个测量仪是精确的而且能够一直工作。反过来，如果每100棵葡萄树就有一个测量仪，有些测试的数据可能会是错误的，可能会更加混乱，但众多的读书合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据，而它不仅能抵消掉错误数据造成的影响，还能提供更多的额外价值。

现在想想增加读书频率的这个事情。如果每隔一分钟就测量一下温度，我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话，不仅读书可能出错，连时间先后都可能搞混掉。

计算机象棋程序总是步步为赢是由于对残局掌握的更好了，而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上，当棋盘上只剩下六枚棋子或更少的时候，这个残局得到了全面的分析，而且接下来所有可能的走法（样本=总体）都被制入了一个庞大的数据表格。这个数据表格如果不压缩的话，会有一太字节那么多。所以，计算机在这些重要的想起残局中表现得完美无缺和不可战胜。

无所不包的谷歌翻译系统——2006年，谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源，并让人人都可以享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文本翻译。……尽管其输入源很混乱，但较其他翻译系统而言，谷歌的翻译质量相对而言还是最好的，而且可以翻译的内容更多。……之所以能做到这些，是因为它将语言视为能够判别可能性的数据，而不是语言本身。

错误并不是大数据固有的特性，而是一个亟需我们去处理的现实问题，并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性。

当我们上传照片到Flickr网站的时候，我们会给照片添加标签。也就是说，我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签，所以它是没有标准、没有预先设定的排列和分类，也没有我们必须遵守的类别的。任何人都可以输入新的标签，标签内容事实上就成为了网络资源的分类标准。……因为它们的存在，互联网上的资源变得更加容易找到，特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。

互联网上最火的网址都表明，它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时，可以看到有多少其他人也在点击。当数量不多时，会显示像“63”这种精确的数字。当数量很大时，则只会显示近似值，比方说“4000”。这并不代表系统不知道正确的数据是多少，只是当数量规模变大的时候，确切的数量已经不那么重要了。

要想获得大规模数据带来的好处，混乱应该是一种标准途径，而不应该是竭力避免的。

宽容错误会给我们带来更大价值。

我们怎么看待使用所有数据和使用部分数据的差别，以及我们怎样选择放松要求并取代严格的精确性，将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分，我们应该开始从一个比以前更大更全面的角度来理解事物，也就是说应该将“样本=总体”植入我们的思维中。

大数据要求我们有所改变，我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑，就像我们常说的“钉是钉，铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的。不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话，我们离真相就又近了一步。

03更好——不是因果关系，而是相关关系

知道“是什么”就够了，没必要知道“为什么”。在大数据时代，我们不必非得知道现象背后的原因，而是要让数据自己“发声”。

林登与亚马逊推荐系统——……很快找到了一个解决方案。他意识到，推荐系统实际上并没有必要把顾客与其他顾客进行对比，这样做其实在技术上也比较繁琐。它需要做的是找到产品之间的关联性。1998年，林登和他的同事申请了著名的“item-to-time”协同过滤技术的专利。

林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试，结果他发现两者之间的业绩相差甚远。他解释说，通过数据推荐产品所增加的销售远远超过书评家的贡献。……知道“是什么”可以创造点击率，这种洞察力足以重塑很多行业，不仅仅只是电子商务。……亚马逊的推荐系统梳理出了有趣的相关关系，但不知道背后的原因。知道是什么就够了，没必要知道为什么。

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增强时，另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系，比如谷歌流感趋势：在一个特定的地理位置，越多的人通过谷歌搜索特定的词条，该地区就有更多的人患了流感。

相反，相关关系弱就意味着当一个数据值增加时，另一个数据值几乎不会发生变化。例如，我们可以寻找关于个人的鞋码和幸福的相关关系，但会发现它们几乎扯不上什么关系。

……当然，即使是很强的相关关系也不一定能解释每一种情况，比如两个事物看上去行为相似，但很有可能只是巧合。……相关关系没有绝对，只有可能性。……通过给我们找到一个现象的良好的相关物，相关关系可以帮助我们捕捉现代和预测未来。

沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。许多情况下，沃尔玛不接受产品的“所有权”，除非产品已经开始销售，这样就避免了存货的风险也降低了成本。实际上，沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。……沃尔玛公司注意到，每当在季节性飓风来临之前，不仅手电筒销量增加了，而且POP-Tarts蛋挞的销量也增加了。因此，当季节性风暴来临时，沃尔玛会把库存的蛋挞放在靠近飓风用品的位置，以方便形色匆匆的顾客从而增加销量。

我们用数据驱动的关于大数据的相关关系分析法，取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快，而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。

益百利有一种服务，可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据，益百利能够得出评分结果。证明一个人的收入状况要花费10美元左右，但益百利的预测结果售价不足1美元。

这些相关关系甚至使得零售商能够比较准确地预测预产期，这样就能够在孕期的每个阶段给客户寄送相应的优惠券，这才是塔吉特公司的目的。

在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是，通过找出新种类数据之间的相互联系来解决日常需求。比方说，预测分析法……系统把这些异常情况与正常情况进行对比，就会知道什么地方出了毛病。通过尽早地发现异常，系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它，我们就能预测未来。

预测性分析并不能解释故障可能会发生的原因，只会告诉你存在什么问题。

当收集、存储和分析数据的成本比较高的时候，应该适当地丢弃一些数据。

这个系统依赖的是相关关系，而不是因果关系。它告诉你的是会发生什么，而不是为什么发生。这正是这个系统的价值！……数据表明，早产儿的稳定不但不是病情好转的标志，反而是暴风雨前的宁静，就像是身体要它的器官做好抵抗困难的准备。

幸福的非线性关系——多年来经济学家和政治家一直错误的认为收入水平和幸福感是成正比的。……但事实上，它们之间存在一种更复杂的动态关系：对于收入水平在1万美元以下的人来说，一旦收入增加，幸福感会随之提升；但对于收入水平在1万美元以上的人来说，幸福感并不会随着收入水平提高而提升。……这个发现对决策者来说非常重要。如果只看到线性关系的话，那么政策重心应完全放在增加收入上，因为这样才能增加全民的幸福感。而一旦察觉这种非线性关系，策略的重心就会变成提高低收入人群的收入水平，因为这样明显更划算。

当我们说人类是通过因果关系了解世界时，我们指的是我们在理解和解释世界各种现象时使用的两种基本方法：一种是通过快速、虚幻的因果关系，还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。

首先，我们的直接愿望就是了解因果关系。即使无因果关系存在，我们也还是会假定其存在。研究证明，这只是我们的认知方式，与每个人的文化背景、生长环境以及教育水平是无关的。……看看下面这三句话：“弗雷德的父母迟到了；供应商快到了；弗雷德生气了。”我们读到这里时，可能立马就会想到弗雷德生气并不是因为供应商快到了，而是他父母迟到了的缘故。实际上，我们也不知道到底是什么情况。即便如此，我们还是不禁认为这些假设的因果关系是成立的。……证明了人有两种思维模式。第一种是不费力的快速思维，通过这种思维方式几秒钟就能得出结果；另一种是比较费力的慢性思维，对于特定的问题，就是需要考虑到位。

快速思维模式使人们偏向用因果联系来看待周围的一切，即使这种关系并不存在。……在古代，这种快速思维模式是很有用的，它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是，通常这种因果关系都是并不存在的。……卡尼曼指出，平时生活中，由于惰性，我们很少慢条斯理地思考问题。所以快速思维模式就占了上风。因此，我们会经常臆想出一些因果关系，最终导致了对世界的错误理解。

父母经常告诉孩子天冷时不戴帽子和手套就会感冒。然而，事实上，感冒和穿戴之间却没有直接的联系。有时，我们在某个餐馆用餐后生病了的话，我们就会自然而然的觉得这是餐馆食物的问题，以后可能就不再去这家餐馆了。事实上，我们肚子痛也许是因为其他的传染途径，比如和患者握过手之类的。然而，我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系，因此，这经常导致我们做出错误的决定。

事实证明，一般来说，人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效，这也只适用于七分之一的案例中。无论如何，就算没有狂犬疫苗，这个小男孩活下来的概率还是有85%。

与相关关系一样，因果关系被完全证实的可能性几乎是没有的，我们只能说，某两者之间很有可能存在因果关系。

相关关系很有用，不仅仅是因为它能为我们提供新的视角，而且提供的视角都非常清晰。而我们一旦把因果关系考虑进来，这些视角就有可能被蒙蔽掉。

若要找出相关关系，我们可以用数学方法，但如果是因果关系的话，这却是行不通的。

如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话，前者就更具有说服力。

在大多数情况下，一旦我们完成了对大数据的相关关系分析，而又不再满足于仅仅知道“是什么”时，我们就会继续向更深层次研究因果关系，找出背后的“为什么”。

(关于纽约每年有很多沙井盖会发生爆炸的事情，联合爱迪生电力公司通过统计学家的帮助，得出证明)最重要的因素是这些电缆的使用年限和有没有出现过问题。

我们需要改变我们的操作方式，使用我们能收集到的所有数据，而不仅仅是使用样本。我们不能再把精确性当成重心，我们需要接受混乱和错误的存在。另外，我们应该侧重于分析相关关系，而不再寻求每个预测背后的原因。

……这就意味着普遍规则都不重要了，比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今，重要的就是数据分析，它可以揭示一切问题。

“理论的终结”似乎暗示着，尽管理论仍存在于像物理、化学这样的学科里，但大数据分析不需要成形的概念。这实在荒谬。……尽管这个答案不怎么样！大数据绝对不会叫嚣“理论已死”，但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆，很多旧有的制度面临挑战。

大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡，而是通往未来的必然改变。但是在我们到达目的地之前，我们有必要了解怎样才能到达。

大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见，但是如今的信息技术变革的重点在“T”（技术）上，而不是在“I”（信息）上。现在，我们是时候把聚光灯打向“I”，开始关注信息本身了。

04数据化——一切皆可“量化”

病毒型社交网络——一种在线社交网络，其典型营销方式是，一旦你加入了，系统会自动从你注册或关联的邮箱中找到联系人，并发信邀请他们加入。很多读者应该都收到过LinkedIn的邀请信，就是一个典型的例子。

100

许多船挂了一面特殊的旗帜，表明它参与了这个信息交流计划（莫里要求大家写航海日志图表）。这些旗帜就是出现在一些网站上的友情链接的前身。

101

他深知只要相关信息能够提取和绘制出来，这些脏乱的航海日志就可以变成有用的数据。通过这样的方式，他重复利用了别人眼里完全没有意义的数据信息。从这个意义上讲，莫里就是数据化的先驱。就像奥伦对Farecast所做的事情一样，用航空业过去的价格信息催生了一个大有赚头的新公司；也像谷歌的工程师所做的一样，通过过去的检索记录预测到了流感的暴发；而莫里则是发挥出了单纯用于记录航行位置的数据的其他用途。

102

这说明在远在信息数字化之前，对数据的运用就已经开始了。如今我们经常把“数字化”和“数据化”两个概念搞混，但是对这两个概念的区分实际上非常重要。

102

日本先进工业技术研究所的坐姿研究与汽车防盗系统——他们所做的研究就是关于一个人的坐姿。当一个人坐着的时候，他的身形、姿势和重量分布都可以量化和数据化。……有了这个系统之后，汽车就能识别出驾驶者是不是车主。……我们可以利用事故发生之前的姿势变化情况，分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳的时候发出警示或者自动刹车。同时，这个系统不但可以发现车辆被盗，而且可以通过收集到的数据识别出盗贼的身份。

102

“数据”（data）这个词在拉丁文里是“已知”的意思，也可以理解为“事实”。

104

数据化——指一种把现象转变为可制表分析的量化形式的过程。

数字化——指把模拟数据转换成用0和1表示的二进制码，这样电脑就可以处理这些数据了。

104

计量和记录一起促成了数据的诞生，它们是数据化最早的根基。

105

公元1000年，教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪，介绍阿拉伯数字的书籍被翻译成拉丁文，传播到了整个欧洲地区。这也就开启了算术的腾飞。

106

复式记账法，是指以资产与权益平衡关系作为记账基础，对于每一项经济业务，都要在两个或两个以上的账户中相互联系进行登记，系统地反应资金运动变化结果的一种记账方法。复式记账的理论依据是会计基本等式，即“资产=负债+所有者权益”。

107

数字化带来了数据化，但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据，和数据化有本质的不同。109

当文字变成数据，它就大显神通了——人可以用之阅读，机器也可用之分析。

112

可以不失公允地说，亚马逊深谙数字化内容的意义，而谷歌触及了数据化内容的价值。

113

当方位变成数据——对地理位置的数据化需要满足一些前提条件。我们需要能精确地测量地球上的每一块地方；我们需要一套标准的标记体系；我们需要收集和记录数据的工具。简而言之，就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些，我们才能把位置信息当成数据来存储和分析。

113

在西方，对位置信息的量化起源于希腊。公元前200年，发明了用格网线来划分区域的系统，类似于经纬度法。但后来被遗忘了。公元1400年《地理学》轰动一时，而书中提到的系统现在仍被用来解决航海导航的难题，从那以后，地图上标上了经纬度和比例尺。1884年，在美国华盛顿召开的国际子午线会议上，同意将英格兰格林尼治定为本初子午线和零度经线所穿过的地方（只有法国投了反对票）。20世纪40年代，墨卡托方位法把世界划分成了60个区域，提高了地理定位的精确性。1978年见证了一个伟大的转变，当时构成全球定位系统（GPS）的24颗卫星第一次发射成功。

114

多效地理定位与UPS的最佳行车路径——UPS为货车定制的最佳行车路径一定程度上也是根据过去的行车经验总结出来的。……系统也设计了尽量少左转的路线，因为左转要求货车在交叉路口穿过去，所以更容易出事故。而且，货车往往需要待一会儿才能左转，也会更耗油，因此，减少左转使得行车的安全性和效率得到了大幅提升。

116

莱维斯说，“预测给我们知识，而知识赋予我们智慧和洞见。”

117

“现实挖掘”这里指的是通过处理大量来自手机的数据，发现和预测人来行为。

118

一项内部研究表明，个人会偿还债务的可能性和其朋友会偿还债务的可能性呈正相关。

120

很多人对“物联网”有着宗教般的狂热，试图在一切生活中的事物中都植入芯片、传感器和通信模块。这个词听起来好像和互联网亲如姐妹，其实不过是一种典型的数据化手段罢了。

124

水渠让城市的发展成为可能，印刷机推进了启蒙运动，报纸为民族国家的兴起奠定了基础。但这些基础设施都侧重于流动——关于水、关于知识。电话和互联网也是如此。相比较而言，数据化代表着人类认识的一个根本性转变。有了大数据的帮助，我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件，我们会意识到本质上世界是由信息构成的。

125

整整一个多世纪以来，物理学家们一直宣称情况应该是这样的——并非原子而是信息才是一切的本源。

125

05价值——“取之不尽，用之不竭”的数据创新

2000年，为了阻止垃圾邮件，路易斯·冯·安想到了一个办法，即在注册过程中显示一些波浪状、辨识度低的字母。人能够在几秒钟内识别并输入正确的文本信息，但电脑可能会被难倒。雅虎采用了这个方法后，一夜之间减轻了垃圾邮件带来的苦恼。他的创作成为验证码（全称为“全自动区分计算机和人类的图灵测试”）。

128

不同于物质性的东西，数据的价值不会随着它的使用而减少，而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处：个人的树勇会妨碍其他人的使用，而且信息不会像其他物质产品一样随着使用而有所耗损。因此，亚马逊在向其用户，不论是生成这些数据的客户或是其他客户做出建议时，都可以不断地使用过去的交易数据。

132

数据的价值并不仅限于特定的用途，它可以为了同一目的而被多次使用，也可以用于其他目的。要了解大数据时代究竟有多少信息对我们有价值，后面这一点尤其重要。

132

用物理学家解释能量的方法或许可以帮助我们理解数据。他们认为物体拥有“存储着的”或“潜在的”能量，只是处于休眠状态，比如压缩了的弹簧或放置在山顶的小球……同理，在基本用途完成后，数据的价值仍然存在，只是处于休眠状态，像弹簧或小球一样，直到它被二次利用并重新释放它的能量。在大数据时代，我们终于有了这种思维、创造力和工具，来释放数据的隐藏价值。

135

最终，数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择，这里不是指金融工具意义上的选择，而是实际意义上的选择。这些选择的总和就是数据的价值，即数据的“潜在价值”。

135

过去，一旦数据的基本用途实现了，我们便认为数据已经达到了它的目的，准备将其删除，让它就此消失。……而在大数据时代，数据就像是一个神奇个钻石矿，在其首要价值被挖掘后扔能不断产生价值。数据的潜在价值有三种最为常见的释放方式：基本再利用、数据集整合和寻找”一份钱两份贷“。

135

数据再利用的价值对于那些收集或控制着大型数据集但目前去很少使用的机构来说是个好消息，比如在那些线下运作的传统企业。……麦肯锡的咨询顾问们列举了一家物流公司（名称保密）。这家公司在交付货物的过程中积累了大量产品的全球出货信息。嗅到了这个机会后，该公司成立了专门的部门，以商业和经济预测的形式出售汇总数据。换言之，它创造了谷歌过去搜索查询业务的一个线下版本。

137

有时，处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。

139

丹麦癌症协会：手机释放增加致癌率——为了满足医疗或商业的目的，两个数据集都采用了严格的质量标准，信息的收集不存在偏差。事实上，数据是在多年前就已经生成的，当时的目的与这项研究毫无关系。最重要的是，这项研究并没有基于任何样本，却很接近“样本=总和”的准则，即包括了几乎所有癌症患者和移动用户。……最后，研究没有发现使用移动电话和癌症风险增加之间存在任何关系。

139

随着大数据的出现，数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时，重组总和本身的价值也比单个总和更大。……例如，房地产网站将房地产信息的价格添加在美国的社区地图上，同时，还聚合了大量的信息，如社区近期的交易和物业规格，以此来预测区域内具体每套住宅的价值。这个结果极具指导意义，尽管通过视觉展示使得数据更加亲和且非常简单，但采用位置信息并将其置于地图上毕竟不是一个创造性的飞跃。

140

数据创新3：可扩展数据——有些零售商在店内安装了监控摄像头，这样不仅能认出商店扒手，还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。

141

谷歌街景与GPS采集——一辆谷歌街景汽车每时每刻都能积累大量的离散数据流。这些数据之所以具有可扩展性，是因为谷歌不仅将其用于基本用途，而且进行了大量的二次利用。例如，GPS数据不仅优化了其地图服务，而且对谷歌自动驾驶汽车的运作功不可没。

141

数据创新4：数据的折旧值——……仅仅依据时间来判断显然不够，因此，亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如，如果客户浏览或购买了一本基于以往购买记录而推荐的书，电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样，他们就能够评价旧数据的有用性，并使模型的“折旧率”更具体。

143

数据创新5：数据废气——微软与谷歌的拼写检查……这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的价值，而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量（如：搜索结果页面的顶部显示“你要找的是不是：XXX”），而且将其应用于许多其他服务中，如搜索的“自动完成”功能、Gmail、谷歌文档甚至翻译系统。

146

一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了，这就是“数据废气”。它是用户在线交互的副产品，包括浏览了哪些页面、停留了多久、鼠标光标的位置、输入了什么信息等等。

146

06角色定位——数据、技术与思维的三足鼎立

大数据价值链的3大构成——数据本身、技能与思维。

第一种是基于数据本身的公司。如Twitter。

第二种是基于技能的公司。如沃尔玛。

第三种是基于思维的公司。就是通过想法获得价值。

160

VIAS & MasterCard 与商户推荐——MasterCard发现，如果一个人在下午四点左右给汽车加油的话，他很可能在接下来的一个小时内要去购物或者去餐馆吃饭，而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息，因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。（MasterCard就是一个大数据掌控公司）

163

在一系列情况下，一个出院了的病人会在一个月之内再次入院。……但是研究也发现了一个出人意料的重要因素，那就是病人的心里状况。如果对病人最初的诊断中有类似“压抑”这种暗示心理疾病的词的话，病人再度入院的可能性大很多。……这表明，如果病人出院之后的医学干预是以解决病人的心理问题为重点，可能会更有利于他们的身体健康。

165

FlightCaster的大数据思维——……它主要基于分析过去十年里每个航班的情况，然后将其与过去和现实的天气情况进行匹配。有趣的是，数据拥有者就做不到这样的事情。……如果美国运输统计局、美国联邦航空局和美国天气服务这些数据拥有者敢将航班晚点预测用作商业用途的话，国会可能就会举办听证会并否决这个提议。……同样，航空公司不可以这么做，也不会这么做，因为这些数据所表达的信息越隐蔽对它们就越有利。FlightCaster的预测是如此的准确，就连航空公司的职员也开始使用它了。但需要注意的一点就是，虽然航空公司是信息的源头，但是不到最后一秒它是不会公布航班晚点的，所以它的信息是不及时的。

166

所谓大数据思维，是指一种意识，认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。

167

虽然谷歌和亚马逊都是三者兼具，但是他们的商业策略并不相同。谷歌在刚开始收集数据的时候，就已经带有多次使用数据的想法。比方说，它的街景采集车收集全球定位系统数据不光是为了创建谷歌地图，也是为了制成全自动汽车。相对地，亚马逊更关注的是数据的基本用途而且也只把数据的二级用途作为额外收益。比方说，它的推荐系统把用户浏览过的网页数据作为线索，但是它并没有利用它预测经济状况和流感爆发。

170

亚马逊的Kindle电子书阅读器记录了一些读者反复标注和强调过的内容，但是亚马逊并没有把这些数据信息卖给作者或者出版社。书商肯定很乐意知道哪些段落是受读者欢迎的，因为这样他们就能提高销量；作者应该也想知道书籍的哪些地方不受读者欢迎，这样他们就能根据读者的喜好提高作品质量；出版社则可以通过这些数据知道哪些主题的书籍更有可能成为畅销书。但是，亚马逊把这些数据都雪藏了。

170

Inrix的分析发现，上下班高峰时期的交通状况变好了，这也就说明失业率增加了，经济状况变差了。同时，Inrix把收集到的数据卖给了一个投资基金，这个投资基金把交通情况视作一个大型零售商场销量的代表，一旦附近车辆很多，就说明商场的销量会增加。

174

数据的价值已经从技术转移到了数据自身和大数据思维上。

176

如果车辆的自动制动系统在某段路上老是启动的话，就说明这段路比较危险，应该考虑更换路径。

176

苹果公司进军移动手机行业就是一个很好的例子。在iPhone推出之前，移动运营商从用户手中收集了大量具有潜在价值的数据，但是没能深入挖掘其价值。相反，苹果公司在与运营商签订的合约中规定运营商要提供给它大部分的有用数据。通过来自多个运营商提供的大量数据，苹果公司所得到的关于用户体验的数据比任何一个运营商都要多。苹果公司的规模效益体现在了数据上，而不是固有资产上。

186

大数据让处于行业两端的公司受益良多，而中等规模的公司要么向两端转换，要么破产。传统行业最终都会转变为大数据行业，无论是金融服务业、医药行业还是制造业。当然，大数据不会让所有行业的中等规模的公司消亡，但是肯定会给可以被大数据分析所取代的中等规模公司带来巨大的威胁。

188

竞争正如火如荼地进行。就像谷歌的检索系统需要用户数据才能完好运行，德国的汽车零件供应商需要反馈的数据来提高它的零件质量，所有的公司都能通过巧妙地挖掘数据价值而获得利益。数据能够优化生产和服务，甚至能催生新的行业。

189

07风险——让数据主宰一切的隐忧

如果所有人的信息本来都已经在数据库里，那么有意识地避免某些信息就是此地无银三百两。……另一条技术途径在大部分情况下也不可行，那就是匿名化。……在小数据时代这样确实可行，但是随着数据量和种类的增多，大数据促进了数据内容的交叉检验。

198

……因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的，一是我们收集到的数据越来越多，二是我们会结合越来越多不同来源的数据。

200

谷歌和Facebook的理念则是人就是社会关系、网上互动和内容搜索的加和。所以，为了全面调查一个人，调查员需要得到关于这个人的最广泛的信息，不仅是他们认识的人，还包括这些人又认识哪些人等。……不过，虽然企业和政府拥有的这种采集个人信息的能力，

让我们感到很困扰，但也还是没有大数据所引起的另一个新问题让我们更恐慌，那就是用预测来判断我们。

201

预测与惩罚，不是因为“所做”，而是因为“将做”——人们不是因为所做而受到惩罚，而是因为将做，即使他们事实上并没有犯罪。……例如，里士满市的警察一直觉得在枪击事件之后会出现一个犯罪高峰期，大数据证明了这种想法，但也发现了一个漏洞，即高峰期不是紧随枪击事件而来的，而是两个星期之后才会出现。

202

大数据通过给予我们关于个人自身更详尽的数据信息，帮我们规避了“画像”的缺陷——直接将群体特征强加于个人。

205

基于未来可能行为之上的惩罚是对公平正义的亵渎，因为公平正义的基础是人只有做了某事才需要对它负责。……社会关于个人责任的基本信条是，人为其选择的行为承担责任。

205

也许，大数据预测可以为我们打造一个更安全、更高效的社会，但是却否定了我们之所以为人的重要组成部分——自有选择的能力和行为责任自负。大数据成为了集体选择的工具，但也放弃了我们的自由意志。

大数据的不利影响并不是大数据本身的缺陷，而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因，因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。

207

麻烦的是，人们习惯性地从因果关系的视角来理解世界。因此，大数据总数被滥用于因果分析，而且我们往往非常乐观地认为，只要有了大数据预测的帮助，我们进行个人罪责判定就会更高效。

207

大数据大大地威胁到了我们的隐私和自由，这都是大数据带来的新威胁。但是与此同时，它也加剧了一个旧威胁：过于依赖数据，而数据远远没有我们所想的那么可靠。

208

美国军方在越战时对数据的使用、滥用和误用给我们提了个醒，在由“小数据”时代向大数据时代转变的过程中，我们对信息的一些局限性必须高度的重视。数据的质量可能会很差；可能是不客观的；可能存在分析错误或者具有误导性；更糟糕的是，数据可能根本达不到量化它的目的。

我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。其威胁就是，我们可能会完全受限于我们的分析结果，即使这个结果理应受到质疑。或者说，我们会形成一种对数据的执迷，因而仅仅为了收集数据而收集数据，或者赋予数据根本无权得到的信任。

210

与数据为伴的人可以用一句话概括这些问题，“错误的前提导致错误的结论。”有时候，是因为用来分析的数据质量不佳；但在大部分情况下，是因为我们误用了数据分析结果。大数据要么会让这些问题高频出现，要么会加剧这些问题导致的不良后果。211

其实，卓越的才华并不依赖于数据。史蒂夫·乔布斯多年持续不断地改善Mac笔记本，依赖的可能是行业分析，但是他发行的iPod、iPhone和iPad靠的就不是数据，而是直觉——他依赖于他的第六感。当记者问及乔布斯苹果推出iPad之前做了多少市场调研时，他那个著名的回答是这样的：“没做！消费者没义务去了解自己想要什么。”

212

只要得到了合理的利用，而不单纯只是为了“数据”而“数据”，大数据就会变成强大的武器。

213

谷歌流感趋势的核心思想是这些检索词条和流感爆发相关，但是这也可能只是医疗护工在办公室听到了有人打喷嚏，然后上网查询如何防止自身感染，而不是因为他们自己真的生病了。

214

必须杜绝对数据的过分依赖，以防我们重蹈伊卡洛斯的覆辙。

215

伊卡洛斯，希腊神话人物，是希腊神话中戴达罗斯的儿子。与戴达罗斯使用蜡和羽毛造的双翼逃离克里特岛时，因过于自信，飞的太高，双翼上的蜡遭太阳炙热烤融化而跌落水中丧生，被埋葬在一个海岛上。

08掌控——责任与自由并举的信息管理

当世界开始迈向大数据时代时，社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时，大数据早已在推动人类信息管理准则的重新定位。然而，不同于印刷革命，我们没有几个世纪的时间去适应，我们也许只有几年的时间。

217

变革并不止于规范。这种管理规范上的改变也体现了当时更深层次的价值观转变。在古登堡时期，人类第一次意识到了文字的力量；最终，也意识到了信息广泛传播的重要性。几个世纪过去了，我们选择获取更多的信息而非更少，并且借助限制信息滥用的规范而不是最初的审查来防止其泛滥。

219

管理变革1：个人隐私保护，从个人许可到让数据使用者承担责任。……将责任从民众转移到数据使用者很有意义，也存在充分的理由，因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估避免了商业机密的泄露。也许更为重要的是，数据使用者是二级应用的最大受益者，所以理所当然应该让他们对自己的行为负责。

220

为实现这一平衡，监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。……公司可以利用数据的时间更长，但相应地必须为其行为承担责任以及有特定时间之后删除个人数据的义务。222

管理变革2：个人动因VS预测分析……在大数据时代，关于公正的概念需要重新定义以维护个人动因的想法：人们选择自我行为的自由意志。简单地说，就是个人可以并应该为他们的行为而非倾向负责。

223

社会越是用干预、降低风险的方式取代为自己的行为负责，就越会导致个人责任意识的贬值。

225

大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判，而不是借助“客观”数据处理去决定他们是否违法。只有这样，我们才是把其当做人来对待——当做有行为选择自由和通过自主行为被评判的人。这就是从大数据推论到今天的无罪推定原则。

226

管理变革3：击碎黑盒子，大数据算法师的崛起……大数据将要求一个新的人群来扮演这种角色，也许他们会被称作“算法师”。他们有两种形式：在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。

228

管理变革4：反数据垄断大亨……伴随着从核心技术到生物工程学其他领域的发展，人类总数先创造出可能危害自身的工具，然后才着手建立保护自己、防范危险的安全机制。

232

结语——正在发生的未来

大数据并不是一个充斥着运算法则和机器的冰冷世界，其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的，因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作，也能带来成功，或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确，因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样，因为这些数据服务的是更加广大的目标。毕竟混乱构成了世界的本质，也构成了人脑的本质，而无论世界的混乱还是人脑的混乱，学会接受和应用它们才能得益。

245

如果亨利·福特问大数据他的顾客想要的是什么，大数据将会回答，“一匹更快的马。”在大数据的世界中，包括创意、直觉、冒险精神和知识野心在内的人类特性的培养显得尤为重要，因为进步正是源自我们的独创性。

西方谚语有云：“预测未来最好的办法就是创造未来。”这句话在大数据时代亦应当铭记。

247

大数据是一种资源，也是一种工具。它告知信息但不解释信息。它指导人们去理解，但有时也会引起误解，这取决于是否被正确使用。

你可能感兴趣的:(阶段性总结)

2022-09-22 宁静致远_324d
今天我们在三楼会议室召开了《教师读写活动阶段性总结表彰会》。很荣幸获得上学期阅读之星，感谢校领导赠予的奖品。惭愧的事没有把坚持写下去。同时听了各位优秀老师的发言和两位校长的讲话，及陈娜老师声情并茂的朗读叶欣老师的来信，深受鼓舞。也坚定了继续认真读书和写作的信念。尤其是叶欣老师的回信，我深切感受到了她对我们的问候，对我们读书和写作提出的中肯建议，都是那么真诚自然流露于文字上，仿佛是一位老友在和我们交
16-k8s阶段性总结01-wordpress案例心机の之蛙 k8s系列 kubernetes 容器云原生
一、案例架构步骤简单分析：1，准备NFS环境2，【wordpress的pod】创建deployment资源的wordpress（pod）容器；3，【用户访问的svc】创建用户访问的svc资源；4，【数据库的pod】创建deployment资源的数据库服务的pod容器；5，【数据库的svc】创建业务服务wordpress的pod资源访问数据库的svc资源；二、开始部署1，准备NFS环境我们采用k8s
实习日志14 ༺鸣翊༻ 前端学习
完善条件查询和word生成列表条件查询word生成列表1.阶段性总结1.1.入职培训首先，蔡老师的活字格软件开发入门和应用培训为我提供了深入了解软件开发的机会。通过学习，我掌握了一些基础的开发技能，尤其是在数据库设计和管理方面有了更深刻的理解。在入职培训中，我学到了如何设计和完善数据库，以确保系统能够高效、准确地存储和检索数据。这对于软件开发至关重要，因为一个强大的数据库设计能够为软件提供可靠的数
K8S集群实践之十：虚拟机部署阶段性总结 bennybi k8s
目录1.说明：2.安装准备2.1每个节点设置双网卡，一卡做网桥（外部访问），一卡做NAT（集群内网访问）2.2准备一个可用的代理服务器3.由于虚拟机崩溃（停电，宿主机自更），所导致的K8s集群不能启动问题处理4.关于KubeSphere5.总结几点1.说明：经过了之前的捣鼓，觉得还是有必要再写一篇总结经验，以后少走弯路。曾经实践过的方案:集群方案遇到的主要问题建议香橙派+树莓派搭建集群-性能问题，
不服来战！满分50的试卷考了47，但只算“良”！三分之一2015
学校进行了阶段性总结练习，结果孩子的成绩却令我大吃一惊！入学以来，第一次考“良”！满分50分的试卷，只考了47分！我欲~哭~无~泪~~~那天我还没下班，在看管学校托管的学生呢，老爸就发来微信，语重心长，特意嘱咐我：孩子今天考试没考好，得了良。看图写话太啰嗦了，你千万别说他，好好帮他讲讲！看来他看图写话还是薄弱！（生怕我训孩子！）我一懵！赶快回复：拍照给我看。一瞬间，转了好几个念头：昨天复习了啊！没
回首过往，迈向前方叶超_个人内容创作保险人
以下是一个在不断地思考前方到底该如何走的一名普通人的自我介绍，起因是恰好是在2019/6至2020/2这大半年之中自己有了很大的改变。权当是一个对过往27年的阶段性总结。第一部分：起源我出生于杭州市一个叫场口镇附近的小村庄。说起场口，在杭州经历过驾照考试的人应该都应该会有一段难忘的历史，尤其是对烈日的记忆会自动苏醒，因为这个地方恰好是杭州市科目二科目三的考场。经历了一个算比较失败的高考后，我来到了
UED生涯 "且听风云的交互工具點儿F
经久不衰的小话题。13年入行至今已有一段光景，一直想做一个阶段性总结，关于辣些.....趟过的坑，阅过的时代，上手的装备，今天，终于要开始做了。冥思了几个工作日，终于还是从当初以及至今都热度不减的交互设计工具谈起。有欢喜，有忧愁。几篇别人家的推荐：一套交互设计工具推荐产品经理工具箱｜原型及交互设计工具（APP端）交互神器！谁是最好用的原型绘制工具？懒得看是一种美德，可以看总结。总结●Axure，快
初阶段性总结暗黑骑士_307c
第一阶段学习已经告一段落了。下面我来总结一下口才的训练方法。【1】速读法：所谓的“速读法”顾名思义是快速的朗读。这种训练方法的目的是在于锻炼人口齿伶俐。语言准确，吐字清晰。【2】背诵法：背诵法是指通过背诵课文.诗歌的方法来多背。多记，背诵法的目的在于锻炼我们的口才【3】练声法：练声也就是练声音、练嗓子，在生活中，我们都喜欢听那些饱满圆润、悦耳动听的声音，而不愿听干瘪无力、沙哑干涩的声音。所以锻炼出
【自省】阶段性总结反思(自用) flmz_Kk c语言
总结&反思：学习进度有点慢。等这阵子考试周过去了，就猛猛滴学，把落下的进度补回来博客更新频率太低了。后面争取一周两更，多学多总结学校作业题目做不出来，老是得看答案。多刷题，不会就问长期久坐，经常熬夜(还没成为社畜就要秃头了吗)。每天跑跑步，夜跑，晚上早点睡经常稀里糊涂的过完一天，感觉自己啥都没干。弄个清单，把每天要做的事记录下来，一件件完成小目标：放假前把初阶C语言学完规划好假期，把学习跟身体搞好
严淑红核心命友群<<20190320主题分享会>> 严淑红
活动策划方案一、活动背景自2月24日加入命硬私董会:由中国最贵商业顾问之一、个人品牌顶尖权威的恒洋老师发起的免费公益社群以来,在96年社群传奇魏琪老师的带领下，见证10天裂变11万人的超强执行力。短短20来天不断克服惰性,逼迫自己去做原先不去想也不去做的事情，跟随实践中获益良多。现在老师留下作业，要求VIP私董策划一场直播,讲述分享所学所获,真正做到为命友负责.二、活动意义1.通过这次阶段性总结的
践行定投的第三个月，我有哪些收获？蜗牛的奇妙旅行
加入笑来老师定投人生践行群已经三个月了，虽然没有发生翻天覆地的变化，但是细水长流之下，自己践行的脚步和心态愈加坚定。这篇文章既是对自己践行的阶段性总结，也是想跟大家分享定投可以对我们的生活带来怎样的影响。1、定投资产：目前已经坚持定投11期，总金额累计下来约一个月工资，虽然还不多，但是这些是在去除了花呗、信用卡和保险、生活备用金等之外省下来的，心里成就感满满。这三个月里我真正写下了我的消费原则，决
阶段性总结小熊猫Q3 github
阶段性总结1、发布原创文章10篇2024年初立过flag，本年度在要公众号发布原创文章10篇，目前已发表17篇，目标达成公众号主要用来分享个人日常服务器运维笔记，目前已发布文章主要分为两个主题：服务器硬件科普系列服务器管理平台开发系列日前公司采购验收了大批信创国产服务器，如鲲鹏arm和海光X86，近期比较忙，后面计划整理发布一些关于信创服务器相关的科普知识目前关于服务器运维方面还是小学生水平，如文
yolov1到yolov2的改进立夏陆之昂 yolo 学习小记录
大部分人学习YOLO应该是从V3开始的，我很奇葩，从V2开始的，但是V2论文中有很多点一笔带过，前前后后断断续续看了几篇博客介绍V2和V1，想着做一个阶段性总结，自己写一篇，也有助于自己加深理解。大部分参考https://blog.csdn.net/shentanyue/article/details/84860600#t0这篇总结的很全面目前的目标检测算法分为两类：One-stage和Two-s
Redis内部数据结构Dict结构详解码农小旋风后端
目录dict的数据结构定义dict的创建（dictCreate）dict的查找（dictFind）dict的插入（dictAdd和dictReplace）dict的删除（dictDelete）如果你使用过Redis，一定会像我一样对它的内部实现产生兴趣。《Redis内部数据结构详解》是我准备写的一个系列，也是我个人对于之前研究Redis的一个阶段性总结，着重讲解Redis在内存中的数据结构实现（暂
状态有好有坏，起起伏伏是常态，接纳它吧！个人成长旅途
图片发自App业余电影博主成长之路并不容易，《真心英雄》那句歌词写得太好，没有谁能随随便便成功。做一个阶段性总结，有收获，有不足，但更多的是不足。先写收获。从2012年至今玩微博7年时间只有1800粉丝，今年10月5开始，微博定位电影博主后，目前粉丝有2480人，2个多月时间增加了680人，我想这是聚焦专注带来的收获，还是值得嘉许的。10月30日开始玩抖音，目前终于有了100个小粉丝。数量虽然不多
人际关系—阶段性总结2 晴天and下雪天
1.认识自己——基础——找出自己的目标和准则①自我：反思自省——感恩日记（记录并分析引起情绪波动大的事件）②自我：枕头法（提升认知复杂程度）；底层逻辑：用更多的方式去理解他人的行为，就更有可能从他们的视角来看待世界。③他人：他人视角——决策清单（他人意见-尤其是反方意见，伟人意见-经典书籍、名人传记）底层逻辑：每个人看事物都是片面，自己看的，不仅局限，而且主观色彩更多；而我们需要多方位的视角，才能
10.17复盘 xiao阿娜
超能E战队xiao阿娜【回顾目标】1.完成时间管理、E战到底的视频学习，并做笔记输出2.上午抽空听昨天山海先生的分享，中午听虞莹老师关于复盘的答疑3.做阶段性总结【评估结果】基本完成，不过九九乘法表的作业有点难度，还要琢磨【分析过程】1.8点多到公司，整理下到港的单子交给外勤，就开始制定今日待办事项列表2.上午听了山海先生的分享，还加了微信，听了2节时间管理课程，如何制定周计划、日计划，早上才知道
Android平台下的cpu利用率优化实现卓修武 Android性能监控与优化 Android linux android
背景为了进一步优化APP性能，最近针对如何提高应用对CPU的资源使用、以及在多线程环境下如何提高关键线程的执行优先级做了技术调研。本文是对技术调研过程的阶段性总结，将分别介绍普通应用如何调控App频率、如何将指定线程绑定到特定CPU、如何通过提升线程优先级获得更多CPU时间片的执行。CPU调频概念通常更高的cpu频率代表了更快的运行速度，一个设备可能包含多个cpu，以我目前使用的Mi11Pro为例
[前端学java08-SpringBoot实战总结1-7] 阶段性总结 woow_wu7
导航[react]Hooks[封装01-设计模式]设计原则和工厂模式(简单抽象方法)适配器模式装饰器模式[封装02-设计模式]命令模式享元模式组合模式代理模式[React从零实践01-后台]代码分割[React从零实践02-后台]权限控制[React从零实践03-后台]自定义hooks[React从零实践04-后台]docker-compose部署react+egg+nginx+mysql[Rea
【总结】消息队列 - Kafka tianya3530 消息中间件学习笔记 kafka 消息队列
阶段性总结以备不时之需，总结有误的地方，欢迎指正交流。1.为什么使用消息队列异步处理、应用解耦、流量削锋2.使用消息队列的缺点系统可用性降低-如果消息系统挂掉就会导致系统服务不可用。系统复杂性增加-需要考虑很多方面的问题：一致性问题、如何保证消息不被重复消费、如何保证消息可靠性传输等。3.kafka相关概念1）producer（生产者）：消息生产者，发布消息到kafka集群的终端或服务。produ
从0开始的编程生活大时代1105 生活
1.自我介绍CSDN的小伙伴们，大家好，我是一名来自双非二本院校的大二学生，学编程有一段时间了，这篇博客呢，不是讲与技术相关的内容，而是对自己的阶段性总结和对未来的规划2.目标高中的目标很简单也很统一，那就是考大学，所有人不需要管其他事情，只需要学习；上了大学，面对如此多的选择，实在很难确定一个可以长期坚持的目标；可以说，我的整个大一就是在不断尝试，不断失败；虽说获得了许多经验，但真真学到有用，有
【UnityShader入门精要学习笔记】（3）章节答疑 milu_ELK 学习笔记
本系列为作者学习UnityShader入门精要而作的笔记，内容将包括：书本中句子照抄+个人批注项目源码一堆新手会犯的错误潜在的太监断更，有始无终总之适用于同样开始学习Shader的同学们进行有取舍的参考。文章目录复习（阶段性总结，答疑请直接从目录跳转）渲染阶段应用阶段和CPU的工作GPU渲染管线几何阶段光栅化阶段最后答疑什么是OpenGL/DirectX什么是HLSL、GLSL、CG什么是Draw
java第一阶段留级_java学习的第一阶段总结流浪的夏先森 java第一阶段留级
前言：在大一学习了C语言之后，基本掌握了一门面向过程的程序设计语言，本学期所学习的java是一门面向对象的语言，在问题的解决方面不像C一样是以过程来思考问题，而是要以面向对象的思维来解决问题。此篇文章是对于本学期前三次Java作业的一个阶段性总结，第一次作业花费了最多的时间，有一个测试点没有过，第二次花费了大概3.5小时，第三次大概花费了8小时，作业难度不大，只是需要自主学习的知识还有很多。1.作
论阶段性总结的必要性春燕衔泥
早在读研究生的时候，我的导师告诉我，每研究完一个课题，要及时做总结。后来参加工作了，每一段工作经历都是一段惊心动魄的旅程。如果及时做了总结，任何时候都不会觉得有遗憾。人的生命，不管是学习，还是工作，都是由一个阶段一个阶段构成的。可能是完成了一次升学，也可能是实现了一次升职。每个阶段都应该要有一个小结。对于我而言，这种阶段性的划分格外明显。上学的时候还保持着阅读和书写的习惯。到了上班的时候，忙起来就
命友群活动策划心宇宙
一、活动背景2020这个特殊时期，在未来不可知的路上有幸遇到了命硬私董会，成为最早在迷茫中醒转的人。在中国最贵商业顾问之一、个人品牌顶尖权威的恒洋老师和96年社群传奇魏琪老师的带领下，见证10天裂变11万人的这种超强执行力。短短一个月时间，自己迭代速度飞快，深入学习了未来社会的驾照——社群，与十几万命友们互相赋能。二、活动意义1.命硬私董会自我成长阶段性总结汇报，尝试使用直播工具，勇敢的跨出第一步
K8s 源码剖析及debug实战之 Kube-Scheduler（二）：终于找到了调度算法的代码入口 Smaller、FL K8s源码剖析及debug实战 kubernetes 算法容器云原生运维 k8s
文章目录0.引言1.Run2.sched.Run()3.sched.scheduleOne4.(g*genericScheduler)Schedule5.阶段性总结6.参考0.引言欢迎关注本专栏，本专栏主要从K8s源码出发，深入理解K8s一些组件底层的代码逻辑，同时借助debugMinikube来进一步了解K8s底层的代码运行逻辑细节，帮助我们更好的了解不为人知的运行机制，让自己学会如何调试源码，
直流电机驱动开发笔记小刚学長笔记驱动开发嵌入式硬件
直流电机总体来说应用非常广泛，最近项目需要直流电机，本想着应该是很简单的事情，结果也搞了好久，今天算是可以阶段性总结下。也不知道怎么总结好。就拿碰到问题记录下。前提：本人一直是软件开发，对这个之前虽然有接触，但都是有硬件同事一起搞的，，不像这次差不多都是一个人搞的。1.直流电机驱动类型接触有两种方式：一种是驱动芯片，这种一般封装好，都很小或相对很小，这种内部集成了H桥，可支持步进电机也可以直流电机
阶段性总结抱樸守心
一、回顾自己这三个月的心路历程和自己的成长和收获1、心路历程：支持助教群这三个月的共修，时间不长但感觉很长，好像记忆中没留下什么，却又感觉胜过三年的学习，感觉自己生活中没有成长进步什么，但又感觉自己实际上有了质的变化。三个月的共修，没想到老师是以这样的方式来激励我们，没想到自己可以被这样的方式打到趴下，没想到一个人的力量来自于趴下后的回升。三个月还真是感慨万千，无数次想逃，无数次觉得这不是自己想要
[建工]学院“青春稷下·留忆申楼”支教服务团第二次阶段性总结大会暨校长讲话 0724f356dafa
作者：侯卓鲁(据建筑工程学院报道)7月22日，“青春稷下·留忆申楼”支教团队已经在申楼小学连续工作5天，在工作中也愈发得心应手，但是还是存在一定的问题。7月22日上午上午校长和学生们在炎炎烈日下举行了第二次校长讲话。紧接着校长给我们展开了第二次阶段性总结大会。在第二次阶段性总结大会上，校长紧抓四个大问题，坚决落实孩子安全问题。一是孩子的饮食安全问题，“三无产品”坚决不能进校园，时刻关注孩子身体状况
一篇全面而且透彻的RabbitMQ性能优化指南！石杉的架构笔记 Java MQ 性能优化 rabbitmq 性能优化 java
V-xin：ruyuanhadeng获得600+页原创精品文章汇总PDF目录一、前情提示二、unack消息的积压问题三、如何解决unack消息的积压问题四、高并发场景下的内存溢出问题五、低吞吐量问题六、合理设置prefetchcount七、阶段性总结一、前情提示上一篇文章：《大牛总结超详细的RabbitMQ入门，看这篇文章就够了！》，我们分析了ack机制的底层实现原理（deliverytag机制）
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam