学领未来

大数据的反思

自2011年以来，大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑，大数据已然成为继云计算、物联网之后新一轮的技术变革热潮，不仅是信息领域，经济、政治、社会等诸多领域都“磨刀霍霍”向大数据，准备在其中逐得一席之地。

中国工程院李国杰院士更是把大数据提升到战略的高度，他表示数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术，在数据技术与产业上的落后，将使我们像错过工业革命机会一样延误一个时代。

在这样的认知下，“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷歌趋势（Google Trends）显示的有关大数据热度的趋势，从图1中可以看到，在未来的数年里，“大数据”的热度可能还是“高烧不退”（图1中虚线为未来趋势）。

图1 大数据趋势

在大数据热火朝天前行的路上，多一点反思，多一份冷静，或许能让这路走的更好、更远？例如，2014年4月，大名鼎鼎的《纽约时报》发表题为《大数据带来的八个（不，是九个！）问题》（Eight (No, Nine!) Problems With Big Data）”的反思文章其中文中的第九个问题，就是所谓的“大数据的炒作（we almost forgot one last problem: the hype）”。同样为重量级的英国报刊《财经时报》（Financial Times，FT）也刊发了类似反思式的文章“大数据：我们正在犯大错误吗？（Big data: are we making a big mistake?）”

在大数据热炒之中，大数据的价值是否被夸大了？是否存在人造的“心灵鸡汤”？大数据技术便利带来的“收之桑榆”，是否也存在自己的副作用——“失之东隅”——个人的隐私何以得到保障？大数据热炒的“繁华过尽”,数据背后的巨大价值是否还能“温润依旧”？在众声喧哗之中，我们需要冷静审慎地思考上述问题。

太多的“唐僧式”的说教，会让很多人感到无趣。下文分享了10个从“天南地北”收集而来的小故事（或称段子），从这些小故事中，可对热炒的大数据反思一下，这或许能让读者更加客观地看待大数据。有些小故事与结论之间的对应关系，或许不是那么妥帖，诸位别太较真，读一读、乐一乐、想一想就好！

故事01：醉汉路灯下找钥匙——大数据的研究方法可笑吗？

一天晚上，一个醉汉在路灯下不停地转来转去，警察就问他在找什么。醉汉说，我的钥匙丢了。于是，警察帮他一起找，结果路灯周围找了几遍都没找到。于是警察就问，你确信你的钥匙是丢到这儿吗？醉汉说，不确信啊，我压根就不知道我的钥匙丢到哪儿。警察怒从心中来，问，那你到这里来找什么？醉汉振振有辞：因为只有这里有光线啊！

图2 醉汉路灯下找钥匙

这个故事很简单，看完这个故事，有人可能会感叹醉汉的“幼稚”、“可笑”。但不好笑的是，“乌鸦笑猪黑，自己不觉得”，这个故事也揭示了一个事实：在面临复杂问题时，我们的思维方式也常同这个醉汉所差无几，同样也是先在自己熟悉的范围和领域内寻找答案，哪怕这个答案和自己的领域“相隔万里”！

还有人甚至认为，醉汉找钥匙的行为，恰恰就是科学研究所遵循的哲学观。前人的研究成果，恰是是后人研究的基石，也即这则故事中的“路灯”。到路灯下找钥匙，虽看来有些荒唐，但也是“无奈之下”的明智之举。

数据那么大，价值密度那么低，你也可以去分析，但从何分析起？首先想到的方法和工具，难道不是当下你最熟悉的？而你最熟悉的，就能确保它就是最好的吗？

沃顿商学院著名教授、纽约时报最佳畅销书作者乔纳?伯杰（Jonah Berger）从另外一个角度，解读这个故事在这里，浩瀚的黑夜就是如同全数据，“钥匙”就好比是大数据分析中我们要找到的价值目标，他认为，“路灯”就好比我们要达到这个目标的测量“标尺”，如果这个标尺的导向有问题，顺着这个标尺导引，想要找到心仪的“钥匙”，是非常困难的！在我们痴迷于某项自己熟悉的特定测量标尺之前，一定要提前审视一下，这个测量标尺是否适合帮助我们找到那把“钥匙”，如果不能，赶快换一盏“街灯”吧！

如果在黑暗中丢失的钥匙，是大数据中的价值，那这个价值也太稀疏了吧。下面的故事，让我们聊聊大数据的价值。

故事02：颠簸的街道——对不起，“n=All”只是一个幻觉

波士顿市政府推荐自己的市民，使用一款智能手机应用——“颠簸的街道（Street Bump，网站访问链接：http://www.streetbump.org/）”。这个应用程序，可利用智能手机中内置的加速度传感器，来检查出街道上的坑洼之处——在路面平稳的地方，传感器加速度值小，而在坑坑洼洼的地方，传感器加速度值就大。热心的波士顿市民们，只要下载并使用这个应用程序后，开着车、带着手机，他们就是一名义务的、兼职的市政工人，这样就可以轻易做到“全民皆市政”。市政厅全职的工作人员就无需亲自巡查道路，而是打开电脑，就能一目了然的看到哪些道路损坏严重，哪里需要维修，如图3所示。

图3 颠簸的街道

波士顿市政府也因此骄傲地宣布，“大数据，为这座城市提供了实时的信息，它帮助我们解决问题，并提供了长期的投资计划”。著名期刊《连线》（Wired）也毫不吝啬它的溢美之词这是众包（Crowdsourcing）改善政府功能的典范之作。

众包是《连线》杂志记者Jeff Howe于2006年发明的一个专业术语，用来描述一种新的商业模式。它以自由自愿的形式外包给非特定的大众网络的做法。众包利用众多志愿员工的创意和能力——这些志愿员工具备完成任务的技能，愿意利用业余时间工作，满足于对其服务收取小额报酬，或者暂时并无报酬，仅仅满足于未来获得更多报酬的前景。

然而，从一开始，“颠簸的街道”的产品设计就是有偏的（bias），因为使用这款App的对象，“不经意间”要满足3个条件：（1）年龄结构趋近年轻，因为中老年人爱玩智能手机的相对较少；（2）使用App的人，还得有一部车。虽然有辆车在美国不算事，但毕竟不是每个人都有；（3）有钱，还得有闲。前面两个条件这还不够，使用者还得有“闲心”，想着开车时打开“颠簸的街道”这个App。想象一下，很多年轻人的智能手机安装的应用程序数量可能两位数以上，除了较为常用的社交软件如Facebook或Twitter（中国用户用得较多的是微博、微信等）记得开机运行外，还有什么公益软件“重要地”一开车就记得打开？

“颠簸的街道”的理念在于，它可以提供 “n=All（所有）”个坑洼地点信息，但这里的“n=All（所有）”也仅仅是满足上述3个条件的用户记录数据，而非“所有坑洼点”的数据，上述3个条件，每个条件其实都过滤了一批样本，“n=All”注定是不成立的。在一些贫民窟，可能因为使用手机的、开车的、有闲心的App用户偏少，即使有些路面有较多坑洼点，也未必能检测出来。

《大数据时代》的作者舍恩伯格教授常用“n=All”，来定义大数据集合。如果真能这样，那么就无需采样了，也不再有采样偏差的问题，因为采样已经包含了所有数据。

畅销书《你的数字感：走出大数据分析与解读的误区》（Numbersense: How to Use Big Data to Your Advantage）的作者、美国纽约大学统计学教授Kaiser Fung，就毫不客气地提醒人们，不要简单地假定自己掌握了所有有关的数据： “N=All（所有）”常常仅仅是对数据的一种假设，而不是现实。

微软-纽约首席研究员Kate Crawford也指出，现实数据是含有系统偏差的，通常需要人们仔细考量，才有可能找到并纠正这些系统偏差。大数据，看起来包罗万象，但“n=All”往往不过是一个颇有诱惑力的假象而已。

“n=All”,梦想很丰满，但现实很骨感！

但即使具备全数据，就能轻易找到隐藏于数据背后的有价值信息吗？请接着看下面的故事。

故事03：园中有金不在金——大数据的价值

人们在描述大数据时，通常表明其具备4个V特征，即4个以V为首字母的英文描述：Volume（体量大）、Variety（模态多）、Velocity（速度快）及Value（价值大）。前三个V，本质上，是为第四个V服务的。试想一下，如果大数据里没有我们希望得到的价值，我们为何还辛辛苦苦这么折腾前3个V？

英特尔中国研究院院长吴甘沙先生说，“鉴于大数据信息密度低，大数据是贫矿，投入产出比不见得好。”《纽约时报》著名科技记者Steve Lohr，在其采访报道“大数据时代（The Age of Big Data）”中表明，大数据价值挖掘的风险还在于，会有很多的“误报”发现，用斯坦福大学统计学教授Trevor Hastie的话来说，就是“在数据的大干草垛中，发现有意义的“针”，其困难在于“很多干草看起来也像针（The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles）”

针对大数据的价值，李国杰院士借助中国传统的寓言故事《园中有金》，从另外一个角度，说明大数据的价值，寓言故事是这样的：

有父子二人，居山村，营果园。父病后，子不勤耕作，园渐荒芜。一日，父病危，谓子曰：园中有金。子翻地寻金，无所得，甚怅然。是年秋，园中葡萄、苹果之属皆大丰收。子始悟父言之理。

人们总是期望，能从大数据中挖掘出意想不到的“大价值”。可李国杰院士认为，实际上，大数据的价值，主要体现在它的驱动效应上，大数据对经济的贡献，并不完全反映在大数据公司的直接收入上，应考虑对其他行业效率和质量提高的贡献。

大数据是典型的通用技术，理解通用技术的价值，要懂得采用“蜜蜂模型”：蜜蜂的最大效益，并非是自己酿造的蜂蜜，而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果，没有蜜蜂的一份功劳？

回到前文的小故事，儿子翻地的价值，不仅在于翻到园中的金子，更是在于翻地之后，促进了秋天果园的丰收。在第03个小故事中，醉汉黑暗中寻找的钥匙，亦非最终的价值，通过钥匙打开的门才是。

对于大数据研究而言，一旦数据收集、存储、分析、传输等能力提高了，即使没有发现什么普适的规律或令人完全想不到的新知识，也极大地推动了诸如计算机软硬件、数据分析等行业的发展，大数据的价值也已逐步体现。

李国杰院士认为，我们不必天天期盼奇迹出现，多做一些“朴实无华”的事，实际的进步就会体现在扎扎实实的努力之中。一些媒体总喜欢宣传一些抓人眼球的大数据成功案例。但从事大数据行业的人士，应保持清醒的头脑：无华是常态，精彩是无华的质变。

如果把“大数据”比作农夫父子院后的那片土地，那么土地的面积越大，会不会能挖掘出的“金子”就越多呢？答案还真不是，下面的故事我们说说大数据的大小之争。

故事04：盖洛普抽样的成功——大小之争，“大”数据一定胜过小抽样吗？

1936年，民主党人艾尔弗雷德?兰登（Alfred Landon）与时任总统富兰克林·罗斯福（Franklin Roosevelt）竞选下届总统。《文学文摘》（The Literary Digest）这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”，是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中，成功地预测总统宝座的归属。

1936年，《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查，不同于前几次的调查，这次调查把范围拓展得更广。当时大家都相信，数据集合越大，预测结果越准确。《文学文摘》计划寄出1000万份调查问卷，覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执，在统计完成以后，《文学文摘》宣布，艾尔弗雷德?兰登将会以55比41的优势，击败富兰克林·罗斯福赢得大选，另外4%的选民则会零散地投给第三候选人。

然而，真实的选举结果与《文学文摘》的预测大相径庭：罗斯福以61比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是，新民意调查的开创者乔治·盖洛普（George Gallup），仅仅通过一场规模小得多的问卷——一个3000人的问卷调查，得出了准确得多的预测结果：罗斯福将稳操胜券。盖洛普的3000人“小”抽样，居然挑翻了《文学文摘》240万的“大”调查，实在让专家学者和社会大众跌破眼镜。

显然，盖洛普有他独到的办法，而从数据体积大小的角度来看，“大”并不能决定一切。民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题：样本误差和样本偏差。

在过去的200多年里，统计学家们总结出了在认知数据的过程中存在的种种陷阱（如样本偏差和样本误差）。如今数据的规模更大了，采集的成本也更低了，“大数据”中依然存在大量的“小数据”问题，大数据采集同样会犯小数据采集一样的统计偏差。我们不能掩耳盗铃，假装这些陷阱都已经被填平了，事实上，它们还都在，甚至问题更加突出。

盖洛普成功的法宝在于，科学地抽样，保证抽样的随机性，他没有盲目的扩大调查面积，而是根据选民的分别特征，根据职业、年龄、肤色等在3000人的比重，再确定电话访问、邮件访问和街头调查等各种方式所在比例。由于样本抽样得当，就可以做到“以小见大”、“一叶知秋”。

《文学文摘》的失败在于，取样存在严重偏差，它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少，但它的订户多集中在中上阶层，样本从一开始就是有偏差的（sample bias），因此，推断的结果不准，就不足为奇了。而且民主党人艾尔弗雷德?兰登的支持者，似乎更乐于寄回问卷结果，这使得调查的错误更进了一步。这两种偏差的结合，注定了《读者文摘》调查的失败。

我们可以类比一下《文学文摘》的调查模式，试想一样，如果在中国春运来临时，在火车上调查，问乘客是不是买到票了，即使你调查1000万人，这可是大数据啊，结论毫无意外地是都买到了，但这个结果无论如何都是不科学的，因为样本的选取是有偏的。

当然，采样也是有缺点的，如果采样没有满足随机性，即使百分之几的偏差，就可能丢失“黑天鹅事件”的信号，因此在全数据集存在的前提下，全数据当然是首选（但从第02故事中，我们可以看到，全数据通常是无法得到的）。对针对数据分析的价值，英特尔中国研究院院长吴甘沙先生给出了一个排序：全数据>好采样数据>不均匀的大量数据。

大数据分析技术运用得当，能极大地提升人们对事物的洞察力（insight），但技术和人谁在决策（decision-making）中起更大作用？在下面的“点球成金”小故事，我们聊聊这个话题。

故事05：点球成金——数据流PK球探，谁更重要？

《点球成金》(Moneyball)又是一例数据分析的经典故事：

长期以来，美国职业棒球队的教练们依赖惯例规则是，依据球员的“击球率（Batting Average, AVG)”（其值等于安打数／打数），来挑选心仪的球员。而奥克兰“运动家球队”的总经理比利?比恩（Billy Beane）却另辟新径，采用上垒率指标(On-Base Percentage, OBP)来挑选球员，OBP代表一个球员能够上垒而不是出局的能力。采用上垒率来选拔人才，并非毫无根据。通过精细的数学模型分析，比利?比恩发现，高“上垒率”与比赛的胜负存在某种关联（corelation），据此他提出了自己的独到见解，即一个球员怎样上垒并不重要，不管他是地滚球还是三跑垒，只要结果是上垒就够了。在广泛的批评和质疑声中，比恩通过自己的数据分析，创立了“赛伯计量学”（Sabermerrics）。据此理论，比恩依据“高上垒率”选取了自己所需的球员，这些球员的身价远不如其他知名球员，但比利?比恩却能带领这些球员在2002年的美国联盟西部赛事中夺得冠军，并取得了20场连胜的战绩。

图4 点球成金

这个故事讲得是数量化分析和预测对棒球运动的贡献，吴甘沙先生认为，它在大数据背景下出现了传播的误区：

第一，它频繁出现在诸如舍恩伯格《大数据时代》之类的图书中，其实这个案例并非大数据案例，而是早已存在的数据思维和方法。在“点球成金”案例中的数据，套用大数据的4V特征，基本上，无一符合。

第二，《点球成金》无论是小说，还是拍出来的同名电影，都刻意或无意忽略了球探的作用。从读者/观众的角度来看，奥克兰“运动家球队”的总经理比利·比恩完全运用了数据量化分析取代了球探。而事实上，在运用这些数据量化工具的同时，比恩也增加了球探的费用，“军功章里”有数据分析的一半，也有球探的一半。

目前的大数据时代，就有这么两个流派，一派是技术主导派，他们提出“万物皆数”，要么数字化，要么死亡（孙正义在对日本企业界的演讲上所言），他们认为技术在决策中占有举足轻重地作用。另一派是技术为辅派，他们认为，技术仅仅是为人服务的，属于为人所用的众多工具的一种，不可夸大其作用。

针对《点球成金》这个案例，比利?比恩的拥趸者就属于“数据流党”，而更强调球探作用的则归属于“球探党”。

球探党Bill Shanks在其所著的《球探的荣耀：论打造王者之师的最勇敢之路》（Scout’s Honor: The Bravest Way To Build A Winning Ballteam）中，对数据流党的分析做出了强有力地回应。他认为，球探对运动员定性指标(如竞争性、抗压力、意志力，勤奋程度等)的衡量，是少数结构化数据（如上垒率等）指标无法量化刻画的。

和《点球成金》观点针锋相对的是，Bill Shanks更认可球探的作用，他把球探的作用命名为“勇士”哲学。对于勇士来说，数据分析只是众多“刀枪棍棒”兵刃中的一种，无需奉之如圭臬，真正能“攻城略地”的还是需要勇士。比如说，运动家棒球队虽然在数据分析的指导下，获得了震惊业界的好成绩，然而他们并没有取得季后赛的胜利，也没有夺取世界冠军，这说明，数据分析虽重要，但人的作用更重要！

从第01故事的分析中，我们知道，大数据分析的第一层作用就是，面向过去，发现潜藏在数据表面之下的历史规律或模式，也就是说达到描述性分析。而为了让读者相信数据分析的能力，灌输一些“心灵鸡汤（或称洗脑）”，是少不了的，哪怕它是假的！

故事06：大数据都是骗人的啊——大数据预测得准吗？

从前，有一头不在风口长大的猪。自打出生以来，就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西，小猪觉得日子惬意极了！高兴任性时，可在猪圈泥堆里打滚耍泼。忧伤时，可趴在猪圈的护栏上，看夕阳西下，春去秋来，岁月不争。“猪”生如此，夫复何求？

根据过往数百天的大数据分析，小猪预测，未来的日子会一直这样“波澜不惊”地过下去，直到它从小猪长成肥猪……在春节前的一个下午，一次血腥的杀戮改变了猪的信念：尼玛大数据都是骗人的啊……惨叫嘎然而止。

图5 大数据预测：都是骗人的

这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的。池先生估计是想用这个搞笑的小寓言“黑”一把大数据。

我们知道，针对大数据分析，无非有两个方面的作用：（1）面向过去，发现潜藏在数据表面之下的历史规律或模式，称之为描述性分析（Deive Analysis）；（2）面向未来，对未来趋势进行预测，称之为预测性分析（Predictive Analysis）。把大数据分析的范围从“已知”拓展到了“未知”，从“过去” 走向 “将来”，这是大数据真正的生命力和“灵魂” 所在。

那头“悲催”的猪，之所以发出“大数据都是骗人的啊”呐喊，是因为它的得出了一个错误的“历史规律”：根据以往的数据预测未来，它每天都会过着“饭来张口”的猪一般的生活。但是没想到，会发生“黑天鹅事件”——春节的杀猪事件。

黑天鹅事件（Black Swan Event) 通常是指，难以预测的但影响甚大的事件，一旦发生，便会引起整个局面连锁负面反应甚至颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）所著的畅销书《黑天鹅》，来获得对“黑天鹅事件”更多的理解。

其实，我们不妨从另外一个角度来分析一下，这个搞笑的小寓言在“黑”大数据时，也有失败的地方。通过阅读知道，舍恩伯格教授在其著作《大数据时代》的第一个核心观点就是：大数据即全数据（即n=All，这里n为数据的大小），其旨在收集和分析与某事物相关的“全部”数据，而非仅分析“部分”数据。

那头小猪，仅仅着眼于分析它“从小到肥”成长数据——局部小数据，而忽略了“从肥到没”的历史数据。数据不全，结论自然会偏，预测就会不准。

要不怎么会有这样的规律总结呢：“人怕出名，猪怕壮”。猪肥了,很容易先被抓来杀掉。这样的“猪”血泪史，天天都上演的还少吗？上面的小寓言，其实是告诉我们：数据不全，不仅坑爹，还坑命啊！

那么，问题来了，大数据等于全数据（即n=All），能轻易做到吗？

故事07：啤酒和尿布：经典故事是伪造的，你知道吗？

这是一个关于零售帝国沃尔玛的故事。在一次例行的数据分析之后，研究人员突然发现：跟尿布一起搭配购买最多的商品，竟是啤酒！

尿布和啤酒，听起来风马牛不相及，但这是对历史数据进行挖掘的结果，反映的是数据层面的规律。这种关系令人费解，但经过跟踪调查，研究人员发现，一些年轻的爸爸常到超市去购买婴儿尿布，有30％~40％的新爸爸，会顺便买点啤酒犒劳自己。随后，沃尔玛对啤酒和尿布进行了捆绑销售，不出意料，销售量双双增加。

上面这个案例，出自于涂子沛先生的所著的大数据畅销书《数据之巅》，在这个案例中，要情节有情节，要数据，有数据，誓言旦旦，不容你置疑。但是，这个故事虽经典，但是让你意想不到的是：

案例是编造的

这个经典的“啤酒和尿布” (Beer and Diapers)的案例，不仅是《大数据》类图书的常客，事实上，它更是无数次流连于“数据挖掘”之类的书籍中，特别是用来解释“关联规则（Association Rule）”的概念，更是“居家旅行，必备之良药（周星驰语）”。当前，基本上所有讲大数据应用，都会捎带讲上这个经典案例，要求大家多研究“相关性”，少研究因果关系！但实在扫兴的是，这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽，但信不得！

实践是检验真理的唯一标准。如果这个故事是真的，按理说，应该给超级市场以无限启发才对，可实际上，不管是中国，还是在美国，在超市里面观察一下，就会发现，根本没有类似的物品摆放，相近的都很少。

故事性强，事出有因。据吴甘沙先生透露，它是Teradata公司一位经理编出来的“故事”，目的是让数据分析看起来更有力，更有趣，而在历史上从没有发生过，感兴趣的读者可以自己参阅文献。但公平地讲，这个故事对数据挖掘的普及意义重大，仅从教育意义上看，仍不失为一个好故事。

2.相关性并非什么大事

即便真的有这个案例，也不说明数据分析出来的“相关性”，有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是：趾高气扬的因果关系光芒不再，卑微的相关关系将被“翻身做主人”，知道“是什么”就够了，没必要知道“为什么”。但需要我们更为深入了解的事实是：“要相关，不要因果”，这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》（Wired）主编Chris Anderson ，2008年他在题为 “理论的终结：数据洪流让科学方法依然过时（End of Theory: the Data Deluge Makes the Scientific Method Obsolete）” 文章中，率先提出：在PB时代，我们可以说，有相关性足够了（Petabytes allow us to say: “Correlation is enough）”。

图6 连线杂志：理论的终结

“要相关，不要因果”的观点，并不受学术界待见。甚至，《大数据时代》的中文版翻译者周涛亦在序言里说，“放弃对因果关系的追求，是人类的堕落”。对于这个观点，李国杰院士认为：在大数据中，看起来毫不相关的两件事同时或相继出现的现象比比皆是，相关性本身并没有多大价值，关键是找对了“相关性”背后的理由，才是新知识或新发现。

大数据分析的第二个功能，或者说更为的核心功能在于，预测。预测主要用于对未来进行筹划，大到产业的布局，小到流感的预警，均可用预测。但是对未来的预测，能准吗？

故事08：谷歌流感预测：预测是如何失效的？

2009年2月，谷歌公司的工程师们在国际著名学术期刊《自然》上发表了一篇非常有意思的论文：《利用搜索引擎查询数据检测禽流感流行趋势》，并设计了大名鼎鼎的流感预测系统（Google Flu Trends，GFT，访问网址为：www.google.org/flutrends/）。

GFT预测H1N1流感的原理非常朴素：如果在某一个区域某一个时间段，有大量的有关流感的搜索指令，那么，就可能存在一种潜在的关联：在这个地区，就有很大可能性存在对应的流感人群，相关部门就值得发布流感预警信息。

GFT监测并预测流感趋势的过程仅需一天，有时甚至可缩短至数个小时。相比而言，美国疾病控制与预防中心（Center for Disease Control and Prevention，CDC）同样也能利用采集来的流感数据，发布预警信息。但CDC的流感预测结果，通常需要滞后两周左右才能得以发布。但对于一种飞速传播的疾病（如禽流感等），疫情预警滞后发布，后果可能是致命的。

GFT一度被认为是大数据预测未来的经典案例，给很多人打开了一扇未来的窗口。根据这个故事，大数据的布道者们给出了4个令自己满意的结论：

由于所有数据点都被捕捉到，故传统的抽样统计的方法完全可以被淘汰。换句话说，做到了“n=All”；

无需再寻找现象背后的原因，只需要知道某两者之间的统计相关性就够用了。针对这个案例，只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。

不再需要统计学模型，只要有大量的数据就能完成分析目的，印证了《连线》主编Chris Anderson 提出的“理论终结”的论调。

大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%。

但据英国《财经时报》（FT）援引剑桥大学教授David Spiegelhalter毫不客气的评价说 [3]，这四条 “完全是胡说八道（complete bollocks. Absolute nonsense）”。

针对前3条观点的不足之处，前文故事已经涉及到了，不再赘言。针对第4条，我们有必要再解析一下——GFT预测是如何失效的？

谷歌工程师们开发的GFT，可谓轰动一时，但好景不长，相关论文发表4年后，2013年2月13日，《自然》发文指出，在最近（2012年12月）的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重，然而疾控中心（CDC）在汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍，如图7所示。

图7 GFT流感预测失准

研究人员发现，问题的根源在于，谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联，也没有试图去搞清楚关联背后的原因，只是在数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见。为了提高GFT的预测准确性，谷歌工程师们不断地微调预测算法，但GFT每一次算法微调，都是为了修补之前的测不准，但每次修补又都造成了另外的误差。

谷歌疫情之所以会误报，还因为大数据分析中存在“预测即干涉”的问题。量子物理创始人之一维尔纳?海森堡（Werner Heisenberg），曾在1927年的一篇论文中指出，在量子世界中，测量粒子位置，必然会影响粒子的速度，即存在“测不准原理”。也就是说，在量子尺度的微距世界中，“测量即干涉”。如今，在媒体热炒的“大数据”世界中，类似于“测不准原理”，即存在“预测即干涉”悖论。

这个“预测即干涉”悖论和“菜农种菜”的现象有“曲艺同工”之处：当年的大白菜卖价不错（历史数据），预计明年的卖价也不错（预测），于是众多菜农在这个预测的指导下，第二年都去种大白菜（采取行动），结果是，菜多价贱伤农（预测失败）。

进一步分析就可发现，GFT预测失准在很大程度上是因为，一旦GFT提到了有疫情，立刻会有媒体报道，就会引发更多相关信息搜索，反过来强化了GFT对疫情的判定。这样下去，算法无论怎么修补，都无法改变其愈发不准确的命运。

对GFT预测更猛烈的攻击，来自著名期刊《科学》。2014年3月，该杂志发表由哈佛大学、美国东北大学的几位学者联合撰写的论文“谷歌流感的寓言：大数据分析中的陷阱（The parable of Google Flu: traps in big data analysis）”，他们对谷歌疫情预测不准的问题做了更为深入地调查，也讨论了大数据的“陷阱”本质。《科学》一文作者认为：大数据的分析是很复杂的，但由于大数据的收集过程,很难保证有像传统“小数据”那样缜密，难免会出现失准的情况，作者以谷歌流感趋势失准为例，指出“大数据傲慢(Big Data Hubris)”是问题的根源。

《科学》一文还认为，“大数据傲慢(Big Data Hubris)”还体现在，存在一种错误的思维方式，即误认为大数据模式分析出的“统计学相关性”，可以直接取代事物之间真实的因果和联系，从而过度应用这种技术。这就对那些过度推崇“要相关，不要因果”人群，提出了很及时的警告。毕竟，在某个时间很多人搜索“流感”，不一定代表流感真的暴发，完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。

果壳网有一篇对《科学》一文深度解读的文章：“数据并非越大越好：谷歌流感趋势错在哪儿了？”，感兴趣的读者可以前去围观。

苏萌、柏林森和周涛等人合著的《个性化：商业的未来》，他们强调，“个人化”服务是未来最有前途的商业模式。可这里有个问题，提供“个人化”服务，就需要了解顾客的“个性化信息”，如果顾客许可使用个人信息的，那么这种个性化服务是贴心的，如果没有许可呢？

下面这个故事就是一则有关商品个性化推荐的，但它体现出来的是数据分析的智慧，还是愚蠢呢？

故事09：Target超市预测女孩怀孕：“大数据”智慧，还是愚蠢？

2012年2月16日，《纽约时报》刊登了Charles Duhigg撰写的一篇题为《这些公司是如何知道您的秘密的》（How Companies Learn Your Secrets）的报道。文中介绍了这样一个故事：

一天，一位男性顾客怒气冲冲地来到一家折扣连锁店Target（中文常译作“塔吉特”，为仅次于沃尔玛的全美第二大零售商），向经理投诉，因为该店竟然给他还在读高中的的女儿，邮寄婴儿服装和孕妇服装的优惠券。

但随后，这位父亲与女儿进一步沟通发现，自己女儿真的已经怀孕了。于是致电Target道歉，说他误解商店了，女儿的预产期是8月份。

一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢？这里就需要用到“关联规则+预测推荐”技术。

事实上，每位顾客初次到Target刷卡消费时，都会自动获得一个唯一顾客识别编号（ID）。以后，顾客再次光临Target消费时，计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从其它管道取得的统计资料，Target便能形成一个庞大数据库，运用于分析顾客的喜好与需求。

有了数据，特别是有了“大”容量的数据，后面的问题就简单了。Target的数据分析师，开发了很多预测模型，其中怀孕预测模型（pregnancy-prediction model）就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品，就预测到了这为女顾客可能怀孕了，而怀孕了，未来就有可能需要购置婴儿服装和孕妇服装，多么贴心的商店啊。但是需要我们注意的是：

这是“大”数据的傲慢，而非聪慧。

由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿，因此，这个故事往往被用来作为“数据比人更了解人”的证明，并在当下，被用来论证大数据的功力。国内有的新闻媒体，对大数据的理解似是而非，针对这个案例的报道标题就是《大数据的功力：比父亲更了解女儿冲击大卖场》。大数据的无所不能的“傲慢”，跃然纸上。

或许“旁观者清”，信息领域外的上海金融与法律研究院研究员刘远举认为，这案例并不能说明，数据比人更“聪慧”，更了解人，恰好相反，这证明计算机是“愚蠢的”：还在读高中的女儿，显然想保护自己的隐私，并不想父亲知道，但“愚蠢的”计算机却自作主张，把孕妇优惠卷寄寄到了她家里，结果被爸爸逮个正着。

这正是（大）数据的另一种傲慢——好像有了（大）数据，就可以“君临天下”，对顾客的理解就可做到出神入化，对顾客的隐私就可以肆无忌惮。

2.这并非大数据的案例

进一步分析，我们可以发现，实际上这个例子并不属于大数据的案例，它不需要太强的计算能力，甚至用一台普通的电脑就能实施类似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲，其实是不恰当的。

大数据一般要具备典型的4个V特征，Target收集的消费数据属于典型的结构化数据，即使数量再大，也仅仅满足4V特征之一——Volume（体积大）。但是，“数据大”不等于“大数据”。如果光拼体积“大”，那么早在20年前，天文、物理和生物信息学的数据，也够得上是“大数据”了。《纽约时报》的原文，非常“厚道”，通篇没有提及“big data（大数据）” 字样。

3.更重要的是，这个神奇的数据预测故事被人为地灌入了很多“心灵鸡汤”。

数据挖掘界的数据分析师、咨询师们有时候同样也需要 “心灵鸡汤”，励志自己，忽悠客户。对此，美国纽约大学统计学教授Kaiser Fung认为[3]，很多人在看到这个故事时，都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人，都是孕妇。但这是不可能的！更为实际的情况是，孕妇之所以能收到这些购物券，是因为Target给非常多客户都邮寄了这种购物券。在众多客户中，碰巧有那么一位高中女生“不太可能但却又真地”怀孕了，碰巧那位父亲发现并投诉了，碰巧那位父亲发现自己错了并道歉了，这么多巧合，“无巧不成书”。因为极具有故事性，所以大家都爱听。

各位读者在相信Target这类读心术般的故事之前，首先应该先想想，这类商家的预测命中率到底有多高。这里并不说，数据分析一无是处，相反，数据分析极具商业价值，即使能够把“直邮（Direct Mail，DM）”的准确度提高一点点，哪怕是1%，对商家而言，都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。

商家能够提供个性化服务，确实很贴心，但倘若在利益的趋势下，商家对顾客的个性化信息运用不当或越界，就会给顾客带来不能承受的隐私之痛。下面我们聊聊有关大数据隐私的故事。

故事10：你的一夜情我知道——大数据的隐私之痛

Uber（优步，著名的打车软件服务公司，乘客可以通过发送短信或是使用移动应用程序来预约车辆，利用移动应用程序时还可以追踪车辆的位置）曾在官网上发布一篇题为“荣耀之旅（Rides of Glory，RoG）”的博客。文中写到，“我知道，我们不是你们生命中唯一的爱人，我们也知道，你们会在别的什么地方寻找爱情（we know we’re not the only ones in your life and we know that you sometimes look for love elsewhere）。” Uber称作的“荣耀之旅(RoG）”——实际上就是所谓的一夜情（one-night stand）代名词。

Uber利用数据分析技术，专门筛选出那些在晚上10点到凌晨4点之间的用车服务，并且这些客户会在四到六小时之后（这段时间足够完成一场快速的RoG），在距离上一次下车地点大约1/10英里（约160米）以内的地方再次叫车。

图9 美国大城市一夜情发生率的对比

根据对这些数据的分析，Uber推断出那些发生一夜情的时间和地点，并将这些地点在纽约（NYC）、旧金山（SF）、波士顿（Boston）以及其他美ㄈ国城市的地图上进行标注，得出一夜情频繁的高发区。数据分析发现，波士顿位于美国“一夜情”之首，而纽约人则显得比较保守，“一夜情”的比率仅仅为波士顿的1/5。在时间节点上，一夜情“发作”的高频发段是在周五和周六晚上，如果你的另一半在这个时间点上说自己工作忙要加班，你就要“悠着点”相信。

当然，Uber此处虽多为开玩笑之举，但也确实严重侵犯了用户的隐私，在遭到了很多用户及媒体的的抗议，例如，《纽约时报》发表题为《我们不能信任优步》（We Can’t Trust Uber）。

在遭到用户和媒体抗议以后，Uber迅速删除了这篇博客，但在这个数字时代，一旦上网，“侯门一入深似海”，踏雪无痕梦难成”。感兴趣的读者仍可访问互联网文档收录网站https://archive.org/，找到这篇文章。

不可否认的是，大数据时代的到来，为我们的学习、生活带来诸多便利。但是，收之桑榆，失之东隅。任何事情都有两面性。目前，人的行为（诸如购物、乘车、甚至游戏等）已经被数字化了，隐私已经无处可藏！不论是美国斯诺登“棱镜门”监听项目的曝光，还是层出不穷的诸如Uber等公司企业泄露客户资料事件，都向我们发出大数据时代下个人隐私保护的预警。

中国著名生命伦理学家

邱仁宗先生认为，大数据技术，与所有技术一样它本身无所谓“好”“坏”，故它本身在伦理学上是中性的。然而使用它的个人、公司、机构有价值取向的，大数据犹技术如一把双刃剑，它可以给我们的生活、科研带来便利，但也能带来诸如侵犯隐私的消极影响。

完善的立法，对保护用户隐私来说极其重要。例如，规定只有用户需要个性化服务定制的时候，提出需求，大数据公司才能调用该用户的信息，其他情况下的信息调用都采取匿名的方式，否则就视作侵犯隐私。

网上有个以“恐怖的大数据”为题的段子，用定披萨饼的流程，把用户的隐私披露地“一览无遗”，虽有夸张成分，但在大数据时代，隐私保护的必要性，已经不容置疑了。

小结

《旧约·箴言篇》18章17节里有句话：“先诉情由的，似乎有理。但邻舍来到，就察出实情”。

随着诸如舍恩伯格教授的《大数据时代》、涂子沛先生的《数据之巅》等大作的面世，对世人带来了“醍醐灌顶”式的教育洗礼，在教育民众和政府官员接纳大数据时代的普及意义上，这些著作，居功至伟。他们书中的很多思维，已被很多大数据的拥趸者奉为圭臬，但任何事情都有两面性，一味的热捧，就会带来认知的偏颇。

诸如《纽约时报》、《财经时报》、《自然》及《科学》等重量级的反思“邻舍”的到临，能让我们对“大数据”有更为客观的认知。从他们给出的一各个小故事（小案例或小段子）中，可以促使我们对大数据的热炒有所反思，从而告诫我们之间，一定保持清醒头脑，批判性地接受大数据布道者的思维，切不可将其当作放之四海而皆准的真理。对大数据的过分依赖，就有可能重蹈伊卡洛斯（Icarus）的覆辙。

图 10 伊卡洛斯之殇

在希腊神话中，伊卡洛斯是个自负的天神，他是代达罗斯的儿子，一天，在与父亲代达罗斯使用蜡和羽毛制造的羽翼逃离克里特岛时，由于他过分相信自己的飞行技，故而飞得太高，双翼上的蜡在太阳照射下融化，羽翼脱落，最终导致自己葬身大海。

大数据技术就犹如那 “蜡和羽毛”做的翅膀，它可以助我们飞得更高，但倘若过分依赖它，就有葬身大海的风险。我们要学会如何让大数据为我所用，而不是成为大数据的奴隶。

你可能感兴趣的:(文章)

扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【无标题】达瓦达瓦 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
上图为是否色发 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
143234234123432 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
道阻且长，行则将至 sweet橘子
本文参与书香澜梦主题征文“行”文章原创首发，文责自负。我们每一个人都应该有属于自己的愿望或者是理想，人一但有了理想也就算是有了方向，它就会像灯塔一样指引我们前进的方向，哪怕是再远大的理想，如果坚持，那么我相信它就一定有收获。屈原是我最喜欢的一个浪漫主义的诗人，他曾今说过：“路漫漫其修远兮，吾将上下而求索。”人生的道路很长，但是为了实现自己的理想抱负我愿意付出我毕生的精力，只专注这一件事，因为“道阻
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
一颗小桃树李蓉乐平市湾头中小学
当“凹”同“洼”的时侯，才读(wa，平声)，他不叫贾平洼(贾，原名贾平娃)，非要写作贾平凹。为了表示对他的尊重，对文学的尊重，对文化人的尊重。如果不是帮闺蜜的儿子修改作文，我也不会发现贾平凹叫贾平娃。以下是摘选他的文章《一棵小桃树》：可我的小桃树儿，一颗“仙桃”的种子，却开得太白了，太淡了，那瓣片儿单薄得似纸做的，没有肉的感觉，没有粉的感觉，像患了重病的少女，苍白白的脸，又偏苦涩涩地笑着。雨还在下
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它