西湖太极熊

大数据分析方法论

大数据分析案列
2017年09月01日 20:04:08 480
1、体育赛事预测

世界杯期间，谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼，预测全程64场比赛，准确率为67%，进入淘汰赛后准确率为94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。

“在百度对世界杯的预测中，我们一共考虑了团队实力、主场优势、最近表现、世界杯整体表现和博彩公司的赔率等五个因素，这些数据的来源基本都是互联网，随后我们再利用一个由搜索专家设计的机器学习模型来对这些数据进行汇总和分析，进而做出预测结果。”—百度北京大数据实验室的负责人张桐

2、股票市场预测

去年英国华威商学院和美国波士顿大学物理系的研究发现，用户通过谷歌搜索的金融关键词或许可以金融市场的走向，相应的投资战略收益高达326%。此前则有专家尝试通过Twitter博文情绪来预测股市波动。

理论上来讲股市预测更加适合美国。中国股票市场无法做到双向盈利，只有股票涨才能盈利，这会吸引一些游资利用信息不对称等情况人为改变股票市场规律，因此中国股市没有相对稳定的规律则很难被预测，且一些对结果产生决定性影响的变量数据根本无法被监控。

目前，美国已经有许多对冲基金采用大数据技术进行投资，并且收获甚丰。中国的中证广发百度百发100指数基金（下称百发100），上线四个多月以来已上涨68%。

和传统量化投资类似，大数据投资也是依靠模型，但模型里的数据变量几何倍地增加了，在原有的金融结构化数据基础上，增加了社交言论、地理信息、卫星监测等非结构化数据，并且将这些非结构化数据进行量化，从而让模型可以吸收。

由于大数据模型对成本要求极高，业内人士认为，大数据将成为共享平台化的服务，数据和技术相当于食材和锅，基金经理和分析师可以通过平台制作自己的策略。

http://v.youku.com/v_show/id_XMzU0ODIxNjg0.html

3、市场物价预测

CPI表征已经发生的物价浮动情况，但统计局数据并不权威。但大数据则可能帮助人们了解未来物价走向，提前预知通货膨胀或经济危机。最典型的案例莫过于马云通过阿里B2B大数据提前知晓亚洲金融危机，当然这是阿里数据团队的功劳。

4、用户行为预测

基于用户搜索行为、浏览行为、评论历史和个人资料等数据，互联网业务可以洞察消费者的整体需求，进而进行针对性的产品生产、改进和营销。《纸牌屋》选择演员和剧情、百度基于用户喜好进行精准广告营销、阿里根据天猫用户特征包下生产线定制产品、亚马逊预测用户点击行为提前发货均是受益于互联网用户行为预测。

购买前的行为信息，可以深度地反映出潜在客户的购买心理和购买意向：例如，客户 A 连续浏览了 5 款电视机，其中 4 款来自国内品牌 S，1 款来自国外品牌 T；4 款为 LED 技术，1 款为 LCD 技术；5 款的价格分别为 4599 元、5199 元、5499 元、5999 元、7999 元；这些行为某种程度上反映了客户 A 对品牌认可度及倾向性，如偏向国产品牌、中等价位的 LED 电视。而客户 B 连续浏览了 6 款电视机，其中 2 款是国外品牌 T，2 款是另一国外品牌 V，2 款是国产品牌 S；4 款为 LED 技术，2 款为 LCD 技术；6 款的价格分别为 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元；类似地，这些行为某种程度上反映了客户 B 对品牌认可度及倾向性，如偏向进口品牌、高价位的 LED 电视等。

http://36kr.com/p/205901.html

5、人体健康预测

中医可以通过望闻问切手段发现一些人体内隐藏的慢性病，甚至看体质便可知晓一个人将来可能会出现什么症状。人体体征变化有一定规律，而慢性病发生前人体已经会有一些持续性异常。理论上来说，如果大数据掌握了这样的异常情况，便可以进行慢性病预测。

6、疾病疫情预测

基于人们的搜索情况、购物行为预测大面积疫情爆发的可能性，最经典的“流感预测”便属于此类。如果来自某个区域的“流感”、“板蓝根”搜索需求越来越多，自然可以推测该处有流感趋势。

Google成功预测冬季流感:
2009年，Google通过分析5000万条美国人最频繁检索的词汇，将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较，并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

7、灾害灾难预测

气象预测是最典型的灾难灾害预测。地震、洪涝、高温、暴雨这些自然灾害如果可以利用大数据能力进行更加提前的预测和告知便有助于减灾防灾救灾赈灾。与过往不同的是，过去的数据收集方式存在着死角、成本高等问题，物联网时代可以借助廉价的传感器摄像头和无线通信网络，进行实时的数据监控收集，再利用大数据预测分析，做到更精准的自然灾害预测。

8、环境变迁预测

除了进行短时间微观的天气、灾害预测之外，还可以进行更加长期和宏观的环境和生态变迁预测。森林和农田面积缩小、野生动物植物濒危、海岸线上升，温室效应这些问题是地球面临的“慢性问题“。如果人类知道越多地球生态系统以及天气形态变化数据，就越容易模型化未来环境的变迁，进而阻止不好的转变发生。而大数据帮助人类收集、储存和挖掘更多的地球数据，同时还提供了预测的工具。

9、交通行为预测

基于用户和车辆的LBS定位数据，分析人车出行的个体和群体特征，进行交通行为的预测。交通部门可预测不同时点不同道路的车流量进行智能的车辆调度，或应用潮汐车道；用户则可以根据预测结果选择拥堵几率更低的道路。

百度基于地图应用的LBS预测涵盖范围更广。春运期间预测人们的迁徙趋势指导火车线路和航线的设置，节假日预测景点的人流量指导人们的景区选择，平时还有百度热力图来告诉用户城市商圈、动物园等地点的人流情况，指导用户出行选择和商家的选点选址。

多尔戈夫的团队利用机器学习算法来创造路上行人的模型。无人驾驶汽车行驶的每一英里路程的情况都会被记录下来，汽车电脑就会保持这些数据，并分析各种不同的对象在不同的环境中如何表现。有些司机的行为可能会被设置为固定变量（如“绿灯亮，汽车行”），但是汽车电脑不会死搬硬套这种逻辑，而是从实际的司机行为中进行学习。

   这样一来，跟在一辆垃圾运输卡车后面行驶的汽车，如果卡车停止行进，那么汽车可能会选择变道绕过去，而不是也跟着停下来。谷歌已建立了70万英里的行驶数据，这有助于谷歌汽车根据自己的学习经验来调整自己的行为。

http://www.5lian.cn/html/2014/chelianwang_0522/42125_4.html

10、能源消耗预测

加州电网系统运营中心管理着加州超过80%的电网，向3500万用户每年输送2.89亿兆瓦电力，电力线长度超过25000英里。该中心采用了Space-Time Insight的软件进行智能管理，综合分析来自包括天气、传感器、计量设备等各种数据源的海量数据，预测各地的能源需求变化，进行智能电能调度，平衡全网的电力供应和需求，并对潜在危机做出快速响应。中国智能电网业已在尝试类似大数据预测应用。

二、大数据分析种类
按照数据分析的实时性，分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品，往往要求在数秒内返回上亿行数据的分析，从而达到不影响用户体验的目的。要满足这样的需求，可以采用精心设计的传统关系型数据库组成并行处理集群，或者采用一些内存计算平台，或者采用HDD的架构，这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。

对于大多数反馈时间要求不是那么严苛的应用，比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等，应采用离线分析的方式，通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据，传统的ETL工具往往彻底失效，主要原因是数据格式转换的开销太大，在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具，有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等，均可以满足每秒数百MB的日志数据采集和传输需求，并将这些数据上载到Hadoop中央系统上。

按照大数据的数据量，分为内存级别、BI级别、海量级别三种。
这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量，Facebook缓存在内存的Memcached中的数据高达320TB，而目前的PC服务器，内存也可以超过百GB。因此可以采用一些内存数据库，将热点数据常驻内存之中，从而取得非常快速的分析能力，非常适合实时分析业务。图1是一种实际可行的MongoDB分析架构。

图1 用于实时分析的MongoDB架构

MongoDB大集群目前存在一些稳定性问题，会发生周期性的写堵塞和主从同步失效，但仍不失为一种潜力十足的可以用于高速数据分析的NoSQL。

此外，目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案，利用内存+SSD，也可以轻易达到内存分析的性能。随着SSD的发展，内存数据分析必然能得到更加广泛的

应用。

BI级别指的是那些对于内存来说太大的数据量，但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多。

海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多，但基于软硬件的成本原因，目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据，并使用MapReduce进行分析。本文稍后将主要介绍Hadoop上基于MapReduce的一个多维数据分析平台。

三、大数据分析一般过程
3.1 采集
大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
3.2 导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。
3.3 统计/分析
统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于 MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。
3.4 挖掘
与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

四、大数据分析工具
4.1 Hadoop

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

4.2 HPCC

HPCC，High Performance Computing and Communications（高性能计算与通信）的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成：

1、高性能计算机系统（HPCS），内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等；

2、先进软件技术与算法（ASTA），内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等；

3、国家科研与教育网格（NREN），内容有中接站及10亿位级传输的研究与开发；

4、基本研究与人类资源（BRHR），内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动；

5、信息基础结构技术和应用（IITA ），目的在于保证美国在先进信息技术开发方面的领先地位。

4.3 Storm

Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC（远过程调用协议，一种通过网络从远程计算机程序上请求服务）、 ETL（Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载）等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。

4.4 Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌Dremel Hadoop工具（谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速）。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。

4.5 RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

功能和特点

免费提供数据挖掘技术和库
100%用Java代码（可运行在操作系统）
数据挖掘过程简单，强大和直观
内部XML保证了标准化的格式来表示交换数据挖掘过程
可以用简单脚本语言自动进行大规模进程
多层次的数据视图，确保有效和透明的数据
图形用户界面的互动原型
命令行（批处理模式）自动大规模应用
Java API（应用编程接口）
简单的插件和推广机制
强大的可视化引擎，许多尖端的高维数据的可视化建模
400多个数据挖掘运营商支持
耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。

4.6 Pentaho BI

Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案（Solution）的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行，主要以Pentaho SDK的形式进行。

Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体；Pentaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的；可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行；

Pentaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。

4.7 SAS Enterprise Miner

§ 支持整个数据挖掘过程的完备工具集
§ 易用的图形界面,适合不同类型的用户快速建模
§ 强大的模型管理和评估功能
§ 快速便捷的模型发布机制, 促进业务闭环形成

五、数据分析算法
大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等，而监督学习又包括分类学习、回归学习、排序学习、匹配学习等（见图1）。分类是最常见的机器学习应用问题，比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等，本质上都是分类问题。分类学习也是机器学习领域，研究最彻底、使用最广泛的一个分支。

最近、Fernández-Delgado等人在JMLR（Journal of Machine Learning Research，机器学习顶级期刊）杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法（分类学习算法）在UCI 121个数据集上进行了“大比武”（UCI是机器学习公用数据集，每个数据集的规模都不大）。结果发现Random Forest（随机森林）和SVM（支持向量机）名列第一、第二名，但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的方法。也就是说，在大多数情况下，只用Random Forest 或 SVM事情就搞定了。

https://github.com/linyiqun/DataMiningAlgorithm

KNN

K最近邻算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。详细介绍链接

Naive Bayes

朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

SVM

支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接

Apriori

Apriori算法是关联规则挖掘算法，通过连接和剪枝运算挖掘出频繁项集，然后根据频繁项集得到关联规则，关联规则的导出需要满足最小置信度的要求。详细介绍链接

PageRank

网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准，如果1个网页内部包含了多个指向外部的链接，则PR值将会被均分，PageRank算法也会遭到LinkSpan攻击。详细介绍链接

RandomForest

随机森林算法。算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接

Artificial Neural Network

“神经网络”这个词实际是来自于生物学，而我们所指的神经网络正确的名称应该是“人工神经网络（ANNs）”。
人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重值，以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统，可以发展知识，以致超过设计者原有的知识水平。通常，它的学习训练方式可分为两种，一种是有监督或称有导师的学习，这时利用给定的样本标准进行分类或模仿；另一种是无监督学习或称无为导师学习，这时，只规定学习方式或某些规则，则具体的学习内容随系统所处环境（即输入信号情况）而异，系统可以自动发现环境特征和规律性，具有更近似人脑的功能。

六、案例
6.1 啤酒与尿布

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布” 故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior算法引入到 POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。

6.2 数据分析帮助辛辛那提动物园提高客户满意度

辛辛那提动植物园成立于1873年，是世界上著名的动植物园之一，以其物种保护和保存以及高成活率繁殖饲养计划享有极高声誉。它占地面积71英亩，园内有500种动物和3000多种植物，是国内游客人数最多的动植物园之一，曾荣获Zagat十佳动物园，并被《父母》（Parent）杂志评为最受儿童喜欢的动物园，每年接待游客130多万人。

辛辛那提动植物园是一个非营利性组织，是俄亥州同时也是美国国内享受公共补贴最低的动植物园，除去政府补贴，2600万美元年度预算中，自筹资金部分达到三分之二以上。为此，需要不断地寻求增加收入。而要做到这一点，最好办法是为工作人员和游客提供更好的服务，提高游览率。从而实现动植物园与客户和纳税人的双赢。

借助于该方案强大的收集和处理能力、互联能力、分析能力以及随之带来的洞察力，在部署后，企业实现了以下各方面的受益：

帮助动植物园了解每个客户浏览、使用和消费模式，根据时间和地理分布情况采取相应的措施改善游客体验，同时实现营业收入最大化。
根据消费和游览行为对动植物园游客进行细分，针对每一类细分游客开展营销和促销活动，显著提高忠诚度和客户保有量。.
识别消费支出低的游客，针对他们发送具有战略性的直寄广告，同时通过具有创意性的营销和激励计划奖励忠诚客户。
360度全方位了解客户行为，优化营销决策，实施解决方案后头一年节省40,000多美元营销成本，同时强化了可测量的结果。
采用地理分析显示大量未实现预期结果的促销和折扣计划，重新部署资源支持产出率更高的业务活动，动植物园每年节省100,000多美元。
通过强化营销提高整体游览率，2011年至少新增50,000人次“游览”。
提供洞察结果强化运营管理。例如，即将关门前冰激淋销售出现高潮，动植物园决定延长冰激淋摊位营业时间，直到关门为止。这一措施夏季每天可增加2,000美元收入。
与上年相比，餐饮销售增加30.7%，零售销售增加5.9%。
动植物园高层管理团队可以制定更好的决策，不需要 IT 介入或提供支持。
将分析引入会议室，利用直观工具帮助业务人员掌握数据。

6.3 云南昭通警察打中学生事件舆情分析

起因：　　

5月20日，有网友在微博上爆料称：云南昭通鲁甸二中初二学生孔德政，对着3名到该校出警并准备上车返回的警察说了一句“打电话那个，下来”，车内的两名警员听到动静后下来，追到该学生后就是一顿拳打脚踢。

5月26日，昭通市鲁甸县公安局新闻办回应此事：鲁甸县公安局已对当事民警停止执行职务，对殴打学生的两名协警作出辞退处理，并将根据调查情况依法依规作进一步处理。同时，鲁甸县公安局将加大队伍教育管理力度，坚决防止此类事件的再次发生。

经过：

5月26日，事件的舆情热度急剧上升，媒体报道内容侧重于“班主任称此学生平时爱起哄学习成绩差”“被打学生的同学去派出所讨说法”“学校要求学生删除照片”等方面，而学校要求删除图片等行为的曝光让事件舆情有扩大化趋势。

5月26日晚间，新华网发布新闻《警方回应“云南一学生遭2名警察暴打”：民警停职协警辞退》，中央主流网络媒体公布官方处置结果，网易、新浪、腾讯等门户网站予以转发，从而让官方的处置得以较大范围传播。

昭通警察打中学生事件舆论关注度走势（抽样条数：290条）

总结：

“警察打学生，而且有图有真相，在事发5天后，昭通市鲁甸县警方最终还是站在了舆论的风口浪尖。事发后当地官方积极回应，并于5月26日将涉事人予以处理，果断的责任切割较为有效地抚平了舆论情绪，从而较好地化解了此次舆论危机。

　　从事件的传播来看，事发时间是5月20日，舆论热议则出现在25日，4天的平静期让鲁甸警方想当然地以为事件就此了结，或许当事人都已淡忘此事。如果不是云南当地活跃网友“直播云南”于5月25日发布关于此事的消息，并被当地传统媒体《生活新报》关注的话，事情或许真的就此结束，然而舆情发展不允许假设的存在。这一点，至少给我们以警示，对微博等自媒体平台上的负面信息要实时监测，对普通草根要监测，对本地实名认证的活跃网友更需监测。从某种角度看，本地实名认证的网友是更为强大的“舆论发动机”，负面消息一旦经他们发布或者转发，所带来的传播和形成的舆论压力更大。

　　在此事件中，校方也扮演着极为重要的角色。无论是被打学生的班主任，还是学校层面，面对此事件的回应都欠妥当。学校层面的“删除照片”等指示极易招致网友和学生的反感，在此反感情绪下，只会加剧学生传播事件的冲动。班主任口中该学生“学习不好、爱起哄”等负面印象被理解成“该学生活该被打”，在教师整体形象不佳的背景下，班主任的这些言论是责任感缺失的一种体现。校方和班主任的不恰当行为让事件处置难度和舆论引导难度明显增加，实在不该。“ — 人民网舆情监测室主任舆情分析师朱明刚

七、大数据云图展示

你可能感兴趣的:(数据分析方法论,大数据,分析)

补齐漏洞/补天漏洞挖掘-零开始攻防自学黑客小媚子漏洞情报补天
补齐漏洞/补天漏洞挖掘-零开始攻防自学不久前，补天漏洞响应平台宣布，推出了全新的补天漏洞情报服务，将发动补天平台已注册的36000多名白帽子提供漏洞信息，经过安全专家分析研判脱敏处理后，加工成漏洞情报推送给行业客户。补天掌门人白健在接受雷锋网在内的媒体采访时表示，除了BAT级的大厂有钱有人专门建立自己的SRC外，他认为，其他厂商不应该耗费大量财力和人力来构建专门的漏洞情报搜集和分析部门。为什么补天
Mysql学习笔记（一）：Mysql的架构荆州克莱面试题汇总与解析 spring cloud spring boot spring 技术 css3
一、mysql的组成部分下面是来自Mysql实战的图片，该图片很好的表示了mysql的组成mysql架构图我们主要是和server层打交道，该层由连接器，分析器，优化器执行器、（查询缓存）组成二、连接器的作用每个客户端的连接都会有一个线程（在mysql5.5之后,mysql支持线程池插件，使得少数线程可以服务大量的服务的连接）。首先，再进行三次握手之后，建立了网络连接，然校验用户名，原始主机信息和
QT入门第十三天 QSqlite3数据库操作【增删改查精髓】 m0_67391907 面试学习路线阿里巴巴数据库 qt sqlite flask python
QT入门第十三天QSqlite3数据库操作第一章QT中数据库有关的类和方法【1】数据库有关的类【2】思路和步骤(1)安装数据库的驱动(2)设置数据库文件的名字(3)打开数据库(4)操作数据库–》增删改查(5)关闭数据库【3】其它的接口函数介绍(1)分析函数调用失败的原因【4】如何获取查询结果(1)获取查询结果(2)QVariant万能的数据类型【5】QT程序操作多个数据库文件，操作多个表格第二章源
我们为什么要用大语言模型来迭代数据安全能力？大模型. 语言模型人工智能自然语言处理架构深度学习大数据大模型
在当今科技飞速发展的时代，大语言模型无疑是最炙手可热的话题之一。从OpenAI的GPT系列到谷歌的BERT，这些拥有海量参数的模型宛如智能巨人，正重塑着自然语言处理（NLP）的格局。你或许好奇，大语言模型究竟为何如此备受瞩目？这得从自然语言处理领域的核心任务——文本分类说起。文本分类，就像是给五花八门的文本信息贴上合适的“标签”，无论是判断一封邮件是正常邮件还是垃圾邮件，分析社交媒体上的评论是积极
AI大模型项目实战：智能校园的秘密——深度剖析AI数字校园架构与解决方案大模型. 人工智能架构开发语言深度学习机器学习产品经理
在这篇文章中，我们将详细解读一幅关于AI数字校园架构的图示，深入剖析其各个功能模块和层级的解决方案，探讨AI技术如何在校园环境中落地实施，以提升教育、管理和决策的智能化水平。文章将逐层分析从用户交互到技术基础设施的架构内容，并针对每个模块给出详细的解决方案，帮助理解该架构如何通过AI技术为师生及管理者提供智能化的服务。一、用户层：多角色智能化交互用户层是AI数字校园的表层，它将直接服务于三类核心用
安卓（Android）平台上的MVVM架构：关键知识点、优劣分析及实践示例洪信智能安卓开发 android 架构
摘要本文旨在探讨安卓平台上广泛应用的Model-View-ViewModel（MVVM）架构模式的核心概念、主要优点与潜在不足，并通过实际示例代码阐明其在实际项目中的应用方式。MVVM作为一款推动关注点分离和提高软件质量的架构方案，在安卓应用开发中起着至关重要的作用。一、安卓MVVM架构核心知识点1.1、架构组成1.1.1、Model层承载业务逻辑与数据实体，独立于UI并与ViewModel进行交
5_建立可比字典对象【“依存句法”之“MD&A分析”】 Zephrus·Coder python
importpandasaspdimportosimportopenpyxlimportre###建立各类型词库#建立“宏观”词库Mac=[]Mac_path="D:/【Pycharm阶段性学习文件】/依存句法/txt_宏观词典.txt"withopen(Mac_path,'r',encoding='utf-8')asMac_file:forlineinMac_file:#去除行尾的换行符或者制表
【上市公司文本分析】Python正则表达式从非结构化文本数据中提取结构化信息——以从上市公司高管简历中提取毕业院校信息为例 Ryo_Yuki #上市公司文本分析 Python python 正则表达式
从CSMAR中可以获取上市公司高管的简历文本信息，虽然是非结构化的，但是隐约可以从中发现一些规律，例如毕业院校很多出现在毕业于、就读于等词语之后，专业很多出现在大学名之后，但这些又不是绝对的，也会有其他一些规则。下方代码是我基于我的300多条示例数据（如果需要练习，可以评论邮箱），经过反复修改正则表达式规则去编制的，能够做到节约85%左右的人工工作量，但无法保证绝对精确。对于其他非结构化但又有规律
A7. Jenkins Pipeline自动化构建过程，可灵活配置多项目、多模块服务实战 smart_ljh AI大模型应用与实战 spring boot 自动化后端自动化构建服务构建 build
服务容器化构建的环境配置构建前需要解决什么下面我们带着问题分析构建的过程：1.如何解决jenkins执行环境与shell脚本执行环境不一致问题？2.构建之前动态修改项目的环境变量3.在通过容器打包时避免不了会产生比较多的不可用的镜像资源，这些资源要是不及时删除掉时会导致服务器磁盘暴满，导致资源浪费。此时我们在构建之前也要执行不可用的镜像清除操作；4.本地LLama大模型服务地址，如何以容器部署时作
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计） m0_71334485 数据 #上市公司上市公司数字化转型数字化转型上市公司
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计）1、时间：2000-2021年2、来源：上市公司NB3、范围：上市公司4、指标：包括人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用和数字技术应用、互联网商业模式、智能制造、现代信息系统等9个维度175个词频类别、股票代码、股票简称、年报标题、年份、MD&A文本-文本总长度、MD&A文本仅中英文-文本总长度、人工
度量年报中MD&A部分的信息含量的Python代码 Xiaorui~ 文本分析会计学 python pandas 开发语言
研究需求：度量年报中管理层讨论与分析部分的信息含量的代码，环境为python3，可更改年报的选取时间。代码实现：首先，需要安装tika和pandas库，tika用于解析PDF文件，pandas用于数据处理。可以使用以下命令进行安装：!pipinstalltika!pipinstallpandas然后，需要下载年报的PDF文件，并将其放置在指定路径下。接下来，可以使用以下代码对管理层讨论与分析部分进
linux监听tcp端口数据包,linux tcpdump抓包 weixin_39615741 linux监听tcp端口数据包
8种机械键盘轴体对比本人程序员，要买一个写代码的键盘，请问红轴和茶轴怎么选？tcpdump是在命令行下运行的常用数据包分析器。它允许用户显示通过计算机所连接的网络传输或接收的TCP/IP和其他数据包。根据BSD许可分发,tcpdump是免费软件。tcpdump适用于大多数类Unix操作系统：Linux，Solaris，BSD，macOS，HP-UX，Android和AIX等。在这些系统中,tcpd
A6.Springboot-LLama3.2服务自动化构建（三）——编写Pipeline构建仓库初始化脚本 smart_ljh AI大模型应用与实战 spring boot 自动化 servlet jenkins 构建
下面我们接着上一篇文章《A5.Springboot-LLama3.2服务自动化构建（二）——Jenkins流水线构建配置初始化设置》继续往下分析，编写Pipeline构建脚本。一、统一Shell执行环境Jenkins执行Shell脚本时，会在Jenkins节点上创建一个临时的环境来执行该脚本。这个环境包含了Jenkins运行时需要的所有依赖和资源，以及用户在Jenkins配置中指定的环境变量。当用
innodb内部结构分析 oceanwavewyt 算法 transactions structure oracle 存储 insert build
BecauseInnoDBisamulti-versionedstorageengine,itmustkeepinformationaboutoldversionsofrowsinthetablespace.Thisinformationisstoredinadatastructurecalledarollbacksegment(afterananalogousdatastructureinOra
【高级篇】第7章 Elasticsearch 索引生命周期管理(ILM) JAVA和人工智能 elasticsearch 大数据搜索引擎
引言在大数据时代，有效地管理数据的生命周期是确保系统性能、成本控制和合规性的关键。Elasticsearch的索引生命周期管理（ILM）为此提供了强大的解决方案。本章将深入探讨ILM的概念、策略设计与实施、以及监控与维护的实践，帮助读者掌握这一重要领域的精髓。7.1ILM概念：数据管理的智慧策略索引生命周期管理（ILM）是Elasticsearch中的一项高级功能，它代表了一种前瞻性的数据管理哲学
Linux网络抓包分析工具tcpdump AKA|布鲁克林欧神仙运维网络 linux 网络服务器
Linux中的网络抓包分析工具一，TcpdumpLinuxtcpdump命令用于倾倒网络传输数据。执行tcpdump指令可列出经过指定网络界面的数据包文件头，可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你摘取有用信息。由于它需要将网络接口设置为混杂模式，普通用户不能正常执行，但具备root权限的用户
python、JAVA等多种语言演示免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档说明 Eumenides_max python java 数据库股票API接口股票数据接口
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
电磁仿真--CST的时域求解器和频域求解器 hi94 电磁场学习笔记电磁学仿真 CST
目录1.简介2.综合概述2.1时域求解器2.2频域求解器3.优劣势对比3.1时域求解器（T、TLM）3.2频域求解器（F）3.3优势与劣势对比4.总结1.简介CSTStudioSuite提供多种类型的高频求解器模块，本文分析常用两种T/TLM和F。2.综合概述2.1时域求解器时域求解器有两种，T和TLM可供选择，都基于六面体网格。他们在大多数高频应用中非常高效，例如连接器、传输线、滤波器、天线等，
API接口助力独立站实现物流追踪自动化 FBAPI3713612741 人工智能 python 爬虫 oneapi
随着信息技术的飞速发展和电子商务的蓬勃兴起，物流追踪已成为电商平台和独立站运营中不可或缺的一环。API（应用程序编程接口）接口作为连接不同软件系统的桥梁，其在物流追踪自动化方面发挥着至关重要的作用。本文将深入探讨API接口如何助力独立站实现物流追踪自动化，并分析其带来的诸多优势。一、API接口的基本概念与功能API接口是一组预定义的函数或协议，允许不同的软件系统之间进行有效的通信和数据交换。这些接
从数据到决策：API接口助力电商独立站精准营销 FBAPI3713612741 python 爬虫
在数字化时代，电商行业正以前所未有的速度发展，而独立站作为电商领域的重要一环，面临着日益激烈的竞争环境。为了在市场中脱颖而出，独立站需要依靠精准营销来提升用户体验、增加用户黏性，并最终实现销售增长。在这个过程中，数据的作用不可忽视，而API接口则成为连接数据与决策的重要桥梁。本文将深入探讨如何从数据收集、处理、分析到最终决策，利用API接口助力电商独立站实现精准营销。一、数据收集：API接口打通信
电商数据高效处理，离不开API接口技术的支持 FBAPI3713612741 大数据 python 爬虫 oneapi 人工智能
在当今数字化、信息化高速发展的时代，电子商务（电商）行业以其便捷性、高效性和全球化特点，成为了推动经济发展的重要力量。电商平台的成功运作，离不开大量数据的处理与分析，而高效的数据处理则是电商平台得以持续优化用户体验、提升运营效率、实现精准营销的关键。在这一过程中，API（ApplicationProgrammingInterface，应用程序编程接口）接口技术发挥了至关重要的作用。本文将从API接
Elasticsearch 索引生命周期管理：优化大数据存储静谧星光c 大数据 elasticsearch jenkins
Elasticsearch索引生命周期管理：优化大数据存储在处理大规模数据时，存储和检索效率是至关重要的。Elasticsearch是一款功能强大的搜索和分析引擎，它的索引生命周期管理功能可以帮助我们优化大数据的存储和查询性能。本文将介绍Elasticsearch索引生命周期管理的概念，并提供相应的源代码示例。索引生命周期管理（IndexLifecycleManagement，简称ILM）是Ela
领域模型、MDD\DDD\TDD概念 lemon_lmlmlmlm java
此篇是个人笔记整理，知识来源：领域模型-CSDN博客、什么是MDD，DDD，TDD?-CSDN博客一、领域模型定义：领域模型是对领域内的概念类或现实世界中对象的可视化表示。又称概念模型、领域对象模型、分析对象模型。它专注于分析问题领域本身，发掘重要的业务领域概念，并建立业务领域概念之间的关系。领域模型（DomainModel），是完成从需求分析到面向对象设计的一座桥梁，领域模型是指对需求所涉及的领
R 调用 python weixin_33971205 python json java
上一篇说了python使用rpy2调用R，这里介绍R如何调用python。R的强项在于统计方面，尤其是专业的统计分析，统计检验以及作图功能十分强大，但是在通用性方面，就远不如Python了，比如python可以做web，可以开发GUI，可以爬虫，甚至可以开发游戏，这些R其实也不是完全不行，但是在易用性方面实在是难以与Python相匹敌。所以如果要是能将R与Python相结合，充分发挥二者的优势，那
chatgpt赋能python：U盘安装Python——一种简单高效的Python学习方式 findyi123 ChatGpt chatgpt python 学习计算机
U盘安装Python——一种简单高效的Python学习方式介绍Python作为一门实用性和易学性极高的脚本语言，在软件开发、数据分析等领域有着广泛的应用。很多初学者会选择安装Python解释器和相关IDE工具进行学习和实践。然而，如果你只是想快乐地学习Python，并且不想折腾复杂的环境配置和软件安装，那么可以考虑使用U盘安装Python，一种简单高效、随时随地可以学习Python的方式。步骤下载
【系统架构设计师】论文：论微服务架构及其应用（高分论文3篇）数据知道系统架构设计师(软考高级)架构系统架构微服务软考高级系统架构设计师论文
更多内容请见：备考系统架构设计师-专栏介绍和目录文章目录论文一摘要正文论文二摘要正文论文三摘要正文论文一摘要我作为系统分析师兼任系统架构师参与了××航空公司物流综合平台4.0的建设工作。该物流平台旨在整合该公司航空物流、仓储、冷链运输、快递、支付、信用等多个相关业务，提供统一的点到点的综合物流配送服务。该综合平台采用了微服务的系统架构进行开发。平台最终在2021年6月初步上线运行，后又陆续进行了4
RAG技术架构深度解析（非常详细）零基础入门到精通，收藏这一篇就够了 Python_chichi 程序员互联网大模型架构人工智能机器学习语音识别
本文主要介绍了RAG技术架构在AI编程中的创新应用及其面临的挑战。文章深入分析了RAG技术架构的兼容性、实时性和智能化水平等方面的问题，并提出了相应的改进措施，如加强标准化建设、引入实时数据处理技术和先进算法模型。同时，文章预测了RAG技术架构在智能化水平持续提升、跨领域融合加速以及数据隐私与安全保障方面的未来发展趋势。最后，文章回顾了RAG技术在AI编程领域的应用成果，并展望了其广阔的应用前景，
[TriCore][官方例程][TC397以太网例程详解] - 5.IP 地址声明 MaoXian_n TriCore官方例程 tcp/ip 网络协议网络嵌入式硬件驱动开发
关键词TC397官方例程；TC397以太网例程；TC397GETH；简介本篇为AurixTriCoreTC397以太网官方例程分析，重点关注其硬件行为调试所用的开发板型号：KIT-A2G-TC397-5V-TFT所使用的例程：Ethernet_1_KIT_TC397_TFT英飞凌TriCore官方例程下载地址：GitHub-Infineon/AURIX_code_examples:Thisrepo
Oracle小型机死机,十三起惨痛宕机案例陈璃璃 Oracle小型机死机
原标题：十三起惨痛宕机案例社区有很多兄弟分享惨痛宕机案例，提醒大家需警惕，以下介绍几起。(以下案例来自社区会员分享，由社区专家孙伟光编辑整理)01Oracle系统参数过小导致数据库宕机数据库双机安装完成后，数据库实例能够正常启动，但当启动全部应用软件后约10分钟，主机数据库出现自动切换至备机，再运行约10分钟备机数据库自动宕机。原因分析：启动应用软件前，数据库双机运行正常且能正常切换。当启动全部应
算法设计与分析-----贪心法拾亿-唯一算法算法贪心算法 c语言
算法设计与分析-----贪心法(c语言）一、贪心法1、定义2、贪心法具有的性质1、贪心选择性质2、最优子结构性质3、贪心法的算法框架5、求解活动安排问题6、求解最优装载问题二、贪心法实验1、实验一求解田忌赛马问题2、实验二求解多机调度问题3、实验三哈夫曼编码一、贪心法1、定义贪心法的基本思路是在对问题求解时总是做出在当前看来是最好的选择，也就是说贪心法不从整体最优上加以考虑，所做出的仅是在某种意义
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。