TJUTCM-策士之九尾

【数据挖掘】数据挖掘、关联分析、分类预测、决策树、聚类、类神经网络与罗吉斯回归

一、简介
二、关于数据挖掘的经典故事和案例
- 2.1 正在影响中国管理的10大技术
- 2.2 从数字中能够得到什么？
- 2.3 一个网络流传的笑话(转述)
- 2.4 啤酒与尿布
- 2.5 网上书店关联销售的案例
- 2.6 数据挖掘在企业中的应用
- 2.7 交叉销售
三、数据挖掘入门
- 3.1 什么激发了数据挖掘，为什么它是重要的？
- 3.2 什么是数据挖掘?
- 3.3 对何种数据进行挖掘？
四、OLAP与数据挖掘
五、数据挖掘的功能
- 5.1 关联分析
- 5.2 分类和预测
- 5.3 聚类
- 5.4 异常值探测
- 5.5 序列模式挖掘
- 5.6 几种数据挖掘技术
- - 5.6.1 Decision Tree决策树
  - 5.6.2 聚类（Cluster）
  - - 5.6.2.1 Hierarchical Clustering层次聚类法
    - 5.6.2.2 K-Means Clustering K-均值聚类方法
    - 5.6.2.3 关联规则（Association）
    - 5.6.2.4 Neural Network
    - 5.6.2.5 Naïve Bayes 分类
    - 5.6.2.6 罗吉斯回归（Logistic Regression）
    - 5.6.2.7 文本挖掘
- 5.7 Top-10 Algorithm Finally Selected at ICDM’06
六、数据挖掘与统计学的关系
七、数据挖掘软件

一、简介

数据挖掘是20世纪末兴起的数据智能分析技术，由于有广阔的应用前景而备受重视
广大从事 数据库应用与决策支持，以及 数据分析 等学科的科研工作者和工程技术人员迫切需要了解和掌握。数据挖掘涉及的内容较为广泛，已成为信息社会中广泛应用的一门综合性学科。

二、关于数据挖掘的经典故事和案例

1、正在影响中国管理的10大技术
2、从数字中能够得到什么？
3、一个网络流传的笑话
4、啤酒与尿布
5、网上书店关联销售的案例
6、数据挖掘在企业中的应用

2.1 正在影响中国管理的10大技术

No.5 数据挖掘

2.2 从数字中能够得到什么？

2.3 一个网络流传的笑话(转述)

客服:“东东披萨店您好!请问有什么需要我为您服务？”
顾客:“你好，我想要……”
客服:“先生，请把您的AIC会员卡号码告我。”
顾客:“喔!请等等，12345678。”
客服: “陈先生您好，您是住在泉州街一号二楼,您家的电话是23939889，您的公司电话是23113731, 您的移动电话是939956956。请问您现在是用哪一个电话呢? ”

(1.客户数据库)
顾客: “我家，为什么你知道我所有的电话号码？”
客服: “陈先生，因为我们有连线“AIC CRM 系统”。”

顾客:“我想要一个海鲜披萨……”
客服:“陈先生, 海鲜披萨不适合您。”
顾客:“为什么?”
客服:“根据您的医疗纪录, 您有高血压和胆固醇偏高。”
(2.医疗数据库)

顾客:“那……你们有什么可以推荐的?”
客服:“您可以试试我们的低脂健康披萨。”
顾客:“你怎么知道我会喜欢吃这种的?”
客服:“喔! 您上星期一在中央图书馆借了一本《低脂健康食谱》。”
(3.图书借阅数据库）

顾客:“哎呀!好……,我要一个家庭号特大披萨,要多少钱?”
客服:“嗯，这个足够您一家十口吃，六百九十九元。”
顾客:“可以刷卡吗?”
客服:“陈先生，对不起，请您付现，因为您的信用卡已经刷爆了，
您现在还欠银行十万四千八百零七元，而且还不包括房贷利息。”
(4.金融数据库-信用卡)

顾客:“喔！那我先去附近的提款机领钱。”
客服:“陈先生,根据您的记录, 您已经超过今日提款机提款限额。”
(5.金融数据库-现金卡)

顾客:“算了！你们直接把披萨送来吧，我这里有现金。你们多久会送到?”
客服:“大约三十分钟, 如果您不想等,可以自己骑车来。”
顾客:“什么?!”
客服:“根据“AIC CRM系统”记录，您有一辆摩托车，车号是GY-7878。”
(1.客户数据库)

顾客:“#%@^@#&!(@&!!(!!!”
客服:“陈先生,请您说话小心一点。您在2000年四月一日用脏话侮辱警察,被判了十日拘役。”
顾客:“……”
(6.刑事刑案数据库)

客服:“请问还需要什么吗?”
顾客:“没有了，是不是有送三罐可乐?”
客服:“是的!不过根据“AIC CRM系统”您有糖尿病……”

CRM Road MAP

2.4 啤酒与尿布

在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。
但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。
原因何在？
原来，美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起购买的机会还是很多的。
是什么让沃尔玛发现了尿布和啤酒之间的关系呢？
正是商家通过对超市一年多原始交易数字进行详细的分析，通过数据挖掘中的 关联规则 发现了这样的组合。

2.5 网上书店关联销售的案例

现在网上书店为了能够吸引更多读者购买图书，常常会运用一种叫做 关联销售分析 的方法。
这种方法是给客户提供其他的相关书籍，也就是在客户购买了一种书籍之后，推荐给客户应该感兴趣的其他相关书籍。
例如：购买了《月光宝盒（2DVD）》的顾客，对什么样的DVD还比较感兴趣，购买的比较多呢？。
（网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长，各网上书店采取了各种方式，给客户提供更多更丰富的书籍，提供更优质服务等方式吸引更多的读者）
解决上述问题的步骤：
首先，确定数据源，也就是销售记录。
这里要用到两张表，一张表是该书店的会员，用会员ID号来代替；另一张表是会员买了什么书。然后，应用 Data Mining技术，建立数据挖掘模型。

对上述问题进行挖掘的结果：

结果：购买《月光宝盒（2DVD）》之后，又购买《大圣娶亲(2DVD)》的次数是1317。

2.6 数据挖掘在企业中的应用

数据挖掘所能解决的典型商业问题包括：
银行：反欺诈行为、关联销售、市场竞争分析。客户分类、客户价值分析与预测、客户偏好分析、客户信用分析以及欺诈检测 等。
电信：流失预警、客户分群、关联销售。
网上销售点：购物车交叉销售、网上商品布局。

DM在信用卡欺诈交易中的应用：
应用之一是通过评价交易数目、交易金额、账户信息如姓名变化和地址变迁、换卡申请等非金融信息的组合来实现。这些因素结合起来，描述出持卡人最近交易的大概轮廓，从而评估出是否与持卡人的交易习惯相符。一旦发现交易异常的明显痕迹，发卡行需要联系持卡人，以 确定其信用卡账户最近是否正常，是否被以任何方式遭受损害 。
例如，如果一个持卡人日常生活里，每月交易笔数在3~6笔，这就是其交易模式之一。如果有一天发现当日其信用卡账户有15笔交易，例外报告将要求发卡行联系持卡人进行确认。

DM在大型零售企业中的应用
英国safeway公司，研究发现某一种乳酪产品虽然销售额排名第209，可是消费额最高的客户中有25％都常常买这种乳酪，这些客户可是Safeway最不想得罪的客户。如果使用传统的分析方法的话，这种产品很快就会不卖了，可是事实上这种产品是相当重要的。
Safeway也发现在28种品牌的橘子汁中，有8中特别受到欢迎。因此，该公司重新安排货架的摆设，使橘子汁的销量能够增加到最大。

1、优化商品组合布局，正确安排商品进货与库存
从众多的商品中发现创造价值最大的商品。然后，据此调整商品的结构，安排商品的库存和定货。
商品布局管理即商品摆放位置对销售起着至关重要的作用。

考虑购买者在商店里所穿行的路线、购买时间和地点、货架的使用效率、畅销商品的类别、不同商品一起购买的概率，进行挖掘。

例如，一个超市营销的例子，经由记录客户的消费记录与采购路线，超级市场的厨房用品是按照女性的视线高度来摆放的。
根据研究得出：美国妇女的视线高度是150公分左右，男性是163公分左右，而最舒适的视线角度是视线高度以下15度左右，所以最好的货品陈列位置是在130-135公分之间。在商业上，有很多特征是很难理解的，但若了解到这些信息就会增加企业的竞争能力。

2、利用数据挖掘技术帮助企业准确制定营销策略，主要表现在：
（1）通过对市场同类产品和销售情况、顾客情况的资料收集和分类分析，明确细分市场，确定本企业差别化的产品和服务定位、目标顾客和市场营销策略。（业绩分析）
（2）正确安排商品进货与库存，降低库存成本。即对各个商品、各色货物进行增减，确保正确的库存；协助企业确定最佳经济批量、最佳定货时机，从而节约进货和库存管理费用。

以顾客为导向
（3）将顾客按照一定的标准进行分类，通过对企业销售数据的序列分析发现顾客基于时间的购买模式，预测顾客需求，及时调整产品的结构和内容，提高不同顾客群的满意度，最大限度的留住顾客。
（4）通过建立顾客会员制度，记录同一顾客在不同时期购买的商品序列，通过统计分析和序列模式挖掘顾客购买趋势或忠诚度的变化。

例如，Safeway在了解客户每次采购时会购买哪些产品以后，就可以利用数据挖掘中的监测功能，监测出长期的经常购买行为。再将这些资料与主数据库的人口统计资料结合在一起，Safeway的营销部门就可以根据每个家庭的特性，也就是哪些季节会购买哪些产品的趋势，发出邮件。

2.7 交叉销售

例如，拥有汽车的新婚夫妻很可能购买儿童专用汽车椅，这个现象很容易被理解，并不需要应用到数据挖掘中。
但如考虑到另一个问题，这些夫妻会购买何种颜色的儿童专用汽车椅？这时可以运用数据挖掘技术以便在新婚夫妻购买汽车的时候销售给他们合适的儿童专用汽车椅。

DM在房地产行业中的应用

关联规则A1：地理位置无关型客户＝≥ 重视物业管理
支持率=9.7%；可信度=30.3%；兴趣度=2.4；
关联规则B1：重视物业管理＝≥ 地理位置无关型客户
支持率=9.7%；可信度=76.9%；兴趣度=2.4；
对比发现：“重视物业管理的人不关心地理位置”的可能性（76.9%）高于“不关心地理位置的人重视物业管理”的可能性（30.3%）。说明关联规则B1是一条更有意义的关联规则。

DM在公司财务分析中的应用

用比率分析法消除规模影响：

首先，将企业按财务状况分成5类；其次，利用关联分析，找到影响企业财务状况的因素。对公司的财务状况有明显影响的因素有资产负债率、速动比率、总资产周转率、销售毛利率、净资产收益率等。

三、数据挖掘入门

什么激发了数据挖掘，为什么它是重要的？
什么是数据挖掘？
在何种数据上进行数据挖掘？
数据挖掘的功能
几种较为流行的数据挖掘技术

3.1 什么激发了数据挖掘，为什么它是重要的？

数据爆炸性的增长：从兆字节terabytes 到千兆字节petabytes。
多种海量数据源
商业: 网络, 电子商务, 交易, 股票, …
科学: 遥感数据, 生物信息学, 科学模拟, …
社会各个角落: 新闻, 数字影像, 视频，…
“我们被信息淹没却信息贫乏!”
“需要是发明之母”

根据文章中出现的词的相似性，可以把八篇文章分为两个自然簇。第一个簇由前四篇文章组成，对应于经济新闻，而第二个簇包含后四篇文章，对应于卫生保健新闻。

3.2 什么是数据挖掘?

数据挖掘从数据中发现知识。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

Data mining: 用词不当?
从数据中挖掘知识
相近的术语
数据库中知识发现(KDD-Knowledge Discovery in Databases)、知识提取、数据/模式识别、数据考古、数据捕捞、知识获取、商业智能等。

数据挖掘和商务智能
商务智能通常被理解为将企业中现有的数据转化为知识，帮助企业做出明智的业务经营决策的工具。
一般由 数据仓库、联机分析处理、数据挖掘、数据备份和恢复 等部分组成。

3.3 对何种数据进行挖掘？

关系数据库（Relational database）、数据仓库（data warehouse）、事务数据库（ transactional database）

关系数据库是表的集合，每个表都赋予一个唯一的名字。
事务数据库由一个文件组成，其中每个记录代表一个事务。
数据仓库是从多个数据源收集的信息存储，存放在一个一致的模式下，并通过数据清理、变换、集成等来构造。

高级数据库和面向特殊应用的数据库
数据流和遥感数据
时间序列数据、时间数据、序列数据（生物序列数据）
结构数据、图、网络和多维链数据
对象-关系数据库（Object-relational databases）
异种数据库和遗产数据库
空间数据和时空数据
多媒体数据库、文本数据、WWW

数据仓库
以面向主题的原则，以个人信用卡消费趋势为主题的星形模式数据仓库。

数据仓库是从多个数据源收集的信息存储，存放在一个一致的模式下，并通过数据清理、变换、集成等来构造。

四、OLAP与数据挖掘

联机分析处理OLAP(On-Line Analytical Processing)是使使用者从多种角度对从原始数据中转化出来的、易理解并真实反映企业特性的信息进行存取，以满足决策支持或多维环境特定的查询和报表需求的一种软件技术。
OLAP除了能够告诉你数据库中都有什么，还能够更进一步告诉你下一步会怎么样以及如果采取这样的措施又会怎么样。
其分析过程在本质上是一个基于用户建立的一系列假设驱动，通过OLAP来证实或者推翻这些假设的演绎推理过程。

实质上是 通过把一个实体的多项重要的属性定义为多个维(dimension)，使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。（旋转、切片（块）、钻取）

钻取：是改变维的层次，变换分析的粒度。它包括向下钻取（Drill-down）和向上钻取（Drill-up）/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；而Drill-down则相反，它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块：是在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个，则是切片；如果有三个或以上，则是切块。
旋转：是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。

比如：一个OLAP分析师可能认为，在某一区域开办信用卡的用户会更主动地进行消费。
对于这个假定，他可能去观察在那些富裕地区申办信用卡的用户的信用卡账户属性。如果结果还不够明显，他也许要将年龄因素考虑进去。一直这样下去，直到他认为他找到了能够决定是否主动进行信用卡消费的各种变量，然后再根据这些变量，策划他的银行产品的营销方式，最大程度上将营销资源放在最可能接受他们产品的客户对象上。

OLAP与数据挖掘的区别
比如，在银行间盛行的CRM的应用中，数据仓库以面向“客户”为主题进行数据筛选、存储；OLAP负责分析客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等，以动态分析报表、直方图、折线图、饼图等形式展现给管理者，让他们从多方面了解和掌握客户的动态，从而发现客户的交易习性、客户流失形式，更好地针对不同类型的客户，在不同时期进行适应性产品的营销活动。
数据挖掘则可以通过历史数据建立模型，在拟合历史的基础上，分析未来趋势，判断哪些因素的改变将很可能意味着客户的最终流失，进而避免其发生。

五、数据挖掘的功能

关联分析
分类和预测
聚类
异常值探测
序列模式挖掘

5.1 关联分析

关联分析是用于挖掘、发现大量数据中项集之间存在的、重要的、有趣的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。
在 不知道关联函数 或 关联函数不确定 的情况下，为了反映所发现规则的有用性和确定性，关联分析生成的规则都要满足最小支持度阀值和最小置信度阀值。

关联分析的应用：
比如人寿保险。保险公司在接受保险前，往往需要记录投保人详尽的信息，有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。
通过分析这些数据，可以得到类似以下这样的 关联规则：年龄在40岁以上，工作在A区的投保人当中，有45％的人曾经向保险公司索赔过。在这条规则中，“ 年龄在40岁以上”∩“ 工作在A区” →“向保险公司索赔过”
可以看出来，A 区可能污染比较严重，环境比较差，导致工作在该区的人健康状况不好，索赔率也相对比较高。

5.2 分类和预测

分类是对一个类别进行描述及概括相关特征，并提取出描述重要数据类的模型。
数据挖掘中的分类方法很多，主要有 决策树和决策规则、贝叶斯信念网络、 神经网络以及遗传算法 等。
预测是通过建立连续值函数模型达到预测未来的数据趋势。预测的方法主要有 回归分析、时间序列分析 等。各种分类模型也可以预测，但主要是预测分类标号。

5.3 聚类

聚类是在要划分的类未知的情况下，将数据库中的记录划分为多个类或簇，使得同类内的对象之间具有较高的相似度，不同类间的差异较大。它是 概念描述和偏差分析的先决条件。
数据挖掘中的聚类方法有 划分方法、层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法 等。

5.4 异常值探测

异常值 指的是数据库中不符合数据一般模型的数据对象。
从数据库中探测异常值很有意义，因为它们本身可能隐藏着重要的信息，比正常的数据更有用，忽略或删除它们都会导致信息的丢失。
例如，发现金融和保险领域的欺诈行为、税款的脱逃、通信费用的恶意欠费、网络中的黑客入侵、追寻极低或极高收入者的消费行为以及对多种治疗方式不寻常反映的发现等。

5.5 序列模式挖掘

序列模式挖掘是指 挖掘相对时间或其他序列出现频率高的规律或趋势，并建模。
这里的序列一般指 时间序列数据库和序列数据库（Web日志分析和DNA分析）。
在许多行业产生的数据库都是时间序列数据库，例如，商业交易、电信部门、天气数据等等，因此，序列模式的挖掘是非常有意义的。

序列分析和关联规则的相似之处在于，它们所用的样本数据中，每一个样本都包含了一个项集或状态集合。其不同之处在于 序列分析研究的是项集(或状态)间的转换，而关联规则模型研究的是项集之间的相关性。
在序列分析模型中，先购买计算机再购买音箱，和先购买音箱再购买计算机是两种不同的序列。而在关联规则中这两种行为都表达了一个同样的项集{计算机，音箱}。

5.6 几种数据挖掘技术

5.6.1 Decision Tree决策树

决策树是 用二叉树形图来表示处理逻辑的一种工具，是对数据进行分类的方法。决策树的目标是针对类别因变量加以预测或解释反应结果。
主要有两个步骤：首先，通过一批已知的样本数据建立一棵决策树；然后，利用建好的决策树，对数据进行预测。
决策树的建立过程可以看成是数据规则的生成过程，因此，决策树实现了数据规则的可视化，其输出结果也容易理解。

5.6.2 聚类（Cluster）

聚类目的在将相似的事物归类。
可以将变量分类，但更多的应用是透过顾客特性做分类，通过将顾客特性进一步分割成若干类别而达到市场区隔之目的。
可以帮助企业了解顾客的特征，将顾客分成新顾客、忠诚顾客、流失顾客、无规律购买顾客、新吸引的顾客等，便于企业针对不同群体的特征，设计出不同的营销策略，更大程度地满足消费者个性化需求。

5.6.2.1 Hierarchical Clustering层次聚类法

该方法是利用距离矩阵作为分类标准，将n个样品各作为一类；计算n个样品两两之间的距离，构成距离矩阵；合并距离最近的两类为一新类；计算新类与当前各类的距离；再合并、计算，直至只有一类为止。

5.6.2.2 K-Means Clustering K-均值聚类方法

5.6.2.3 关联规则（Association）

关联规则是 分析发现数据库中不同变量或个体(例如商品间的关系及年龄与购买行为……)之间的关系程度(概率大小)，并用这些规则找出顾客购买行为模式。
例如：购买了桌面计算机对购买其他计算机外设商品(打印机、喇叭、硬盘…)的相关影响。
发现这样的规则可以应用于商品货架摆设、库存安排以及根据购买行为模式对客户进行分类。

啤酒与尿布的关联分析

5.6.2.4 Neural Network

类神经网络，类似人类神经元结构。
神经元的主要功能是接受刺激和传递信息。神经元通过传入神经接受来自体内外环境变化的刺激信息，并对这些信息加以分析、综合和储存，再经过传出神经把指令传到所支配的器官和组织，产生调节和控制效应。

5.6.2.5 Naïve Bayes 分类

单纯贝叶斯分类主要是根据贝叶斯定理(Bayesian Theorem)，来预测分类的结果。
贝叶斯定理：P(X)、P(H)和P(X|H)可以由给定的数据计算，是先验概率。贝叶斯定理提供了一种由P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法。贝叶斯定理是：

判断：X=(女性，年龄介于31~45之间，不具学生身份，收入中等)会不会办理信用卡。

训练样本中对于(女性，年龄介于31~45之间，不具学生身份，收入中等)的个人，按照朴素贝叶斯分类会将其分到办信用卡一类中。
办卡的概率是(0.044)/(0.044+0)=1
(正规化分类的结果P(会)/(P(会)+P(不会))

5.6.2.6 罗吉斯回归（Logistic Regression）

假设有个科学家想要了解某种毒物对于老鼠死亡率的分析，他做了三次实验，分别使用不同的毒物用量，去计算每一百只老鼠的死亡概率，然后他得到以下的结果：
使用10毫克毒物，死亡率为15％
使用20毫克毒物，死亡率35％
使用30毫克毒物，死亡率55％
从这些数值看起来，毒物的用量与死亡率呈现显著的正比关系，而且我们可以计算出一条非常完美准确的回归线：Y=2X-5（Y为死亡率，X为毒物用量）。

但是，这个方程式包含有一个重大错误。假设我们使用100毫克毒物，根据方程式计算，这些老鼠的死亡率为195％，也就是说每一百只老鼠会死195只，而如果我们完全不放任何毒物时，死亡率为-5%，也就是每一百只老鼠会死负五只。
很显然，这个线性回归模型没有考虑到几个重要的限制，即 当我们使用毒物量降低时，死亡率应该是近于零（不会是负值），而当毒物量增加时，死亡率应该是接近于100％。
当需要把概率限制在0～1时，就可以考虑使用LOGISTIC回归。

Logistic回归模型的构造
现y为发病或未发病，生存与死亡等定性分类变量，不能直接用回归模型进行分析。
能否用发病的概率P来直接代替 y呢？即
不行。但可以
因此，定义logit§= ln[P/(1-P)]为Logistic变换，则Logistic回归模型为:

经数学变换可得:

Logistic回归模型是一种概率模型，它是 以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项, 多项分类的资料。

5.6.2.7 文本挖掘

网站文本分析
通过文本挖掘，能够让搜索引擎找到更符合查询者原意的内容；入口网站可以侦测网页文件的关键字，判断哪些网页内容属于限制级；搜索引擎也可以运用关键字将网页内容自动分类，或者是判断哪些电子邮件是垃圾邮件。

文章分群
在Vassar College的唐佛斯教授实验室中，这类利用文字挖掘技术相当成熟，能够从一堆文章中自动找出哪些是莎士比亚写的作品，同时该实验室也发现1823年发表的《圣诞老人》的作者并非是原先宣称的Clement Clark Moore，而是Henry Livingston。

5.7 Top-10 Algorithm Finally Selected at ICDM’06

#1: C4.5 (61 votes)
#2: K-Means (60 votes)
#3: SVM (58 votes)
#4: Apriori (52 votes)
#5: EM (48 votes) expectation maximum 最大期望
#6: PageRank (46 votes) 超链接分析算法
#7: AdaBoost (45 votes)
#7: kNN (45 votes)
#7: Naive Bayes (45 votes)
#10: CART (34 votes)

六、数据挖掘与统计学的关系

为什么数据挖掘不是传统的数据分析？
数据挖掘不是统计学的分支。
统计学是数据挖掘的核心。

为什么数据挖掘不是传统的数据分析?
1、海量数据——高维、高复杂度的数据
算法必须能够处理诸如千兆的海量数据。
2、统计学具有某种保守性，它倾向于尽量地避免出现特殊方法的运用，而偏好于数学上的严格性；数据挖掘分析问题喜欢“冒险”的态度。
3、在现代统计学中，模型是主要的，而对于模型的选择标准、如何计算等则都是次要的。但是 在数据挖掘中，算法也扮演着重要的角色。
4、统计学方法的前提是假设。而数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。
5、在统计理论方面：
统计推断的基础“总体”和“样本”的概念是否还继续适用？
面对如此大量的数据很难定义总体和样本；
大样本渐近性质是否满足？
由于数据量太大，传统的统计量无论真实情况如何都会变得“显著”；
统计假设检验使用的小概率原理是否还适用？
因为假定小概率事件在一次实验中不会发生是合理的，而数据量大到一定程度之后，小概率事件一定会发生。

数据挖掘不是统计学的分支。

统计学是数据挖掘的核心。
统计学和数据挖掘有着共同的目标。
统计学和数据挖掘有着共同的目标：发现数据中的结构或模式。
统计学在数据挖掘中起着重要的作用。
传统的统计学方法是数据挖掘的经典方法，统计学思想在整个数据挖掘过程都有重要的体现，担负着不可忽视的重任。
数据挖掘技术与统计学集成是必然趋势。

七、数据挖掘软件

SQL2005
Clementine
马克威分析系统
Statistica
SAS
SPSS Modeler

你可能感兴趣的:(数据科学,数据挖掘,人工智能,数据分析,机器学习,决策树,聚类,分类)

计算机视觉核心任务飞瀑 AI yolo
1.计算机视频重要分类计算机视觉的重要任务可以大致分为以下几类：1.图像分类（ImageClassification）识别图像属于哪个类别，例如猫、狗、汽车等。应用场景：物品识别、人脸识别、医疗影像分类。代表模型：ResNet、EfficientNet、ViT（VisionTransformer）。2.目标检测（ObjectDetection）识别图像中目标的位置（边界框）及类别。应用场景：自动驾
连锁收银系统的核心架构与技术选型连锁收银系统收银系统连锁收银系统架构连锁收银系统
在连锁门店的日常运营里，连锁收银系统扮演着极为重要的角色，它不仅承担着交易结算的基础任务，还关联着库存管理、会员服务、数据分析等多个关键环节。一套设计精良的核心架构与合理的技术选型，是保障收银系统高效、稳定运行的基础。一、核心架构分层架构设计：通常采用经典的三层架构，即表现层、业务逻辑层和数据访问层。表现层负责与用户交互，比如收银员操作界面、顾客支付界面等，需要设计得简洁直观，操作便捷，以提高收银
OpenAI 神话崩塌！DeepSeek-R1升至全球风格控制类第一，国内开源大模型集体给奥特曼上了一课！... LinkTime_Cloud
距离深度求索推理大模型DeepSeek-R1发布已经过去约一周时间。1月24日，在国外大模型排名Arena上，DeepSeek-R1基准测试已经升至全类别大模型第三，其中在风格控制类模型（StyleCtrl）分类中与OpenAIo1并列第一。而其竞技场得分达到1357分，略超OpenAIo1的1352分。这是继DeepSeek-V3在剔除OpenAIo1等闭源模型排名开源模型类第一后，DeepSe
机器学习·逻辑回归 AAA顶置摸鱼 python 深度学习机器学习逻辑回归人工智能
前言逻辑回归虽然名称中有“回归”，但实际上用于分类问题。基于线性回归的模型，通过使用逻辑函数（如Sigmoid函数）将线性组合的结果映射到0到1之间的概率值，用于表示属于某个类别的可能性。一、逻辑回归vs线性回归特性逻辑回归线性回归任务类型分类（二分类为主）回归（预测连续值）输出范围(0,1)（概率值）(-∞,+∞)核心函数Sigmoid函数线性函数损失函数对数损失函数（交叉熵）均方误差（MSE）
Meta AI 最近推出了一款全新的机器学习框架ParetoQ，专门用于大型语言模型的4-bit 以下量化新加坡内哥谈技术人工智能语言模型自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/MetaAI最近推出了一款全新的机器学习框架——ParetoQ，专门用于大型语言模型的4
速度超越DeepSeek！Le Chat 1100tok/s闪电回答，ChatGPT 4o和DeepSeek R1被秒杀？ LinkTime_Cloud chatgpt DeepSeek Le Chat
2023年，当全球科技界还在ChatGPT引发的AI狂潮中沉浮时，一场来自欧洲的"静默革命"正悄然改变游戏规则。法国人工智能公司MistralAI推出的聊天机器人LeChat以"比ChatGPT快10倍"的惊人宣言震动业界，其背后承载的不仅是技术突破，更折射出全球AI版图重构的深层暗涌。一、法兰西奇迹：Mistral的逆袭密码在巴黎第十区一栋不起眼的办公楼里，Mistral团队用9个月时间创造了令
Andrej Karpathy：计算范式的变革者 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《AndrejKarpathy：计算范式的变革者》概述本文旨在全面探讨AndrejKarpathy在计算范式变革中的角色和贡献。AndrejKarpathy是一位世界级的人工智能专家，程序员，软件架构师，CTO，同时也是计算机图灵奖获得者，计算机编程和人工智能领域大师。他以其深刻的技术见解，对深度学习和自然语言处理领域的贡献，以及对计算范式的革新性思考，成为了当今技术领域的引领者之一。本文分为六个
人工智能之自然语言处理技术演进香橙薄荷心 AI 人工智能自然语言处理
自然语言处理技术演进自然语言处理（NaturalLanguageProcessing，NLP）是人工智能的重要分支，旨在使计算机能够理解、生成和处理人类语言。近年来，NLP技术经历了从规则驱动到数据驱动的革命性演进，尤其是在深度学习和大规模预训练模型的推动下，取得了显著突破。本文将深入探讨NLP技术的演进历程、核心模型及其应用，并通过具体案例和代码示例帮助读者理解其实际应用。1.NLP技术演进历程
Aider: 人工智能辅助编程的革命性工具 2401_87189860 人工智能
Aider:人工智能辅助编程的革命性工具在当今快速发展的科技世界中,人工智能正在改变着我们工作和生活的方方面面。在软件开发领域,一款名为Aider的创新工具正在引领一场编程革命。Aider是一个强大的AI辅助编程工具,它能让开发者在终端中与大型语言模型(LLM)进行结对编程,极大地提升编码效率和质量。让我们深入了解这个令人兴奋的项目,看看它如何改变着软件开发的未来。Aider的核心功能Aider的
网络安全（黑客）——自学2025 网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
高效利用Python爬虫开发批量获取商品信息数据小小爬虫 python 爬虫开发语言
在当今电商行业竞争激烈的环境下，精准且高效地获取商品信息对于商家和数据分析师来说至关重要。无论是进行市场调研、优化商品布局，还是制定竞争策略，商品信息的全面掌握都是关键。Python爬虫技术以其强大的功能和灵活性，成为批量获取商品信息的理想选择。本文将详细介绍如何高效利用Python爬虫开发批量获取商品信息，助力电商从业者在市场中脱颖而出。一、Python爬虫技术的优势Python作为一种广泛使用
2019 - Web开发技术指南和趋势编程鸭互联网 JavaScript 编程语言前端前端 IT 编程程序员
这是一个2019年你成为前端，后端或全栈开发者的进阶指南:你不需要学习所有的技术成为一个web开发者这个指南只是通过简单分类列出了技术选项我将从我的经验和参考中给出建议首选我们会介绍通用的知识,最后介绍2019年的Web的一些趋势1.基础前端开发者1.1HTML&CSSHTML&CSS最基础的知识:语义化的HTML元素基础的CSS语法Flexbox&GridCSS变量浏览器开发者工具1.2响应式布
书籍-《机器学习数学基础》机器学习深度学习数学
书籍：MathematicsforMachineLearning作者：MarcPeterDeisenroth，A.AldoFaisal，ChengSoonOng出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习数学基础》01书籍介绍理解机器学习所需的基本数学工具包括线性代数、解析几何、矩阵分解、向量微积分、最优化、概率论和统计学。这
R 语言必备十大资源后端
引言R是进行统计计算和数据分析的热门编程语言之一，广泛应用于数据科学家、研究者和统计学家之间，用于处理大数据、执行复杂分析和结果可视化。如果你是R的新手或希望提升你的R技能，这里有一些核心资源可以助你一臂之力，无论是从基础学起还是提高现有水平，包括官方站点、知名学府和互动式学习平台。1.R项目官网(r-project.org)R项目的官方网站是开启R学习之旅的首选，它提供免费的R软件、文档、教程和
数据分析的 10 个最佳 Python 库程序员
引言Python因其简洁、灵活以及功能强大的库，在数据分析界备受青睐，这些库使得Python成为了处理数据、制作图表和进行复杂分析的利器。无论你是数据分析的新手，还是想要丰富你的技能库，掌握合适的Python库都能让你在使用Python时事半功倍。本文将介绍每位数据分析师都应掌握的10个Python库，并用简单的语言和实例说明如何利用它们来解决数据分析中的难题。1.Pandas—简化数据处理Pan
国内用户如何充值开通Claude Pro？详细指南附充值方法 claude
什么是Claude充值？Claude充值是指在Anthropic公司开发的人工智能聊天机器人——Claude中，付费获取更高级别服务的过程。与免费的Claude账号相比，ClaudePro账号每月需支付20美元或18英镑，用户可以获得更多的功能服务和更先进的聊天体验。区分Claude免费账号和付费账号的差异聊天体验：免费账号使用的是预先输入的信息模板，而Pro账号则拥有更智能、个性化的回复，相对于
零基础入门机器学习 -- 第三章第一个机器学习模型——线性回归山海青风 #机器学习人工智能机器学习回归线性回归 python
3.1线性回归的概念在现实生活中，许多事情都遵循某种线性关系，比如：房价vs面积：房子的面积越大，价格通常越高。工资vs工作经验：工作经验越多，薪资往往更高。汽车油耗vs车速：在一定范围内，车速越快，油耗可能越高。线性回归（LinearRegression）是机器学习中最基础的算法之一，它用于研究两个变量之间的线性关系，即一个变量（自变量）如何影响另一个变量（因变量）。3.2线性回归的数学直觉线性
零基础入门机器学习 -- 第二章机器学习的基本流程山海青风 #机器学习机器学习 python 人工智能
1.机器学习的五个基本步骤在机器学习项目中，我们通常遵循以下步骤：收集数据：获取数据集，例如从文件、数据库或在线资源。清洗和预处理数据：处理缺失值、去除异常数据、转换数据格式等。选择合适的模型：不同任务适合不同模型，如分类使用逻辑回归、决策树等。训练模型：让模型从数据中学习模式并调整参数。评估模型：检查模型的准确率，以判断效果是否良好。本章会通过电影评分预测的示例，帮助你快速体验从数据到模型的基本
数学到底在哪里支撑着编程数学
在编程的世界里，数学并非只是一个学科，它实际上是支撑整个编程基础的支柱之一。数学不仅为编程提供了理论框架，它的各种理论和方法被用来提升代码效率、优化算法、设计系统架构、分析数据、以及确保程序的正确性。编程中的很多技术，从数据结构的选择到算法的设计、从性能优化到人工智能的构建，都离不开数学的支撑。在这篇文章中，我们将从多个方面深入探讨数学如何在编程中发挥作用，包括算法设计、数据结构优化、机器学习、图
真正通俗易懂的Langchain入门学习（一） caridle 智能体 langchain 学习数据库
以下是针对初学者的LangChain基础学习提纲，从理论到实践逐步深入，帮助你系统掌握核心概念与应用：一、基础认知（1-2天）什么是LangChain？定义：基于语言模型（LLM）构建应用程序的框架。核心功能：连接LLM与外部数据/工具、管理对话流程、自动化复杂任务。典型应用场景：聊天机器人、文档问答、数据分析助手、自动化工作流。与普通LLM应用的区别：支持多步骤任务、记忆管理、外部工具集成。核心
AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战 AI知识分享官人工智能 langchain 算法数据挖掘计算机视觉机器学习产品经理
大模型微调实战：精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV视觉处理，机器学习，Pytorch深度学习，推荐系统，自动驾驶，训练私有大模型，LLM大语言模型，大模型多场景实战，Agent智能应用，AIGC实战落地，ChatGPT虚拟数字人，Djourney智
数智时代下，值得关注的大技术趋势人工智能爱好者人工智能大数据大数据技术趋势
(1)区块链将得到更广泛的应用。区块链是一种每一个人都能够分享和访问的电子分类账，交易的双方可通过区块链来跟踪交易记录。区块链这个词在整个2017年都备受大家关注，这是因为加密货币比特币采用了一个分散式区块链来跟踪它的所有交易记录，然而区块链技术的应用范围远不限于比特币，它还有更广泛的应用范围。有些人希望将区块链技术能够应用在病历记录上，病人的病史可通过不同的数据库和软件集中导入一个加密数据库。这
Github 2024-06-05 开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-06-05统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7JupyterNotebook项目2Rust项目1初学者的生成式人工智能（第2版）创建周期：259天开发语言：JupyterNotebook协议类型：MITLicenseStar数量：25764个Fork数量：16105次关注人数：
自然语言处理（NLP）入门：基础概念与应用场景 Ash Butterfield nlp 自然语言处理人工智能
什么是自然语言处理（NLP）？自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个重要分支，研究如何让计算机理解、生成、分析和与人类语言进行交互。换句话说，NLP是让机器像人一样“读、写、听、说”的技术，它结合了语言学、机器学习、计算机科学等多学科知识。NLP的核心目标是将非结构化的自然语言（如文本和语音）转化为结构化数据，使机器能够高效处理、分析和生
机器学习算法工程师笔试选择题（1） Ash Butterfield 机器学习算法人工智能
1.关于梯度下降的说法正确的是：A.梯度下降法可以确保找到全局最优解。B.随机梯度下降每次使用所有数据来更新参数。C.批量梯度下降（BatchGradientDescent）通常收敛更快。D.学习率过大会导致梯度下降过程震荡。答案：D（学习率过大会导致不稳定，可能震荡或无法收敛）2.在以下算法中，哪种算法属于无监督学习？A.逻辑回归B.K-近邻算法C.支持向量机D.K-均值聚类答案：D（K-均值聚
信息技术革新引领时代变革 JiYan_xiaohei 业界资讯
信息技术革新引领时代变革一、信息技术的飞速发展1．信息技术的概念及重要性信息技术，即信息的获取、传输、存储、处理和应用等技术的综合，已经成为现代社会不可或缺的基础设施。信息技术的飞速发展极大地改变了人们的生活方式和工作模式，推动了社会进步。2．信息技术的快速发展现状近年来，人工智能、大数据、云计算等前沿技术不断突破，展现出强大的潜力。这些新技术的出现不仅改变了数据处理和分析的方式，还催生了新的产业
信息技术革新引领社会变革 JiYan_yellow 业界资讯
信息技术革新引领社会变革一、信息技术推动数字化转型随着信息技术的迅猛发展，我们正处在一个数字化的时代。信息技术在推动产业数字化转型方面发挥着重要作用。云计算、大数据、人工智能等先进技术的应用，使得企业能够实现更高效的生产和运营。例如，在制造业领域，智能制造技术能够提高生产效率和质量，降低运营成本。此外，信息技术还在促进供应链管理、市场营销等环节的数字化转型，为企业提供更广阔的发展空间。信息技术还深
自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑岁月的眸人工智能
如果你的预算是3万元人民币，希望训练和微调7B参数规模的人工智能大模型（如LLaMA、Mistral等），你需要一台高性能的深度学习工作站。在这个预算范围内，以下是推荐的配置：1.关键硬件配置(1)GPU(显卡)推荐显卡：NVIDIARTX4090(24GBVRAM)或者RTX3090（24GBVRAM）理由：7B模型推理：24GB显存足够跑7B模型的推理，但全参数训练可能吃力，适合LoRA等微调
多模态大模型（LMMs）与大语言模型（LLMs）的比较大F的智能小课底层技术解析人工智能语言模型
前言现在的大模型分为两大类：大语言模型（LargeLanguageModels，简称LLMs）和多模态大模型（LargeMultimodalModels，简称LMMs）。本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。基础定义LLMs(LargeLanguageModels,大型语言模型)-深度学习的应用之一，是基于深度学习的大规模机器学习模型，通常由数十亿到数万亿个参数构
人工智能之推荐系统实战系列(协同过滤,矩阵分解,FM与DeepFM算法) weixin_58351028 人工智能深度学习神经网络算法机器学习
一.推荐系统介绍和应用(1)推荐系统通俗解读推荐系统就是来了就别想走了。例如在大数据时代中京东越买越想买，抖音越刷越是自己喜欢的东西，微博越刷越过瘾。(2).推荐系统发展简介1)推荐系统无处不在，它是根据用户的行为决定推荐的内容。用户每天在互联网中都会留下足迹，这样就会越来越多的用户画像。2)为什么要推荐系统卖的好的商品就那几种，其它就不管了吗？答案是否定的。80%的销售来自20%的热门商品，要想
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s