Asher117

【数据分析与挖掘实战】数据预处理篇

数据预处理

1.数据清洗

1.1缺失值处理
1.2异常值处理

2.数据集成

2.1实体识别
2.2冗余属性识别

3.数据变换

3.1简单函数变换
3.2规范化
3.3连续属性离散化
3.4属性构造
3.5小波变换

4.数据规约

4.1属性规约
4.2数值规约

1.数据清洗

数据预处理一方面是要提高数据质量，另一方面可以让数据更好的适应特定的挖掘技术。统计发现，数据建模过程中，数据预处理工作占了整个工作的60%。数据预处理的过程包括数据清洗，数据集成，数据变换和数据规约。码字不易，喜欢请点赞！！！

数据清洗的过程主要包括缺失值处理和异常值处理。

1.1缺失值处理

前面【数据探索篇】说过缺失值处理主要包括的方法有三种：删除记录、数据插补、不处理。这里主要分享常见的数据插补方法：

均值/中位数/众数插补
固定值插补
最近临插补：在记录中找到与缺失样本最接近的样本的属性值填补
回归方法：通过回归方程插补
插值法：拉格朗日插值法、牛顿插值法、分段插值法等

拉格朗日插值法
通过构造拉格朗日多项日，进行插值填补。如下代码展示了如何使用拉格朗日插值法对缺失值进行填补：

import pandas as pd
from scipy.interpolate import lagrange #拉格朗日插值函数
catering_sale = r"...\data\catering_sale.xls"
data = pd.read_excel(catering_sale)

#首先将异常值设置为空
#销量需要放在前面,否则值未更新
data['销量'][(data['销量']<400) | (data['销量']>5000)]=None

#s为列向量，n为插值位置，k为取前后数据个数，默认为5
#lagrange函数使用：f = lagrange(list_x,list_y),进行插值操作：a = f(i)
def ployinterp_columns(s,n,k=5):
    y = s[list(range(n-k,n)) + list(range(n+1,n+1+k))]
    y = y[y.notnull()]
    return lagrange(y.index,list(y))(n)

for i in data.columns:
    for j in range(len(data)):
        if(data[i].isnull())[j]:
            data[i][j] = ployinterp_columns(data[i],j)

使用拉格朗日插值法时，当插值节点增减时，插值多项式会变化。而牛顿插值法则不会有这个问题。

牛顿插值法
牛顿插值法通过构造牛顿插值逼近函数 $P (x)$ 和误差函数 $R (x)$ 来进行插值填补，目前Python中没有写好的函数，需要自己编写。不过牛顿插值法和拉格朗日插值法本质上是一样的，都是相同的次数，相同的系数多项式，只是表现形式不一样。

1.2异常值处理

删除异常值记录
视为缺失值
平均值修正
不处理

2.数据集成

数据挖掘过程中，通常数据来自于多个不同的数据源，因此需要对多个数据源数据进行数据集成，最后放到同一个数据库中。

2.1实体识别

同名异义：数据源A中的ID和数据源B中的ID，可能表示的不是同一个实体。
异名同义：数据源A中的sales_dt和数据源B中的sales_date可能表示的都是销售日期，即A.sales_dt=B.sales_date。
单位不统一

2.2冗余属性识别

同一属性出现多次
同一属性命名不一致导致重复

3.数据变换

数据变换在数据建模过程中十分重要，将数据转换成适当的形式，可以让数据挖掘过程更美好。

3.1简单函数变换

简单的函数变换，可以是数据具有更好的特性。常见的函数变换有平方、开方、对数、差分等。函数变换常用来将不具有正态分布的数据变换成具有正太分布的数据；并且有时对数变换或者差分运算可以将非平稳时间序列转换成平稳时间序列。

3.2规范化

数据规范化又称为数据归一化，常见的数据规范化，包括：

最小-最大规范化：亦称为离差标准化，将数据变换到区间[0，1]内。
零-均值规范化：亦称为标准差标准化，变换后的数据均值为0，方差为1.
小数定标规范化：将数据除以10的n次幂，使得数据都在区间[-1，1]内。

3.3连续属性离散化

在一些算法中，数据需要离散化处理，比如说CART、Apriori算法等，这种情况下，通常需要将连续属性离散化。常见的离散方法包括：

等宽法
等频法
基于聚类分析的方法

3.4属性构造

在数据挖掘过程中，有时候需要结合业务情况，来构造一些属性，从而提高数据建模的准确性。比如说，进行防窃漏电诊断时，我们有供入电量和供出电量，可以构造属性 $线损率=\frac{供入电量-供出电量}{供入电量}$ 来进行窃漏电诊断。

3.5小波变换

小波变换是比较新的数据分析工具，近年来兴起的信号分析手段。小波变换主要包括以下几种：

基于小波变换的特征提取方法
小波基函数
小波变换
基于小波变换的多尺度空间能量分布特征提取方法

4.数据规约

在大数据上进行数据建模需要耗费比较大的资源，因此通过数据规约方法，可以降低数据存储空间，同时可以提高数据建模效率。

4.1属性规约

数据规约包括合并属性从而构造新的属性，以及删除不相关的属性。这里展示使用主成分分析(PCA)方法对数据进行降维的操作。
这里直接使用Python里面的PCA函数，其参数n_components表示降维之后的数据维度。默认为None，所有成分保留。

#首先保留所有成分，建立PCA模型，然后查看各个成分的方差百分比(即贡献率)
import pandas as pd
from sklearn.decomposition import PCA
datafile = r"C:\Users\vivalavida\Desktop\Asher--Other\学习\python数据分析与挖掘实战\chapter4\demo\data\principal_component.xls"
data = pd.read_excel(datafile,header=None)
pca = PCA()
pca.fit(data)

#查看各个成分的贡献率
>>>pca.explained_variance_ratio_
array([7.74011263e-01, 1.56949443e-01, 4.27594216e-02, 2.40659228e-02,
       1.50278048e-03, 4.10990447e-04, 2.07718405e-04, 9.24594471e-05])

可以看出前3个主成分的累计贡献率就已经达到了97.37%，因此对数据进行降维时，可以降到3维。

pca = PCA(n_components=3)
pca.fit(data)
low_data = pca.transform(data)#降维后的数据
pca.inverse_transform(low_data)#恢复原始数据

4.2数值规约

数值规约包括无参数方法和有参数方法。有参数方法只需存储参数，无参数方法需要存放实际数据，例如直方图、聚类等。

码字不易，喜欢请点赞！！！

【参考文献】
《Python数据分析与挖掘实战》

你可能感兴趣的:(数据分析与挖掘)

Python爬取58同城广州房源+可视化分析 R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。消失了一段时间，这段时间在CSDN阅读了不少关于Python爬虫的文章，也学习了秦璐老师
数据分析与挖掘方向毕业设计选题推荐：大数据 Python 微光DeepLearning 毕设选题大数据 python 数据挖掘
亲爱的同学们，转眼间我们已经迎来了大四，这一年充满了挑战与机遇。大家忙着备考研究生、公务员、教师资格证，或是寻找实习机会，同时还要面对毕业设计的重任。对于毕业设计，很多同学可能会感到陌生，不知道从何下手，也不确定自己适合哪些方向的课题。为此，我整理了一个毕业设计选题专栏，希望能为大家提供一些灵感和建议。无论你对毕业设计有任何疑问，欢迎随时来问我哦！对毕设有任何疑问都可以问学长哦!前言在计算机专业的
【AI大数据】数据中台的数据分析与挖掘：从数据到业务的决策 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录1.前言2.基本概念术语说明2.1数据模型及其实体关系实体（Entity）属性（Attribute）实体关系（EntityRelationships）2.2数据仓库2.3分析引擎2.4噪声数据2.5数据湖2.6数据总线2.7数据仓库模型3.核心算法原理和具体操作步骤以及数学公式讲解3.1数据挖掘技术概览（1）数据预处理（2）数据探查（3）数据清洗（4）数据转换（5）数据挖掘（6）知识发现（
AI提示工程实战：从零开始利用提示工程学习应用大语言模型【附PDF】程序员丸子人工智能学习语言模型大模型自然语言处理 AI提示工程提示工程
01内容简介本书旨在探讨AI提示工程(通常简称提示工程或Prompt工程)在各领域的应用。大语言模型是人工智能领域的重要成果，在自然语言处理和生成任务中发挥着重要的作用。读者通过深入了解和应用提示工程，能充分挖掘和利用大语言模型的潜力，提升效率、促进创新，并解决实际问题。本书涵盖人工智能发展历程，提示工程的概念和设计原则、策略和技巧、不同领域的典型应用，以及数据分析与挖掘领域的应用。本书旨在以通俗
知识图谱智能应用系统：数据分析与挖掘技术文档光芒再现0394 知识图谱数据分析人工智能
一、概述在知识图谱智能应用系统中，数据分析与挖掘模块是实现知识发现和智能应用的核心环节。该模块负责处理和分析来自数据采集与预处理模块的结构化和半结构化数据，提取有价值的知识，并将其转化为可用于知识图谱构建和应用的三元组数据。本技术文档详细介绍了数据分析与挖掘模块中使用到的关键技术，包括SparkML、StanfordNLP、JNA、Jena、Python调用以及定时调度。二、技术栈介绍（一）Spa
文武双全！为什么数据分析师需要既懂业务又懂技术 R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。在企业中，数据分析
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
商业分析能力是怎样炼成的？ R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。作者：接地气的陈老师链接：https://www.zhihu.com/question/
阿里云服务器内存型r7、r8a、r8y实例区别参考阿里云最新优惠和活动汇总
在阿里云目前的活动中，属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格，相比于活动内的经济型e、通用算力型u1实例来说，这些实例规格等性能更强，与计算型和通用型相比，它的内存更大，因此这些内存型实例规格主要适用于数据库、中间件和数据分析与挖掘，Hadoop、Spark集群等场景，本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格，以供参考。2核16G可
python金融数据分析与挖掘实战黄恒秋_金融数据分析与挖掘——股票时间序列数据处理... weixin_39849930 黄恒秋
1、什么是时间序列分析时间序列分析(timeseriesanalysis)方法,强调的是通过对一个区域进行一定时间段内的连续观察计算，提取相关特征，并分析其变化过程。时间序列分析主要有确定性变化分析和随机性变化分析确定性变化分析：移动平均法，移动方差和标准差、移动相关系数随机性变化分析：AR、ARMA模型2、移动平均法2.1移动窗口主要用在时间序列的数组变换，不同作用的函数将它们统称为移动窗口函数
阿里云服务器内存型r7、r8a、r8y实例区别及最新活动价格参考阿里云最新优惠和活动汇总
在阿里云目前的活动中，属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格，相比于活动内的经济型e和通用算力型u1等实例规格来说，这些实例规格等性能更强，适用于数据分析与挖掘，Hadoop、Spark集群、数据库、中间件、大数据等场景。本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格，以供参考。一、内存型实例规格族r7性能介绍1、r7的内存型、存储、网络
numpy和matplotlib小例子 Roy Teng numpy matplotlib
最近准备学《Python数据分析与挖掘实战》这本书，刚看到第二章numpy和matplotlib这一部分，发现这个图挺有意思的，就做个笔记记录一下，日后发现有意思的继续更。importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)y=np.sin(x)+1z=np.cos(x**2)+1plt.figure(figsize
Python3数据分析与挖掘建模（7）使用matplotlib和seaborn画图鮀城小帅 python 数据分析 matplotlib python 柱状图饼图
1.可视化分析1.1概述可视化分析是数据分析中重要的一环，它可以帮助我们更直观地理解数据的特征、趋势和关系。在Python中，有多个库可以用于数据可视化，包括matplotlib、seaborn和plotly等。1.2常用的可视化方法和对应的库：（1）折线图和曲线图：用于显示数据随时间或其他连续变量的变化趋势。可以使用matplotlib和seaborn来创建这些图形。（2）柱状图和条形图：用于比
面试算法LeetCode刷题班—BAT面试官带你刷真题、过笔试 Dan Boneh 高级程序设计算法
课程名称:《面试算法LeetCode刷题班》——BAT面试官带你刷真题、过笔试主讲老师:林老师BAT资深研发工程师(T7/P8级)，致力于搜索引擎及其子系统的研发、迭代与优化，数据分析与挖掘领域专家，多年担任校园招聘、社会招聘面试官，丰富的面试候选人经验。课程简介:掌握算法与数据结构是成为优秀程序员的必经之路，众多国内外知名互联网企业都将算法面试作为程序员招聘的重要和必需途径，只有高效应对各类题目
python财政收入预测分析_python 数据分析-- 实战1（收入预测分析） weixin_39572152 python财政收入预测分析
说明：本文用途只做学习记录：参考书籍：从零开始学Python数据分析与挖掘／刘顺祥著．—北京：清华大学出版社，2018首先看一下刘老师介绍的数据分析和数据挖掘的区别：1.预览数据集，明确分析目的通过Excel工具打开income文件，可发现该数据集一共有32561条样本数据，共有15个数据变量，其中9个离散型变量，6个数值型变量。数据项主要包括：年龄，工作类型，受教育程度，收入等，具体可见下面两个
阿里云服务器2核16G、4核32G、8核64G配置最新收费标准及活动价格阿里云最新优惠和活动汇总
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8，这种配比的云服务器一般适用于数据分析与挖掘，Hadoop、Spark集群和数据库，缓存等内存密集型场景，因此，多为企业级用户选择，目前用户购买2核16G配置活动价格最低为2439.24元/1年起，购买4核32G配置活动价格最低为4499.88元/1年起，购买8核64G配置活动价格最低为8621.16元/1年起，本文介绍这些配置
《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐（协同推荐）数据探索分析篇①1 背景与目标分析2.数据探索分析 marraybug python
文章目录1背景与目标分析2.数据探索分析2.1网页类型分析2.1.1统计各个网页类型所占的比例2.1.2网页107类型中的内部统计2.1.3统计带"?"问号网址类型统计2.1.4统计199类型中的具体类型占比2.1.5统计瞎逛用户中各个类型占比2.2点击次数分析2.2.1统计点击次数2.2.2点击次数与用户数量关系2.2.3统计1~7次数及7次以上的点击数2.2.4浏览一次的用户行为分析2.3网页
阿里云服务器2024年2核16G、4核32G、8核64G配置最新收费标准及活动价格 qq_3304559116 阿里云阿里云服务器云计算
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8，这种配比的云服务器一般适用于数据分析与挖掘，Hadoop、Spark集群和数据库，缓存等内存密集型场景，因此，多为企业级用户选择，目前用户购买2核16G配置活动价格最低为1473.41元/1年起，购买4核32G配置活动价格最低为2896.42元/1年起，购买8核64G配置活动价格最低为5742.43元/1年起，本文介绍这些配置
并行化K-means聚类算法的实现与分析 OverlordDuke 聚类算法算法 kmeans 聚类并行聚类算法
并行化K-means聚类算法并行化K-means聚类算法的实现与分析项目背景与意义算法原理与串行实现分析并行化策略与关键细节实验结果与讨论未来改进方向结语并行化K-means聚类算法的实现与分析在大数据时代，对数据进行高效的聚类是数据分析与挖掘的重要工具之一。本文将介绍并讨论使用OpenMP在C++中实现的并行化K-means聚类算法。我们将深入探讨算法的原理、并行化策略以及实验结果，以期为相关领
从零开始学python第二版_从零开始学Python数据分析与挖掘-从零开始学Python数据分析与挖掘第二版pdf下载电子版-精品下载... weixin_39874366 从零开始学python第二版
从零开始学Python数据分析与挖掘第二版以Python3.7版本作为数据分析与挖掘实战的应用工具，从Python的基础语法开始，陆续介绍有关数值计算的numpy、数据处理的pandas、数据可视化的matplotlib和数据挖掘的sklearn等内容编辑推荐"为满足用人单位对数据分析和挖掘人员在编程方面的技能要求，本书遵循由浅入深的原则，详细地介绍了利用Python及其相关工具实现数据分析和挖掘
【毕设选题指导】2024 数据分析与挖掘方向毕业设计选题推荐 Mini_hailang_IT 毕设选题指导人工智能毕业设计算法数据挖掘数据分析毕设
目录前言数据挖掘方向选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。对毕设有任何疑问都可以问学
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
数据中台概念大数据驱动 #8数据中台-S级信息可视化大数据
数据中台1.数据中台模块数据采集数据存储数据处理数据分析数据应用2.数据中台的核心功能数据采集与集成数据清洗与预处理数据建模与存储数据分析与挖掘数据可视化与报告数据质量管理数据安全与隐私保护数据共享与开放3.如何建立数据中台确定业务需求收集数据源数据清洗和预处理数据建模和存储数据分析和挖掘数据可视化和报告数据质量管理数据安全和隐私保护数据共享和开放持续优化和升级4.数据中台的优点5.数据中台的缺点
1688商品数据API接口的数据分析与挖掘技巧爱吃猫的菜菜 api接口数据分析 java 数据库安全大数据
随着电子商务的发展，越来越多的商家开始将业务拓展到线上。而1688作为中国最大的B2B电商平台之一，其商品数量和交易额均居于世界前列。因此，对于商家来说，了解商品的实时信息非常重要，可以帮助他们更好地管理商品、制定营销策略等。本文将介绍如何使用API接口来获取1688商品详情。一、API简介1688提供了丰富的API接口，用于获取商品数据、交易数据、用户数据等。其中，商品详情API是常用的接口之一
Python环境下基于自适应滤波器的音频信号（wav格式）降噪方法哥廷根数学学派 python 开发语言
Python的集成环境我一般使用的是Winpython，Winpytho脱胎于pythonxy，面向科学计算，兼顾数据分析与挖掘；Anaconda主要面向数据分析与挖掘方面，在大数据处理方面有自己特色的一些包；Winpytho强调便携性，被做成绿色软件，不写入注册表，安装其实就是解压到某个文件夹，移动文件夹甚至放到U盘里在其他电脑上也能用。抛开软件包的差异，我个人也推荐初学者用winpython，
数据分析与挖掘简介数据蜗牛
20世纪40年代第一台数字计算机出现到90年代中期之前，信息化建设可归为以单机应用为主要特征的数字化阶段（可称为信息化1.0），而第一次的信息化浪潮，始自20世纪80年代个人计算机的大规模普及应用。从90年代中期开始，以美国提出“信息高速公路”建设计划为重要标志，互联网开始了其大规模商用进程，带来了信息化建设的第二次浪潮，即以联网应用为主要特征的网络化阶段（可称为信息化2.0）。当前，信息化建设的
电商API接口的大数据分析与挖掘技巧爱吃猫的菜菜 api接口数据分析信息可视化数据挖掘大数据数据库
随着电商行业的快速发展，电商平台上的交易数据量也越来越大。如何对这些数据进行分析和挖掘，从中获取有价值的信息，已经成为电商企业和开发者关注的重点。本文将介绍电商API接口的大数据分析与挖掘技巧。一、数据采集1.确定分析目标：在进行大数据分析之前，需要明确分析的目标和问题，以便针对性地采集数据。2.选择数据源：根据分析目标，选择合适的数据源。电商平台提供的API接口是获取数据的重要途径，可以通过调用
大数据分析与挖掘-期末复习大纲[HBU] 洛杉矶县牛肉板面 AI学习数据分析数据挖掘
前言这篇博客针对河北大学大数据分析与挖掘课程期末复习，目的是给同学们一个比较清晰的复习方向，具体的学习还需要平时认真听讲、写作业。我们使用的教材是这本：练习题目我只更新了部分答案，至于剩下的答案老师上课的时候会带着讲解的。在这里我只是为同学们提供一个复习纲要和复习方向。希望大家能快速抓到考试重点，不在其他方向上浪费精力。选择题答案：1.C2.D判断题答案：1.X2.√3.X4.X(若答案有误，请及
Pytorch环境下基于Transformer的滚动轴承故障诊断哥廷根数学学派 pytorch python 人工智能
关于python的集成环境，我一般Anaconda和winpython都用，windows下主要用Winpython，IDE为spyder（类MATLAB界面）。winpython脱胎于pythonxy，面向科学计算，兼顾数据分析与挖掘；Anaconda主要面向数据分析与挖掘方面，在大数据处理方面有自己特色的一些包；winpython强调便携性，被做成绿色软件，不写入注册表，安装其实就是解压到某个
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他