冲鸭！！！！！

Python数据分析与挖掘实战——第四章

目录

第四章数据预处理

一、概括

二、数据清洗

1. 缺失值处理

2. 异常值处理

三、数据集成

1. 实体识别

2. 冗余属性识别

四、数据变换

1. 简单函数变换

2. 规范化

3. 连续属性离散化

4. 属性构造

5. 小波变换

五、数据规约

1. 属性规约

2. 数值规约

第四章数据预处理

一、概括

问题：不完整、不一致、异常

处理：数据清洗、数据集成、转换、规约等一系列的处理，为数据预处理

目的：一方面要提高数据的质量，另一方面要让数据更好地适应特定的挖掘技术或工具

主要内容：

数据清洗

缺失值处理——删除、插补、不处理
异常值处理——删除、不处理、平均值修正、视为缺失值

数据集成

实体识别；2. 冗余属性识别

数据变换

简单函数变换；2. 规范化；3. 连续属性离散化；4. 属性构造；5. 小波变换

数据规约

属性规约（纵向）； 2. 数值规约（横向）

二、数据清洗

主要任务：删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据、处理缺失值、异常值

1. 缺失值处理

三种处理方式：删除记录、数据插补、不处理

插补方式有：

插补方法：均值/中位数/众数插补；固定值插补；最近临插补；回归方法；插值法

删除数据具有的局限性：以减少数据来换取数据的完备，会造成资源的大量浪费——会影响到分析结果的客观性和正确性

※ 有的模型将缺失值视作一种特殊的取值，允许直接在含有缺失值的数据上进行建模

→ 插值法 ←

拉格朗日插值法、牛顿插值法、Hermite插值、分段插值、样条插值法等

1）拉格朗日插值法

lagrange(x,y) 的输出值 poly1d，x为y中的数的index列表，y为数的列表，poly1d的值是多项式的几个系数

插值则用lagrange(x,y)(n) 实现对n插值

2）牛顿插值法

2. 异常值处理

1）异常值是否剔除，视情况而定

2）处理方法

删除含有异常值的记录（缺点：改变原有数据分布

视为缺失值（使用缺失值的方法处理

平均值修正（用前后两个观测值的平均值修正

不处理

3）分析异常值出现的原因，判断是否应该舍弃

三、数据集成

原因：数据往往分布在不同的数据源中

定义：将多个数据源合并存放在一个一直的数据存储（如数据仓库）中的过程

实体的表达形式不同，存在实体识别问题和属性冗余问题

1. 实体识别

定义：从不同数据源识别出现实世界的实体

任务：统一不同源数据的矛盾之处

1）同名异义：不同表格中的不同id表达的意义不同

2）异名同义：std_id 和 student_id 是一样

3）单位不统一：有的用的国际单位，有的用的地方单位

2. 冗余属性识别

1）同一属性多次出现

2）同一属性命名不一致导致重复

3）两个属性相关度高，可用相关分析检测，度量一个属性在多大程度上蕴含另一个属性

四、数据变换

目的：对数据进行规范化处理，将数据转换成“适当的”形式，以适用于挖掘任务及算法的需求

1. 简单函数变换

1）常用于：将不具有正态分布的数据变换为具有正态分布的数据

2）时间序列中，使用对数变换或者差分运算，可将非平稳序列转换成平稳序列

3）数据挖掘中，可使用对数变换对大范围数据进行压缩

常用变换：平方开方 取对数 差分运算

2. 规范化

不同评价指标往往具有不同的量纲，数值间的差别可能很大，不进行数据处理可能会影响到数据分析的结果。

目的：消除指标间的量纲和取值范围差异的影响，需要进行标准化处理，将数据按照比例进行缩放，使之落入到一个特定的区域，便于进行综合分析。

1)最小-最大规范化

也称离差标准化

是对原始数据的线性变换

缺点：

① 若max很大，则规范化后，都会接近0，且相差不会很大

② 若出现超过[min,max]的值时，会引起系统出错，需要重新确定min和max

2）零-均值规范化

也称标准差标准化当前用的最多的数据标准化方法

经过处理过的数据，均值为0，标准差为1

均值 δ为标准差

3）小数定标规范化

通过移动属性值的小数位数来规范化

移动的小数位数取决于属性绝对值的最大值

3. 连续属性离散化

目的：将连续属性变换成分类属性，因为有的数据挖掘算法要求数据是分类属性的形式

1）离散化的过程

在数据的取值范围内，设定若干个离散的划分点，将取值范围划分为一些离散化的区间

子任务：确定分类数将连续属性值映射到分类值

2）常用的离散化方法

① 等宽法

将之与分为具有相同宽度的区间，区间个数由数据本身的特点决定、或者由用户指定

缺点：对离群点比较敏感，趋向于不均匀地把属性值分不到各个区间，会严重损坏建立的决策模型

② 等频法

将相同数量的记录放进每个区间

缺点：可能将相同的数据值分到不同的区间以满足每个区间中固定的数据个数

③ 基于聚类分析的方法

一维聚类

i. 将连续属性的值用聚类算法进行聚类（如k-means

ii. 将聚类得到的簇进行处理，合并到一个簇的连续属性值并做统一标记

聚类分析的离散化方法需要用户指定簇的个数，从而决定产生的区间数

4. 属性构造

为了提取有用的信息，挖掘更深层次的模式，提高挖掘结果的精度，需要利用已有的属性集构造出新的属性，并加入到现有的属性集合中

5. 小波变换

信号分析手段，具有多分辨率的特点，在时域和频域都具有表征信号局部特征的能力，通过伸缩和平移等运算过程对信号进行多尺度的聚焦分析，提供了一种非平稳信号的时频分析手段，可以由粗及细地逐步观察信号，从中提取有用信息

能够刻画某个问题的特征量往往是隐含在一个信号中的某个或者某些分量

小波变换可以把非平稳信号分解为表达不同层次、不同频带信息的数据序列，即小波系数

1）基于小波变换的特征提取方法

基于小波变换的多尺度空间能量分布特征提取方法

基于小波变换的多尺度空间的模极大值特征提取方法

基于小波包变换的特征提取方法

基于适应性小波神经网络的特征提取方法

（看不懂 告辞！！！）

五、数据规约

大数据集上进行数据分析和挖掘需要很长时间

数据规约：产生更小但保持原数据完整性的新数据集——更有效率

意义：

降低无效、错误数据对建模的影响，提高建模的准确性

少量且具有代表性的数据将大幅缩减数据挖掘的时间

降低存储数据成本

1. 属性规约

1) 方法：

通过属性合并来创造新属性维数，或直接删除不相关的属性（维）来减少数据维数

2) 目的：

寻找出最小的属性子集，并确保新数据自己的概率分布尽可能地接近原来数据集的概率分布

3) 常用方法：

合并属性

逐步向前选择：直接删除

逐步向后删除：直接删

决策树归纳：直接删

主成分分析：用于连续属性的数据建模方法

4) 主成分分析方法

from sklearn.decomposition import PCA

sklearn.decomposition.PCA(n_components = None, copy = True, whiten = False)

n_components:PCA算法中要保留的主成分个数n，即保留下来的特征个数n 。

int或者string类型，int则为维度数，string，如‘mle’，满足方差百分比

copy:True或False，默认为True。 True之后原始训练数据的值不会该表，False则是直接在原始数据上进行降维

whiten:默认False。白化，使每个特征具有相同的方差

eg：

pca = PCA()

pca.fit(data)

pca.components_ 返回模型的各个特征向量

pca.explained_variance_ratio_ 返回各个成分各自的方差百分比（也称贡献率），方差百分比越大，说明向量的权重越大

↑↑↑ 此时可看每个成分的贡献率，以此来选择降维的维数↑↑↑

确定维数n之后

pca = PCA(n)

pca.fit(data)

low_d = pca.transform(data) # 用于降低维数

pca.inverse_transform(low_d) # 必要时可以用函数来复原数据

2. 数值规约

定义：通过选择替代的、较小的数据来减少数据量。

包括：有参数方法、无参数方法

1）有参数方法

使用一个模型来评估数据，只需存放参数，而不需要存放实际数据。如回归（线性回归、多元回归）和对数线性模型

2）无参数方法

需要存放实际数据，如直方图、聚类、抽样

a. 直方图

使用分箱来近似数据分布。

属性A的直方图将A的数据分布划分为不相交的子集或桶。

如果每个桶只代表单个属性/频率对，则称为单桶

桶表示给定属性的一个连续区间

b. 聚类

将数据元组（一行数据）视为对象，将对象划为簇。用数据的簇替换实际数据

有效性依赖簇的定义是否符合数据的分布性质

c. 抽样

用比原始数据小得多的随机样本表示原始数据集

分为：s个样本无放回简单随机抽样、s个样本放回简单随机抽样、聚类抽样、分层抽样

d. 参数回归

简单线性模型和对数线性模型都可

对数线性模型还可用于维规约和数据光滑

你可能感兴趣的:(Python数据分析与挖掘实战)

自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
华为OD机试E卷 - 最大值（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c++华为OD机试E卷 C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述给定一组整数（非负），重排顺序后输出一个最大的整数。示例1输入：[10,9]输出：910说明:输出结果可能非常大，所以你需要返回一个字符串而不是整数。输入描述数字组合输出描述最大的整数示例1输入109输出910说明解题思路题目要求是：给定一组
通过Ftrace实现高效、精确的内核调试与分析深度Linux 性能优化 linux LInux内核性能分析调试工具
虽然之前一直听说过ftrace，但从来没将它用在实战中，在一次客户排查问题中，遇到了比较奇怪的现象，一位精通内核的朋友建议使用ftrace来定位一下。虽然那一次并没有使用ftrace，但也让我觉得，后面我们势必要提供ftrace相关的工具帮助我们在线上定位问题，所以自己也决定重新学习使用下ftrace，当然也决定写一系列的相关出来，这里就先简单介绍下ftrace。一、Ftrace简介1.1Ftra
Python 入门路线（2025 极简无废话版）墨鱼爆蛋 Python python 开发语言编程
大家好，梳理一个Python从入门到精通路线大家都挺忙的，突出一个无废话注：时间仅供参考第一阶段：基础入门(0-3个月)1.Python基础语法开发环境搭建(Python安装、IDE选择)变量和数据类型运算符和表达式控制流(if/else、循环)函数定义与调用基本输入输出2.数据结构基础列表(List)和元组(Tuple)字典(Dict)和集合(Set)字符串处理文件操作3.错误处理try/exc
用Python写了一个好玩的桌面宠物游戏脚本，简单又好玩墨鱼爆蛋 Python Python游戏 python 开发语言游戏桌面宠物
今天，我们来分享一个宠物桌面小程序，全程都是通过PyQT来制作的，对于PythonGUI感兴趣的朋友，千万不要错过哦！我们先来看看最终的效果，对于一个小小的娱乐项目来说，还是不错啦！好了，废话不多说，我直接上干货，本项目使用PYQT5作为编码框架，如果你对于该框架不是特别熟悉的话，建议先去简单学习一下~源码和素材图片在文末领取！素材图片项目源码展示importsysimportosimportra
Python 上下文管理器：优雅地管理资源墨鱼爆蛋 python 开发语言数据库
一、什么是上下文管理器上下文管理器是一个可以在with语句中使用的对象，它定义了__enter__和__exit__方法，它定义了在进入和退出特定代码块时需要执行的操作，确保资源在使用完毕后能够被正确地释放或清理。二、如何实现上下文管理器Python的上下文管理器通常通过两种方式实现：一种是使用类，另一种是使用生成器。1.使用类实现上下文管理器要实现一个自定义的上下文管理器类，你需要在类中定义两个
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
【Python百日进阶-Web开发-Feffery】Day604 - 趣味dash_04：Excel转Pdf文件岳涛@泰山医院 Dash python excel 前端 dash
文章目录一、环境准备1.1初始化基础`Python+Dash`环境1.2本例中使用的第三方包二、本项目B站视频讲解三、页面效果四、项目源码一、环境准备1.1初始化基础Python+Dash环境CSDN文档参见：https://blog.csdn.net/yuetaope/article/details/129795264Bilibili视频参见：https://www.bilibili.com/v
Python进阶--Python操作excel 小昀小杭 python excel 数据库
一、xlsxwirter三方库优点：写的快功能多缺点：只能写问题：内容并不是直接写入文件中只有在关闭的时候才会写入文件实例：#创建excel文件wb=xlsxwriter.Workbook("cars.xlsx")#在该文件下创建sheetws=self.wb.get_worksheet_by_name("Car")orself.wb.add_worksheet("Car")ws.write(ro
python进阶-10.pandas基本数据类型（1） wang旭炎 python numpy 索引
importpandasaspdimportnumpyasnpfrompandasimportSeries,DataFrame文章目录1,Series自定义索引读取SeriesSereis.loc['自定义的索引']||Sereis.iloc[0-n的数字]xxx.loc['yy']=new修改和增加读取多个值,会得到一个新对象通过字典数据得到Series2.DataFrame2.1把numpy的
tensorflow-迁移学习使用Resnet残差网络实现猫狗分类问题浮夸 tensorflow python
遇到的bug都放在之前的文章里了importosimportpandasaspdimportwarningsimporttensorflowastffromtensorflow.pythonimportkerasfromkeras.preprocessing.imageimportImageDataGeneratorimportkeras.optimizersasopfromtensorflow.
P1 Pytorch入门实战——Pytorch实现mnist手写数字识别今天补充能量了吗 pytorch 人工智能 python 深度学习机器学习
本文為365天深度學習訓練營中的學習紀錄博客原作者：K同学啊|接輔導、項目定制一、MNIST手写数字数据集介绍MNIST手写数字数据集来源于是美国国家标准与技术研究所，是著名的公开数据集之一。数据集中的数字图片是由250个不同职业的人纯手写绘制包含了70000张图片，其中60000张为训练数据，10000为测试数据，70000张图片均是28*28。如果我们把每一张图片中的像素转换为向量，则得到长度
selenium框架你们的好朋友大强测试开发 python 功能测试 selenium
selenium（仅作为个人笔记，如有雷同，请联系删除。。）1、Selenium的特点：开源、免费，多浏览器支持，多平台支持，多语言支持，对Web页面有良好的支持，API简单，灵活(用开发语言驱动)，支持分布式测试用例执行。2、Windows下的测试环境搭建：安装Python；安装setuptools与pip（注：Python3不支持setuptools，但已经集成了pip）安装Selenium：
python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影 carafqy
看了几天的python语法，还是应该写个东西练练手。刚好假期里面看电影，找不到很好的影片，于是有个想法，何不搞个爬虫把电影天堂里面8分以上的电影爬出来。做完花了两三个小时，撸了这么一个程序。反正蛮简单的，思路和之前用nodejs写爬虫一样。爬虫的入口从分页的列表开始，比如美剧的列表第一页地址这样：http://www.ygdy8.net/html/gndy/oumei/list_7_1.html，
【python进阶】txt excel pickle opencv操作demo 闪闪发亮的小星星 AI算法工程师打怪 python excel opencv
文章目录1.txt读写读综合案例日志文件读写2.excel读写读取csv读取xlsx3.matplotlib案例折线图多个折现图散点图柱状图饼状图4opencv案例加载与展示图片缩放图片旋转图片保存图片读取摄像头视频保存opencv综合案例5pickle案例1.txt读写读file.read()file.readlines()file.readline()##使用'read'方法读取文件的所有内容
python爬取公众号历史文章_微信公众号爬虫--历史文章冷风吹心冷风吹心 python爬取公众号历史文章
今天搞了一个微信公众号历史文章爬虫的demo，亲测可行，记录一下！(不喜勿喷)缺点：1.不是很智能2.兼容性不是很好，但是能应付正常情况啦使用mysql+request数据库部分直接建表ddl吧：CREATETABLE`wechat_content`(`id`int(11)NOTNULLAUTO_INCREMENT,`wechat_name`varchar(255)DEFAULTNULLCOMME
python-django 安装与基本配置默执_ django 后端开发 python django 后端
安装pipinstallDjango==3.2.4查看版本python-mdjango--version创建项目django-adminstartproject项目名称cd项目名称创建数据库pythonmanage.pymigrate创建超级用户用户名邮箱pythonmanage.pycreatesuperuser--username=用户名--email=邮箱自己设置密码必要设置：#设置中文：s
selenium通过cookie实现自动登录 Zds丶小顺顺 python 开发语言
原理很简单，首先手动完成登录后，把cookies保存到本地，下次再把cookies注入到浏览器里面，就自动实现了登录最近在学习写python的自动化脚本,但是发现测试工具打开之后的网页是没有用户自己打开浏览器时记录的cookie,简单来说也就是打开的网站不会自己登录,所以想要简单的实现下如何用cookie来登录总的来说分两步目录第一步，把cookies保存到本地第二步，把保存到本地的cookies
python 统计相同像素值个数 AI算法网奇 python基础 opencv 计算机视觉 python
目录python统计相同像素值个数最大值附近的值python统计相同像素值个数importcv2importnumpyasnpimporttimefromcollectionsimportCounter#读取图像image=cv2.imread('mask16.jpg')#将图像转换为灰度图像gray_image=cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)area
Python Selenium使用cookie实现自动登录WB haerxiluo python 爬虫 python selenium 爬虫
文章目录前言一、预登陆获取cookie1)cookie处理2)预登陆二、登录测试前言模拟登录WB是实现WB网页爬虫的第一步，现在的WB网页版有个sinavisitsystem，只有登录过后才能获取更多内容。本文使用selenium通过预登陆保存cookie到本地，之后重复登录只需要提取本地cookie即可免去每次扫码或者输密码登录。一、预登陆获取cookie1)cookie处理先简单引入两个函数实
爬取优美图库壁纸-python -chu_kuang- python mysql 数据库
爬取216页分块区所有图片，爬的内容有点抽象。说实在的这网站壁纸挺檫边的.....importrequestsfrombs4importBeautifulSoupimportos#创建目录directory='pictures'url=''ifnotos.path.exists(directory):os.makedirs(directory)foriinrange(216):ifi==0:url
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
python+Selenium自动化之免登录(cookie及token) 觅远 python selenium 自动化
目录cookie免登录通过接口获取cookie启用浏览器绕过登录添加token使用登录可以减去每次登录的重复操作，直接操作系统登录后的菜单页面，也可以减少安全验证登录，如图像验证登录的操作。注意：cookie和token都有有效期。cookie免登录直接从开发者工具中获取cookie进行添加，下图为网页中多个站点的cookie，挑选需要的进行添加即可。fromseleniumimportwebdr
归并排序(Python) 编程可可西里 python 开发语言算法排序算法
1.算法步骤首先考虑一个问题:两个有序列表如何合并成一个列表A=[1,3,5,6,7,12]B=[6.7.9.11]1.构建一个result=[]2.当A非空且B非空：比较A[0]和B[0]result添加较小的那个元素，并从原始数组弹出3.如果A非空,把A添加到result末尾4.如果B非空,把B添加到result末尾1.先把数组分成两部分2.每部分递归处理变成有序3.将两个有序列表合并起来2.
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
⭐️Python烟花代码 Python老吕 python烟花代码 Python烟花代码动态免费 Python烟花代码高级 Python烟花代码动态高级烟花代码编程Python满屏 Python海龟绘图画烟花用Python写一个烟花代码
python烟花代码Python烟花代码matplotlib实现烟花代码pygame实现烟花代码一pygame实现烟花代码二Python烟花代码在Python中，我们可以通过各种库来模拟烟花的动画效果。虽然Python本身并不是为图形动画设计的语言，但我们可以利用像matplotlib或pygame这样的库来创建一些有趣的可视化效果。matplotlib实现烟花代码首先，确保你已经安装了matpl
python实战（十五）——中文手写体数字图像CNN分类 CM莫问 python实战深度学习 python cnn 人工智能深度学习算法图像分类手写体识别
一、任务背景本次python实战，我们使用来自Kaggle的数据集《ChineseMNIST》进行CNN分类建模，不同于经典的MNIST数据集，我们这次使用的数据集是汉字手写体数字。除了常规的汉字“零”到“九”之外还多了“十”、“百”、“千”、“万”、“亿”，共15种汉字数字。二、python建模1、数据读取首先，读取jpg数据文件，可以看到总共有15000张图像数据。importpandasas
设计模式Python版单例模式小王子1024 设计模式Python版设计模式 python 单例模式
文章目录前言一、单例模式二、单例模式实现方式三、单例模式示例四、单例模式在Django框架的应用前言GOF设计模式分三大类：创建型模式：关注对象的创建过程，包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式：关注类和对象之间的组合，包括适配器模式、桥接模式、组合模式、装饰模式、外观模式、享元模式和代理模式。行为型模式：关注对象之间的交互，包括职责链模式、命令模
python 列表推导式别样红。 python
列表推导式每一个for按照一定的规则循环后，返回一个变量。1.基本用法list1=[x*2forxinrange(10)]print(list1)#[0,2,4,6,8,10,12,14,16,18]2.增加if增加if则只有通过if判断的数据，才会输出list1=[x*2forxinrange(10)ifx%2==0]print(list1)#[0,4,8,12,16]3.多个for会按照矩阵的
Go 项目实战：如何优雅的处理日志 vespeng Golang golang gin
在Go项目开发中，日志处理是一项至关重要的任务。它不仅有助于我们在开发过程中调试代码，还能在生产环境中帮助我们快速定位问题。本文将详细介绍如何在Go项目中优雅地处理日志，包括日志的级别、格式、输出以及如何使用第三方日志库等方面。一、日志级别的重要性日志级别是控制日志输出的重要手段。通过设置不同的日志级别，我们可以灵活地控制日志的详细程度。在Go语言中，常见的日志级别有DEBUG、INFO、WARN
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他