IT-cute

02_特征工程前奏—数据清洗

文章目录

一、预处理
二、清洗异常样本数据
- 2.1 格式内容错误数据清洗
- 2.2 逻辑错误清洗
- 2.3 去除不需要的数据
- 2.4 关联性验证
三、数据不均衡
- 3.1 数据不平衡
- 3.2 对多数类别样本删除
- - 3.2.1 解决方案一 —设置损失函数的权重
  - 3.2.2 解决方案二—下采样/欠采样
  - - 3.2.2.1 比赛技巧
  - 3.2.3 解决方案三—ENN
  - 3.2.4 解决方案四—RENN
  - 3.2.5 解决方案五—Tomek Link Removal
- 3.3 对少数类别样本增加
- - 3.3.1 解决方案一—过采样/上采样
  - 3.3.2 解决方案二—数据合成 (SMOTE)
  - 3.3.3 解决方案三—一分类/异常检测

一、预处理

在数据预处理过程主要考虑两个方面，如下：

选择数据处理工具：关系型数据库或者Python；
查看数据的元数据以及数据特征：一是查看元数据，包括字段解释、数据来源等一切可以描述数据的信息；另外是抽取一部分数据，通过人工查看的方式，对数据本身做一个比较直观的了解，并且初步发现一些问题，为之后的数据处理做准备。

注意：建模、做特征前要将字段解释、数据来源了解得滚瓜烂熟。

再用data.describe() 抽取一部分数据通过人工查看，进一步分析。

二、清洗异常样本数据

2.1 格式内容错误数据清洗

一般情况下，数据是由用户/访客产生的，也就有很大的可能性存在格式和内容上不一致的情况，所以在进行模型构建之前需要先进行数据的格式内容清洗操作。格式内容问题主要有以下几类：

时间、日期、数值、半全角等显示格式不一致：直接将数据转换为一类格式即可，该问题一般出现在多个数据源整合的情况下。
内容中有不该存在的字符：最典型的就是在头部、中间、尾部的空格等问题，这种情况下，需要以半自动校验加半人工方式来找出问题，并去除不需要的字符。
内容与该字段应有的内容不符：比如姓名写成了性别、身份证号写成手机号等问题。

2.2 逻辑错误清洗

主要是通过简单的逻辑推理发现数据中的问题数据，防止分析结果走偏，主要包含以下几个步骤：

数据去重。
去除/替换不合理的值。
去除/重构不可靠的字段值(修改矛盾的内容)

2.3 去除不需要的数据

一般情况下，我们会尽可能多的收集数据，但是不是所有的字段数据都是可以应用到模型构建过程的，也不是说将所有的字段属性都放到构建模型中，最终模型的效果就一定会好，实际上来讲，字段属性越多，模型的构建就会越慢，所以有时候可以考虑将不要的字段进行删除操作。在进行该过程的时候，要注意备份原始数据。

2.4 关联性验证

如果数据有多个来源 （打通平台），那么有必要进行关联性验证，该过程常应用到多数据源合并的过程中，通过验证数据之间的关联性来选择比较正确的特征属性。

比如：汽车的线下购买信息和电话客服问卷信息，两者之间可以通过姓名和手机号进行关联操作，匹配两者之间的车辆信息是否是同一辆，如果不是，那么就需要进行数据调整。

三、数据不均衡

PS：工作中可能遇到的最大的问题是数据不均衡。
怎么去解决的？ 上采样、下采样、SMOTE算法。
解决的效果如何？ 有一点点改进，但不是很大。

事实上确实如此，很多时候即使用了上述算法对采样的数据进行改进，但是结果反而可能更差。在业界中，对数据不均衡问题的处理确实是一件比较头疼的问题。最好的处理方法还是：尽可能去获得更多的那些类别比较少的数据。

3.1 数据不平衡

在实际应用中，数据往往分布得非常不均匀，也就是会出现“长尾现象”，即：绝大多数的数据在一个范围/属于一个类别，而在另外一个范围或者另外一个类别中，只有很少的一部分数据。那么这个时候直接使用机器学习可能效果会不太好，所以这个时候需要我们进行一系列的转换操作。
而在采样过程中修改样本的权重，一般做的比较少。
长尾现象：2/8理论，即20%的人占80%的资源。

3.2 对多数类别样本删除

3.2.1 解决方案一 —设置损失函数的权重

设置损失函数的权重，使得少数类别数据判断错误的损失大于多数类别数据判断错误的损失，即当我们的少数类别数据预测错误的时候，会产生一个比较大的损失值，从而导致模型参数往让少数类别数据预测准确的方向偏。可以通过scikit-learn中的class_weight参数来设置权重。

3.2.2 解决方案二—下采样/欠采样

下采样/欠采样(under sampling)：从多数类中随机抽取样本从而减少多数类别样本数据，使数据达到平衡的方式。

集成下采样/欠采样：采用普通的下采样方式会导致信息丢失，所以一般采用集成学习和下采样结合的方式来解决这个问题；主要有两种方式：

1、EasyEnsemble
采用不放回的数据抽取方式抽取多数类别样本数据，然后将抽取出来的数据和少数类别数据组合训练一个模型；多次进行这样的操作，从而构建多个模型，然后使用多个模型共同决策/预测。

2、BalanceCascade
利用Boosting这种增量思想来训练模型；先通过下采样产生训练集，然后使用Adaboost算法训练一个分类器；然后使用该分类器多对所有的大众样本数据进行预测，并将预测正确的样本从大众样本数据中删除；重复迭代上述两个操作，直到大众样本数据量等于小众样本数据量。

3.2.2.1 比赛技巧

如果参加一个比赛，我们会在模型训练的时候将数据分成训练集和开发集。模型提交后，比赛方会提供测试集对结果进行预测。
一般来说我们训练集上的模型评分会在86 ~ 88%左右，开发集上的评分为82 ~ 84%，但是到了实际的测试集上，模型评分可能只有72%左右。
技巧：
1、一般来说测试集的数据是不带标签的，但是测试集依然有特征X。
2、我们都不考虑训练集和测试集的目标Y，人为创建一列目标值Z，将训练集中的Z都设为0，将测试集的目标Z都设为1。
3、寻找测试集的X和Z之间的映射。
4、根据这个X和Z之间的映射，使用训练集中的X预测Z，结果肯定是组0,1向量。
5、将预测值为1的数据提出来，作为我的开发集（用来验证我们模型的数据集合），剩下预测为0的数据作为训练集。在这个基础上对我的训练数据进行调优。

这是一个在不做任何特征的情况下对模型调优的一个技巧，一般可以将模型在真实环境中的评分提高一点点。大概72%提高到74%左右。

为什么？实际上我们做训练的目的是为了找一找比赛中人家提供给我们的训练数据和真实数据，哪些长得比较像。将更像真实测试数据的样本放到开发集中作为调参的标准，从而能够提高最终的评分。虽然没有什么科学依据，但是确实比较有效，不登大雅之堂。

3.2.3 解决方案三—ENN

Edited Nearest Neighbor(ENN)： 对于多数类别样本数据而言，如果这个样本的大部分k近邻样本都和自身类别不一样，那我们就将其删除，然后使用删除后的数据训练模型。

3.2.4 解决方案四—RENN

Repeated Edited Nearest Neighbor(RENN)： 对于多数类别样本数据而言，如果这个样本的大部分k近邻样本都和自身类别不一样，那我们就将其删除；重复性的进行上述的删除操作，直到数据集无法再被删除后，使用此时的数据集据训练模型。

3.2.5 解决方案五—Tomek Link Removal

Tomek Link Removal： 如果两个不同类别的样本，它们的最近邻都是对方，也就是A的最近邻是B，B的最近邻也是A，那么A、B就是Tomek Link。将所有Tomek Link中多数类别的样本删除。然后使用删除后的样本来训练模型。

3.3 对少数类别样本增加

3.3.1 解决方案一—过采样/上采样

过采样/上采样(Over Sampling)：和欠采样采用同样的原理，通过抽样来增加少数样本的数目，从而达到数据平衡的目的。一种简单的方式就是通过有放回抽样，不断的从少数类别样本数据中抽取样本，然后使用抽取样本+原始数据组成训练数据集来训练模型；不过该方式比较容易导致过拟合一般抽样样本不要超过50%。

过采样/上采样(Over Sampling)：因为在上采样过程中，是进行随机有放回的抽样，所以最终模型中，数据其实是相当于存在一定的重复数据，为了防止这个重复数据导致的问题，我们可以加入一定的随机性，也就是说：在抽取数据后，对数据的各个维度可以进行随机的小范围变动，eg: (1,2,3) --> (1.01, 1.99, 3)；通过该方式可以相对比较容易的降低上采样导致的过拟合问题。

3.3.2 解决方案二—数据合成 (SMOTE)

采用数据合成的方式生成更多的样本，该方式在小数据集场景下具有比较成功的案例。常见算法是SMOTE算法，该算法利用小众样本在特征空间的相似性来生成新样本。
比如：给少数样本编号，1~100；将1、2样本连起来，取他们的中点(期望)，作为一个新的样本。以此类推，最后可以新生成50个样本。用这种算法一次可以提高50%的样本量。

3.3.3 解决方案三—一分类/异常检测

对于正负样本极不平衡的情况下，其实可以换一种思路/角度来看待这个问题：可以将其看成一分类(One Class Learning)或者异常检测(Novelty Detection)问题，在这类算法应用中主要就是对于其中一个类别进行建模，然后对所有不属于这个类别特征的数据就认为是异常数据，经典算法包括：One Class SVM、IsolationForest等。

你可能感兴趣的:(数据分析,python,数据挖掘,数据分析)

Python 打包成 EXE 的方法详解小黄编程快乐屋 1024程序员节
#1024程序员节｜征文#日常开发中，python由于其便捷性成为了很多人的首选语言，但是python的环境配置也是有点麻烦的，那么我们如何让其变得更加友好呢？没错，就是打包成exe可执行文件。一、PyInstaller简介PyInstaller是一个非常流行的Python工具，可以将Python脚本打包为独立的可执行文件。它支持Windows、macOS和Linux系统，特别适合需要跨平台打包的
【Python】如何将列表中的所有字符串转换为整数 civilpy python windows 开发语言
基本原理在Python编程中，我们经常需要处理数据类型的转换。例如，你可能从数据库、文件或用户输入中获取数据，这些数据通常以字符串的形式存在。但是，如果你需要进行数学运算，就必须将这些字符串转换为整数或其他数值类型。本篇文章将为你介绍如何使用Python将列表中的所有字符串元素转换为整数。代码示例在Python中，有几种方法可以实现这一转换。以下是一些常见的方法：示例1：使用循环和内置函数int(
python PLC_IP协议 Modbus应用(一） Kamach_83 tcp/ip 网络 python 模块测试
在Python中与PLC建立通信，通常需要进行以下步骤：1.确定PLC的通信协议：不同的PLC厂商和型号可能采用不同的通信协议，例如Modbus、OPCUA、Profinet等。需要确定您的PLC使用的是哪种通信协议（本文为modbustcp）。2.安装相应的Python库：根据您所选择的PLC通信协议，在Python中安装相应的库。本文使用Modbus协议，故安装`pymodbus`库3.连接到
Python基础—用python读取xml文件！小尤笔记 python xml 开发语言
读取XML文件在Python中是一个常见的任务，通常可以使用内置的xml.etree.ElementTree模块来完成。这个模块提供了简单而高效的XML解析和生成功能。下面是一个详细的代码示例和讲解，展示了如何使用xml.etree.ElementTree来读取XML文件。代码示例假设我们有一个名为example.xml的XML文件，内容如下：120081411004201159900我们的目标是
Python OpenAI 库开发指南：从入门到实战精通 senger_lcc python 开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
Python入门：4.Python中的运算符平凡程序猿~ Python python
引言Python是一间强大而且便捷的编程语言，支持多种类型的运算符。在Python中，运算符被分为算术运算符、赋值运算符、复合赋值运算符、比较运算符和逻辑运算符等。本文将从基础到进阶进行分析，并通过一个综合案例展示其实际应用。1.算术运算符算术运算符用于执行基本的数学操作。常见的算术运算符以下是Python常见算术运算符的表格：运算符描述示例结果+加法3+25-减法3-21*乘法3*26/除法（浮
Python 中 PIL 构建图片裁剪工具 winfredzhang python crop
概述这篇博客将为您展示如何使用wxPython和PIL库开发一个图片裁剪工具。本工具能够加载图片，允许用户通过拖拽选择框裁剪图片，并保存裁剪后的结果。以下是完整代码和实现步骤。C:\pythoncode\new\cropimageandsave.py功能特性图片加载：支持加载JPG和PNG格式的图片。动态裁剪：通过鼠标绘制矩形选择框进行裁剪。缩放适配：图片会根据面板大小自动缩放显示。保存裁剪结果：
Python3.13来了！编程爱好者必看 Python之栈人工智能 python 开发语言
Python3.13于近期发布，其中包含大量重要更新。Python作为机器学习、数据科学和人工智能领域使用最广泛的编程语言，一直在不断发展，以满足这些领域日益增长的需求。最新发布的Python3.13提供了多项具有影响力的改进，旨在提高性能和生产力，对于从事ML和AI项目的开发人员来说是一个重要的里程碑。Python在ML和AI领域的主导地位主要归功于它的简单性、广泛的库支持和庞大的社区。然而，随
python读取路径只能是双左斜杠、双右斜杠、左斜杠，不能是右斜杠吗？神笔馬良人工智能
问题描述：python读取路径只能是双左斜杠、双右斜杠、左斜杠，不能是右斜杠吗？问题解答：在Python中，读取文件路径时，可以使用双左斜杠（\），也可以使用双右斜杠（//），或者使用单左斜杠（/）。事实上，Python中的路径处理函数通常会接受和处理这三种形式的路径分隔符。但是，在Windows操作系统中，路径中的分隔符通常是反斜杠（\），而在Linux和Unix系统中通常是正斜杠（/）。因此，
Python 操作 Elasticsearch 全指南：从连接到数据查询与处理 XMYX-0 python elasticsearch jenkins
文章目录Python操作Elasticsearch全指南：从连接到数据查询与处理引言安装`elasticsearch-py`连接到Elasticsearch创建索引插入数据查询数据1.简单查询2.布尔查询更新文档删除文档和索引删除文档删除索引批量插入数据处理分页结果总结Python操作Elasticsearch全指南：从连接到数据查询与处理引言在大数据分析与搜索应用中，Elasticsearch是
Python（四）——SVG 图坐标轴数字和其他文本设置总结八年。。 python 开发语言笔记
在学术论文中，图像的质量和规范性直接影响文章的专业性和表达效果。尤其是在使用Python绘制SVG图时，图像的字体选择、大小设置、以及整体样式需要符合期刊或会议的要求。这不仅能提升视觉呈现的清晰度，还能增强论文内容的可读性和说服力。因此，合理设置坐标轴字体（如数字使用“TimesNewRoman”、文字使用“宋体”）和调整图像细节是学术制图中不可忽视的重要环节。1.设置全局字体frommatplo
【Es】python es操作小毛驴吃梨子 elasticsearch python 大数据
表因为es是集群所以es_hosts是列表fromelasticsearchimportElasticsearchES_HOSTS=["127.0.0.1:9200"]ES_HTTP_AUTH="******************"#连接Eses=Elasticsearch(hosts=ES_HOSTS,http_auth=ES_HTTP_AUTH,maxsize=60,timeout=30,m
Python中Cache的使用爬虫俗手小马达 python 开发语言缓存
文章目录一、缓存的基础概念二、基础使用三、进阶使用四、外部缓存工具五、缓存的注意事项一、缓存的基础概念缓存（Cache）是一种在应用程序中提升性能的技术，它通过将一些数据临时存储在快速访问的存储介质（如内存）中，以减少数据的重复计算或重复读取。通常，缓存用于存储一些昂贵计算或IO密集型操作的结果，从而加快程序的执行速度。在Python中，缓存通常用于函数的输出、API请求的结果、数据库查询、文件读
Python学习：Pandas库使用（二）之读写Excel文件——read_excel()和to_excel()函数及其参数详解爬虫俗手小马达 python 学习 pandas
在Python的Pandas库中，读取和写入Excel文件主要使用read_excel和to_excel函数。以下是详细用法和示例：1.读取Excel文件：pd.read_excel()importpandasaspd#读取Excel文件df=pd.read_excel('文件路径.xlsx',sheet_name='Sheet1',header=0,usecols='A:C',skiprows=
Python学习——装饰器（一）：两个简单例子爬虫俗手小马达 python 学习开发语言
例一计时器#创建一个装饰器，用于计算函数执行时间importtimedeftime_this(func):defwrapper(*args,**kwargs):start_time=time.time()result=func(*args,**kwargs)end_time=time.time()execution_time=end_time-start_timeprint(f"Execution
PyInstaller 打包 exe 文件 cliffordl python 综合 python 开发语言
PyInstaller是一个第三方库，它能够在Windows、Linux、MacOSX等操作系统下将Python源文件打包。通过对源文件打包，Python程序可以在没有安装Python的环境中运行，也可以作为一个独立文件方便传递和管理。PyInstaller支持Python2.7和Python3.3+。可以在Windows、MacOSX和Linux上使用，但是并不是跨平台的，而是说你要是希望打包成
OpenCV: 深入理解OpenCV中CV_WRAP_AS宏及其作用湫兮之风 opencv opencv 人工智能计算机视觉
在OpenCV中，CV_WRAP_AS是一个宏，主要用于为C++函数或运算符定义别名，以便在生成语言绑定时使用。这对于在不同的编程语言（如Python）中使用OpenCV库时提供更友好的接口非常有用。尽管它在C++代码中不会改变函数的行为，但它在OpenCV的语言绑定系统中起到了重要作用，特别是当OpenCV要为多个语言（如Python）提供接口时。1.CV_WRAP_AS宏的基本用途CV_WRA
python连接elasticsearch实战（附完整代码）当初 python elasticsearch
python连接elasticsearchfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportscanES_HOSTS=[{'host':'','port':9200,'scheme':'http'}]es=Elasticsearch(hosts=ES_HOSTS,basic_auth=('账号','密码'))#检查
mongodb清理删除历史数据程序员
批量清理mongodb历史数据清理程序的原来目前项目组上很多平台上线历史数据积压，导致入库查询数据缓慢，历史数据有些已经归档，进行历史数据清理删除。之前临时写shell脚本，太简陋，重新使用Python进行改造，新增备份功能，和配置文件删除指定字段和时间范围内数据。代码篇#!/usr/local/python3/bin/python3importconfigparser,logging.confi
如何建设和维护数据仓库：深入指南数据库数据库开发
摘要数据仓库是企业数据管理的核心，它不仅支持决策制定，还能提供深入的数据分析。本文将详细介绍如何从零开始建设和维护一个高效、可靠的数据仓库，涵盖设计、实施、监控和优化的全过程。通过具体的代码示例和最佳实践，帮助读者深入理解数据仓库的构建和管理。引言数据仓库是企业数据管理的心脏，它集中存储和管理来自不同来源的数据，支持复杂的查询和分析。随着数据量的爆炸性增长，如何高效地建设和维护数据仓库成为企业面临
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
使用Python开发PPT文本提取工具 winfredzhang python powerpoint 提取文字
在日常工作中，我们经常需要从PowerPoint文档中提取文本内容进行处理。本文将详细介绍如何使用Python开发一个带图形界面的PPT文本提取工具，该工具可以轻松地从PPTX文件中提取所有文本内容，并按页码显示。C:\pythoncode\new\GetContentOFPPT.py全部代码importwximportosfrompptximportPresentationclassPPTExt
Python（二）——设置文件路径：反斜杠 \ 、双反斜杠 \\和正斜杠 /的区别八年。。 python 开发语言学习
在Python中设置文件路径时，不清楚是用双反斜杠\\、反斜杠\还是正斜杠/时，一句话，使用正斜杠/！！！！下面对这三者进行详细介绍及区分：1.双反斜杠\\含义：在编程语言（如Python、C++等）中，反斜杠\是转义字符，用来表示特殊字符（如\n表示换行，\t表示制表符）。为了表示真正的反斜杠，必须使用双反斜杠\\。其实在Python中，第一个\用于转义，告诉Python后面的\是普通的反斜杠字
Python googletrans库使用爬虫俗手小马达 python 前端
googletrans是一个用于翻译文本的Python库，使用谷歌翻译的API。它可以将文本从一种语言翻译为另一种语言，支持多种语言自动检测。以下是基本的用法示例：安装googletrans库在终端或命令行中执行以下命令安装：pipinstallgoogletrans==4.0.0-rc1使用示例fromgoogletransimportTranslator#初始化翻译器translator=Tr
python中常用排序操作——sort方法和sorted函数的使用，超详细，内置模板代码！！! 盲敲代码的阿豪 python实用知识点 python sorted sort 排序
文章目录前言1、sort()方法的使用1.1基础操作1.2操作进阶（自定义排序的对象）2、sorted()函数的使用2.1基础操作2.2操作进行（自定义排序的对象）3、扩展：排序案例模板代码前言在Python中，排序的方法有多种，其中最常用的是使用内置的sort()方法和sorted()函数，接下来我将通过各种案例带领大家轻松学会这两种方法，同时还会扩展一些实用的排序案例模板代码。1、sort()
成功解决error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No su 哎呦，帅小伙哦安装
安装了python2.7，第一次执行时报错：errorwhileloadingsharedlibraries:libpython2.7.so.1.0:cannotopensharedobjectfile:Nosuchfileordirectory解决方法如下：1.编辑vi/etc/ld.so.conf如果是非root权限帐号登录，使用sudovi/etc/ld.so.conf添加上python2.
python爬虫——pandas的简单使用张謹礧 python爬虫+可视化 python网络爬虫 python pandas 爬虫
pandas作为爬虫中最重要的包之一，我们要想学好爬虫，就必须要深入了解pandas直接上代码importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],#如果不写列索引默认为0，1，2，3columns=['a','b','c','d'])print(d
Redis实战之Jedis使用技巧详解小马不敲代码实战 redis 缓存
一、前言基于redis开放的通信协议，大神们纷纷开发了各种语言的redis客户端，有c、c++、java、python、php、nodeJs等等开发语言的客户端，准确来说其实这些客户端都是基于redis命令做了一层封装，然后打包成工具以便大家更佳方便的操作redis，以Java项目为例，使用最广的就是以下三种客户端：JedisLettuceRedisson二、JedisJedis是老牌的Redis
python venv文件夹_Python虚拟环境Venv weixin_39640911 python venv文件夹
当你的项目比较复杂，对模块版本要求不一时，不需要安装多个Python，只需要配置虚拟环境即可。提起虚拟环境，很多人都会想到Virtualenv，实际上从Python3.3版本开始内置了Venv模块用以建立轻量级的虚拟环境。Venv的用法和机制和Virtualenv非常相似，当你的项目只需要Python3.4或以上版本时，Venv完全可以替代Virtualenv。我这里的演示环境为Win10，使用的
python selenium安装步骤_Python：Selenium+Webdriver安装 weixin_39619893 python selenium安装步骤
本人小白一枚，今天在使用selenium+webdriver的时候遇到了一个小问题：WebDriverException:'chromedriver'executableneedstobeinPATH.Pleaseseehttps://sites.google.com/a/chromium.org/chromedriver/home在debug过程中，也去baidu上查询了，很多说法，但是有些是行
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他