汤汤11

sklearn特征工程(数值型、类别型、时间型、文本型)实操

利用sklearn做特征工程

一：数值型特征

1.1 对数变换（log变换）

## 对数变换
import numpy as np
log_age = df_train['Age'].apply(lambda x:np.log(x))

1.2 MinMaxscaler（最大最小值缩放）

from sklearn.preprocessing import MinMaxScaler
minmax = MinMaxScaler()
age_trans = minmax.fit_transform(df_train[['Age']])
age_trans

1.3 StandardScaler(Z-score缩放)

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
age_std = ss.fit_transform(df_train[['Age']])
age_std

1.4 统计特征

#最小值、最大值、中位数、均值
df_train[['Age']].min()
df_train[['Age']].max()
df_train[['Age']].median()
df_train[['Age']].mean()
#分位数
df_train[['Age']].quantile(0.25)
df_train[['Age']].quantile(0.5)
df_train[['Age']].quantile(0.75)

1.5 高次特征

from sklearn.preprocessing import PolynomialFeatures
ply = PolynomialFeatures(degree = 2)
s = ply.fit_transform(df_train[['Age',"Parch"]])
s

说明：参数degree代表次数，默认为2。当输入为两个特征时，输出结果会对两个特征进行组合，结果特征的次数小于等于2。比如输入为特征 $[a, b]$ ，则输出为 $1,a,b,a^2, ab,b^2]$

1.6 分箱/分桶操作

1.6.1 等距切分

#等距切分
df_train.loc[:,'fare_cut'] = pd.cut(df_train['Fare'],3,labels = ['low','medium','high'])

等距切分的函数为pd.cut，第二个参数代表分成几份。labels参数默认为分成的区间，也可以自行设置为每个区间的名字。

1.6.2 等频切分

df_train.loc[:,'fare_qcut'] = pd.qcut(df_train['Fare'],q = [0,0.2,0.5,0.7,0.8,1])

等频切分的函数为pd.qcut，第二个参数q可以为整数（代表分成的份数）或者区间（如上例，区间内为分位数）。第三个参数为labels，用法与等距切分一致。

二：类别型特征

独热向量编码（one-hot encoding)

#当特征为字符串形式的类别型特征时，比如“Embarked”代表登船口岸
embarked_oht = pd.get_dummies(df_train[['Embarked']])
#当特征为字符串形式的数值型特征时，比如“Pclass”代表船舱等级，其取值为[1,2,3],用数字代表不同等级的船舱，本质上还是类别型特征
Pclass_oht = pd.get_dummies(df_train['Pclass'].apply(lambda x:str(x)))

三：时间型特征

#将一个字符串形式的日期转换为日期格式的日期
car_sales.loc[:,'date'] = pd.to_datetime(car_sales['date_t'])

# 取出几月份
car_sales.loc[:,'month'] = car_sales['date'].dt.month
#取出星期几
car_sales.loc[:,'dow'] = car_sales['date'].dt.dayofweek
# 取出一年当中的第几天
car_sales.loc[:,'doy'] = car_sales['date'].dt.dayofyear
# 取出来是几号
car_sales.loc[:,'dom'] = car_sales['date'].dt.day
#判断是否是周末
car_sales.loc[:,'is_weekend'] = car_sales['dow'].apply(lambda x: 1 if (x==0 or x==6) else 0)

四：文本型特征

4.1 词袋模型

#countvectorizer是一个向量化的计数器
from sklearn.feature_extraction.text import CountVectorizer
vec= CountVectorizer()
doc = {
    'The MissingIndicator transformer is useful',
    'to transform a dataset into corresponding binary matrix',
    'The MissingIndicator transformer is very very useful'
}
X = vec.fit_transform(doc)
X.toarray()

array([[0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 2],
[0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0],
[1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0]], dtype=int64)

#得到词向量
vec.get_feature_names()

#结果
['binary',
 'corresponding',
 'dataset',
 'into',
 'is',
 'matrix',
 'missingindicator',
 'the',
 'to',
 'transform',
 'transformer',
 'useful',
 'very']

注意：不是X.get_feature_names()

4.2 词袋模型

#在初始化计数器时，设置一下词向量的长度范围
vec = CountVectorizer(ngram_range=(1,3))

参数ngram_range表示词向量的长度为[1,3]（闭区间）

4.3 TF-IDF

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
X = tfidf.fit_transform(corpus)
X.toarray()#得到tiidf的值
tfidf.get_feature_names()#得到特征值

你可能感兴趣的:(机器学习系列)

【漫话机器学习系列】276.梯度悬崖(Gradient Cliff) IT古董漫话机器学习系列专辑机器学习人工智能
【深度学习】理解梯度悬崖（GradientCliff）：从一个图搞懂优化陷阱在深度学习的优化过程中，我们常常会遇到“训练不稳定”“loss波动异常”甚至“训练失败”的情况。这些问题可能来源于多方面：学习率设置不当、模型结构不合理、梯度爆炸/消失等等。而其中一个不容忽视但常被初学者忽略的问题就是——梯度悬崖（GradientCliff）。本文将通过一张图，深入浅出地讲解什么是梯度悬崖，它会带来什么问
机器学习系列-----主成分分析（PCA） DK22151 机器学习机器学习人工智能算法
一、什么是主成分分析（PCA）？主成分分析（PrincipalComponentAnalysis，简称PCA）是一种常用的线性降维技术，它通过正交变换将数据从高维空间映射到低维空间，同时尽量保留数据的方差。PCA的目的是将数据中最重要的特征提取出来，去掉冗余的信息，从而减少数据的维度，并且使得数据的解释更加直观。PCA不仅是数据预处理的一种手段，也在许多机器学习和数据分析中得到广泛应用。比如，图像
【漫话机器学习系列】238.训练误差与测试误差（Training Error And Test Error） IT古董漫话机器学习系列专辑机器学习人工智能深度学习
训练误差与测试误差详解|MachineLearning基础概念在机器学习的学习和实践过程中，我们经常会遇到两个重要的概念：训练误差（TrainingError）和测试误差（TestError）。理解这两个误差的区别和联系，是掌握模型性能评估、调优的基础。本文将从定义、意义、差异和常见误区等方面，系统地讲解训练误差与测试误差。一、什么是训练误差（TrainingError）训练误差是指：模型在训练数
机器学习系列----介绍前馈神经网络和卷积神经网络 (CNN) DK22151 机器学习机器学习神经网络 cnn
前言在深度学习领域，神经网络是一种模拟人脑神经元结构和功能的数学模型。它通过大量的层次结构和参数调整来实现模式识别、分类、回归等任务。常见的神经网络结构有前馈神经网络（FeedforwardNeuralNetworks，简称FNN）和卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）。这两种网络模型在图像处理、语音识别等多个领域取得了巨大的成功。本篇博客将详细介绍前
【漫话机器学习系列】181.没有免费的午餐定理（NFL） IT古董漫话机器学习系列专辑机器学习人工智能
没有免费的午餐定理（NFL）详解1.引言在机器学习和人工智能的研究中，人们经常试图寻找“最优”的算法，以便在各种任务中表现最佳。然而，“没有免费的午餐定理”（NoFreeLunchTheorem,NFL）告诉我们，不存在一种在所有问题上都表现最优的学习算法。这个定理对机器学习、优化和人工智能领域的研究具有重要的理论意义。本文将详细介绍“没有免费的午餐定理”，包括其概念、数学推导、直观理解以及对实际
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
【漫话机器学习系列】129.主成分分析（Principal Component Analysis，PCA） IT古董漫话机器学习系列专辑机器学习人工智能
主成分分析（PCA）：降维与特征提取的强大工具1.什么是主成分分析（PCA）？主成分分析（PrincipalComponentAnalysis，PCA）是一种常见的数据降维技术，主要用于将高维数据投影到低维空间，同时尽可能保留数据的主要信息。PCA通过线性变换，将原始特征变量转换为一组新的变量，这些新变量被称为主成分（PrincipalComponents）。在这张图中，我们可以看到PCA的核心概
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
R语言机器学习系列-随机森林回归代码解读 Mrrunsen R语言大学作业机器学习回归 r语言
回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包caret。2、数据部分，主要是读取数据，处理缺失值，转换变量类型。3、模型部分。为了对
【漫话机器学习系列】106.线性激活函数（Linear Activation Function） IT古董漫话机器学习系列专辑机器学习人工智能激活函数
1.什么是线性激活函数？线性激活函数是一种最简单的激活函数，数学表达式为：即输出与输入保持完全线性关系。这意味着对于任何输入值x，其输出将等于输入值本身，函数图像为一条通过原点的直线。在神经网络中，激活函数的作用是将网络的线性组合映射到某种非线性输出。传统的线性激活函数常用于一些特定场景，比如回归问题，其中预测的目标值与输入特征之间可能存在线性关系。2.线性激活函数的特点线性关系：与其他常见的激活
【漫话机器学习系列】101.特征选择法之Lasso（Lasso For Feature Selection） IT古董漫话机器学习系列专辑机器学习人工智能
Lasso特征选择法详解1.Lasso回归简介Lasso（LeastAbsoluteShrinkageandSelectionOperator，最小绝对收缩和选择算子）是一种基于L1范数正则化的线性回归方法。它不仅能够提高模型的泛化能力，还可以自动进行特征选择，即将一些不重要的特征的系数收缩到0，从而减少模型的复杂度。2.Lasso回归的数学公式Lasso回归的目标函数如下：其中：是输入数据，w是
【漫话机器学习系列】041.信息丢失（dropout） IT古董漫话机器学习系列专辑机器学习人工智能深度学习
信息丢失（Dropout）Dropout是一种广泛应用于神经网络训练中的正则化技术，旨在减少过拟合（overfitting），提高模型的泛化能力。虽然"信息丢失"（dropout）这个术语在某些情况下可能引起误解，指的并非是数据的丢失，而是训练过程中故意“丢弃”神经网络中的部分神经元。这种做法可以避免模型过于依赖于某些特定的神经元，从而提高模型在新数据上的表现。Dropout的工作原理在神经网络的
【漫话机器学习系列】079.超参数调优（Hyperparameter Tuning） IT古董漫话机器学习系列专辑机器学习深度学习人工智能
超参数调优（HyperparameterTuning）是机器学习中优化模型性能的重要步骤之一。超参数是模型在训练之前设定的参数，而不是通过训练数据学习到的参数。正确地选择超参数可以显著提高模型的预测能力，反之，错误的超参数选择可能会导致过拟合、欠拟合或训练过程缓慢。1.超参数的定义超参数是控制学习过程的外部参数，不同于模型参数（例如权重和偏置），超参数不通过训练过程自动优化。常见的超参数包括：学习
【漫话机器学习系列】054.极值（Extrema） IT古董漫话机器学习系列专辑机器学习人工智能
极值（Extrema）定义极值是数学分析和优化问题中的一个核心概念，指函数在某个定义域内取得的最大值或最小值。根据极值的性质，可以将其分为两类：局部极值（LocalExtrema）：函数在某点附近的最大值或最小值。全局极值（GlobalExtrema）：函数在整个定义域内的最大值或最小值。分类局部极大值（LocalMaximum）：若在点x=a附近存在某邻域，使得对任意x在该邻域内，满足f(x)≤
机器学习系列12：反向传播算法 SuperFengCode 机器学习系列机器学习神经网络反向传播算法梯度检验机器学习笔记
当我们要运用高级算法进行梯度下降时，需要计算两个值，代价函数和代价函数的偏导数：代价函数我们之前已经知道怎么求了，现在只需要求代价函数的偏导数即可。采用如下方法，先进行前向传播算法，然后再进行反向传播算法（BackpropagationAlgorithm），反向传播算法与前向传播算法方向相反，它用来求代价函数的偏导数。具体过程看下图：用δ作为误差，计算方法为：有时我们在运用反向传播算法时会遇到bu
基于Python的机器学习系列（18）：梯度提升分类（Gradient Boosting Classification）会飞的Anthony 信息系统机器学习人工智能机器学习 python 分类
简介梯度提升（GradientBoosting）是一种集成学习方法，通过逐步添加新的预测器来改进模型。在回归问题中，我们使用梯度来最小化残差。在分类问题中，我们可以利用梯度提升来进行二分类或多分类任务。与回归不同，分类问题需要使用如softmax这样的概率模型来处理类别标签。梯度提升分类的工作原理梯度提升分类的基本步骤与回归类似，但在分类任务中，我们使用概率模型来处理预测结果：初始化模型：选择一个
基于Python的机器学习系列（17）：梯度提升回归（Gradient Boosting Regression）会飞的Anthony 人工智能信息系统机器学习机器学习 python 回归
简介梯度提升（GradientBoosting）是一种强大的集成学习方法，类似于AdaBoost，但与其不同的是，梯度提升通过在每一步添加新的预测器来减少前一步预测器的残差。这种方法通过逐步改进模型，能够有效提高预测准确性。梯度提升回归的工作原理在梯度提升回归中，我们逐步添加预测器来修正模型的残差。以下是梯度提升的基本步骤：初始化模型：选择一个初始预测器h0(x)，计算该预测器的预测值。计算残差：
基于Python的机器学习系列（16）：扩展 - AdaBoost 会飞的Anthony 信息系统机器学习人工智能 python 机器学习开发语言
简介在本篇中，我们将扩展之前的AdaBoost算法实现，深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题，并对AdaBoost的实现进行一些调整，以提高其准确性和可用性。1.修复Alpha计算中的问题在AdaBoost中，如果分类器的错误率e为0，则计算出的权重α将是未定义的。为了解决这个问题，我们可以在计算过程中向分母中添加一个非常小的值，以避免除零错误。2.调整学习率sklearn
线性回归（1） zidea
MachineLearninginMarketing感谢李宏毅《回归-案例研究》部分内容为听取李宏毅老师讲座的笔记，也融入了自己对机器学习理解，个人推荐李宏毅老师的机器学习系列课程，尤其对于初学者强烈推荐。课程设计相对其他课程要容易理解。在机器学习中算法通常分为回归和分类两种，今天我们探讨什么线性回归。以及如何设计一个线性回归模型。什么回归简单理解通过数据最终预测出来一个值。回归问题的实例就是找到
机器学习系列（8）——提升树与GBDT算法陌简宁机器学习
本文介绍提升树模型与GBDT算法。0x01、提升树模型提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。提升方法实际采用加法模型（即基函数的线性组合）与前向分步算法，以决策树为基函数的提升方法称为提升树（boostingtree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型：其中，表示决策树，为决策树的
机器学习系列——（十三）多项式回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，线性回归是一种常见且简单的模型。然而，在某些情况下，变量之间的关系并不是线性的，这时候我们就需要使用多项式回归来建模非线性关系。多项式回归通过引入高次项来扩展线性回归模型，从而更好地拟合数据。本文将详细介绍多项式回归的原理、应用场景和实现步骤，并通过一个实际案例演示如何使用多项式回归进行预测。一、原理多项式回归是一种形式上为多项式的函数与自变量之间的线性回归关系。其基本原理是通
机器学习系列——（二十二）结语飞影铠甲机器学习机器学习人工智能
随着我们的机器学习系列的探索画上句号，我们不禁感慨于这一领域的广阔和深邃。从最初的基础概念到复杂的算法，从理论的探讨到实际应用的示例，我们一起经历了一段非凡的旅程。机器学习不仅是当前技术创新的核心驱动力之一，也是塑造未来的关键因素。在这个结语中，让我们回顾这段旅程的亮点，并展望机器学习将如何继续改变我们的世界。回顾学习之旅我们的系列文章涵盖了机器学习的各个方面，从监督学习到无监督学习，从简单的线性
机器学习系列——（二十一）神经网络飞影铠甲机器学习机器学习神经网络人工智能
引言在当今数字化时代，机器学习技术正日益成为各行各业的核心。而在机器学习领域中，神经网络是一种备受瞩目的模型，因其出色的性能和广泛的应用而备受关注。本文将深入介绍神经网络，探讨其原理、结构以及应用。一、简介神经网络是一种受到人类神经系统启发而设计的计算模型。它由大量的人工神经元组成，这些神经元之间通过连接进行信息传递和处理。神经网络的主要目标是从数据中学习规律，并能够进行预测、分类、识别等任务。二
机器学习系列——（二十）密度聚类飞影铠甲机器学习机器学习聚类支持向量机
引言在机器学习的无监督学习领域，聚类算法是一种关键的技术，用于发现数据集中的内在结构和模式。与传统的基于距离的聚类方法（如K-Means）不同，密度聚类关注于数据分布的密度，旨在识别被低密度区域分隔的高密度区域。这种方法在处理具有复杂形状和大小的聚类时表现出色，尤其擅长于识别噪声和异常值。本文将详细介绍密度聚类的概念、主要算法及其应用。一、概述密度聚类基于一个核心思想：聚类可以通过连接密度相似的点
机器学习系列——（十九）层次聚类飞影铠甲机器学习机器学习聚类人工智能
引言在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。层次聚类（HierarchicalClustering）是聚类算法中的一种，以其独特的层次分解方式，在各种应用场景中得到广泛应用，如生物信息学、图像分析、社交网络分析等。一、概述层次聚类算法主要分为两大类：凝聚的层次聚类（AgglomerativeHie
机器学习系列——（十七）聚类飞影铠甲机器学习机器学习聚类人工智能
引言在当今数据驱动的时代，机器学习已经成为了解锁数据潜能的关键技术之一。其中，聚类作为机器学习领域的一个重要分支，广泛应用于数据挖掘、模式识别、图像分析等多个领域。本文旨在深入探讨聚类技术的原理、类型及其应用，为读者提供一个全面而深入的了解。一、什么是聚类？聚类是一种无监督学习（UnsupervisedLearning）技术，它的目标是将相似的对象分组到一起，形成簇（Cluster）。与有监督学习
机器学习系列——（十八）K-means聚类飞影铠甲机器学习机器学习 kmeans 聚类
引言在众多机器学习技术中，K-means聚类以其简洁高效著称，成为了数据分析师和算法工程师手中的利器。无论是在市场细分、社交网络分析，还是图像处理等领域，K-means都扮演着至关重要的角色。本文旨在深入解析K-means聚类的原理、实现方式、优缺点及其应用，以期为读者提供全面而深入的理解。一、K-means聚类简介K-means是一种基于划分的聚类算法，它的目标是将n个对象根据属性分为k个簇，使
机器学习系列——（十五）随机森林回归飞影铠甲机器学习机器学习随机森林回归人工智能
引言在机器学习的众多算法中，随机森林以其出色的准确率、对高维数据的处理能力以及对训练数据集的异常值的鲁棒性而广受欢迎。它是一种集成学习方法，通过构建多个决策树来进行预测和分类。本文将重点介绍随机森林在回归问题中的应用，即随机森林回归(RandomForestRegression)。一、概念随机森林回归是基于决策树的集成学习技术。在这个模型中，我们构建多个决策树，并将它们的预测结果合并来得到最终的回
机器学习系列——（十六）回归模型的评估飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，回归模型是一种预测连续数值输出的重要工具。无论是预测房价、股票价格还是天气温度，回归模型都扮演着不可或缺的角色。然而，构建模型只是第一步，评估模型的性能是确保模型准确性和泛化能力的关键环节。本文将详细介绍几种常用的回归模型评估方法。一、均方误差（MeanSquaredError,MSE）均方误差是最常用的回归评估指标之一，它计算了预测值与真实值之间差异的平方的平均值。公式如下：
机器学习系列——（十四）正则化回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，正则化回归是一种常用的技术，旨在解决过拟合问题，提高模型的泛化能力。本文将简单探讨正则化回归的概念、类型和应用，帮助读者更好地理解和运用这一重要技术。一、概念正则化回归是一种通过引入额外信息（约束或惩罚项）来调整模型复杂度的方法，从而防止过拟合，提高模型的泛化能力。简单来说，正则化就是在模型训练过程中加入一个正则项，以限制模型参数的大小。那么，为什么需要正则化？在机器学习中，模
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他