xingkong1992

机器学习实践一

根据问题是否有标签将机器学习问题分为监督学习问题（有标签）和非监督学习问题（无标签）。
监督学习又可根据预测结果是否连续分为回归问题（预测值为连续的）和分类问题（预测值为离散的）。
常见的监督学习算法：线性回归，逻辑回归，KNN，决策树，SVM，朴素贝叶斯。
无监督学习算法：关联规则，聚类
半监督学习：一半有标签，一半无标签。

机器学习算法使用图谱

数据量少的话可以使用规则去学习，此时所有的机器学习算法都不能从中学习到模型。倘诺数据多根据结果连续，离散，有无标签分为回归和分类，聚类，倘诺数据的维度较大需要将维处理。在分类问题中，根据样本的数据能否一次加载到内存中又可分别进行linear svc,SGD。

机器学习问题解决思路

拿到数据后咋么了解数据（可视化）
选择最贴切的机器学习算法
定位模型状态（过拟合或欠拟合）以及解决方法
大量级的数据的特征分析以及可视化
各种损失函数（loss function）的优缺点及如何选择

数据与可视化

#numpy科学计算工具包
import numpy as np
#使用make_classification构造1000个样本，每个样本有20个feature
from sklearn.datasets import make_classification
X,y=make_classification(1000,n_features=20,n_informative=2,
                       n_redundant=2,n_classes=2,random_state=0)
#存为dataframe格式
from pandas import DataFrame
df=DataFrame(np.hstack((X,y[:,None])),columns=range(20)+["class"])

df[:6]

import matplotlib.pyplot as plt
import seaborn as sns
#使用pairplot去看不同维度pair下数据的空间分布状况
_=sns.pairplot(df[:50],vars=[8,11,12,14,19],hue="class",size=1.5)
plt.show()

我们从散点图和柱状图上可以看出,有些维度的特征确实比其他的维度有更好的区分性，比如第11维和第14维的区分度比较好。从这两个维度，数据似乎是现行可分的。而12维和19维呈现很强的负相关性。

seaborn.pairplot(data,hue=None,hue_order=None,palette=None,vars=None,x_vars=None,y_vars=None,kind='scatter',diag_kind='hist',markers=None,size=2.5,aspect=1,dropna=True,plot_kws=None,diag_kws=None,grid_kws=None)

数据指定

vars:与data使用，否则使用data的全部变量。参数类型：numeric类型的变量list
{x,y}_vars:与data使用，否则使用data的全部变量。参数类型：numeric类型的list
dropna:否则剔除缺失值。参数类型：Boolean，optional

特殊参数

kind:{‘scatter’,’reg’},optional Kind of plot for the non-identity relationships
diag_kind:{‘hist’,’kde’},optional.Kind of plot for the diagonal subplots

基本参数

size：默认6，图的尺寸大小（正方形）。参数类型：numeric
hue：使用指定变量为分类变量画图。参数类型：string species/class
hue_order：list of strings Order for the levels of the hue variable in the palette
palette：调色板颜色
markers：使用不同的形状。参数类型：list
aspect：scalar，optional。Aspect * size gives the width （in inches）of each facet
{plot，diag，grid}_kws:指定其他参数。参数类型：dicts

PairGrid对象

1. 散点图

from __future__ import division
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='ticks',color_codes=True)
iris=sns.load_dataset("iris")
sns.pairplot(iris)
plt.show()

指定分类变量的散点图

sns.pairplot(iris,hue="species")
plt.show()

使用调色板

sns.pairplot(iris,hue="species",palette="husl")
plt.show()

使用不同的形状

sns.pairplot(iris,hue="species",markers=["o","s","D"])
plt.show()

3.改变对角图

使用KDE

sns.pairplot(iris,diag_kind="kde")
plt.show()

使用回归

sns.pairplot(iris,kind="reg")
plt.show()

改变地的形状，使用参数，使用edgecolor

机器学习算法选择

我们只有1000个数据样本，是分类问题，同时是一个监督学习，因此我们根据图谱里教的方法，使用linearSVC（support vector classification with linear kernel）。注意，linearSVC需要选择正则化方法以缓解过拟合问题；我们这里选择使用最多的L2正则化，并把惩罚系数C设置为10。我们改写一下sklearn中的学习曲线绘制函数，画出训练集和交叉验证集上的得分。

from sklearn.svm import LinearSVC
from sklearn.learning_curve import learning_curve
#绘制学习曲线，以确定模型的状况
def plot_learning_curve(estimator,title,X,y,ylim=None,cv=None,
                       train_sizes=np.linspace(.1,1.0,5)):
    """
    画出data在数据集上的learning curve。
    参数解释
    ----------
    estimator：你的分类器
    title：表格的标题
    X:输入的feature，numpy类型  训练向量 shape(n_samples(样本的数量),n_features（特征的数量）)
    y:输入的target vector     目标相对于X的分类或回归
    ylim:tuple格式的（ymin,ymax），设定图像纵坐标的最低点和最高点
    cv：做交叉验证的时候，数据分成的份数，其中一份作为cv集，其余n-1分作为training（默认为3分） 确认是几折交叉验证
    train_size:array-like,shape(n_ticks),dtype float or int 训练集的绝对或相对值，这些量的样本将会生成larning_curve。如果dtype是float
    它会被视为最大训练集的比例，
    n_jobs：并行运算的个数
    返回值
    train_size_abs:用于生成learning_curve的训练集的样本数。由于重复的输入将会被删除  array shape=(n_unique_ticks)
    train_scores：在训练集上的分数，
    test_scores:在测试集上的分数


    linspace(1,10)将1-10之间等间隔50份
    linspace(1,10,10)将1-10之间等间隔10份


    np.mean():求均值。axis不设置值，对m*n个数求均值，返回一个实数
    axis=0，压缩行，对各列求均值，返回一个1*n矩阵
    axis=1，压缩列，对个哈哈那个求均值，返回一个m*1的矩阵

    fill_between,填充两个函数之间的区域

    """
    plt.figure()
    print(train_sizes)
    train_size,train_scores,test_scores=learning_curve(
    estimator,X,y,cv=5,n_jobs=1,train_sizes=train_sizes)
    train_scores_mean=np.mean(train_scores,axis=1)
    train_scores_std=np.std(train_scores,axis=1)
    test_scores_mean=np.mean(test_scores,axis=1)
    test_scores_std=np.std(test_scores,axis=1)
    plt.fill_between(train_sizes,train_scores_mean-train_scores_std,train_scores_mean+train_scores_std,
                    alpha=0.5,color='r')
    plt.fill_between(train_sizes,test_scores_mean-test_scores_std,test_scores_mean+test_scores_std,
                    alpha=0.5,color='g')
    plt.plot(train_sizes,train_scores_mean,'o-',color='r',
            label='Training score')
    plt.plot(train_sizes,test_scores_mean,'o-',color='g',
            label="cross-validation score")
 #plt.legend()用于标注各种线条的含义 可以调整  可取值为upper center  best
#plt.grid() 是否在图上显示网格
#用于设置坐标轴的显示范围
    plt.xlabel('Training examples')
    plt.ylabel('Score')
    plt.legend(loc='best')
    plt.grid('on')
    if ylim:
        plt.ylim(ylim)
    plt.title(title)
    plt.show()

#少量样本的情况绘出学习曲线
plot_learning_curve(LinearSVC(C=10.0),"linearSVC(C=10.0)",X,y,ylim=(0.8,1.01),
                   train_sizes=np.linspace(.05,0.2,5))

虽然随着训练集的增加，测试误差有一定的升高，但训练误差和测试误差仍然很大。这意味着模型处于过拟合状态。

过拟合如何解决

增大样本量
过拟合的原因是模型太努力的记住训练样本的分布状态，而增大样本容量，可以使得训练集的分布更加具有普适性，噪声对整体的影响下降。

#增大训练样本的容量
plot_learning_curve(LinearSVC(C=10),"linearSVC(C=10)",X,y,ylim=(0.8,1.01),
                   train_sizes=np.linspace(.1,1.0,5))

增大样本的容量可以使得训练误差和测试误差近似相等，虽然训练准确率较过拟合的低，但测试准确率在90%以上，大于过拟合的不到90%，有更好的泛化能力，更贴近现实。增大样本量，最直接的方法是想办法采集相同应用场景下的新数据，如果实在做不到，也可以在已有数据的基础上做一些人工的处理生成新数据（比如在图像识别中，我们可以对图像做旋转，镜像等等），当然，这样做有一定的风险，强烈建议采集真实的数据。

减少特征的量
比如，在之前的数据可视化表明，第11维和14维的数据对识别类别非常有用，我们可以只用它们。

#减少特征的量
plot_learning_curve(LinearSVC(C=10),"LinearSVC(C=10) Feature 11&14",X[:,[11,14]],y,ylim=(0.8,1.01),
                   train_sizes=np.linspace(0.2,1,5))

从上图中也可以看出，过拟合得到了缓解。不过这是我们观察后，手动选出11和14维。那能不能自动进行哪？也可以用遍历的方法进行特征选择（前提是维度不是很高，否则会非常耗时）.

from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest,f_classif
#SelectKBest(f_classif,k=2)会根据Anova F-value选出最好的k=2个特征
plot_learning_curve(Pipeline([("fs",SelectKBest(f_classif,k=2)),#select  2 feature
                              ("svc",LinearSVC(C=10.0))]),
                    "SelectKBest(f_classif,k=2)+LinearSVC(C=10)",
                    X,y,ylim=(0.8,1.0),
                    train_sizes=np.linspace(0.05,0.2,5)
                   )

我们做特征选择，是想降低模型复杂度，而更不容易刻画噪声的分布。从这个角度（1）在多项式模型中减低多项式的次数（2）神经网络中减少层数和每层的节点数（3）SVM中增加RFB-kernel的band-width等方式来降低模型的复杂度。
我们不建议过拟合用减少特征的维数。
一般优先使用下面的方法：

增强正则化作用（这里说的是减少linearSVC中C的值）
正则化是最有效的降低过拟合的方法

plot_learning_curve(LinearSVC(C=0.1),'LinearSVC(C=0.1)',X,y,ylim=(0.8,1),train_sizes=np.linspace(.05,0.2,5))

调整正则化系数，发现确实过拟合现象有一定的缓解，但依旧是哪个问题，我们的系数是自己敲定的，有没有办法可以自动选择参数？可以。我么可以在交叉验证集上做grid-search查找最好的正则化系数（对于大样本的数据，我们依旧需要考虑时间问题，这个过程可能有点慢）：

from sklearn.grid_search import GridSearchCV
estm=GridSearchCV(LinearSVC(),
                 param_grid={"C":[0.001,0.01,0.1,1,10]})
plot_learning_curve(estm,"LinearSVC(AUTO)",
                   X,y,ylim={0.8,1.0},
                   train_sizes=np.linspace(.05,0.2,5))
print "Chosen params on 100 datapoints:%s"%estm.fit(X[:500],y[:500]).best_params_

Chosen params on 100 datapoints:{'C': 0.001}

对于特征选择，我们sklearn.feature_selection中的SelectKBest来选择特征的过程，也提到了在高维的情况下，这个过程太慢了。那我们有别的方法进行特征选择吗？比如说我们的分类器能否甄别到哪些特征对最后的结果有益的？这里有个实际工作中用到的小技巧。
我们知道：

L2正则化，它对于最后的权重影响是，尽量打算权值到每个维度上，不让权重集中到某些维度上，出现权重特别高的维度。
L1正则化，它对于最后的权重影响是，让特征获得的权重稀疏化，也就是对结果影响不那么的特征，干脆就不拿权重。
基于这个理论，我们可以将SVC中L2正则化替换为L1正则化，让其自动甄别哪些权重应该留下权重。

plot_learning_curve(LinearSVC(C=0.1,penalty="l1",dual=False),"LinearSVC(C=0.1)",
                   X,y,ylim=(0.8,1),train_sizes=np.linspace(0.05,0.2,5))

我们看一下最后获得的权重：

est=LinearSVC(C=0.1,penalty="l1",dual=False)
est.fit(X[:450],y[:450])#用450个点进行训练
print "Cofficients learned:%s"%est.coef_
print "Non-zero coefficients:%s"%np.nonzero(est.coef_)[1]

得到结果：

Cofficients learned:[[  0.00000000e+00   0.00000000e+00   0.00000000e+00  -3.22356818e-02
   -1.66067083e-02   4.41395568e-03  -4.32411821e-02   3.85080374e-02
    0.00000000e+00   0.00000000e+00   6.27285423e-02   1.22238201e+00
    1.18925402e-01  -9.43028923e-04   0.00000000e+00   0.00000000e+00
    0.00000000e+00   0.00000000e+00   9.27597250e-02   0.00000000e+00]]
Non-zero coefficients:[ 3  4  5  6  7 10 11 12 13 18]

3 4 5 6 7 10 11 12 13 18维都获得了权重，18维的权重最大，说明它的影响最大。

欠拟合定位与解决
我们在随机生成一份数据[1000*20]的数据（但是分布和之前有变化），重新使用LinearSVC来做分类

#构造一份环形数据
from sklearn.datasets import make_circles
X,y=make_circles(n_samples=1000,random_state=2)
#绘出学习曲线
plot_learning_curve(LinearSVC(C=0.25),'LinearSVC(C=0.25)',X,y,ylim=(.5,1),train_sizes=np.linspace(.1,1,5))

二分类问题，哪怕随机猜测，准确率也有0.5，这比随机猜测高不了多少。
不要盲目收集更多材料，或者调整正则化参数。我们从学习曲线上可以看到，训练集上的训练准确率和交叉验证集上的准确率都很低，这其实对应欠拟合状态。
我们回到我们的数据，可视化看看

f=DataFrame(np.hstack((X,y[:,None])),columns=range(2)+["class"])
_=sns.pairplot(df,vars=[0,1],hue="class",size=3.5)
plt.show()

你会发现数据根本没法现行分割。所以你找更多的数据或调整正则化参数，都是无济于事的。
那如何解决欠拟合？

调整你的特征（找更有效的特征）
我们先对数据做个映射：

#加入原始特征的平方项作为新特征
X_extra=np.hstack((X,X[:,[0]]**2+X[:,[1]]**2))
plot_learning_curve(LinearSVC(C=0.25),"LinearSVC(C=0.25)",X_extra,y,ylim=(0.5,1),train_sizes=np.linspace(.1,1,5))

这说明选用特征对结果的准确率的影响很大，所以选用合适的特征是值得的。

使用更复杂的模型（比如说非线性的核函数）
我们对模型稍微调整一下，用了一个复杂一些的非线性rbf kernel：

from sklearn.svm import SVC
#note:we use the original X without the extra featrue
plot_learning_curve(SVC(C=2.5,kernel='rbf',gamma=1.0),
                    "SVC(C=2.5,kernel='rbf',gamma=1.0"
                    ,X,y,ylim=(0.8,1),train_sizes=np.linspace(.1,1,5))

效果很棒！

关于大数据样本集和高位特征空间

这次我们重新生成一份数据，但是这次，我们生成更多的数据，更高维的特征，而分类的类别数也是 5。

大数据情形下的模型选择和学习曲线
在上面的数据上如果用LinearSVC可能有点慢，在机器学习图谱中推荐使用SGDClassifier。就其本质，这个模型也是一个线性核函数的模型，不同的地方在于，它使用了随机梯度下降做训练，所以每次并没有使用全部的数据，收敛速度回快很多。SGDClassifier对特征的幅度非常敏感，因此在把数据灌给它之前，我们应该对幅度做调整，当然，用sklearn可以很方便的完成这点。
SGDClassifier每次只是用一部分的（mini-batch）做训练，在这种情况下，我们做交叉验证并不是很合适，我们会使用相应的progressIve validation：estimator每次只会拿下一个待训练batch在本次做评估，然后训练完之后，再在这个batch上做一个评估，看看是否有优化。

#生成大样本,高纬度的数据
X,y=make_classification(200000,n_features=200,n_informative=25,n_redundant=0,n_classes=10,class_sep=2,random_state=0)
#用SGDClassifier做训练，并画出batch在训练前后的得分差
from sklearn.linear_model import SGDClassifier
#est = SGDClassifier(penalty="l2", alpha=0.001)
est=SGDClassifier(penalty="l2",alpha=0.001)
progressive_validation_score=[]
train_scores=[]
for datapoint in range(0,199000,1000):
    X_batch=X[datapoint:datapoint+1000]
    y_batch=y[datapoint:datapoint+1000]
    if datapoint>0:
        progressive_validation_score.append(est.score(X_batch,y_batch))
    est.partial_fit(X_batch,y_batch,classes=range(10))
    if datapoint>0:
        train_scores.append(est.score(X_batch,y_batch))

plt.plot(train_scores,label="train score")
plt.plot(progressive_validation_score,label="progressive validation score")
plt.xlabel("Mini-batch")
plt.ylabel("score")
plt.legend(loc="best")
plt.show()

从上图可以看出，当batch大于50，数据上的得分已经变化不是很大了。但是得分都不是很高，我们猜测我们的数据处于欠拟合状态。如果在小的样本集上数据处于欠拟合我们可以使用更复杂的模型，比如把核函数设置为非线性的，但是遗憾的是像rbf核函数是没办法和SGDClassifier是不兼容的。在这里我们可以将SGDClassifier替换掉，使用多层感知神经网络来完成这个任务，我们之所以会想到多层感知神经网，是因为它也是一个随机梯度下降训练的算法，同时也是一个非线性模型。根据机器学习知识图谱，也可以使用核估计（kernel approximation）来完成这个事情。

大数据量下的数据可视化

大样本数据的可视化是一个相对比较麻烦的事情，一般我们都要用到降维的方法先处理特征。我们的数据集去经典的“手写数字集”

#直接从sklearn中load数据集
from sklearn.datasets import load_digits
digits=load_digits(n_class=6)
X=digits.data
y=digits.target
n_samples,n_features=X.shape
print "dataset consit of %d sample with %d feature each"%(n_samples,n_features)

#绘制数字示意图
n_img_per_row=20
img=np.zeros((10*n_img_per_row,10*n_img_per_row))
for i in range(n_img_per_row):
    ix=10*i+1
    for j in range(n_img_per_row):
        iy=10*j+1
        #img[ix:ix+8,iy:iy+8]=X[i*n_img_per_row+j].reshape((8,8))
        #print img[ix:ix + 8, iy:iy + 8].shape
        #print  X[i * n_img_per_row + j].reshape((8, 8))
        img[ix:ix + 8, iy:iy + 8] = X[i * n_img_per_row + j].reshape((8, 8))


plt.imshow(img,cmap=plt.cm.binary)        
plt.xticks([])
plt.yticks([])
_=plt.title("A selection from the 8*8=64-dimensional digits dataset")
plt.show()

我们总共有1083个训练样本，包含手写数字（0，1，2，3，4，5），每个样本图片中的像素点平铺开都是64位，这个维度显然是没办法可视化的。
下面我们基于sklearn示例对特征做降维处理，再可视化。

随机投射

我们先看看将数据随机投射到任意两个维度上的结果：

#import所需的包
from sklearn import (manifold,decomposition,random_projection)
import time
rp=random_projection.SparseRandomProjection(n_components=2,random_state=42)
#定义绘制函数
from matplotlib import offsetbox
def plot_embedding(X,title=None):
    x_min,x_max=np.min(X,0),np.max(X,0)
    X=(X-x_min)/(x_max-x_min)

    plt.figure(figsize=(10,10))
    ax=plt.subplot(111)
    for i in range(X.shape[0]):
        plt.text(X[i,0],X[i,1],str(digits.target[i]),
                color=plt.cm.Set1(y[i]/10.),
                fontdict={'weight':'bold','size':'12'})

    if hasattr(offsetbox,'AnnotationBbpx'):
        #only print thumbnails with matplotlib>1.
        shown_images=np.array([[1.,1.]])#just something big
        for i in range(digits.data.shape[0]):
            dist=np.sum((X[i]-shown_images)**2,1)
            if np.min(dist)<4e-3:
                #do not show points that are too colse 
                continue
            shown_images=np.r_[show_images,[X[i]]]
            imagebox=offsetbox.AnnotionBox(
            offsetbox.OffsetImage(digits.images[i],cmap=plt.cm.gray_r),
            X[i])
            ax.add_artist(iamgebox)
    plt.xticks([]),plt.yticks([])
    if title is not None:
        plt.title(title)

#记录开始的时间
start_time=time.time()
X_projection=rp.fit_transform(X)
plot_embedding(X_projection,"Random projection of the digits(time:%.3fs)"%(time.time()-start_time))
plt.show()

PCA降维

在降维领域有一个非常强大的算法叫做PCA（主成分分析），它将原始的绝大多数信息用维度远低于原始维度的几个主成分表示出来。PCA在数据集效果换不错，我们来看看用PCA对原始特征将维到2维后，原始样本在空间中的分布状况：

from sklearn import (manifold,decomposition,random_projection)
#TruncateeSVD是PCA的一种实现
X_pca=decomposition.TruncatedSVD(n_components=2).fit_transform(X)
#记录时间
start_time=time.time()
plot_embedding(X_pca,"pca of the digits time:%fs"%(time.time()-start_time))
plt.show()

可以看出效果换不错，不同的手写数字在2维平面上，显示出区域集中性。即使他们有一定的区域重合。
如果我们用一些非线性变换来做降维操作，从原始的64维降到2维，效果会更好，比如这里我们用到一个技术叫做t-SNE,sklearn的manifold对其做了实现：

#降维
tsne=manifold.TSNE(n_components=2,init='pca',random_state=0)
start_time=time.time()
X_tsne=tsne.fit_transform(X)
#绘图
plot_embedding(X_tsne,"t-TSNE of the digits time:%.3fs"%(time.time()-start_time))
plt.show()

效果非常惊人，似乎仅仅经过非线性的降维就可以将数据在平面上很好的分开。t-SNE相对于线性的降维需要更多的时间，不太适合在大数据全集上使用。

损失函数的选择

损失函数的选择对于问题的优化和解决，非常重要。我们先看一下各种不同的损失函数

xmin,xmax=-4,4
xx=np.linspace(xmin,xmax,100)
plt.plot([xmin,0,0,xmax],[1,1,0,0],'k-',label='Zero-one loss')
plt.plot(xx,np.where(xx<1,1-xx,0),'g-',label='hinge loss')
plt.plot(xx,np.log2(1+np.exp(-xx)),'r-',label='Log loss')
plt.plot(xx,np.exp(-xx),'c-',label='exponential loss')
plt.plot(xx,-np.minimum(xx,0),'m-',label='Perceptron loss')

plt.ylim(0,8)
plt.legend(loc="upper right")
plt.xlabel(r"Decision function $f(x)$")
plt.ylabel("$L(y,f(x))$")
plt.show()

不同的损失函数有不同的优缺点：

0-1损失函数（zero-one loss）,直接判断分类中判错的个数。但是它是一个非凸函数
hinge loss的健壮性相对较高，（对于异常点，噪声不是很敏感）。但是它没有那么好的概率解释
log损失函数（log-loss）的结果能非常好的表征概率分布。因此在很多场景，尤其是多分类的场景下，如果我们需要知道每个类别的置信度，那么这个损失函数非常合适。缺点是它的健壮性没那么强，相对hinge loss会对噪声更敏感些。
指数损失函数（exponential loss）（Adboost中用到）对离群点非常非常敏感，但是它的形式对boost算法简单而有效。
感知损失（perceptron loss）可以看做是hinge loss的一个变种。hinge loss对于判定边界点的惩罚很高。而感受损失，只要样本的判定类别正确，它就是满意的，而不管其离判定边界的距离。优点是比较简单，缺点是因为不是max-margin boundary，所以得到模型的泛化能力没有hinge loss的强。

你可能感兴趣的:(机器学习实践)

【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【Python】解决AttributeError: ‘NoneType‘ object has no attribute ‘xxxx‘ 云天徽上 Pandas python 开发语言 pandas 机器学习 numpy
【Python】解决AttributeError:'NoneType'objecthasnoattribute'xxxx'报错欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其
【Python报错】成功解决IndentationError: expected an indented block 云天徽上 python运行报错解决记录 pandas python 机器学习 numpy
【Python报错】成功解决IndentationError:expectedanindentedblock欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我
【机器学习笔记】5 机器学习实践 RIKI_1 机器学习机器学习笔记人工智能
数据集划分子集划分训练集（TrainingSet）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（ValidationSet）：也叫做开发集（DevSet），用来做模型选择（modelselection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；测试集（TestSet）：为了测试已经训练好的模型的精确度。三者划分：训练集、验证集、
L1与L2损失函数和正则化的区别山阴少年
本文翻译自文章：DifferencesbetweenL1andL2asLossFunctionandRegularization，如有翻译不当之处，欢迎拍砖，谢谢~ 在机器学习实践中，你也许需要在神秘的L1和L2中做出选择。通常的两个决策为：1)L1范数vsL2范数的损失函数；2)L1正则化vsL2正则化。作为损失函数 L1范数损失函数，也被称为最小绝对值偏差（LAD），最小绝对值误差（LAE
【课程作业_01】国科大2023模式识别与机器学习实践作业 lzl2040 我的笔记 python 机器学习数据集人工智能
国科大2023模式识别与机器学习实践作业作业内容从四类方法中选三类方法，从选定的每类方法中，各选一种具体的方法，从给定的数据集中选一个数据集（MNIST，CIFAR-10，电信用户流失数据集）对这三种方法进行测试比较。第一类方法：:线性方法：线性SVM、LogisticRegression第二类方法:非线性方法：KernelSVM，决策树第三类方法:集成学习：Bagging，Boosting第四类
利用 Apache Spark 和 Databricks 进行企鹅种类预测的机器学习实践入门 AI普惠大师机器学习人工智能
这里演示使用ApacheSpark和Databricks平台进行企鹅物种预测的完整机器学习流程。首先，通过Databricks笔记本下载关于企鹅的特征数据，包括岛屿、喙的长度和深度、鳍状肢长度、体重和种类。然后进行数据清洗，包括删除缺失数据和数据类型转换。随后，数据被分为70%的训练集和30%的测试集，以便于后续的模型训练和评估。在对机器学习的特征工程部分包括了对分类特征的编码和数值特征的规范化处
【机器学习入门】机器学习基础概念与原理代码骑士 #机器学习人工智能
*（本篇文章旨在帮助新手了解机器学习的基础概念和原理，不深入讨论算法及核心公式）目录一、机器学习概念1、什么是机器学习？2、常见机器学习算法和模型3、使用Python编程语言进行机器学习实践4、机器学习的应用领域二、机器学习算法1、有监督学习算法（1）线性回归a.基本概念b.应用案例c.代码示例（2）逻辑回归a.基本概念b.应用案例c.代码示例d.代码示例（3）决策树a.基本概念b.应用案例c.代
Python数据挖掘与机器学习实践技术应用思考的小猴子机器学习 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。为各领域人员量身定制课程内容，让你畅学Python编程及机器学习理论与代码实现方法，从“
Python数据挖掘与机器学习实践技术应用思考的小猴子机器学习遥感 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。掌握Python编程的基础知识与技巧、特征工程（数据清洗、变量降维、特征选择、群优化算法
Python机器学习实践与Kaggle实战（转） weixin_30512785
https://mlnote.wordpress.com/2015/12/16/python%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5%E4%B8%8Ekaggle%E5%AE%9E%E6%88%98-machine-learning-for-kaggle-competition-in-python/Author:MiaoFan(范
一文讲透Python机器学习中的K折交叉验证法数据科学作家机器学习深度学习人工智能数据挖掘 python 数据分析大数据
1.K折交叉验证法的基本原理K折交叉验证是针对验证集法的另外一种改进方式，也广泛用于机器学习实践。具体的操作方式就是首先把样本全集采用分层抽样的方式随机划分为大致相等的K个子集，每个子集包含约1/K的样本，K的取值通常为5或者10，其中10最为常见。然后，每次都把K-1个子集的并集，也就是约（K-1）/K的样本作为训练集，把1/K的样本作为测试集，基于训练集训练获得模型，基于测试集进行评价，计算测
ApacheCN 数据科学译文集 20210313 更新布客飞龙
新增了五个教程：Python和Jupyter机器学习入门零、前言一、Jupyter基础知识二、数据清理和高级机器学习三、Web爬取和交互式可视化Python数据科学和机器学习实践指南零、前言一、入门二、统计和概率回顾和Python实践三、Matplotlib和高级概率概念四、预测模型五、Python机器学习六、推荐系统七、更多数据挖掘和机器学习技术八、处理真实数据九、ApacheSpark-大数据
机器学习（一）：简介打不死的小黑机器学习机器学习机器学习算法数据科学人工智能
机器学习简介这是一篇机器学习的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。适用人群：机器学习初学者，转AI的开发人员。编程语言：Python参考书籍：《Python机器学习实践指南》《机器学习实战》为什么使用PythonPython具有清晰的语法结构,简单易上手。大家也把它称作可执行伪代码（executablepseudo-code）。易于操作纯文本文件。使用广泛，存在大量的开发文档
python自学入门书籍推荐-推荐python机器学习实践的书籍？ weixin_37988176
直接实战的话，其实看ScikitLearn的官网就可以了。不仅有算法的说明，还有相关的参数文档，还有对应的案例分析，也有一些简单数据供参考。从开源的角度上讲，ScikitLearn已经做得非常不错了。遇到相关知识点的话，去翻阅博客或者书籍的对应章节就可以了。机器学习是计算机科学与人工智能的重要分支领域。周志华老师的《机器学习》这本书作为该领域的入门教材，在内容上涵盖机器学习基础知识的很多方面。全书
使用SVM/k-NN模型实现手写数字多分类 - 清华大学《机器学习实践与应用》22春-周作业 Tooru@THU 机器学习 svm 多分类人工智能
0Contents1.1多分类SVM主要思想1.1.1一对一SVM分类（OvO-SVM）1.1.2一对多SVM分类（OvR-SVM）1.2实验设计及伪代码1.2.1实验目的概述1.2.2实验模型整体设计1.2.3多分类伪代码及解释1.2.4完整代码实现1.3测试结果及分析1.4其他实验体会1.1多分类SVM主要思想SVM模型处理分类问题建立在使用一个超平面分割两类数据，根据几何位态分别赋予标签+1
机器学习实践四：文本词频分析 Tangefly 机器学习人工智能
一、文本词频统计importjieba#jieba中文分词库withopen('data/test.txt','r',encoding='UTF-8')asnovelFile:novel=novelFile.read()#获得分隔词列表stopwords=[line.strip()forlineinopen('data/stop.txt','r',encoding='UTF-8').readlin
机器学习实践八：基于线性回归预测波士顿房价 Tangefly 机器学习实践机器学习线性回归人工智能
目录一、线性回归定义二、房价预测流程1.数据集的加载2.神经网络模型的搭建3.网络模型训练和测试三、模型总结一、线性回归定义线性回归（Linearregression）是利用回归方程（函数）对一个或多个自变量（特征值）和因变量（目标值）之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个变量的情况称为多元回归通用公式：二、房价预测流程本实践基于百度飞浆平台（Paddl
Python 数据挖掘与机器学习实践技术应用天青色等烟雨.. Python 机器学习机器学习 python 人工智能
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。采用“理论讲解+案例实战+动手实操+讨论互动”相结合的方式，抽丝剥茧、深入浅出分析机器学
机器学习实践(2.2)LightGBM回归任务赫加青空机器学习 Python 机器学习回归人工智能
前言LightGBM也属于Boosting集成学习模型(还有前面文章的XGBoost)，LightGBM和XGBoost同为机器学习的集大成者。相比越来越流行的深度神经网络，LightGBM和XGBoost能更好的处理表格数据，并具有更强的可解释性，还具有易于调参、输入数据不变性等优势。机器学习实践(1.2)XGBoost回归任务机器学习实践(2.1)LightGBM分类任务❤️本文完整脚本点此链
机器学习实践(2.1)LightGBM分类任务赫加青空机器学习 Python 机器学习分类人工智能
前言LightGBM也属于Boosting集成学习模型(还有前面文章的XGBoost)，LightGBM和XGBoost同为机器学习的集大成者。相比越来越流行的深度神经网络，LightGBM和XGBoost能更好的处理表格数据，并具有更强的可解释性，还具有易于调参、输入数据不变性等优势。机器学习实践(1.2)XGBoost回归任务机器学习实践(2.2)LightGBM回归任务❤️本文完整脚本点此链
七步从入门到精通Python机器学习 qq_38220914 python 机器学习人工智能
本文旨在通过七个步骤，使用全部免费的线上资料，帮助新人获取最基本的Python机器学习知识，直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多，但哪些是最好的？哪些相互补充？怎样的学习顺序才最好？我假定本文的读者不是以下任何领域的专家：▪机器学习▪Python▪任何Python的机器学习、科学计算、数据分析库如果你有前两个领域其一或全部的基础知识，可能
免费教材丨第55期：Python机器学习实践指南、Tensorflow 实战Google深度学习框架人工智能爱好者俱乐部
小编说时间过的好快啊，小伙伴们是不是都快进入寒假啦？但是学习可不要落下哦！本期教材本期为大家发放的教材为：《Python机器学习实践指南》、《Tensorflow实战Google深度学习框架》两本书，大家可以根据自己的需要阅读哦！《Python机器学习实践指南》内容简介机器学习是近年来渐趋热门的一个领域，同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。本书结合了机器学习和Py
人工智能-softmax回归白云如幻人工智能深度学习 AIGC 人工智能回归数据挖掘
回归可以用于预测多少的问题。比如预测房屋被售出价格，或者棒球队可能获得的胜场数，又或者患者住院的天数。事实上，我们也对分类问题感兴趣：不是问“多少”，而是问“哪一个”：某个电子邮件是否属于垃圾邮件文件夹？某个用户可能注册或不注册订阅服务？某个图像描绘的是驴、狗、猫、还是鸡？某人接下来最有可能看哪部电影？通常，机器学习实践者用分类这个词来描述两个有微妙差别的问题：我们只对样本的“硬性”类别感兴趣，即
基于Spark的机器学习实践 (七) - 回归算法 weixin_33947521 大数据数据结构与算法人工智能
0相关源码1回归分析概述1.1回归分析介绍◆回归与分类类似，只不过回归的预测结果是连续的,而分类的预测结果是离散的◆如此,使得很多回归与分类的模型可以经过改动而通用◆因此对于回归和分类中基本原理相同或类似的模型,不再赘述1.2Spark中集成的回归算法◆Spark实现的回归算法很丰富,有很多模型同样可以用于分类官方文档回归算法列表1.3回归与分类的区别与联系2线性回归算法概述2.1线性回归简介◆在
什么是MLOps？为什么要使用MLOps进行机器学习实践楚天谈商讯机器学习人工智能 python
随着数字化和计算能力的发展，机器学习（MachineLearning）技术在提高企业生产力方面所涌现的潜力越来越被大家所重视，然而很多机器学习的模型及应用在实际的生产环境并未达到预期，大量的ML项目被证明是失败的。从机器学习的发展历程来看，早期ML社区广泛关注的是ML模型的构建，确保模型能在预定义的测试数据集上取得较好的表现，但对于如何让模型从实验室走向用户的桌面，并未大家所关注。机器学习的生命周
机器学习中模型优化不得不思考的几个问题婉妃
本文根据美团点评算法工程师胡淏4月22日在“携程技术沙龙”上的分享整理而成。文字综合了“携程技术中心”微信公众号的版本和胡淏本人在微博上发表的文章，并有少量编辑加工。图1机器学习工程师的知识图谱图1列出了我认为一个成功的机器学习工程师需要关注和积累的点。机器学习实践中，我们平时都在积累自己的“弹药库”：分类、回归、无监督模型、Kaggle上面特征变换的黑魔法、样本失衡的处理方法、缺失值填充……这些
逻辑回归揭秘: 从分类原理到机器学习实践我是小白呀 2024 Python 最新基础教程 #机器学习机器学习逻辑回归分类
机器学习第五课逻辑回归概述逻辑回归应用领域逻辑回归vs线性回归基本定义输出类型函数关系误差计算使用场景数据分布逻辑回归的数学原理Sigmoid函数多数几率似然函数逻辑回归损失函数正则化L1正则化L2正则化L1vsL2实例标准化为什么要标准化?如何进行标准化?梯度下降工作原理梯度下降的公式梯度下降的变种学习率前向传播vs反向传播前向传播反向传播手把手计算回归前向传播反向传播参数更新实战逻辑回归预测乳
机器学习实践入门（一）：神经网络入门橘の月半喵机器学习
本文参考自深蓝学院课程，所记录笔记，仅供自学记录使用这里写目录标题逻辑回归二分类问题思路一：构建超平面分类思路二：估计样本的分布成本函数的优化逻辑回归算法流程感知机感知机成本函数感知机算法流程神经网络神经元的解释多层神经网络前向传播神经元前向传播的向量形式反向传播梯度下降权重求导输出层权重求导推广：中间层权重求导BP算法核心公式偏置求导输出层偏执求导：对隐藏层偏置求偏导数反向传播整理总结BP算法激
python线性回归模型预处理_Python机器学习算法：线性回归 weixin_39819327 python线性回归模型预处理
作者|VagifAliyev编译|VK来源|TowardsDataScience线性回归可能是最常见的算法之一，线性回归是机器学习实践者必须知道的。这通常是初学者第一次接触的机器学习算法，了解它的操作方式对于更好地理解它至关重要。所以，简单地说，让我们来分解一下真正的问题：什么是线性回归？线性回归定义线性回归是一种有监督的学习算法，旨在采用线性方法来建模因变量和自变量之间的关系。换句话说，它的目标
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1