CtrlZ1

kaggle入门Digit Recognizer

用的是卷积神经网络CNN，正常的卷积大家应该都有所了解，这里为了提高准确率，针对这个提目加了数据强化的操作，提交kaggle准确率从原来的98.957%达到了99.285%

下面是我的具体代码流程：

引入数据：

import tensorflow as tf
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import math
from tensorflow.python.keras.preprocessing.image import ImageDataGenerator,array_to_img,img_to_array,load_img
#引入数据
file=pd.read_csv('../data/train.csv')

#每个批次的大小
batch_size=50

初始化权值、偏置值：

#初始化权值
def weight_variable(shape,name):
    initial=tf.truncated_normal(shape,stddev=0.1)#生成一个截断正态分布
    return tf.Variable(initial,name=name)

#初始化偏置
def bias_variable(shape,name):
    initial=tf.constant(0.1,shape=shape)
    return tf.Variable(initial,name=name)

卷积层池化层：

#卷积层
def conv2d(x,W):
    #2d是二维的意思
    #x是一个tensor，形状是[batch,in_height,in_width,in_channels]NHWC关系，分别是批次大小(本例batch_size=100)，图片高度，图片宽度，通道数(黑白照片是1，彩色是3)
    #w是一个滤波器，tensor，形状是[filter_height,filter_width,in_channels,out_channels]，滤波器长，宽，输入和输出通道数
    #步长参数，strides[0]=strides[3]=1,strides[1]代表x方向的步长，strides[2]代表y方向的步长
    #padding:一个字符串，要么是'SAME'要么是'VALID'，对应两种卷积方法，前者补零,后者不会超出平面外部
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

#池化层
def max_pool_2x2(x):#这里定义的最大池化的方式，他会取2*2窗口里最大的值
    #ksize[1,x,y,1]
    #ksize是窗口大小，索引0，3对应的值必须是1，因为是2*2，所以索引1，2对应的值为2,步长对应也是2
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

模型建立

#命名空间
with tf.name_scope('input'):
    #定义两个占位符
    x=tf.placeholder(tf.float32,[None,784],name='x-input')#28*28
    y=tf.placeholder(tf.float32,[None,10],name='y-input')
    with tf.name_scope('x_image'):
        # 改变x的格式，转为4d的向量[batch,in_height,in_width,in_channels]
        x_image = tf.reshape(x, [-1, 28, 28, 1],name='x_image')  # -1是指个数不确定 1是通道数


with tf.name_scope('Conv1'):
    #初始化第一个卷积层的权值和偏置
    # 多少个卷积核返回多少个矩阵
    with tf.name_scope('W_conv1'):
        W_conv1=weight_variable([5,5,1,32],name='W_conv1')#5*5的采样窗口,32个卷积核从1个平面抽取特征 1的意思是通道数，如果是彩色则为3
    with tf.name_scope('b_conv1'):
        b_conv1=bias_variable([32],name='b_conv1')#每一个卷积核一个偏置值

    #把x_image和权值向量进行卷积，再加上偏置值，然后应用于relu激活函数
    with tf.name_scope('conv2d_1'):
        h_conv1=tf.nn.relu(conv2d(x_image,W_conv1)+b_conv1)#[?,28,28,32]
    with tf.name_scope('h_pool1'):
        h_pool1=max_pool_2x2(h_conv1)#进行max—pooling #[?,14,14,32]

with tf.name_scope('Conv2'):
        #初始化第二个卷积层的权值和偏置
    with tf.name_scope('W_conv2'):
        W_conv2=weight_variable([5,5,32,64],name='W_conv2')#5*5的采样窗口,64个卷积核从32个平面抽取特征 因为前面32个卷积核生成了32个平面图。
    with tf.name_scope('b_conv2'):
        b_conv2=bias_variable([64],name='b_conv2')#每一个卷积核一个偏置值

        #把x_image和权值向量进行卷积，再加上偏置值，然后应用于relu激活函数
    with tf.name_scope('conv2d_2'):
        h_conv2=tf.nn.relu(conv2d(h_pool1,W_conv2)+b_conv2)
    with tf.name_scope('h_pool2'):
        h_pool2=max_pool_2x2(h_conv2)#进行max—pooling

#多少个卷积核返回多少个矩阵(feature map)哈哈
#因为我们用的是SAME，不是VALID，所以会自动填充，所以卷积之后不是24*24而依然是28*28，这样池化后才是14*14
#28*28的图片第一次卷积后还是28*28，第一次池化后变为14*14
#第二次卷积后，还是14*14，第二次池化后，7*7
#通过上面操作后得到64张7*7的平面
with tf.name_scope('fc1'):
    with tf.name_scope('W_fc1'):
        #初始化第一个全连接层的权值和偏置值
        W_fc1=weight_variable([7*7*64,1024],name='W_fc1')#上一层有7*7*64个神经元，全连接层有1024个神经元 这个数是自己随机定义的
    with tf.name_scope('b_fc1'):
        b_fc1=bias_variable([1024],name='b_fc1')#1024个节点
    with tf.name_scope('h_pool2_flat'):
        #把池化层2的输出扁平化为1维 批次的100所以现在的形状是100*7*7*64，转化成1维
        h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64],name='h_pool2_flat')
    with tf.name_scope('wx_plus_b1'):
        #求第一个全连接层的输出⭐
        h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1)+b_fc1)
        #用keep_prob来表示神经元的输出概率 就是之前用到的dropout
    with tf.name_scope('keep_prob'):
        keep_prob=tf.placeholder(tf.float32,name='keep_prob')
    with tf.name_scope('h_fc1_drop'):
        h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob,name='h_fc1_drop')
with tf.name_scope('fc2'):
    with tf.name_scope('W_fc2'):
        #初始化第二个全连接层
        W_fc2=weight_variable([1024,10],name='W_fc2')#10个输出
    with tf.name_scope('b_fc2'):
        b_fc2=bias_variable([10],name='b_fc2')
    with tf.name_scope('softmax'):
        #计算输出
        prediction=tf.matmul(h_fc1_drop,W_fc2)+b_fc2
#pre_y
pre_y=tf.arg_max(prediction,1)
#后面就都一样了，
with tf.name_scope('cross_entropy'):
    #交叉熵代价函数
    cross_entropy=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=prediction),name='cross_entropy')
    tf.summary.scalar('cross_entropy',cross_entropy)
with tf.name_scope('train'):
    #使用AdamOptimizer进行优化
    train_step=tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
with tf.name_scope('accuracy'):
    with tf.name_scope('correct_prediction'):
        #结果存放在一个布尔列表中
        correct_prediction=tf.equal(tf.argmax(prediction,1),tf.argmax(y,1))
    with tf.name_scope('accuracy'):
        #求准确率
        accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
        tf.summary.scalar('accuracy',accuracy)
#合并所有的summary
merged=tf.summary.merge_all()

上面就是进行了两次卷积—池化的操作，然后进行了两次全连接操作。

然后我们开始对引入的数据进行一些操作，然后输入到我们上面定义的这个网络里。

独热编码

with tf.Session() as sess:
    def dense_to_one_hot(labels_dense, num_classes):
        # 获取个数
        num_labels = labels_dense.shape[0]
        # [0,1*类别数，2*类别数，……]
        index_offset = np.arange(num_labels) * num_classes
        # 空白操作板   zeros[样本数,类别数]
        labels_one_hot = np.zeros((num_labels, num_classes))
        # 语言不好解释，看网址：https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.flat.html
        labels_one_hot.flat[index_offset + labels_dense.ravel()] = 1
        return labels_one_hot
    saver = tf.train.Saver()
    sess.run(tf.global_variables_initializer())

    total_y = file['label'].values
    file.drop('label', axis=1, inplace=True)
    total_x = file.values
    total_y = dense_to_one_hot(total_y, 10)

归一化

total_x = np.multiply(total_x, 1.0 / 255)

划分训练集测试集并计算批次

#先将total_x转化为图像格式
    total_x_image=sess.run(x_image,feed_dict={x:total_x})
    total_x, test_x, total_y, test_y = train_test_split(total_x_image, total_y, test_size=0.1)
    #total_x和用于测试的test_x都是四维的了。
    
    # 计算一共多少个批次
    batch_size_test = math.floor(total_x.shape[0] / batch_size)

数据增强

# 使用数据增强算法
    datagen = ImageDataGenerator(
        featurewise_center=False,  # set input mean to 0 over the dataset
        samplewise_center=False,  # set each sample mean to 0
        featurewise_std_normalization=False,  # divide inputs by std of the dataset
        samplewise_std_normalization=False,  # divide each input by its std
        zca_whitening=False,  # apply ZCA whitening
        rotation_range=10,  # randomly rotate images in the range (degrees, 0 to 180)
        zoom_range=0.1,  # Randomly zoom image
        width_shift_range=0.1,  # randomly shift images horizontally (fraction of total width)
        height_shift_range=0.1,  # randomly shift images vertically (fraction of total height)
        horizontal_flip=False,  # randomly flip images
        vertical_flip=False)  # randomly flip images


    # 获取一个batch
    def next_batch(dataX,dataY):
        xx=datagen.flow(dataX, dataY, batch_size=batch_size,shuffle=True, seed=None, save_to_dir=None, save_prefix='',
                                     save_format='png')[0]
        return xx[0],xx[1]
        # for batch_num in range(batch_size_test):
        #     start_index = batch_num * batch_size
        #     end_index = min((batch_num + 1) * batch_size, len(total_x))
        #     yield data[start_index:end_index]

    total_x=np.array(total_x)
    total_y=np.array(total_y)    
    test_x = np.array(test_x)
    test_y = np.array(test_y)

    train_writer=tf.summary.FileWriter('../logs/train',sess.graph)
    test_writer=tf.summary.FileWriter('../logs/test',sess.graph)

训练并测试

    for epoch in range(50):
        # batched = next_batch(list(zip(total_x_image, total_y)))
        for i in range(batch_size_test):  # 批次
            #batch_xs, batch_ys = zip(*batch)
            # batch_xs = np.array(batch_xs)
            #batch_ys = np.array(batch_ys)
            batch_xs,batch_ys=next_batch(total_x[i*batch_size:(i+1)*batch_size],total_y[i*batch_size:(i+1)*batch_size])
            # 对于y标签进行独热编码处理
            # batch_ys = dense_to_one_hot(batch_ys, 10)

            sess.run(train_step,feed_dict={x_image:batch_xs,y:batch_ys,keep_prob:0.7})
            #记录训练集计算的参数
            summary=sess.run(merged,feed_dict={x_image:batch_xs,y:batch_ys,keep_prob:1.0})
            train_writer.add_summary(summary,epoch)

        acc = sess.run(accuracy, feed_dict={x_image: test_x, y: test_y, keep_prob: 1.0})
        print("Iter "+str(epoch)+", Testing Accuracy="+str(acc))
    saver.save(sess,r'../model/final_model')
    file = pd.read_csv("../data/test.csv")
    #28000条数据，4000一次
    results=[]
    for i in range(7):
        total_x = file.values[i*4000:(i+1)*4000]
        pred = sess.run(pre_y, feed_dict={x: total_x, keep_prob: 1.0})
        results+=pred.ravel().tolist()
    data = {
        "ImageId": [i for i in range(1, 28001)],
        "Label": results
    }
    pd.DataFrame(data).to_csv(r"E:\TensorFlow\大数据之路\kaggle\Digit_Recongnizer\result\res1.csv",
                              index=False)

把上面的代码按照顺序复制就可以得到完整代码，这里不贴出来了。

其实还可以提高准确率，就是使用MNIST数据集，这样样本就多了两倍！让我们看一下全部代码吧：（其实就是相比上面代码加了几行引入MNIST数据）

import tensorflow as tf
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import math
from tensorflow.python.keras.preprocessing.image import ImageDataGenerator,array_to_img,img_to_array,load_img
from tensorflow.examples.tutorials.mnist import input_data
#引入数据
file=pd.read_csv('../data/train.csv')

#每个批次的大小
batch_size=50

#初始化权值
def weight_variable(shape,name):
    initial=tf.truncated_normal(shape,stddev=0.1)#生成一个截断正态分布
    return tf.Variable(initial,name=name)

#初始化偏置
def bias_variable(shape,name):
    initial=tf.constant(0.1,shape=shape)
    return tf.Variable(initial,name=name)
#卷积层
def conv2d(x,W):
    #2d是二维的意思
    #x是一个tensor，形状是[batch,in_height,in_width,in_channels]NHWC关系，分别是批次大小(本例batch_size=100)，图片高度，图片宽度，通道数(黑白照片是1，彩色是3)
    #w是一个滤波器，tensor，形状是[filter_height,filter_width,in_channels,out_channels]，滤波器长，宽，输入和输出通道数
    #步长参数，strides[0]=strides[3]=1,strides[1]代表x方向的步长，strides[2]代表y方向的步长
    #padding:一个字符串，要么是'SAME'要么是'VALID'，对应两种卷积方法，前者补零,后者不会超出平面外部
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

#池化层
def max_pool_2x2(x):#这里定义的最大池化的方式，他会取2*2窗口里最大的值
    #ksize[1,x,y,1]
    #ksize是窗口大小，索引0，3对应的值必须是1，因为是2*2，所以索引1，2对应的值为2,步长对应也是2
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

#命名空间
with tf.name_scope('input'):
    #定义两个占位符
    x=tf.placeholder(tf.float32,[None,784],name='x-input')#28*28
    y=tf.placeholder(tf.float32,[None,10],name='y-input')
    with tf.name_scope('x_image'):
        # 改变x的格式，转为4d的向量[batch,in_height,in_width,in_channels]
        x_image = tf.reshape(x, [-1, 28, 28, 1],name='x_image')  # -1是指个数不确定 1是通道数


with tf.name_scope('Conv1'):
    #初始化第一个卷积层的权值和偏置
    # 多少个卷积核返回多少个矩阵
    with tf.name_scope('W_conv1'):
        W_conv1=weight_variable([5,5,1,32],name='W_conv1')#5*5的采样窗口,32个卷积核从1个平面抽取特征 1的意思是通道数，如果是彩色则为3
    with tf.name_scope('b_conv1'):
        b_conv1=bias_variable([32],name='b_conv1')#每一个卷积核一个偏置值

    #把x_image和权值向量进行卷积，再加上偏置值，然后应用于relu激活函数
    with tf.name_scope('conv2d_1'):
        h_conv1=tf.nn.relu(conv2d(x_image,W_conv1)+b_conv1)#[?,28,28,32]
    with tf.name_scope('h_pool1'):
        h_pool1=max_pool_2x2(h_conv1)#进行max—pooling #[?,14,14,32]

with tf.name_scope('Conv2'):
        #初始化第二个卷积层的权值和偏置
    with tf.name_scope('W_conv2'):
        W_conv2=weight_variable([5,5,32,64],name='W_conv2')#5*5的采样窗口,64个卷积核从32个平面抽取特征 因为前面32个卷积核生成了32个平面图。
    with tf.name_scope('b_conv2'):
        b_conv2=bias_variable([64],name='b_conv2')#每一个卷积核一个偏置值

        #把x_image和权值向量进行卷积，再加上偏置值，然后应用于relu激活函数
    with tf.name_scope('conv2d_2'):
        h_conv2=tf.nn.relu(conv2d(h_pool1,W_conv2)+b_conv2)
    with tf.name_scope('h_pool2'):
        h_pool2=max_pool_2x2(h_conv2)#进行max—pooling

#多少个卷积核返回多少个矩阵(feature map)哈哈
#因为我们用的是SAME，不是VALID，所以会自动填充，所以卷积之后不是24*24而依然是28*28，这样池化后才是14*14
#28*28的图片第一次卷积后还是28*28，第一次池化后变为14*14
#第二次卷积后，还是14*14，第二次池化后，7*7
#通过上面操作后得到64张7*7的平面
with tf.name_scope('fc1'):
    with tf.name_scope('W_fc1'):
        #初始化第一个全连接层的权值和偏置值
        W_fc1=weight_variable([7*7*64,1024],name='W_fc1')#上一层有7*7*64个神经元，全连接层有1024个神经元 这个数是自己随机定义的
    with tf.name_scope('b_fc1'):
        b_fc1=bias_variable([1024],name='b_fc1')#1024个节点
    with tf.name_scope('h_pool2_flat'):
        #把池化层2的输出扁平化为1维 批次的100所以现在的形状是100*7*7*64，转化成1维
        h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64],name='h_pool2_flat')
    with tf.name_scope('wx_plus_b1'):
        #求第一个全连接层的输出⭐
        h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1)+b_fc1)
        #用keep_prob来表示神经元的输出概率 就是之前用到的dropout
    with tf.name_scope('keep_prob'):
        keep_prob=tf.placeholder(tf.float32,name='keep_prob')
    with tf.name_scope('h_fc1_drop'):
        h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob,name='h_fc1_drop')
with tf.name_scope('fc2'):
    with tf.name_scope('W_fc2'):
        #初始化第二个全连接层
        W_fc2=weight_variable([1024,10],name='W_fc2')#10个输出
    with tf.name_scope('b_fc2'):
        b_fc2=bias_variable([10],name='b_fc2')
    with tf.name_scope('softmax'):
        #计算输出
        prediction=tf.matmul(h_fc1_drop,W_fc2)+b_fc2
#pre_y
pre_y=tf.arg_max(prediction,1)
#后面就都一样了，
with tf.name_scope('cross_entropy'):
    #交叉熵代价函数
    cross_entropy=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=prediction),name='cross_entropy')
    tf.summary.scalar('cross_entropy',cross_entropy)
with tf.name_scope('train'):
    #使用AdamOptimizer进行优化
    train_step=tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
with tf.name_scope('accuracy'):
    with tf.name_scope('correct_prediction'):
        #结果存放在一个布尔列表中
        correct_prediction=tf.equal(tf.argmax(prediction,1),tf.argmax(y,1))
    with tf.name_scope('accuracy'):
        #求准确率
        accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
        tf.summary.scalar('accuracy',accuracy)
#合并所有的summary
merged=tf.summary.merge_all()

with tf.Session() as sess:
    def dense_to_one_hot(labels_dense, num_classes):
        # 获取个数
        num_labels = labels_dense.shape[0]
        # [0,1*类别数，2*类别数，……]
        index_offset = np.arange(num_labels) * num_classes
        # 空白操作板   zeros[样本数,类别数]
        labels_one_hot = np.zeros((num_labels, num_classes))
        # 语言不好解释，看网址：https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.flat.html
        labels_one_hot.flat[index_offset + labels_dense.ravel()] = 1
        return labels_one_hot
    saver = tf.train.Saver()
    sess.run(tf.global_variables_initializer())

    total_y = file['label'].values
    file.drop('label', axis=1, inplace=True)
    total_x = file.values
    total_y = dense_to_one_hot(total_y, 10)
    # print(total_x.shape)
    # print(total_y.shape)
    mnist = input_data.read_data_sets("MNIST_data", one_hot=True)  # 独热编码
    total_x1=mnist.train.images
    total_y1 = mnist.train.labels
    # print(total_x1.shape)
    # print(total_y1.shape)
    #合并MNIST_data和题中所给数据集
    total_x=np.concatenate((total_x,total_x1),axis=0)
    total_y=np.concatenate((total_y,total_y1),axis=0)
    # print(total_x.shape)
    # print(total_y.shape)
    total_x = np.multiply(total_x, 1.0 / 255)

    #先将total_x转化为图像格式
    total_x_image=sess.run(x_image,feed_dict={x:total_x})
    total_x, test_x, total_y, test_y = train_test_split(total_x_image, total_y, test_size=0.1)
    #total_x和用于测试的test_x都是四维的了。

    # 计算一共多少个批次
    batch_size_test = math.floor(total_x.shape[0] / batch_size)
    # print(batch_size_test)
    # 对训练数据total_x,total_y增强数据
    # 使用数据增强算法
    datagen = ImageDataGenerator(
        featurewise_center=False,  # set input mean to 0 over the dataset
        samplewise_center=False,  # set each sample mean to 0
        featurewise_std_normalization=False,  # divide inputs by std of the dataset
        samplewise_std_normalization=False,  # divide each input by its std
        zca_whitening=False,  # apply ZCA whitening
        rotation_range=10,  # randomly rotate images in the range (degrees, 0 to 180)
        zoom_range=0.1,  # Randomly zoom image
        width_shift_range=0.1,  # randomly shift images horizontally (fraction of total width)
        height_shift_range=0.1,  # randomly shift images vertically (fraction of total height)
        horizontal_flip=False,  # randomly flip images
        vertical_flip=False)  # randomly flip images


    # 获取一个batch
    def next_batch(dataX,dataY):
        xx=datagen.flow(dataX, dataY, batch_size=batch_size,shuffle=True, seed=None, save_to_dir=None, save_prefix='',
                                     save_format='png')[0]
        return xx[0],xx[1]
        # for batch_num in range(batch_size_test):
        #     start_index = batch_num * batch_size
        #     end_index = min((batch_num + 1) * batch_size, len(total_x))
        #     yield data[start_index:end_index]
    total_x=np.array(total_x)
    total_y=np.array(total_y)
    test_x = np.array(test_x)
    test_y = np.array(test_y)

    train_writer=tf.summary.FileWriter('../logs/train',sess.graph)
    test_writer=tf.summary.FileWriter('../logs/test',sess.graph)
    # print(total_x.shape)
    # print(total_y.shape)
    # print(total_x[0*128:(0+1)*128].shape)
    for epoch in range(50):
        # batched = next_batch(list(zip(total_x_image, total_y)))
        for i in range(batch_size_test):  # 批次
            #batch_xs, batch_ys = zip(*batch)
            # batch_xs = np.array(batch_xs)
            #batch_ys = np.array(batch_ys)
            batch_xs,batch_ys=next_batch(total_x[i*batch_size:(i+1)*batch_size],total_y[i*batch_size:(i+1)*batch_size])
            # 对于y标签进行独热编码处理
            # batch_ys = dense_to_one_hot(batch_ys, 10)

            sess.run(train_step,feed_dict={x_image:batch_xs,y:batch_ys,keep_prob:0.7})
            #记录训练集计算的参数
            summary=sess.run(merged,feed_dict={x_image:batch_xs,y:batch_ys,keep_prob:1.0})
            train_writer.add_summary(summary,epoch)

        acc = sess.run(accuracy, feed_dict={x_image: test_x, y: test_y, keep_prob: 1.0})
        print("Iter "+str(epoch)+", Testing Accuracy="+str(acc))
    saver.save(sess,r'../model/final_model')
    file = pd.read_csv("../data/test.csv")
    #28000条数据，4000一次
    results=[]
    for i in range(7):
        total_x = file.values[i*4000:(i+1)*4000]
        pred = sess.run(pre_y, feed_dict={x: total_x, keep_prob: 1.0})
        results+=pred.ravel().tolist()
    data = {
        "ImageId": [i for i in range(1, 28001)],
        "Label": results
    }
    pd.DataFrame(data).to_csv(r"E:\TensorFlow\大数据之路\kaggle\Digit_Recongnizer\result\res1.csv",
                              index=False)

推荐算法学习记录2.2——kaggle数据集的动漫电影数据集推荐算法实践——基于内容的推荐算法、协同过滤推荐萱仔学习自我记录推荐算法学习 python matplotlib 开发语言
1、基于内容的推荐：这种方法根据项的相关信息（如描述信息、标签等）和用户对项的操作行为（如评论、收藏、点赞等）来构建推荐算法模型。它可以直接利用物品的内容特征进行推荐，适用于内容较为丰富的场景。‌#1.基于内容的推荐算法fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimport
免费GPU平台教程，助力你的AI, pytorch tensorflow 支持cuda zhangfeng1133 人工智能 pytorch tensorflow
Colab：https://drive.google.com/drive/home阿里天池实验室：https://tianchi.aliyun.com/60个小时gputianchi.aliyun.com/notebook-ai/天池实验室_实时在线的数据分析协作工具，享受免费计算资源-阿里云天池移动九天：https://jiutian.10086.cn/edu/#/homekagglekaggl
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
李沐《动手学深度学习》课程笔记：15 实战：Kaggle房价预测 + 课程竞赛：加州2020年房价预测非文的NLP修炼笔记 #李沐《动手学深度学习》课程笔记深度学习人工智能
15实战：Kaggle房价预测+课程竞赛：加州2020年房价预测1.访问和读取数据集importhashlibimportosimporttarfileimportzipfileimportrequestsDATA_HUB=dict()DATA_URL='http://d2l_data.s3-accelerate.amazonaws.com/'defdownload(name,cache_dir=
Kaggle Intermediate ML Part Two 卢延吉 New Developer 数据 (Data)ML &ME &GPT Data ML
CategoricalVariablesCategoricalvariables,alsoknownasqualitativevariables,areafundamentalconceptinstatisticsanddataanalysis.Here'sabreakdowntohelpyouunderstandthem:Whatarethey?Categoricalvariablesrepre
【工业智能】VSB Power Line Fault Detection-chapter1 凭轩听雨199407 学习 python 制造数据挖掘
VSBPowerLineFaultDetection-chapter1backgrounddataset数据介绍信号处理方法EDAtrainfeatureengineeringmodeltraintry信息来源：KaggleCompetition:VSBPowerLineFaultDetectionbackground中压高架线路绵延上百公里来为城市提供电力。因为距离很远，所以人工检测那些没有立即
【工业智能】VSB Power Line Fault Detection-chapter2 凭轩听雨199407 数据挖掘
工业智能】VSBPowerLineFaultDetection-chapter2关键信息依赖版本信息名词术语tricks信息来源：KaggleCompetition:VSBPowerLineFaultDetection分析冠军代码。源文件URL：https://www.kaggle.com/code/mark4h/vsb-1st-place-solution关键信息LGB标准5折验证9个特征所有特
机器学习网格搜索超参数优化实战(随机森林) ##4 恒c 机器学习随机森林人工智能
文章目录基于Kaggle电信用户流失案例数据（可在官网进行下载）数据预处理模块时序特征衍生第一轮网格搜索第二轮搜索第三轮搜索第四轮搜索第五轮搜索基于Kaggle电信用户流失案例数据（可在官网进行下载）导入库#基础数据科学运算库importnumpyasnpimportpandasaspd#可视化库importseabornassnsimportmatplotlib.pyplotasplt#时间模块
多元统计分析课程论文-聚类效果评价 talle2021 数据分析机器学习聚类数据挖掘机器学习
数据集来源：UnsupervisedLearningonCountryData(kaggle.com)代码参考：Clustering:PCA|K-Means-DBSCAN-Hierarchical||Kaggle基于特征合成降维和主成分分析法降维的国家数据集聚类效果评价目录1.特征合成降维2.PCA降维3.K-Means聚类3.1对特征合成降维的数据聚类分析3.2对PCA降维的数据聚类分析摘要：本
R语言课程论文-飞机失事数据可视化分析 talle2021 数据分析 r语言数据分析数据可视化
数据来源：AirplaneCrashesSince1908(kaggle.com)代码参考：ExploringhistoricAirPlanecrashdata|Kaggle数据指标及其含义指标名含义Date事故发生日期(年-月-日)Time当地时间，24小时制，格式为hh:mmLocation事故发生的地点Operator航空公司或飞机的运营商Flight由飞机操作员指定的航班号Route事故前
Dataframe型数据分析技巧汇总我叫杨傲天学习笔记机器学习数据分析数据挖掘
Kaggle如何针对少量数据集比赛的打法。数据降维的几种方法HF.075|时间序列趋势性分析方法汇总机器学习必须了解的7种交叉验证方法（附代码）这个图！Python也能一键绘制了，而且样式更多..散点图，把散点图画出花来综述：机器学习中的模型评价、模型选择与算法选择！表格任务中的深度学习模型性能比较再见Onehot！KaggleMaster的上分神操作！特征重要性评估方法之排列重要性
Task 11 XGBoost 算法分析与案例调参实例沫2021
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速
关于商店销售量的数据处理小问题（Python）不期而遇__ python pandas 数据分析大数据
通过学校举行的某次学科竞赛，我接触到了kaggle上的一道题：StoreSales-TimeSeriesForecasting。由于题主资质尚浅，本文将对前期数据处理的一些小问题做出解答，不涉及后续更难的问题。此处放原题链接：StoreSales-TimeSeriesForecasting题主也是看了很多的资料，也看到了CSDN上另外一位大佬写的文章，收获颇多，此处也放一下链接：Kaggle实战：
学习笔记 2019-04-30 段勇_bf97
HousePrices-bagging_xgboost+lasso+ridgeKaggle入門級賽題：房價預測FFMPEG视音频编解码零基础学习方法35岁程序员的独家面试经历公司名称公司介绍薪水车辆工程专业33岁简历有些传感器方面的东西20k-35k非渣硕是如何获得百度、京东双SP一些面试经验20k-40k吴以均的简历一个大牛的简历北京航空航天大学毕业生的简历厦门大学软件学院毕业生的简历名称介绍H
数据分析基础之《pandas（8）—综合案例》 csj50 机器学习数据分析
一、需求1、现在我们有一组从2006年到2016年1000部最流行的电影数据数据来源：https://www.kaggle.com/damianpanek/sunday-eda/data2、问题1想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？3、问题2对于这一组电影数据，如果我们想看Rating、Runtime(Minutes)的分布情况，应该如何呈现数据？4、问题3对于这
XGBoost算法小森( ﹡ˆoˆ﹡ ) 机器学习算法算法人工智能机器学习
XGBoost在机器学习中被广泛应用于多种场景，特别是在结构化数据的处理上表现出色，XGBoost适用于多种监督学习任务，包括分类、回归和排名问题。在数据挖掘和数据科学竞赛中，XGBoost因其出色的性能而被频繁使用。例如，在Kaggle平台上的许多获奖方案中，XGBoost都发挥了重要作用。此外，它在处理缺失值和大规模数据集上也有很好的表现。XGBoost是一种基于梯度提升决策树（GBDT）的算
Kaggle Intro Model Validation and Underfitting and Overfitting 卢延吉 New Developer 数据 (Data)ML &ME &GPT 机器学习
ModelValidationModelvalidationisthecornerstoneofensuringarobustandreliablemachinelearningmodel.It'stherigorousassessmentofhowwellyourmodelperformsonunseendata,mimickingreal-worldscenarios.Doneright,it
kaggle实战语义分割-Car segmentation（附源码）橘柚jvyou python 人工智能计算机视觉深度学习 pytorch
目录前言项目介绍数据集处理数据集加载定义网络训练网络验证网络前言本篇文章会讲解使用pytorch完成另外一个计算机视觉的基本任务-语义分割。语义分割是将图片中每个部分根据其语义分割出来，其相比于图像分类的不同点是，图像分类是对一张图片进行分类，而语义分割是对图像中的每个像素点进行分类。我们这里使用的语义分割数据集是kaggle上的一个数据集。数据集来源：https://www.kaggle.com
kaggle实战图像分类-Intel Image Classification（附源码）橘柚jvyou 分类人工智能 pytorch 计算机视觉深度学习
目录前言数据集加载定义网络训练网络验证网络前言本篇文章会讲解一个使用pytorch这个深度学习框架完成一个kaggle上的图像分类任务。主要会介绍如何加载数据集，导入网络训练数据，保存损失，精度变化曲线和最终模型，以及测试模型在验证集上的好坏。其数据集介绍可以看一下kaggle的网址，这里就不过多介绍。数据集来源：https://www.kaggle.com/datasets/puneet6060
机器学习 | 深入集成学习的精髓及实战技巧挑战亦世凡华、 #机器学习机器学习集成学习人工智能 boosting xgboost
目录xgboost算法简介泰坦尼克号乘客生存预测(实操)lightGBM算法简介《绝地求生》玩家排名预测(实操)xgboost算法简介XGBoost全名叫极端梯度提升树，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中，大部分获胜者用了XGBoost。XGBoost在绝大多数的回归和分类问题上表现的十分顶尖，接下来将较详细的介绍XGBoost的算法原理。最优模型构建方法：构建最优模
称霸kaggle的XGBoost究竟是啥？猴小白
一、前言：kaggle神器XGBoost相信入了机器学习这扇门的小伙伴们一定听过XGBoost这个名字，这个看起来朴实无华的boosting算法近年来可算是炙手可热，别的不说，但是大家所熟知的kaggle比赛来看，说XGBoost是“一统天下”都不为过。业界将其冠名“机器学习竞赛的胜利女神”，当然，相信很多小伙伴也看过很多文章称其为“超级女王”。那么问题来了，为啥是女的？（滑稽~）XGBoost全
烹饪第一个U-Net进行图像分割小北的北 python 开发语言
今天我们将学习如何准备计算机视觉中最重要的网络之一：U-Net。如果你没有代码和数据集也没关系，可以分别通过下面两个链接进行访问：代码：https://www.kaggle.com/datasets/mateuszbuda/lgg-mri-segmentation?source=post_page-----e812e37e9cd0--------------------------------Ka
北京房价预测——Kaggle数据 GavinHarbus
日暮途远，人间何世将军一去，大树飘零概述之前学习了加州房价预测模型，便摩拳擦掌，从kaggle上找到一份帝都房价数据，练练手。实验流程实验数据从Kaggle中选择了帝都北京住房价格的数据集，该数据集摘录了2011～2017年链家网上的北京房价数据。image下载并预览数据下载并解压数据image预览数据image每一行代表一间房，每个房子有26个相关属性，其中以下几个需要备注：DOM:市场活跃天数
kaggle：泰坦尼克号获救预测_Titanic_EDA## 卜咦
问题数据来源于Kaggle，通过一组列有泰坦尼克号灾难幸存者或幸存者的训练样本集，我们的模型能否基于不包含幸存者信息的给定测试数据集确定这些测试数据集中的乘客是否幸存。代码与数据分析导入必要的包和titanic数据image数据集基本信息将数据分为不同类别，分别为类别型数据和数字型数据类别数据：Survived,Sex,andEmbarked.Ordinal:Pclass数字型数据：Age,Far
基于LLM的数据漂移和异常检测新缸中之脑 LLM
大型语言模型(LLM)的最新进展被证明是许多领域的颠覆性力量（请参阅：通用人工智能的火花：GPT-4的早期实验）。和许多人一样，我们非常感兴趣地关注这些发展，并探索LLM影响数据科学和机器学习领域的工作流程和常见实践的潜力。在我们之前的文章中，我们展示了LLM使用Kaggle竞赛中的表格数据提供预测的潜力。只需很少的努力（即数据清理和/或功能开发），我们基于LLM的模型就可以在几个竞赛参赛作品中获
Xgboost 大雄的学习人生
在最近的Kaggle竞赛中，利用Xgboost的队伍经常能问鼎冠军，那么问题来了，Xgboost为什么这么强呢？算法释义Xgboost是一种带有正则化项，并利用损失函数泰勒展开式中二阶导数信息优化求解并增加一些计算优化的梯度提升树。Xgboost的目标函数定义为：其中l为损失函数，Ω(ft(x))是用于惩罚ft(x)模型复杂度的正则化项。根据上述目标函数可以得到Xgboost在每一轮前向分步算法中
机器学习数据预处理方法（数据重编码） ##2 恒c 机器学习人工智能数据分析
文章目录@[TOC]基于Kaggle电信用户流失案例数据（可在官网进行下载）一、离散字段的数据重编码1.OrdinalEncoder自然数排序2.OneHotEncoder独热编码3.ColumnTransformer转化流水线二、连续字段的特征变换1.标准化（Standardization）和归一化（Normalization）2.连续变量分箱3.连续变量特征转化的ColumnTransform
机器学习逻辑回归模型训练与超参数调优 ##3 恒c 机器学习逻辑回归人工智能
文章目录@[TOC]基于Kaggle电信用户流失案例数据（可在官网进行下载）逻辑回归模型训练逻辑回归的超参数调优基于Kaggle电信用户流失案例数据（可在官网进行下载）数据预处理部分可见：机器学习数据预处理方法（数据重编码）逻辑回归模型训练fromsklearn.metricsimportaccuracy_score,recall_score,precision_score,f1_score,ro
50Kaggle 数据分析项目入门实战--分销商产品未来销售情况预测 Jachin111
分销商产品未来销售情况预测未来销售额预测介绍对于一个产品来说，其未来销售额的预测是一个重要的指标，也是一项重要的任务。例如，对于一部苹果手机来说。在上市之前，得先对销售额进行预测，才能确定出货量的大小。本次实验来源于Kaggle上的一个挑战，即：未来销售额预测，由俄罗斯的1C-Company软件分销公司发起，并提供数据。而本次实验的任务就是根据提供的数据，包含商品类别、商品名称、商店等信息和商品的
机器学习本科课程实验1 线性模型 11egativ1ty 机器学习本科课程机器学习人工智能
第三章线性模型3.1一元线性回归3.2多元线性回归3.3对数几率回归，线性判别分析（二选一）3.4类别不均衡3.1一元线性回归——Kaggle房价预测使用Kaggle房价预测数据集：打乱数据顺序，取前70%的数据作为训练集，后30%的数据作为测试集分别以LotArea,BsmtUnfSF,GarageArea三种特征作为模型的输入，SalePrice作为模型的输出在训练集上，使用最小二乘法求解模型
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C