master@yi

哈工大-机器学习-实验四：PCA

PCA模型实验

一、实验目的

目标

实现一个PCA模型，能够对给定数据进行降维（即找到其中的主成分）

测试

首先人工生成一些数据（如三维数据），让它们主要分布在低维空间中，如首先让某个维度的方差远小于其它唯独，然后对这些数据旋转。生成这些数据后，用你的PCA方法进行主成分提取。
找一个人脸数据（小点样本量），用你实现PCA方法对该数据降维，找出一些主成分，然后用这些主成分对每一副人脸图像进行重建，比较一些它们与原图像有多大差别（用信噪比衡量）。

二、实验环境

win10
python 3.7.4
pycharm 2020.2

三、数学原理

3.1 PCA的目的

$P C A (P r i n c i p a l C o m p o n e n t A n a l y s i s)$ 是一种常用的数据分析方法。它通过线性变换将原始数据用一组线性无关的 $b a s e$ 来表示，可用于提取数据的主要特征分量，常用于高维数据的降维，以减少资源消耗。

3.2 内积与投影

向量的内积被定义为
$(a_1,a_2...a_n)^T \cdot (b_1,b_2...b_n)^T =a_1b_1+a_2b_2+...a_nb_n$
内积运算将两个向量映射为一个实数

它的几何意义在于：相当于一个向量在另一个向量方向上的投影乘以另一个向量的模长

例如，上图中 $A=(a_1,a_2),B=(b_1,b_2)$

则 $A\cdot B=|A|cos\alpha|B|$ ，现欲求 $A$ 向量在 $B$ 向量方向上的投影（即以该方向上的坐标），即 $|A|cos\alpha = \frac{A\cdot B}{|B|}$ ，倘若 $∣ B ∣ = 1$ ，则简化为 $|A|cos\alpha = A\cdot B$

3.3 基变换

我们想要准确描述一个向量，首先需要一组基；然后给出该向量在各个基 $b a s e$ 方向上的投影即可。而我们对于基的要求就是线性无关且能“张成”对应的向量空间，通常使用正交基，因为正交基拥有一些良好的性质，但是非正交基也可以。

现在介绍基变换，一般的，如果我们有M个N维向量，想将其变换为由R个N维向量表示的新空间中，那么首先将R个基按行组成矩阵A，然后将向量按列组成矩阵B，那么两矩阵的乘积AB就是变换结果，其中AB的第m列为A中第m列变换后的结果。

数学表示为：
$\begin{pmatrix} p_1\\ p_2\\ \vdots \\ p_R \end{pmatrix} \begin{pmatrix} a_1&a_2 & \cdots &a_M \end{pmatrix} =\begin{pmatrix} p_1a_1 &p_1a_2 & \cdots &p_1a_M\\ p_2a_1 &p_2a_2 & \cdots &p_2a_M\\ \vdots & \vdots& \ddots& \vdots\\ p_Ra_1 &p_Ra_2 &... &p_Ra_M\\ \end{pmatrix}$
其中 $p_i$ 是一个行向量，表示第 $i$ 个基， $a_j$ 是一个列向量，表示第 $j$ 个原始数据记录。

特别要注意的是，这里R可以小于N，而R决定了变换后数据的维数。也就是说，我们可以将N维数据变换到更低维度的空间中去，变换后的维度取决于基的数量，因此这种矩阵相乘的表示也可以表示降维变换。

3.4 最大可分性

前面我们已经介绍了内积与投影的关系，以及基变换的知识。那么我们如何才能找到最合适的一组基，并使用它来降维呢？

前面已经得到结论：

我们可以将N维数据变换到更低维度的空间中去，变换后的维度取决于基的数量。

我们想要获得某个向量在一组基上的坐标，只需分别求出该向量在各个基方向上的投影值即可。

而我们希望降维后的数据所保存的信息尽可能多，即降维后各个维度数据内的信息熵越大越好，而信息熵往往和方差有着正相关关系。同时，我们希望降维后各个维度数据之间相互独立，不存在相关关系。

至此，我们得到了降维问题的优化目标：将一组 N 维向量降为 K 维，其目标是选择 K 个单位正交基，使得原始数据变换到这组基上后，各变量两两间协方差为 0，而变量方差则尽可能大（在正交的约束下，取最大的 K 个方差）。

3.5 矩阵对角化

我们现在拥有数据矩阵 $X_{m\times n}$ ，则 $C_{n\times n} = \frac{1}{m}XX^T$ 就是 $X$ 的协方差矩阵

根据我们的优化条件，我们需要将降维后的数据集的的协方差矩阵对角线外的其他元素化为0，并且在对角线上将元素按从大到小进行排列，再选择最大的前 $K$ 行即可。

设原始数据集 $X$ 对应的协方差矩阵为 $C$ ， $P$ 是一组基按行组成的矩阵，设 $Y$ 为 $X$ 做基变换之后的数据矩阵，则 $Y = P X$ ，再设 $D$ 为 $Y$ 对应的协方差矩阵，有
$\begin{aligned} D &=\frac{1}{m} Y Y^{T} \\ &=\frac{1}{m}(P X)(P X)^{T} \\ &=\frac{1}{m} P X X^{T} P^{T} \\ &=P\left(\frac{1}{m} X X^{T}\right) P^{T} \\ &=P C P^{T} \end{aligned} \tag{1}$
故，我们的优化目标转化为：

需要寻找 $P$ ，满足 $PCP^T$ 是个对角矩阵，并且对角元素按大小依次排列，那么 $P$ 的前的前 $K$ 行就是要寻找的基。
用 $P$ 的前 $K$ 行组成的矩阵乘以 $X$ 就使得 $X$ 从 $N$ 维降到了 $K$ 维。

接下来，我们就去寻找这样的 $P$

原始数据 $X$ 对应的协方差矩阵 $C$ 是一个对称矩阵，它在线性代数中有一系列非常好的性质：

实对称矩阵不同特征值对应的特征向量必然正交。
设特征向量 $\lambda$ 的重数为 $r$ ，则必然存在 $r$ 个线性无关的特征向量对应于 $\lambda$ ，因此可以将这 $\lambda$ 个特征向量单位正交化（可利用施密特正交化）。

那么根据上面2条性质，我们可推出定理：

一个 $n$ 行 $n$ 列的实对称矩阵一定可以找到 $n$ 个单位正交特征向量

将上述定理应用到我们的协方差矩阵 $C$ 上，得到 $n$ 个单位正交特征向量 $e_1,e_2...e_n$ ，我们将其按列排成矩阵：
$E = (e_1,e_2...e_n)$
依据线性代数的知识，我们可以得到：
$E^TCE = \Lambda=\begin{pmatrix} \lambda_1 & & &\\ &\lambda_2&&\\ &&\ddots&\\ &&&\lambda_n\\ \end{pmatrix} \tag{2}$
其中 $\Lambda$ 为对角矩阵，其对角元素为各特征向量对应的特征值（可能有重复）。

将（2）式和（1）式进行对比，这样，我们就发现了需要的矩阵 $P=E^T$ 。

我们若是想要降到 $K$ 维，只需要取 $P$ 的前 $K$ 行作为 $K$ 组基即可，也就是 $C$ 的特征值最大的 $K$ 个特征向量（已经单位正交化）。
$Y = P X$ 就是降维之后的数据矩阵

四、实验过程

4.1 自己生成数据测试

生成数据

为了便于可视化，我自己产生的数据就是2维及3维高斯分布数据集。

且为了让这些数据集主要分布在低维空间中，只需让某个维度的方差远远小于其他维度即可。

    if data_dimension is 2:
        mean = [-3, 4]
        # 让某个维度的方差远小于其他维度
        cov = [[1, 0], [0, 0.01]]
    elif data_dimension is 3:
        mean = [2, 8, -5]
        cov = [[0.01, 0, 0], [0, 1, 0], [0, 0, 1]]
    else:
        assert False

    # 产生shape = (D,M)的数据矩阵
    data = np.random.multivariate_normal(mean, cov, size=number).T
    if data_dimension is 3:
        # 绕z轴旋转数据点
        data = rotate(data, 40 * np.pi / 180, 'z')

注意，在产生三位数据时，会额外添加一个绕Z轴旋转的操作

PCA算法

数学原理部分已经在前面叙述过，算法的思路为：

代码如下：

def PCA(data, k):
    """
    将数据data从D维降到k维
    :param data: 数据矩阵(D*N),D表示维度，N表示样本点的个数
    :param k: 把数据降到目标维数
    :return: 零均值化之后的数据矩阵，特征值矩阵，均值矩阵, 重构之后的数据矩阵（仍然 D*N）
    """
    dim = data.shape[0]
    mean = np.mean(data, axis=1)
    c_data = np.zeros(data.shape)
    for i in range(dim):
        # 零均值化后得到c_data (D*N)
        c_data[i] = data[i] - mean[i]
    # 求出协方差矩阵
    covMat = np.dot(c_data, c_data.T)
    # 对协方差矩阵covMat(D*D)求特征值和特征向量
    # eigenVectors的每一列对应一个特征向量
    eigenValues, eigenVectors = np.linalg.eig(covMat)
    # 特征值排序
    eigValIndex = np.argsort(eigenValues)
    # 取前k个特征值对应的特征向量 shape = (D*k)
    rightEigenVector = eigenVectors[:, eigValIndex[:-(k + 1):-1]]
    # 一旦降维维度超过某个值，特征向量矩阵将出现复向量，对其保留实部
    rightEigenVector = np.real(rightEigenVector)
    # 计算降维后的数据(K*N)
    tmp_data = np.dot(rightEigenVector.T, c_data)
    # 重构之后的数据
    recon_data = np.zeros(data.shape)
    for i in range(dim):
        recon_data[i] = np.dot(rightEigenVector[i], tmp_data) + mean[i]
    return c_data, rightEigenVector, mean, recon_data

降维前后对比

二维情况：

绿色的点表示原始数据，红色的点表示将数据降维后的重构数据，图中直线标明了投影方向，即 $P C A$ 寻找到的主成分。

可见我们将二维数据降到一维后，依然能够大致反应出原先各个数据点的位置分布情况，图中蓝色的直线标明了特征值最大的那个特征向量的方向，也就是我们选择作为投影方向的向量。

通过上图的输出情况，可见利用 $P C A$ 求出的特征值最大的特征向量与真实值 $[1, 0]$ 极为接近

三维情况：

绿色的点表示原始数据，红色的点表示重构数据，2条直线分别标明了2个特征值最大的特征向量的方向，也就是 $P C A$ 所找到的。

我们将上图进行旋转，以便于看清重构数据的分布

可见，我们重构的数据就是处于这2个特征向量所 $s p a n$ 的线性空间中，这也验证了我们的 $P C A$ 算法的原理。

4.2 图像降维测试

人脸信息读取

主要利用cv2模块中的方法来进行图像信息读取，再将png图片中的RBG值转换为灰度值，最后将图像数据拉平即可完成。

注意：为了便于后续利用 $P C A$ 时计算协方差更加方便，在此处读取图像信息时就对图像进行压缩处理。

    for file in file_list:
        path = os.path.join(file_path, file)
        plt.subplot(2, 2, i)
        with open(path) as f:
            # 读取图像
            img = cv2.imread(path)
            # 压缩图像至size大小
            img = cv2.resize(img, size) 
            # RBG图转换为灰度图
            img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
            # 展示灰度值图像
            plt.imshow(img_gray)
            h, w = img_gray.shape
            # 对(h,w)的图像数据拉平
            img_col = img_gray.reshape(h * w)
            data.append(img_col)
        i += 1

本实验所采用的图片均是1024*1024的png格式

降维前后对比

降维前（已经将RBG值转换为灰度值）：

降到1维时，可见各个压缩图片之间很接近：

降到2维时，可见能勉强表示出原图像的特征，但还是有部分图像之间比较接近：

提高到6维时，可见能够较好地表示出原图像地特征：

通过上述图片之间地比较，我们可以发现随着：保留的维度越高，压缩后的图像与原图越接近，也就是说保留了更多的信息。

信噪比变化

当然，前面只是从定性角度去分析，下面将从定量角度去分析图像所保留信息的多少和压缩维度之间的关系。

峰值信噪比 $P S N R$ 经常用作图像压缩等领域中信号重建质量的测量方法，它常简单地通过均方差（MSE）进行定义。两个m×n单色图像I和K，如果一个为另外一个的噪声近似，那么它们的的均方差定义为：
$E=\frac{1}{m n} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1}\|I(i, j)-K(i, j)\|^{2}$
峰值信噪比定义为：
$\cdot \log _{10}\left(\frac{M A X_{I}^{2}}{M S E}\right)=20 \cdot \log _{10}\left(\frac{M A X_{I}}{\sqrt{M S E}}\right)$
下面我将展示“信噪比”随着“所降低到的维度”变化

可见，随着维度的增大，信噪比同样在增大，说明所保留的信息在增多。

另外，在维度大于4之后，信噪比变化很小，说明我们的图像数据的前4个主成分提供了绝大多数的信息，其余的“次要成分”所能提供的信息十分有限，这也证明了PCA的重要性。

五、实验结论

PCA算法通过寻找协方差矩阵的特征值最大的K个特征向量，以作为新的一组基，将原数据映射到这一组新的基上来完成数据的降维，也就是说PCA算法可以找到前K个主成分。
PCA算法提高了样本的采样密度，并且由于较小特征值对应的特征向量往往容易受到噪声的影响，PCA算法舍弃了这部分“次要成分”，一定程度上起到了降噪的效果。
PCA降低了是在训练集的基础上提取主成分，舍弃“次要成分”；但是对于测试集而言，被舍弃的也许正好是重要的信息，也就是说PCA可能会加剧过拟合
PCA可以应用到图像的降维压缩等领域，以提高效率，避免“维度灾难”

六、附录（源代码）

main.py

import basicOperation as Bo
import drawImage as dI
import numpy as np

# 自己生成数据的测试
dimension = 3
N = 100
data = Bo.generate_data(dimension, number=N)
c_data, rightEigenVector, mean, recon_data = Bo.PCA(data, dimension - 1)
for i in range(dimension-1):
    print("特征值第"+str(i+1)+"大的特征向量:")
    print(rightEigenVector[:, i])
print("Mean vector:")
print(mean)
dI.originVsPCA(dimension, data, recon_data, mean, rightEigenVector)

# 图像处理测试
size = (80, 80)
targetDim = 6
data = Bo.read_faces('Image', size=size)
c_data, rightEigenVector, mean, recon_data = Bo.PCA(data, targetDim)
for i in range(targetDim):
    print("特征值第"+str(i+1)+"大的特征向量:")
    print(rightEigenVector[:, i])
print("Mean vector:")
print(mean)
dI.drawFace(recon_data, recon_data.shape[1], size)
# 观测降低到不同维度时的psnr变化
dimRange = np.arange(1, 11, 1)
print(data.shape)
dI.psnrChange(data, dimRange)

drawImage.py

import matplotlib.pyplot as plt
import numpy as np
from mpl_toolkits.mplot3d import Axes3D

import basicOperation as Bo


def originVsPCA(dimension, origin_data, recon_data, mean, rightEigenVector):
    """ 将PCA前后的数据进行可视化对比 """
    if dimension == 2:
        fig, ax = plt.subplots()
        ax.scatter(origin_data[0], origin_data[1], facecolor="green", label="Origin Data")
        ax.scatter(recon_data[0], recon_data[1], facecolor='r', label='PCA Data')
        x = [mean[0] - 3 * rightEigenVector[0], mean[0] + 3 * rightEigenVector[0]]
        y = [mean[1] - 3 * rightEigenVector[1], mean[1] + 3 * rightEigenVector[1]]
        ax.plot(x, y, color='blue', label='eigenVector direction', alpha=0.5)
        ax.set_title('origin_data And PCA_data', fontsize=16)
        ax.set_xlabel('$x$', fontdict={
     'size': 14, 'color': 'black'})
        ax.set_ylabel('$y$', fontdict={
     'size': 14, 'color': 'black'})
    elif dimension == 3:
        fig = plt.figure()
        ax = Axes3D(fig)
        ax.scatter(origin_data[0], origin_data[1], origin_data[2], facecolor='green', label='Origin Data')
        ax.scatter(recon_data[0], recon_data[1], recon_data[2], facecolor='r', label='PCA Data')
        # 画出2条eigen Vector 方向直线
        x = [mean[0] - 3 * rightEigenVector[0, 0], mean[0] + 3 * rightEigenVector[0, 0]]
        y = [mean[1] - 3 * rightEigenVector[1, 0], mean[1] + 3 * rightEigenVector[1, 0]]
        z = [mean[2] - 3 * rightEigenVector[2, 0], mean[2] + 3 * rightEigenVector[2, 0]]
        ax.plot(x, y, z, color='blue', label='eigenVector1 direction', alpha=1)
        x2 = [mean[0] - 3 * rightEigenVector[0, 1], mean[0] + 3 * rightEigenVector[0, 1]]
        y2 = [mean[1] - 3 * rightEigenVector[1, 1], mean[1] + 3 * rightEigenVector[1, 1]]
        z2 = [mean[2] - 3 * rightEigenVector[2, 1], mean[2] + 3 * rightEigenVector[2, 1]]
        ax.plot(x2, y2, z2, color='purple', label='eigenVector2 direction', alpha=1)

        ax.set_title('origin_data And PCA_data', fontsize=16)
        ax.set_zlabel('$z$', fontdict={
     'size': 14, 'color': 'red'})
        ax.set_ylabel('$y$', fontdict={
     'size': 14, 'color': 'red'})
        ax.set_xlabel('$x$', fontdict={
     'size': 14, 'color': 'red'})
    else:
        assert False

    plt.legend()
    plt.show()


def drawFace(recon_data, N, size):
    """
    画出降维重构之后的图像
    """
    plt.figure(figsize=size)
    for i in range(N):
        plt.subplot(2, 2, i + 1)
        plt.imshow(recon_data[:, i].reshape(size))
    plt.show()


def psnrChange(origin_data, dimRange):
    psnrList = []
    for dim in dimRange:
        c_data, rightEigenVector, mean, recon_data = Bo.PCA(origin_data, dim)
        a = Bo.psnr(origin_data[:, 1], recon_data[:, 1])
        psnrList.append(a)
    fig, ax = plt.subplots()
    ax.plot(dimRange, np.array(psnrList), color='r')
    ax.set_title('the PSNR change with different Target dimension', fontsize=18)
    ax.set_xlabel('$target dimension$', fontdict={
     'size': 14, 'color': 'black'})
    ax.set_ylabel('$psnr$', fontdict={
     'size': 14, 'color': 'black'})
    plt.show()

basicOperation.py

from PIL import Image

import cv2
import numpy as np
import math
import os
import matplotlib.pyplot as plt


def generate_data(data_dimension, number=100):
    """
    自己生成2维或者3维高斯分布的数据集
    :param data_dimension: 数据的维度
    :param number: 样本点的数目
    :return: D * N 的数据矩阵, D是维度，M是样本数目
    """
    if data_dimension is 2:
        mean = [-3, 4]
        # 让某个维度的方差远小于其他维度
        cov = [[1, 0], [0, 0.01]]
    elif data_dimension is 3:
        mean = [2, 8, -5]
        cov = [[0.01, 0, 0], [0, 1, 0], [0, 0, 1]]
    else:
        assert False

    # 产生shape = (D,M)的数据矩阵
    data = np.random.multivariate_normal(mean, cov, size=number).T
    # if data_dimension is 3:
    #     # 绕z轴旋转数据点
    #     data = rotate(data, 40 * np.pi / 180, 'z')
    return data


def rotate(X, theta=0, axis='x'):
    """
    :param X: 数据矩阵 X.shape = (D, N)
    :param theta: 旋转的弧度
    :param axis: 旋转轴，合法值为'x','y'或'z'
    :return:
    """
    if axis == 'x':
        rotate_matrix = [[1, 0, 0], [0, np.cos(theta), -np.sin(theta)], [0, np.sin(theta), np.cos(theta)]]
        return np.dot(rotate_matrix, X)
    elif axis == 'y':
        rotate_matrix = [[np.cos(theta), 0, np.sin(theta)], [0, 1, 0], [-np.sin(theta), 0, np.cos(theta)]]
        return np.dot(rotate_matrix, X)
    elif axis == 'z':
        rotate_matrix = [[np.cos(theta), -np.sin(theta), 0], [np.sin(theta), np.cos(theta), 0], [0, 0, 1]]
        return np.dot(rotate_matrix, X)
    else:
        assert False


def PCA(data, k):
    """
    将数据data从D维降到k维
    :param data: 数据矩阵(D*N),D表示维度，N表示样本点的个数
    :param k: 把数据降到目标维数
    :return: 零均值化之后的数据矩阵，特征值矩阵，均值矩阵, 重构之后的数据矩阵（仍然 D*N）
    """
    dim = data.shape[0]
    mean = np.mean(data, axis=1)
    c_data = np.zeros(data.shape)
    for i in range(dim):
        # 零均值化后得到c_data (D*N)
        c_data[i] = data[i] - mean[i]
    # 求出协方差矩阵
    covMat = np.dot(c_data, c_data.T)
    # 对协方差矩阵covMat(D*D)求特征值和特征向量
    # eigenVectors的每一列对应一个特征向量
    eigenValues, eigenVectors = np.linalg.eig(covMat)
    # 特征值排序
    eigValIndex = np.argsort(eigenValues)
    # 取前k个特征值对应的特征向量 shape = (D*k)
    rightEigenVector = eigenVectors[:, eigValIndex[:-(k + 1):-1]]
    # 一旦降维维度超过某个值，特征向量矩阵将出现复向量，对其保留实部
    rightEigenVector = np.real(rightEigenVector)
    # 计算降维后的数据(K*N)
    tmp_data = np.dot(rightEigenVector.T, c_data)
    # 重构之后的数据
    recon_data = np.zeros(data.shape)
    for i in range(dim):
        recon_data[i] = np.dot(rightEigenVector[i], tmp_data) + mean[i]
    return c_data, rightEigenVector, mean, recon_data


def read_faces(file_path, size):
    """
    从图像文件中读取人脸数据
    :param file_path: 文件路径
    :param size: 压缩读取的大小
    :return: 人脸数据矩阵 （D*N）D表示维度，N表示样本点数目
    """
    file_list = os.listdir(file_path)
    data = []
    i = 1
    plt.figure(figsize=size)
    for file in file_list:
        path = os.path.join(file_path, file)
        plt.subplot(2, 2, i)
        with open(path) as f:
            # 读取图像
            img = cv2.imread(path)
            # 压缩图像至size大小
            img = cv2.resize(img, size)
            # RBG图转换为灰度图
            img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
            # 展示灰度值图像
            plt.imshow(img_gray)
            h, w = img_gray.shape
            # 对(h,w)的图像数据拉平
            img_col = img_gray.reshape(h * w)
            data.append(img_col)
        i += 1
    plt.show()
    return np.array(data).T


def psnr(img1Data, img2Data):
    mse = np.mean((img1Data / 255. - img2Data / 255.) ** 2)
    if mse < 1.0e-10:
        return 100
    PIXEL_MAX = 1
    # 使用的信噪比公式为20 log_10^(MAX/sqrt(MSE))
    return 20 * math.log10(PIXEL_MAX / math.sqrt(mse))

基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
python 输入一行字符串删除其中所有大写字母后输出_Python练习题3.17删除字符 weixin_39624873 python 输入一行字符串删除其中所有大写字母后输出
输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
蓝桥杯pythonB组备赛暴力执码蓝桥杯职场和发展
P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
python 正则表达式的语法及使用主打Python 正则表达式 python 基础语法正则表达式 python
python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例 weixin_39585761 python pandas 读取excel单元门公式值
最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi