WHJ226

机器学习（9）——特征工程（3）（补充）

1 数据集

1.1 可用数据集

1.2 sklearn数据集

1.2.1 scikit-learn数据集API介绍

1.2.2 sklearn数据集的使用

1.2.3 数据集的划分

2 特征工程介绍

2.1 什么是特征工程

2.2 特征提取

2.2.1 字典特征提取

2.2.2 文本特征提取

2.2.3 jieba分词处理

2.2.4 Tf-idf文本特征提取

3 特征预处理

3.1 归一化

3.2 标准化

4 特征降维

4.1 特征选择

4.1.1 过滤式——低方差特征过滤

4.1.2 过滤式——相关系数

4.2 主成分分析

1 数据集

数据集可分为训练集和测试集。

1.1 可用数据集

Kaggle网址：Find Open Datasets and Machine Learning Projects | Kaggle

有关 Kaggle 注册时出现无法人机验证问题的解决可以参考该博文：

机器学习实训（2）——分类（补充）_WHJ226的博客-CSDN博客

UCI数据集网址： http://archive.ics.uci.edu/ml/

scikit-learn自带数据集

1.2 sklearn数据集

1.2.1 scikit-learn数据集API介绍

sklearn.datasets

加载获取流行数据集
datasets.load_*()
- 获取小规模数据集，数据包含在datasets里
- sklearn.datasets.load_iris() 加载并返回鸢尾花数据集
- sklearn.datasets.load_boston() 加载并返回波士顿房价数据集
datasets.fetch_*(data_home=None)
- 获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/
- sklearn.datasets.fetch_houseprices(data_home=None,subset=‘train’)
- subset：'train'或者'test'，'all'，可选，选择要加载的数据集。
- 训练集的“训练”，测试集的“测试”，两者的“全部”

1.2.2 sklearn数据集的使用

以鸢尾花数据集为例：

sklearn数据集返回值介绍

load和fetch返回的数据类型datasets.base.Bunch(字典格式)
- 1 data：特征数据数组，是 [n_samples * n_features] 的二维 numpy.ndarray 数组
- 2 target：标签数组，是 n_samples 的一维 numpy.ndarray 数组
- 3 DESCR：数据描述
- 4 feature_names：特征名，新闻数据，手写数字、回归数据集没有
- 5 target_names：标签名
- 以上可以通过点属性获取：dict.key = values

from sklearn.datasets import load_iris

def datasets_demo():
    """
    sklearn数据采集用
    :return:
    """
    iris = load_iris()
    print("鸢尾花数据集: \n",iris)
    print("查看数据描述: \n", iris["DESCR"]) #通过键值对形式查看
    print("查看特征值的名字: \n", iris.feature_names) #通过点属性获取
    print("查看特征值及形状: \n", iris.data,iris.data.shape) #shape是属性不是方法，不用加括号

    return None

if __name__ == "__main__":
    #sklearn数据集使用
    datasets_demo()

运行结果如下：

鸢尾花数据集: 
 {'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.2],
       [5. , 3.2, 1.2, 0.2],
       [5.5, 3.5, 1.3, 0.2],
       [4.9, 3.6, 1.4, 0.1],
       [4.4, 3. , 1.3, 0.2],
       [5.1, 3.4, 1.5, 0.2],
       [5. , 3.5, 1.3, 0.3],
       [4.5, 2.3, 1.3, 0.3],
       [4.4, 3.2, 1.3, 0.2],
       [5. , 3.5, 1.6, 0.6],
       [5.1, 3.8, 1.9, 0.4],
       [4.8, 3. , 1.4, 0.3],
       [5.1, 3.8, 1.6, 0.2],
       [4.6, 3.2, 1.4, 0.2],
       [5.3, 3.7, 1.5, 0.2],
       [5. , 3.3, 1.4, 0.2],
       [7. , 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4. , 1.3],
       [6.5, 2.8, 4.6, 1.5],
       [5.7, 2.8, 4.5, 1.3],
       [6.3, 3.3, 4.7, 1.6],
       [4.9, 2.4, 3.3, 1. ],
       [6.6, 2.9, 4.6, 1.3],
       [5.2, 2.7, 3.9, 1.4],
       [5. , 2. , 3.5, 1. ],
       [5.9, 3. , 4.2, 1.5],
       [6. , 2.2, 4. , 1. ],
       [6.1, 2.9, 4.7, 1.4],
       [5.6, 2.9, 3.6, 1.3],
       [6.7, 3.1, 4.4, 1.4],
       [5.6, 3. , 4.5, 1.5],
       [5.8, 2.7, 4.1, 1. ],
       [6.2, 2.2, 4.5, 1.5],
       [5.6, 2.5, 3.9, 1.1],
       [5.9, 3.2, 4.8, 1.8],
       [6.1, 2.8, 4. , 1.3],
       [6.3, 2.5, 4.9, 1.5],
       [6.1, 2.8, 4.7, 1.2],
       [6.4, 2.9, 4.3, 1.3],
       [6.6, 3. , 4.4, 1.4],
       [6.8, 2.8, 4.8, 1.4],
       [6.7, 3. , 5. , 1.7],
       [6. , 2.9, 4.5, 1.5],
       [5.7, 2.6, 3.5, 1. ],
       [5.5, 2.4, 3.8, 1.1],
       [5.5, 2.4, 3.7, 1. ],
       [5.8, 2.7, 3.9, 1.2],
       [6. , 2.7, 5.1, 1.6],
       [5.4, 3. , 4.5, 1.5],
       [6. , 3.4, 4.5, 1.6],
       [6.7, 3.1, 4.7, 1.5],
       [6.3, 2.3, 4.4, 1.3],
       [5.6, 3. , 4.1, 1.3],
       [5.5, 2.5, 4. , 1.3],
       [5.5, 2.6, 4.4, 1.2],
       [6.1, 3. , 4.6, 1.4],
       [5.8, 2.6, 4. , 1.2],
       [5. , 2.3, 3.3, 1. ],
       [5.6, 2.7, 4.2, 1.3],
       [5.7, 3. , 4.2, 1.2],
       [5.7, 2.9, 4.2, 1.3],
       [6.2, 2.9, 4.3, 1.3],
       [5.1, 2.5, 3. , 1.1],
       [5.7, 2.8, 4.1, 1.3],
       [6.3, 3.3, 6. , 2.5],
       [5.8, 2.7, 5.1, 1.9],
       [7.1, 3. , 5.9, 2.1],
       [6.3, 2.9, 5.6, 1.8],
       [6.5, 3. , 5.8, 2.2],
       [7.6, 3. , 6.6, 2.1],
       [4.9, 2.5, 4.5, 1.7],
       [7.3, 2.9, 6.3, 1.8],
       [6.7, 2.5, 5.8, 1.8],
       [7.2, 3.6, 6.1, 2.5],
       [6.5, 3.2, 5.1, 2. ],
       [6.4, 2.7, 5.3, 1.9],
       [6.8, 3. , 5.5, 2.1],
       [5.7, 2.5, 5. , 2. ],
       [5.8, 2.8, 5.1, 2.4],
       [6.4, 3.2, 5.3, 2.3],
       [6.5, 3. , 5.5, 1.8],
       [7.7, 3.8, 6.7, 2.2],
       [7.7, 2.6, 6.9, 2.3],
       [6. , 2.2, 5. , 1.5],
       [6.9, 3.2, 5.7, 2.3],
       [5.6, 2.8, 4.9, 2. ],
       [7.7, 2.8, 6.7, 2. ],
       [6.3, 2.7, 4.9, 1.8],
       [6.7, 3.3, 5.7, 2.1],
       [7.2, 3.2, 6. , 1.8],
       [6.2, 2.8, 4.8, 1.8],
       [6.1, 3. , 4.9, 1.8],
       [6.4, 2.8, 5.6, 2.1],
       [7.2, 3. , 5.8, 1.6],
       [7.4, 2.8, 6.1, 1.9],
       [7.9, 3.8, 6.4, 2. ],
       [6.4, 2.8, 5.6, 2.2],
       [6.3, 2.8, 5.1, 1.5],
       [6.1, 2.6, 5.6, 1.4],
       [7.7, 3. , 6.1, 2.3],
       [6.3, 3.4, 5.6, 2.4],
       [6.4, 3.1, 5.5, 1.8],
       [6. , 3. , 4.8, 1.8],
       [6.9, 3.1, 5.4, 2.1],
       [6.7, 3.1, 5.6, 2.4],
       [6.9, 3.1, 5.1, 2.3],
       [5.8, 2.7, 5.1, 1.9],
       [6.8, 3.2, 5.9, 2.3],
       [6.7, 3.3, 5.7, 2.5],
       [6.7, 3. , 5.2, 2.3],
       [6.3, 2.5, 5. , 1.9],
       [6.5, 3. , 5.2, 2. ],
       [6.2, 3.4, 5.4, 2.3],
       [5.9, 3. , 5.1, 1.8]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 'frame': None, 'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='

 
  1.2.3 数据集的划分 
  机器学习一般的数据集会划分为两个部分： 
   
   训练数据：用于训练，构建模型 
   测试数据：在模型检验时使用，用于评估模型是否有效 
   
  划分比例： 
   
   训练集：70% 80% 75% 
   测试集：30% 20% 30% 
   
  数据集划分api 
   
   sklearn.model_selection.train_test_split(arrays, *options) 
     
     x 数据集的特征值 
     y 数据集的标签值 
     test_size 测试集的大小，一般为float 
     random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。 
     return 测试集特征训练集特征值值，训练标签，测试标签(默认随机取) 
     
   
  from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def datasets_demo():
    """
    sklearn数据采集用
    :return:
    """
    # 1、获取鸢尾花数据集
    iris = load_iris()
    print("鸢尾花数据集的返回值：\n", iris)
    # 返回值是一个继承自字典的Bench
    print("鸢尾花的特征值:\n", iris["data"])
    print("鸢尾花的目标值：\n", iris.target)
    print("鸢尾花特征的名字：\n", iris.feature_names)
    print("鸢尾花目标值的名字：\n", iris.target_names)
    print("鸢尾花的描述：\n", iris.DESCR)

    # 2、对鸢尾花数据集进行分割
    # 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    print("x_train:\n", x_train.shape)
    # 随机数种子
    x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)
    x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
    print("如果随机数种子不一致：\n", x_train == x_train1)
    print("如果随机数种子一致：\n", x_train1 == x_train2)

    return None

if __name__ == "__main__":
    #sklearn数据集使用
    datasets_demo() 
  运行结果如下： 
  鸢尾花数据集的返回值：
 {'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.2],
       [5. , 3.2, 1.2, 0.2],
       [5.5, 3.5, 1.3, 0.2],
       [4.9, 3.6, 1.4, 0.1],
       [4.4, 3. , 1.3, 0.2],
       [5.1, 3.4, 1.5, 0.2],
       [5. , 3.5, 1.3, 0.3],
       [4.5, 2.3, 1.3, 0.3],
       [4.4, 3.2, 1.3, 0.2],
       [5. , 3.5, 1.6, 0.6],
       [5.1, 3.8, 1.9, 0.4],
       [4.8, 3. , 1.4, 0.3],
       [5.1, 3.8, 1.6, 0.2],
       [4.6, 3.2, 1.4, 0.2],
       [5.3, 3.7, 1.5, 0.2],
       [5. , 3.3, 1.4, 0.2],
       [7. , 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4. , 1.3],
       [6.5, 2.8, 4.6, 1.5],
       [5.7, 2.8, 4.5, 1.3],
       [6.3, 3.3, 4.7, 1.6],
       [4.9, 2.4, 3.3, 1. ],
       [6.6, 2.9, 4.6, 1.3],
       [5.2, 2.7, 3.9, 1.4],
       [5. , 2. , 3.5, 1. ],
       [5.9, 3. , 4.2, 1.5],
       [6. , 2.2, 4. , 1. ],
       [6.1, 2.9, 4.7, 1.4],
       [5.6, 2.9, 3.6, 1.3],
       [6.7, 3.1, 4.4, 1.4],
       [5.6, 3. , 4.5, 1.5],
       [5.8, 2.7, 4.1, 1. ],
       [6.2, 2.2, 4.5, 1.5],
       [5.6, 2.5, 3.9, 1.1],
       [5.9, 3.2, 4.8, 1.8],
       [6.1, 2.8, 4. , 1.3],
       [6.3, 2.5, 4.9, 1.5],
       [6.1, 2.8, 4.7, 1.2],
       [6.4, 2.9, 4.3, 1.3],
       [6.6, 3. , 4.4, 1.4],
       [6.8, 2.8, 4.8, 1.4],
       [6.7, 3. , 5. , 1.7],
       [6. , 2.9, 4.5, 1.5],
       [5.7, 2.6, 3.5, 1. ],
       [5.5, 2.4, 3.8, 1.1],
       [5.5, 2.4, 3.7, 1. ],
       [5.8, 2.7, 3.9, 1.2],
       [6. , 2.7, 5.1, 1.6],
       [5.4, 3. , 4.5, 1.5],
       [6. , 3.4, 4.5, 1.6],
       [6.7, 3.1, 4.7, 1.5],
       [6.3, 2.3, 4.4, 1.3],
       [5.6, 3. , 4.1, 1.3],
       [5.5, 2.5, 4. , 1.3],
       [5.5, 2.6, 4.4, 1.2],
       [6.1, 3. , 4.6, 1.4],
       [5.8, 2.6, 4. , 1.2],
       [5. , 2.3, 3.3, 1. ],
       [5.6, 2.7, 4.2, 1.3],
       [5.7, 3. , 4.2, 1.2],
       [5.7, 2.9, 4.2, 1.3],
       [6.2, 2.9, 4.3, 1.3],
       [5.1, 2.5, 3. , 1.1],
       [5.7, 2.8, 4.1, 1.3],
       [6.3, 3.3, 6. , 2.5],
       [5.8, 2.7, 5.1, 1.9],
       [7.1, 3. , 5.9, 2.1],
       [6.3, 2.9, 5.6, 1.8],
       [6.5, 3. , 5.8, 2.2],
       [7.6, 3. , 6.6, 2.1],
       [4.9, 2.5, 4.5, 1.7],
       [7.3, 2.9, 6.3, 1.8],
       [6.7, 2.5, 5.8, 1.8],
       [7.2, 3.6, 6.1, 2.5],
       [6.5, 3.2, 5.1, 2. ],
       [6.4, 2.7, 5.3, 1.9],
       [6.8, 3. , 5.5, 2.1],
       [5.7, 2.5, 5. , 2. ],
       [5.8, 2.8, 5.1, 2.4],
       [6.4, 3.2, 5.3, 2.3],
       [6.5, 3. , 5.5, 1.8],
       [7.7, 3.8, 6.7, 2.2],
       [7.7, 2.6, 6.9, 2.3],
       [6. , 2.2, 5. , 1.5],
       [6.9, 3.2, 5.7, 2.3],
       [5.6, 2.8, 4.9, 2. ],
       [7.7, 2.8, 6.7, 2. ],
       [6.3, 2.7, 4.9, 1.8],
       [6.7, 3.3, 5.7, 2.1],
       [7.2, 3.2, 6. , 1.8],
       [6.2, 2.8, 4.8, 1.8],
       [6.1, 3. , 4.9, 1.8],
       [6.4, 2.8, 5.6, 2.1],
       [7.2, 3. , 5.8, 1.6],
       [7.4, 2.8, 6.1, 1.9],
       [7.9, 3.8, 6.4, 2. ],
       [6.4, 2.8, 5.6, 2.2],
       [6.3, 2.8, 5.1, 1.5],
       [6.1, 2.6, 5.6, 1.4],
       [7.7, 3. , 6.1, 2.3],
       [6.3, 3.4, 5.6, 2.4],
       [6.4, 3.1, 5.5, 1.8],
       [6. , 3. , 4.8, 1.8],
       [6.9, 3.1, 5.4, 2.1],
       [6.7, 3.1, 5.6, 2.4],
       [6.9, 3.1, 5.1, 2.3],
       [5.8, 2.7, 5.1, 1.9],
       [6.8, 3.2, 5.9, 2.3],
       [6.7, 3.3, 5.7, 2.5],
       [6.7, 3. , 5.2, 2.3],
       [6.3, 2.5, 5. , 1.9],
       [6.5, 3. , 5.2, 2. ],
       [6.2, 3.4, 5.4, 2.3],
       [5.9, 3. , 5.1, 1.8]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 'frame': None, 'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='
 
  2 特征工程介绍 
  数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。 
  2.1 什么是特征工程 
  特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。 
   
   意义：会直接影响机器学习的效果 
   
  特征工程包含内容 
   
   特征提取 
   特征预处理 
   特征降维 
   
  2.2 特征提取  
  将任意数据（如文本或图像）转换为可用于机器学习的数字特征 
  特征值化是为了计算机更好的去理解数据 
  2.2.1 字典特征提取 
  作用：对字典数据进行特征值化，将类别转换为one-hot编码 
  应用场景: 
  1.数据集当中类别特征比较多，将数据集的特征转换为字典类型，DictVectorizer转换 
  2.本身拿到的数据就是字典类型 
   
   sklearn.feature_extraction.DictVectorizer(sparse=True,…) 
     
     DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值：返回sparse矩阵 
     DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵 返回值:转换之前数据格式 
     DictVectorizer.get_feature_names_out() 返回类别名称 
     
   
  例如：对下面数据进行特征提取 
  [{'city': '北京','temperature':100}
{'city': '上海','temperature':60}
{'city': '深圳','temperature':30}] 
  流程分析： 
   
   实例化类DictVectorizer 
   调用fit_transform方法输入数据并转换（注意返回格式） 
   
  from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    对字典类型的数据进行特征抽取
    :return: None
    """
    data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
    # 1、实例化一个转换器类
    transfer = DictVectorizer(sparse=False) #默认sparse=True返回为稀疏矩阵，只按位置显示非零值
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("返回的结果:\n", data)
    # 打印特征名字
    print("特征名字：\n", transfer.get_feature_names_out())

    return None

if __name__ == '__main__':
    #代码2:字典特征提取
    dict_demo()
 
  运行结果如下： 
  返回的结果:
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]
特征名字：
 ['city=上海' 'city=北京' 'city=深圳' 'temperature'] 
  当没有加上sparse=False参数时的结果如下： 
  返回的结果:
   (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0
特征名字：
 ['city=上海' 'city=北京' 'city=深圳' 'temperature'] 
  加上sparse=False参数时的数据处理效果类似于”one-hot“编码，对于特征当中存在类别信息的我们都会做one-hot编码处理。 
  2.2.2 文本特征提取 
  对文本数据进行特征值化 
   
    sklearn.feature_extraction.text.CountVectorizer(stop_words=[])，返回词频矩阵
  
   CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象 返回值：返回sparse矩阵 
   CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵 返回值:转换之前数据格式 
   CountVectorizer.get_feature_names() 返回值:单词列表 
   sklearn.feature_extraction.text.TfidfVectorizer 
   
  例如：对下面数据进行特征提取  
  ["life is short,i like python",
"life is too long,i dislike python"] 
  流程分析： 
   
   实例化类CountVectorizer 
   调用fit_transform方法输入数据并转换 （注意返回格式，利用toarray()进行sparse矩阵转换array数组） 
   
  from sklearn.feature_extraction.text import CountVectorizer

def text_count_demo():
    """
    对文本进行特征抽取，countvetorizer
    :return: None
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("文本特征抽取的结果：\n", data.toarray())
    print("返回特征名字：\n", transfer.get_feature_names_out())

    return None

if __name__ == '__main__':
    #代码3:文本进行特征抽取
    text_count_demo() 
  运行结果如下： 
  文本特征抽取的结果：
 [[0 1 1 2 0 1 1 0]
 [1 1 1 0 1 1 0 1]]
返回特征名字：
 ['dislike' 'is' 'life' 'like' 'long' 'python' 'short' 'too'] 
  那么，我们拿到的是中文数据的话该怎么处理呢？ 
  例如，我们把数据换成以下内容后运行： 
  "人生苦短，我喜欢Python","生活太长久，我不喜欢Python" 
  运行结果如下： 
  文本特征抽取的结果：
 [[1 0 1 0]
 [0 1 0 1]]
返回特征名字：
 ['人生苦短' '我不喜欢python' '我喜欢python' '生活太长久'] 
  为什么会得到这样的结果呢，仔细分析之后会发现英文默认是以空格分开的。其实就达到了一个分词的效果，所以我们要对中文进行分词处理。 
  2.2.3 jieba分词处理 
  jieba.cut()，返回词语组成的生成器 
  对下面中文数据进行特征值化： 
  "一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。" 
   
   
   流程分析： 
     
     准备句子，利用jieba.cut进行分词 
     实例化CountVectorizer 
     将分词结果变成字符串当作fit_transform的输入值 
     
   
  首先，构造分词函数。 
  import jieba
def cut_word(text):
    """
    进行中文分词，效果如:"我是好人"-->"我 是 好人"
    :param text:
    :return:
    """
    # print(jieba.cut(text))
    # a = list(jieba.cut(text)) #方式1
    # a = " ".join(list(jieba.cut(text))) #" ".join:将['我', '是', '好人']列表转换为"我 是 好人"的字符串类型，强转为列表后再转为字符串 #方式2
    # print(a)

    text = " ".join(list(jieba.cut(text))) #方式3
    print(text)

    return text

if __name__ == "__main__":
    cut_word("我是好人") 
   运行结果如下： 
  我 是 好人 
  最后，进行特征值化： 
  from sklearn.feature_extraction.text import CountVectorizer
import jieba

def cut_word(text):
    """
    对中文进行分词
    进行中文分词，效果如:"我是好人"-->"我 是 好人"
    :param text:
    :return: text
    """
    # 用结巴对中文字符串进行分词
    text = " ".join(list(jieba.cut(text)))

    return text

def text_chinese_count_demo2():
    """
    对中文进行特征抽取
    :return: None
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    # 将原始数据转换成分好词的形式
    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print(text_list)

    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer() #stop_words=[]停用词
    # 2、调用fit_transform
    data = transfer.fit_transform(text_list)
    print("文本特征抽取的结果：\n", data.toarray()) # toarray()与sparse=False类似
    print("返回特征名字：\n", transfer.get_feature_names_out())

    return None

if __name__ == '__main__':
    #代码4:中文文本特征提取
    text_chinese_count_demo2() 
  运行结果如下： 
  ['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。', '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。', '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']
文本特征抽取的结果：
 [[2 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 1
  0]
 [0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 0
  1]
 [1 1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0
  0]]
返回特征名字：
 ['一种' '不会' '不要' '之前' '了解' '事物' '今天' '光是在' '几百万年' '发出' '取决于' '只用' '后天' '含义'
 '大部分' '如何' '如果' '宇宙' '我们' '所以' '放弃' '方式' '明天' '星系' '晚上' '某样' '残酷' '每个'
 '看到' '真正' '秘密' '绝对' '美好' '联系' '过去' '还是' '这样'] 
  那么如何处理某个词或短语在多篇文章中出现的次数高这种情况，下面接着学习。 
  2.2.4 Tf-idf文本特征提取 
   
   TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。 
   TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 
   
   
   词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率 
   逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到 
   
   
   最终得出结果可以理解为重要程度。 
  注1：
 假如一篇文件的总词语数是100个，而词语"非常"出现了5次，那么"非常"一词在该文件中的词频就是5/100=0.05。而计算文件频率（IDF）的方法是以文件集的文件总数，除以出现"非常"一词的文件数。所以，如果"非常"一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是lg（10,000,000 / 1,0000）=3。最后"非常"对于这篇文档的tf-idf的分数为0.05 * 3=0.15 
  注2：
 两个词语：“经济”，“非常”
 1000篇文章-语料库 #总文件数目
 100篇文章-“非常” #包含“非常”的文件数
 10篇文章-“经济” #包含“经济”的文件数 
  两篇文章中：
 文章A（100词）：10次“经济”   
     tf:10/100=0.1 #词频，某一个给定的词语在该文件中出现的频率
     idf:log 10 1000/10 = 2  #逆向文档频率，一个词语普遍重要性的度量，由总文件数目除以包含该词语之文件的数目，再将得到的商除以10为底的对数得到
     TF_IDF=0.2 #TF_IDF=tf*idf
 文章B（100词）：10次“非常” 
     tf:10/100=0.1 #词频，某一个给定的词语在该文件中出现的频率
     idf:log 10 1000/100 = 1  #逆向文档频率，一个词语普遍重要性的度量，由总文件数目除以包含该词语之文件的数目，再将得到的商除以10为底的对数得到
     TF_IDF=0.1 
  例如： 
  from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

def cut_word(text):
    """
    进行中文分词，效果如:"我是好人"-->"我 是 好人"
    :param text:
    :return:
    """
    return " ".join(list(jieba.cut(text)))

def text_chinese_tfidf_demo():
    """
    对中文进行特征抽取
    :return: None
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    # 将原始数据转换成分好词的形式
    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print(text_list)

    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = TfidfVectorizer(stop_words=['一种', '不会', '不要'])
    # 2、调用fit_transform
    data = transfer.fit_transform(text_list)
    print("文本特征抽取的结果：\n", data.toarray())
    print("返回特征名字：\n", transfer.get_feature_names_out())

    return None

if __name__ == '__main__':
    #代码3:文本特征提取
    text_chinese_tfidf_demo() 
  运行结果如下： 
  ['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。', '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。', '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']

文本特征抽取的结果：
 [[0.         0.         0.         0.43643578 0.         0.
  0.         0.         0.         0.21821789 0.         0.21821789
  0.         0.         0.         0.         0.21821789 0.21821789
  0.         0.43643578 0.         0.21821789 0.         0.43643578
  0.21821789 0.         0.         0.         0.21821789 0.21821789
  0.         0.         0.21821789 0.        ]
 [0.2410822  0.         0.         0.         0.2410822  0.2410822
  0.2410822  0.         0.         0.         0.         0.
  0.         0.         0.2410822  0.55004769 0.         0.
  0.         0.         0.2410822  0.         0.         0.
  0.         0.48216441 0.         0.         0.         0.
  0.         0.2410822  0.         0.2410822 ]
 [0.         0.644003   0.48300225 0.         0.         0.
  0.         0.16100075 0.16100075 0.         0.16100075 0.
  0.16100075 0.16100075 0.         0.12244522 0.         0.
  0.16100075 0.         0.         0.         0.16100075 0.
  0.         0.         0.3220015  0.16100075 0.         0.
  0.16100075 0.         0.         0.        ]]
返回特征名字：
 ['之前' '了解' '事物' '今天' '光是在' '几百万年' '发出' '取决于' '只用' '后天' '含义' '大部分' '如何'
 '如果' '宇宙' '我们' '所以' '放弃' '方式' '明天' '星系' '晚上' '某样' '残酷' '每个' '看到' '真正'
 '秘密' '绝对' '美好' '联系' '过去' '还是' '这样'] 
   3 特征预处理 
  通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。 
  数值型数据的无量纲化： 
   
   归一化（MinMaxScaler） 
   标准化 
   
  为什么我们要进行归一化/标准化？ 
   
   特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征。 
   我们需要用到一些方法进行无量纲化，使不同规格的数据转换到同一规格。 
   
  3.1 归一化 
  定义：通过对原始数据进行变换把数据映射到(默认为[0,1])之间。 
  公式： 
   
  作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0 
  下面我们给出一个例子： 
   
   
   sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… ) 
   
   MinMaxScalar.fit_transform(X) 
     
     X:numpy array格式的数据[n_samples,n_features] 
     
   返回值：转换后的形状相同的array 
   
  例如，我们利用以下数据进行运算，可以看到“milage,Liters,Consumtime”这3个特征值相差很大，但是在我们看来，他们是同等重要的特征，因此需要进行归一化处理。首先，将以下内容保存到dating.txt文件中。 
  milage,Liters,Consumtime,target
40920,8.326976,0.953952,3
14488,7.153469,1.673904,2
26052,1.441871,0.805124,1
75136,13.147394,0.428964,1
38344,1.669788,0.134296,1 
  流程分析： 
  1、实例化MinMaxScalar 
  2、通过fit_transform转换 
  from sklearn.preprocessing import MinMaxScaler
import pandas as pd
def minmax_demo():
    """
    归一化
    :return:
    """
    #1、获取数据
    data = pd.read_csv('dating.txt') #当前路径下的dating.txt文件
    data = data.iloc[:,:3]#只选择前3列进行归一化
    print("data:\n",data)
    # 2、实例化一个转换器类
    transfer = MinMaxScaler(feature_range=[2,3])#归一化到（2,3）区间内
    # 3、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n",data_new)
    return None

    # data = pd.read_csv("dating.txt")
    # print(data)
    # # 1、实例化一个转换器类
    # transfer = MinMaxScaler(feature_range=(2, 3))
    # # 2、调用fit_transform
    # data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    # print("最小值最大值归一化处理的结果：\n", data)
    # 
    # return None

if __name__ == "__main__":
    #归一化
    minmax_demo() 
   运行结果如下： 
  data:
    milage     Liters  Consumtime
0   40920   8.326976    0.953952
1   14488   7.153469    1.673904
2   26052   1.441871    0.805124
3   75136  13.147394    0.428964
4   38344   1.669788    0.134296
data_new:
 [[2.43582641 2.58819286 2.53237967]
 [2.         2.48794044 3.        ]
 [2.19067405 2.         2.43571351]
 [3.         3.         2.19139157]
 [2.3933518  2.01947089 2.        ]]

#    milage     Liters  Consumtime  target
# 0   40920   8.326976    0.953952       3
# 1   14488   7.153469    1.673904       2
# 2   26052   1.441871    0.805124       1
# 3   75136  13.147394    0.428964       1
# 4   38344   1.669788    0.134296       1
# 最小值最大值归一化处理的结果：
#  [[2.43582641 2.58819286 2.53237967]
#  [2.         2.48794044 3.        ]
#  [2.19067405 2.         2.43571351]
#  [3.         3.         2.19139157]
#  [2.3933518  2.01947089 2.        ]] 
  但是，注意最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。 
  3.2 标准化 
  定义：通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内。 
  公式： 
   
  作用于每一列，mean为平均值，σ为标准差。 
  对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变 
  对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。 
  sklearn.preprocessing.StandardScaler( ) 
   
   处理之后每列所有数据都聚集在均值0附近，标准差为1 
   StandardScaler.fit_transform(X) 
     
     X:numpy array格式的数据[n_samples,n_features] 
     
   返回值：转换后的形状相同的array 
   
  同样对上面dating.txt的数据进行处理。 
  流程分析： 
  1、实例化StandardScaler 
  2、通过fit_transform转换 
  from sklearn.preprocessing import StandardScaler
import pandas as pd
def stand_demo():
    """
    标准化
    :return:
    """
    #1、获取数据
    data = pd.read_csv('dating.txt')
    data = data.iloc[:,:3]#只选择前3列
    print("data:\n",data)
    # 2、实例化一个转换器类
    transfer = StandardScaler()
    # 3、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n",data_new)
    return None
    
    # data = pd.read_csv("dating.txt")
    # print(data)
    # # 1、实例化一个转换器类
    # transfer = StandardScaler()
    # # 2、调用fit_transform
    # data = transfer.fit_transform(data[['milage', 'Liters', 'Consumtime']])
    # print("标准化的结果:\n", data)
    # print("每一列特征的平均值：\n", transfer.mean_)
    # print("每一列特征的方差：\n", transfer.var_)

    # return None


if __name__ == "__main__":
    #标准化
    stand_demo() 
  运行结果如下： 
  data:
    milage     Liters  Consumtime
0   40920   8.326976    0.953952
1   14488   7.153469    1.673904
2   26052   1.441871    0.805124
3   75136  13.147394    0.428964
4   38344   1.669788    0.134296
data_new:
 [[ 0.0947602   0.44990013  0.29573441]
 [-1.20166916  0.18312874  1.67200507]
 [-0.63448132 -1.11527928  0.01123265]
 [ 1.77297701  1.54571769 -0.70784025]
 [-0.03158673 -1.06346729 -1.27113187]]


#    milage     Liters  Consumtime  target
# 0   40920   8.326976    0.953952       3
# 1   14488   7.153469    1.673904       2
# 2   26052   1.441871    0.805124       1
# 3   75136  13.147394    0.428964       1
# 4   38344   1.669788    0.134296       1
# 标准化的结果:
#  [[ 0.0947602   0.44990013  0.29573441]
#  [-1.20166916  0.18312874  1.67200507]
#  [-0.63448132 -1.11527928  0.01123265]
#  [ 1.77297701  1.54571769 -0.70784025]
#  [-0.03158673 -1.06346729 -1.27113187]]
# 每一列特征的平均值：
#  [3.8988000e+04 6.3478996e+00 7.9924800e-01]
# 每一列特征的方差：
#  [4.15683072e+08 1.93505309e+01 2.73652475e-01] 
  因此，在已有样本足够多的情况下比较稳定，标准化适合现代嘈杂（噪声）大数据场景。 
  4 特征降维 
  猿创征文｜机器学习实战（9）——降维_WHJ226的博客-CSDN博客 
  降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程。 
  维数：嵌套的层数 
  0维：标量 
  1维：向量 
  2维：矩阵 
  而我们现在降维的对象：二维数组 
  此处降维是指降低特征的个数（列数），得到一组“不相关”主变量的过程。正是因为在进行训练的时候，我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大。 
  降维的两种方式： 
   
   特征选择 
   主成分分析（可以理解一种特征提取的方式） 
   
  4.1 特征选择 
  定义： 
  数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。  
  方法： 
   
   Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联 
     
     方差选择法：低方差特征过滤 
     相关系数 
     
   Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联） 
     
     决策树:信息熵、信息增益 
     正则化：L1、L2 
     深度学习：卷积等 
     
   
  运用sklearn.feature_selection模块。 
  4.1.1 过滤式——低方差特征过滤 
  删除低方差的一些特征。 
   
   特征方差小：某个特征大多样本的值比较相近 
   特征方差大：某个特征很多样本的值都有差别 
   
  sklearn.feature_selection.VarianceThreshold(threshold = 0.0) 
   
   删除所有低方差特征 
   Variance.fit_transform(X) 
     
     X:numpy array格式的数据[n_samples,n_features] 
     返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。 
     
   
  下面我们利用某些股票的指标特征之间进行一个筛选， 并将这些数据保存在factor_returns.csv文件中，内容如下： 
  index,pe_ratio,pb_ratio,market_cap,return_on_asset_net_profit,du_return_on_equity,ev,earnings_per_share,revenue,total_expense,date,return
0,000001.XSHE,5.9572,1.1818,85252550922.0,0.8008,14.9403,1211444855670.0,2.01,20701401000.0,10882540000.0,2012-01-31,0.027657228229937388
1,000002.XSHE,7.0289,1.588,84113358168.0,1.6463,7.8656,300252061695.0,0.326,29308369223.2,23783476901.2,2012-01-31,0.08235182370820669
2,000008.XSHE,-262.7461,7.0003,517045520.0,-0.5678,-0.5943,770517752.56,-0.006,11679829.03,12030080.04,2012-01-31,0.09978900335112327
3,000060.XSHE,16.476,3.7146,19680455995.0,5.6036,14.617,28009159184.6,0.35,9189386877.65,7935542726.05,2012-01-31,0.12159482758620697
4,000069.XSHE,12.5878,2.5616,41727214853.0,2.8729,10.9097,81247380359.0,0.271,8951453490.28,7091397989.13,2012-01-31,-0.0026808154146886697 
  流程分析： 
  1、初始化VarianceThreshold,指定阀值方差 
  2、调用fit_transform 
  from sklearn.feature_selection import VarianceThreshold
import pandas as pd
def variance_demo():
    """
    过滤低方差特征
    :return:
    """
    #1、获取数据
    data = pd.read_csv('factor_returns.csv')
    data = data.iloc[:,1:-2]
    print('data:\n',data)

    # 2、实例化一个转换器类
    transfer = VarianceThreshold(threshold=0)#低于threshold的特征将被删除。默认是保留所有非零方差特征，即删除所有样本中具有相同值的特征，可更改threshold的值
    # 3、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("删除低方差特征的结果：\n", data_new)
    print("形状：\n", data_new.shape)
    return None

if __name__ == "__main__":
    #低方差特征过滤
    variance_demo() 
  运行结果如下： 
  data:
    pe_ratio  pb_ratio  ...       revenue  total_expense
0    5.9572    1.1818  ...  2.070140e+10   1.088254e+10
1    7.0289    1.5880  ...  2.930837e+10   2.378348e+10
2 -262.7461    7.0003  ...  1.167983e+07   1.203008e+07
3   16.4760    3.7146  ...  9.189387e+09   7.935543e+09
4   12.5878    2.5616  ...  8.951453e+09   7.091398e+09

[5 rows x 9 columns]
删除低方差特征的结果：
 [[ 5.95720000e+00  1.18180000e+00  8.52525509e+10  8.00800000e-01
   1.49403000e+01  1.21144486e+12  2.01000000e+00  2.07014010e+10
   1.08825400e+10]
 [ 7.02890000e+00  1.58800000e+00  8.41133582e+10  1.64630000e+00
   7.86560000e+00  3.00252062e+11  3.26000000e-01  2.93083692e+10
   2.37834769e+10]
 [-2.62746100e+02  7.00030000e+00  5.17045520e+08 -5.67800000e-01
  -5.94300000e-01  7.70517753e+08 -6.00000000e-03  1.16798290e+07
   1.20300800e+07]
 [ 1.64760000e+01  3.71460000e+00  1.96804560e+10  5.60360000e+00
   1.46170000e+01  2.80091592e+10  3.50000000e-01  9.18938688e+09
   7.93554273e+09]
 [ 1.25878000e+01  2.56160000e+00  4.17272149e+10  2.87290000e+00
   1.09097000e+01  8.12473804e+10  2.71000000e-01  8.95145349e+09
   7.09139799e+09]]
形状：
 (5, 9)
 
  4.1.2 过滤式——相关系数 
  皮尔逊相关系数(Pearson Correlation Coefficient)，是反映变量之间相关关系密切程度的统计指标。 
  公式： 
   
  特点： 
  相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下： 
   
   当r>0时，表示两变量正相关，r<0时，两变量为负相关 
   当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系 
   当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱 
   一般可按三级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性相关；0.7≤|r|<1为高度线性相关 
   
  例如： 
  import pandas as pd
from scipy.stats import pearsonr
data = pd.read_csv('factor_returns.csv')
data = data.iloc[:,1:-2]
#计算某两个变量之间的相关系数
r1 = pearsonr(data['pe_ratio'], data['pb_ratio'])[0]
r2 = pearsonr(data['revenue'], data['total_expense'])[0]
print("相关系数：",r1)
print("相关系数：",r2) 
  运行结果如下： 
  相关系数： -0.8930295775032194
相关系数： 0.9571876379112001 
  我们还可以通过for循环来实现： 
  import pandas as pd
from scipy.stats import pearsonr

def pearsonr_demo():
    """
    相关系数计算
    :return: None
    """
    data = pd.read_csv("factor_returns.csv")

    factor = ['pe_ratio', 'pb_ratio', 'market_cap', 'return_on_asset_net_profit', 'du_return_on_equity', 'ev',
              'earnings_per_share', 'revenue', 'total_expense']

    for i in range(len(factor)):
        for j in range(i, len(factor) - 1):
            print(
                "指标%s与指标%s之间的相关性大小为%f" % (factor[i], factor[j + 1], pearsonr(data[factor[i]], data[factor[j + 1]])[0]))

    return None
if __name__ == "__main__":
    pearsonr_demo() 
  运行结果如下： 
  指标pe_ratio与指标pb_ratio之间的相关性大小为-0.893030
指标pe_ratio与指标market_cap之间的相关性大小为0.646984
指标pe_ratio与指标return_on_asset_net_profit之间的相关性大小为0.656608
指标pe_ratio与指标du_return_on_equity之间的相关性大小为0.894059
指标pe_ratio与指标ev之间的相关性大小为0.329688
指标pe_ratio与指标earnings_per_share之间的相关性大小为0.393708
指标pe_ratio与指标revenue之间的相关性大小为0.643567
指标pe_ratio与指标total_expense之间的相关性大小为0.620577
指标pb_ratio与指标market_cap之间的相关性大小为-0.914568
指标pb_ratio与指标return_on_asset_net_profit之间的相关性大小为-0.250734
指标pb_ratio与指标du_return_on_equity之间的相关性大小为-0.756304
指标pb_ratio与指标ev之间的相关性大小为-0.625996
指标pb_ratio与指标earnings_per_share之间的相关性大小为-0.614458
指标pb_ratio与指标revenue之间的相关性大小为-0.848839
指标pb_ratio与指标total_expense之间的相关性大小为-0.752483
指标market_cap与指标return_on_asset_net_profit之间的相关性大小为-0.119383
指标market_cap与指标du_return_on_equity之间的相关性大小为0.485129
指标market_cap与指标ev之间的相关性大小为0.741861
指标market_cap与指标earnings_per_share之间的相关性大小为0.656701
指标market_cap与指标revenue之间的相关性大小为0.938999
指标market_cap与指标total_expense之间的相关性大小为0.817129
指标return_on_asset_net_profit与指标du_return_on_equity之间的相关性大小为0.664950
指标return_on_asset_net_profit与指标ev之间的相关性大小为-0.315526
指标return_on_asset_net_profit与指标earnings_per_share之间的相关性大小为-0.162061
指标return_on_asset_net_profit与指标revenue之间的相关性大小为0.008009
指标return_on_asset_net_profit与指标total_expense之间的相关性大小为0.119778
指标du_return_on_equity与指标ev之间的相关性大小为0.482977
指标du_return_on_equity与指标earnings_per_share之间的相关性大小为0.608145
指标du_return_on_equity与指标revenue之间的相关性大小为0.415312
指标du_return_on_equity与指标total_expense之间的相关性大小为0.308510
指标ev与指标earnings_per_share之间的相关性大小为0.977886
指标ev与指标revenue之间的相关性大小为0.547199
指标ev与指标total_expense之间的相关性大小为0.281761
指标earnings_per_share与指标revenue之间的相关性大小为0.449533
指标earnings_per_share与指标total_expense之间的相关性大小为0.177715
指标revenue与指标total_expense之间的相关性大小为0.957188
 
  我们还可以通过散点图来观察，下面以前两个为例： 
   
   指标pe_ratio与指标pb_ratio之间的相关性大小为-0.893030 
   指标pe_ratio与指标market_cap之间的相关性大小为0.646984 
   
  import matplotlib.pyplot as plt
import pandas as pd

data = pd.read_csv("factor_returns.csv")
plt.figure(figsize=(20, 8), dpi=100)
plt.scatter(data['pe_ratio'], data['pb_ratio'])
plt.show() 
   运行结果如下： 
   
  由于数据较少，图像观察也是不太直观。  
  4.2 主成分分析 
   
    定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量
  
    作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。
  
   应用：回归分析或者聚类分析当中 
   
   
  sklearn.decomposition.PCA(n_components=None) 
   
   将数据分解为较低维数空间 
   n_components: 
     
     小数：表示保留百分之多少的信息 
     整数：减少到多少特征 
     
   PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features] 
   返回值：转换后指定维度的array 
   
   我们先利用下面的数据简单运用一下： 
  [[2,8,4,5],
[6,3,0,8],
[5,4,9,1]] 
  代码如下： 
  from sklearn.decomposition import PCA

def pca_demo():
    """
    对数据进行PCA降维
    :return: None
    """
    data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

    # 1、实例化PCA, 小数——保留多少信息
    transfer = PCA(n_components=0.9)
    # 2、调用fit_transform
    data1 = transfer.fit_transform(data)

    print("保留90%的信息，降维结果为：\n", data1)

    # 1、实例化PCA, 整数——指定降维到的维数
    transfer2 = PCA(n_components=3)
    # 2、调用fit_transform
    data2 = transfer2.fit_transform(data)
    print("降维到3维的结果：\n", data2)

    return None
if __name__ == "__main__":
    pca_demo() 
  运行结果如下： 
  保留90%的信息，降维结果为：
 [[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]
降维到3维的结果：
 [[ 1.28620952e-15  3.82970843e+00  5.26052119e-16]
 [ 5.74456265e+00 -1.91485422e+00  5.26052119e-16]
 [-5.74456265e+00 -1.91485422e+00  5.26052119e-16]]
 
  持续补充中...... 
  另外：ctrl+G定位功能变得快捷键真的好用！ 
  学习笔记——黑马程序员之Python机器学习。

python——for_in循环何处望天明CS python
#Nico#时间：2021/4/2021:09#for-in循环'''in表达式从（字符串、序列等）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象''''''for-in的语法结构for自定义变量in可迭代对象:循环体'''#字符串中取值foritemin'python':print(item)#range产生一个整数序列，也是一个可迭代对象foriinrange(10):print
一步一步学Python3(小学生也适用) 第十七篇:循环语句for in循环
一、Pythonforin循环Pythonforin循环，是用来遍历任何数据序列，如一个列表，一个字符串，一个字典，一个元组等。forin循环的一般语法如下：foritemin序列:语句块else:语句块forin字符串：把每个字符循环出来'''字符串：把每个字符循环出来'''str1='老树Python''''把字符串str1元素进行循环，每循环出一个元素，就把该元素赋值给item'''fori
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
python 循环结构(for-in) 编程小僧 python基础
循环结构(for-in)说明：也是循环结构的一种，经常用于遍历字符串、列表，元组，字典等格式：forxiny:循环体执行流程：x依次表示y中的一个元素，遍历完所有元素循环结束示例1：遍历字符串s='Iloveyoumorethanicansay'foriins:print(i)示例2：遍历列表l=['鹅鹅鹅','曲项向天歌','锄禾日当午','春种一粒粟']foriinl:print(i)#可以
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
Python for循环 dengdieli5313 python
Pythonfor循环可以遍历任何序列的项目，如一个列表或者一个字符串。for循环的语法结构如下：foriterating_varinsequence:statements(s)最简单的形式如下，循环10次。1foriinrange(10):2print("loop:",i)输出为1loop:02loop:13loop:24loop:35loop:46loop:57loop:68loop:79lo
python的for-in循环小白L. 入门 python numpy 开发语言
‘’‘for-in循环in表达从（字符串序列）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象for-in的语法结构for自定义的变量in可迭代对象:循环体循环体内不需要访问自定义变量，可以将自定义变量替代为下划线’‘’#第一次取出来的是P，将P赋值item，将item的值输出foritemin'python':print(item)#range（）产生一个整数序列，–》也是一个可迭代
Python-for-in循环難釋懷 python windows 服务器
一、前言在Python编程中，循环结构（LoopStructure）是程序控制流的重要组成部分。其中，for...in循环是Python中最常用、最简洁的迭代工具之一。与传统的C风格语言中的for不同，Python的for...in循环专门用于遍历可迭代对象（Iterable），如列表、元组、字符串、字典、集合，甚至是生成器等。本文将带你深入了解：for...in循环的基本语法；如何高效地遍历各种
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
Python设计模式：适配模式 niuguangshuo python基础 python 设计模式开发语言
1.适配模式（AdapterPattern）详解适配模式（AdapterPattern）是一种结构型设计模式，它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说，适配模式充当了一个桥梁，允许不同接口的类之间进行交互。在软件开发中，常常会遇到需要使用现有类的情况，但这些类的接口与我们需要的接口不匹配。适配模式提供了一种解决方案，
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
使用Python进行文件属性修改 python自动化工具 python办公自动化 python 服务器 java
哈喽，大家好，我是木头左！在计算机中，文件属性是指与文件相关的元数据，如创建时间、修改时间、访问时间等。这些属性对于管理和组织文件非常重要。Python提供了一些内置的函数和方法，可以方便地修改文件的属性。本文将介绍如何使用Python进行文件属性的修改。1.获取文件属性需要使用os模块中的stat()函数来获取文件的属性。该函数返回一个包含文件属性的命名元组。以下是一个简单的示例：importo
Python 代理模式：控制对象访问的智能中介
在Python编程中，代理模式（ProxyPattern）是一种非常有用的设计模式，它在许多场景下能够为我们提供更加灵活和可控的对象访问方式。代理模式就像是一个中间人，它站在客户端和真实对象之间，代替真实对象处理请求，并且可以在这个过程中添加额外的逻辑，如权限验证、懒加载等。本文将深入探讨Python中的代理模式，详细阐述其概念、关键要点、实现方式、应用场景以及与其他相关模式的比较。一、代理模式的
深度解析股票量化标准，从数据筛选到模型构建全面解读股票程序化交易接口量化交易股票API接口 Python股票量化交易股票量化标准数据筛选模型构建量化分析股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>股票量化标准的定义股票量化标准是一套运用数学和统计学方法，对股票投资进行系统性分析与决策的准则。它将各种影响股票价格的因素，如财务数据、市场交易数据等进行量化处理。通过这些量化后的指标，投资者能更精准地评估股票的价值与潜力，减少主观判
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
Python桌面版数独（二版）-增加4X4、6X6 香蕉可乐荷包蛋 #数独 python java 前端
增加选择4x4、6x6模式，以下是三种模式的不同解析：4x4模式：数独大小：4x4每个宫格大小：2x2数字范围：1-46x6模式：数独大小：6x6每个宫格大小：2x3数字范围：1-69x9模式：数独大小：9x9每个宫格大小：3x3数字范围：1-9主要优化点：4.添加了模式选择下拉框，可以选择4x4、6x6、9x9模式5.根据选择的模式动态创建不同大小的棋盘6.生成不同大小的数独题目7.验证输入的合
变型桥——桥接模式详解（Python实现）
引言在上一篇文章中，我们详细介绍了适配器模式（AdapterPattern），并展示了如何通过适配器将不兼容的接口转换为兼容的接口，使得原本无法协同工作的类能够在一起工作。这次，我们将探讨另一种结构性设计模式——桥接模式（BridgePattern），或者我们可以亲切地称它为“变型桥”。桥接模式将抽象部分与它的实现部分分离，使它们都可以独立地变化，通过引入一个桥接接口，桥接模式可以让抽象和实现独立
Python适配器模式详解：让不兼容的接口协同工作 detayun Python python 适配器模式开发语言
一、模式定义与核心思想适配器模式（AdapterPattern）是一种结构型设计模式，它通过创建一个中间层（适配器），将不兼容的接口转换为客户端期望的接口。就像现实中的电源适配器，让不同国家的插头都能在同一个插座上工作。二、模式结构解析#目标接口：客户端期望的接口classTarget:defrequest(self):"""标准请求方法"""raiseNotImplementedError#被适
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
gitlab修改DNS解析配置文件中东大鹅 gitlab linux git
在Linux（CentOS7.9）云服务器上解压gitlab时提示需要Python的环境[root@rainyun-v1vct1josrc]#rpm-ivhgitlab-ce-10.8.4-ce.0.el7.x86_64.rpmwarning:gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm:HeaderV4RSA/SHA1Signature,keyIDf27eab47:N
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
Python FastAPI 与传统 Web 框架的性能对比 Python编程之道 python fastapi 前端 ai
PythonFastAPI与传统Web框架的性能对比关键词：FastAPI、性能对比、Web框架、异步编程、Python、Django、Flask摘要：本文深入探讨了FastAPI与传统PythonWeb框架（如Django和Flask）在性能方面的差异。我们将从架构设计、请求处理模型、并发能力等多个维度进行对比分析，并通过基准测试数据展示实际性能差异。文章还将提供代码示例和性能优化建议，帮助开发
Python Django 数据库索引优化 Python编程之道 python django 数据库 ai
PythonDjango数据库索引优化关键词：DjangoORM、数据库索引、查询优化、性能调优、PostgreSQL、MySQL、执行计划摘要：本文深入探讨Django框架中的数据库索引优化策略。我们将从数据库索引的基本原理出发，详细分析DjangoORM如何生成SQL查询，以及如何通过合理的索引设计提升查询性能。文章包含索引类型选择、复合索引优化、Django模型字段索引配置、查询集优化技巧等
Python Scrapy爬取办公用品网站数据的策略 Python编程之道 python scrapy 开发语言 ai
1.引入与连接想象一下，你是一家办公用品公司的市场调研人员，需要了解竞争对手的产品价格、种类等信息。如果手动去各个办公用品网站收集这些数据，那将是一项极其繁琐且耗时的工作。而Python的Scrapy框架就像是一个不知疲倦的超级助手，能帮你快速、高效地从众多网站抓取所需数据。你可能已经对Python有了一定的了解，知道它是一门功能强大且应用广泛的编程语言。Scrapy则是Python中专门用于网络
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
新手向:基于 Python 的简易视频剪辑工具
在数字媒体时代，视频创作已成为大众表达的重要形式，从个人vlog制作到企业宣传视频，视频内容的需求呈现爆发式增长。传统专业软件如AdobePremierePro虽功能强大，提供完整的非线性编辑系统，但存在学习曲线陡峭（新手通常需要数周系统学习）、资源占用高（最低配置要求8GB内存）、授权费用昂贵（订阅价约20美元/月）等痛点。相比之下，Python凭借其丰富的多媒体库生态系统（如OpenCV、Mo
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

机器学习（9）——特征工程（3）（补充）

1 数据集

1.1 可用数据集

1.2 sklearn数据集

1.2.1 scikit-learn数据集API介绍

1.2.2 sklearn数据集的使用

1.2.3 数据集的划分

2 特征工程介绍

2.1 什么是特征工程

2.2 特征提取

2.2.1 字典特征提取

2.2.2 文本特征提取

2.2.3 jieba分词处理

2.2.4 Tf-idf文本特征提取

3 特征预处理

3.1 归一化

3.2 标准化

4 特征降维

4.1 特征选择

4.1.1 过滤式——低方差特征过滤

4.1.2 过滤式——相关系数

4.2 主成分分析

你可能感兴趣的:(机器学习,机器学习,python,数据挖掘)