yougwypf1991

关于特征工程方法和应用的总结

特征工程
- 1.1 数据
- - 结构化数据
  - 非结构化数据
- 1.2 常用特征处理方法
- - 1.2.1 类别特征
  - - 独热编码
    - 哈希编码
    - 标签编码
    - 频数编码
    - Label-count编码
    - 目标编码
    - 嵌套法
    - NaN编码
    - 多项式编码
    - 扩展编码
    - 合并编码
  - 1.2.2 数值特征
  - - 四舍五入
    - 数据分箱
    - 取对数
    - 特征缩放
    - 归一化
    - 错误数据和缺失数据的处理
    - 交叉特征
    - 线性算法的非线性编码
    - 行统计
  - 1.2.3 时间特征
  - - 映射
    - 趋势线
    - 事件贴近
    - 时间差
    - 时间分箱
  - 1.2.4 空间特征
  - - 位置
    - 位置关系
    - 异常位置行为
  - 1.2.5 自然语言处理
- 1.3 特征选择
- - 1.3.1 Filter方法
  - - 方差法
    - Pearson系数
    - 卡方检验
    - 互信息法
  - 1.3.2 Wrapper方法
  - - 递归特征消除法
  - 1.3.3 Embedded
  - - 基于惩罚项的特征选择法
    - 基于树模型的特征选择法
    - 深度学习特征选择方法
  - 1.3.4 其他

特征工程

根据事物所具有的共性，所抽象出来的能代表这个事物的概念，就叫特征。而特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来讲，特征工程是一个表示和展现数据的过程，在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

1.1 数据

结构化数据

结构化数据类型可以看作是关系型数据库的一张表每一列都有清晰的定义，包含了数值型、类别型两种基本类型，每一行数据表示一个样本的信息。

非结构化数据

主要包括文本、图像、音频、视频数据，其包含的信息无法用一个简单的数值表示，也没有清晰的类别定义，并且每条数据的大小各不相同。

1.2 常用特征处理方法

1.2.1 类别特征

独热编码

独热编码是一种数据预处理技巧，它可以把类别数据变成长度相同的特征，常用语特征间不存在内在顺序的场景，并且类别数量最好不要大于4。例如，人的性别分成男女，每一个人的记录只有男或者女，那么我们可以创建一个维度为2的特征，如果是男，则用(1,0)表示，如果是女，则用(0,1)。即创建一个维度为类别总数的向量，把某个记录的值对应的维度记为1，其他记为0即可。对于类别不多的分类变量，可以采用独热编码。

哈希编码

对于类别数量很多的分类变量可以采用哈希编码，其目标就是将一个数据点转换成一个向量。利用的是哈希函数将原始数据转换成指定范围内的散列值，相比较独热模型具有很多优点，如支持在线学习，维度减小等。

标签编码

标签编码直接将类别转换为数字，常用于类别间存在内在顺序的场景。例如成绩以分为低、中、高三挡并且存在“高>中>低”的排序关系标签编码会按照大小关系对类别型特征赋予一个数值 ID ，例如高表示为3，中表示为2、低表示为1，转换后依然保留了大小关系。

频数编码

频数编码使用频次替换类别，频次根据训练集计算。这个方法对离群值很敏感，所以结果可以归一化或者转换一下（例如使用对数变换）。未知类别可以替换为1。但这种编码一个明显的缺点就是容易导致类别碰撞，即两个类别编码的值相等。
例如下图中，左侧是老师的ID，右侧表示对应的ID在数据集中出现的频数。

Label-count编码

根据类别在训练集中的频次排序类别（升序或降序）。相比标准的频次编码，LabelCount具有特定的优势——对离群值不敏感，也不会对不同的值给出同样的编码。

目标编码

它使用目标变量的均值编码类别变量，适用于特征间不存在内部的顺序关系，并且类别数量一般大于4时使用。我们为训练集中的每个分组计算目标变量的统计量（这里是均值），之后会合并验证集、测试集以捕捉分组和目标之间的关系。例如在某一网站某一栏目发布帖子，可以通过计算每个栏目的回答评分的均值，从而得到在特定栏目发帖可以期望得到多少赞，这样有一个大概的估计。

嵌套法

嵌套法是使用神经网络的方法来将原始输入数据转换成新特征，嵌入实际上是根据想要实现的任务将特征投影到更高维度的空间，因此在嵌入空间中，或多或少相似的特征在它们之间具有小的距离。这允许分类器更好地以更全面的方式学习表示。例如，word embedding就是将单个单词映射成维度是几百维甚至几千维的向量，再进行文档分类，原本具有语义相似性的单词映射之后的向量之间的距离也比较小，进而可以帮助我们进一步进行机器学习的应用，这一点比独热模型好很多。
目前比较常用的嵌入模型是word2Vec，它主要由两个网络结构组成，分别是CBOW和Skip-gram，下图为两种网络的结构图。其中CBOW是根据上下文出现的词语来预测当前词的生成概率；而Skip-gram则是根据当前词来预测上下文中各词生成的概率。

NaN编码

NaN值就是缺失值，通常会的做法是直接忽略或利用其它缺失值填充方法进行处理，实际上NaN值在某些具体的业务中也是可以保存信息的，NaN编码方法就是为NaN值提供显式编码而不是忽略。

多项式编码

想要丰富特征，特别是对于线性模型而言，除了分箱外，另一种方法是添加原始数据的交互特征和多项式特征。对于给定的特征x，我们可以考虑x，x2、x3等。

扩展编码

就是一个变量扩充为多个变量，如一个数值特征，除了这个特征本身还可扩展为平均值、方差等。

合并编码

有时在类别够多时，数据集极有可能会发生各个类别样本数量差别很大的情况，有些类别样本数量很多，有些类别样本数量很少，甚至几个或几十个。这种情况如果不扩充对应样本数量或组合相似类别的样本到单独的类别，就很容易出现过拟合。可以通过样本聚类的方式样本较少的并且相似的样本聚成一类，并给定一个统一的类别。

1.2.2 数值特征

四舍五入

即取向上或向下取整。

数据分箱

数据分箱是一种数据预处理技术，用于减少轻微观察错误的影响。落入给定小间隔bin的原始数据值由代表该间隔的值（通常是中心值）代替。这是一种量化形式。统计数据分箱是一种将多个或多或少连续值分组为较少数量的“分箱”的方法。例如，如果有关于一组人的数据，您可能希望将他们的年龄安排到较小的年龄间隔。对于一些时间数据可以进行分箱操作，例如一天24小时可以分成早晨[5,8)，上午[8,11)，中午[11,14)，下午[14,19)，夜晚[10,22)，深夜[19,24)和临晨[24,5)。因为比如中午11点和12点其实没有很大区别，可以使用分箱技巧处理之后可以减少这些“误差”。可以对比目前系统的risklevel到风险等级的映射关系，其中risklevel的取值范围为 $[0,+\infty)$ 。

取对数

取对数就是指对数值做log转换，可以将范围很大的数值转换成范围较小的区间中。Log转换对分布的形状有很大的影响，它通常用于减少右偏度，使得最终的分布形状更加对称一些。它不能应用于零值或负值。对数刻度上的一个单位表示乘以所用对数的乘数。另外，在某些机器学习的模型中，对特征做对数转换可以将某些连乘变成求和，更加简单。
如前所述，log转换可以将范围很大的值缩小在一定范围内，这对某些异常值的处理也很有效，例如用户查看的网页数量是一个长尾分布，一个用户在短时间内查看了500个和1000个页面都可能属于异常值，其行为可能差别也没那么大，那么使用log转换也能体现这种结果。

特征缩放

特征缩放是一种用于标准化独立变量或数据特征范围的方法。在数据处理中，它也称为数据标准化，并且通常在数据预处理步骤期间执行。特征缩放可以将很大范围的数据限定在指定范围内。由于原始数据的值范围变化很大，在一些机器学习算法中，如果没有标准化，目标函数将无法正常工作。例如，大多数分类器按欧几里德距离计算两点之间的距离。如果其中一个要素具有宽范围的值，则距离将受此特定要素的控制。因此，应对所有特征的范围进行归一化，以使每个特征大致与最终距离成比例。应用特征缩放的另一个原因是梯度下降与特征缩放比没有它时收敛得快得多。
特征缩放主要包括最大最小缩放（Min-max Scaling）和标准化缩放（Standard(Z) Scaling）两种方式。

归一化

在最简单的情况下，归一化化意味着将在不同尺度上测量的值调整到概念上的共同尺度。在更复杂的情况下，归一化可以指更复杂的调整，其目的是使调整值的整个概率分布对齐。在一般情况下会与正态分布对齐。
在统计学的另一种用法中，归一化将不同单位的数值转换到可以互相比较的范围内，避免总量大小的影响。归一化后的数据对于某些优化算法如梯度下降等也很重要。常用的归一化方法包括线性归一化和零均值归一化。

错误数据和缺失数据的处理

错误数据可以矫正，如格式错误，如时间2020-05-11统一格式为20200511
对于缺失数据的处理，有以下方法：
①去掉所在的行/列
②均值填充
③中位数填充
④众数填充
⑤算法预测填充

交叉特征

在特征工程中，挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。例如，在新闻推荐场景中，一个三阶交叉特征为AND(user_organization=msra,item_category=deeplearning,time=monday_morning),它表示当前用户的工作单位为微软亚洲研究院，当前文章的类别是与深度学习相关的，并且推送时间是周一上午。
传统的交叉特征是由工程师手动设计的，这有很大的局限性，成本很高，并且不能拓展到未曾出现过的交叉模式中。为此利用神经网络自动的去学习高阶的特征交互模式，弥补人工特征工程带来的局限性，这些模型包括：Wide&Deep、PNN、DeepFM、DCN以及近期提出的xDeepFM。这类模型在推荐系统中应用较多。

线性算法的非线性编码

硬编码非线性以改进线性算法、多项式核、叶编码、遗传算法

行统计

Null的个数、0的个数、负数的个数、均值、最大值、最小值等

1.2.3 时间特征

映射

将数值某一个数值映射成圆上的两个坐标，适用于一周的第几天，一个月的第几天，一天中的第几个小时这种关系。也可以转换为具体的数字，如第几个月，第一天，第几个小时，第几秒，以及其他的一些扩展，如节日之类的。

趋势线

使用趋势量而不是总量来编码，例如使用上个星期花销，上个月花销，去年的花销，而不是总花销。两个总花销相同的客户可能在消费行为上有很大差别。

事件贴近

每个月的第几天，每周的周末，某政治事件前后，这种重要事件节点附近的值可能会更有意义。

时间差

如上次用户交互到这次用户交互的时间间隔，看时间间隔有没有什么规律，如心跳等。

时间分箱

如工作时间段和非工作时间段，如果在非工作时间段出现了大量的交互记录，需要重点关注。

1.2.4 空间特征

GPS坐标、国家、城市、地址、非境外等

位置

GPS的经纬度、将城市名称映射成经纬度、将地址添加上邮编、特征聚类等

位置关系

位置与附近主要枢纽间的联系紧密程度、城市所属省份、电话/IP映射成地理位置或附近机构等。

异常位置行为

一些关于位置数据可能会指示可疑行为，如异常的速度，同一用户不同国家几乎同时交互等。

1.2.5 自然语言处理

处理方法	描述
小写或大写	统一改为小写或者大写的格式
删除非字母数字字符	仅处理字母和数字
拼写矫正	矫正明显的拼写错误，如多空格，提前换行等
符号编码	直接对符号进行硬编码，将其与字母数字一视同仁
分词	将句子切分为一个个单词
N-grams	N-grams模型处理文本
Skipgrams	与ngrams差不多，就是中间要跳过一个单词。如I like the Beatles，则转换为[“I the”, “like Beatles”]
chargrams	字符级别的ngrams
去除停用词
去除罕见词和常用词	去除及其罕见以及不在停用词列表中的及其常见的单词
词干提取	找词根，如dogs，那么就转换为dog
词形还原	词形还原，如never be late转换为never are late
文档特征	空格数量、tab数量、空行数量、字符数量等
采样
Word2Vec、GloVe和Doc2Vec
字符串相似性	计算同时出现在两个文档中的词的数量；计算二者之间的汉明距离、jaccard距离和Levenshtein距离；计算二者之间的word2vec或Glove向量距离。
最近邻
TF-IDF	TF-IDF建模
PCA、SVD、LDA、LSA	降维

1.3 特征选择

首先，从特征开始说起，假设现在有一个标准的Excel表格数据，它的每一行表示的是一个观测样本数据，表格数据中的每一列就是一个特征。在这些特征中，有的特征携带的信息量丰富，有的（或许很少）则属于无关数据（irrelevant data），我们可以通过特征项和类别项之间的相关性（特征重要性）来衡量。比如，在实际应用中，常用的方法就是使用一些评价指标单独地计算出单个特征跟类别变量之间的关系。如Pearson相关系数，Gini-index（基尼指数），IG（信息增益）等。

1.3.1 Filter方法

按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。在进行特征选择时常使用sklearn的SelectKBest方法，它的第一个参数是函数，第二个参数是选择的特征个数。score_func可以是自行构造的，也可以是系统推荐的，其中推荐的包括：f_classif(方差分析)、chi2(卡方验证)、f_regression、SelectPercentile、SelectFpr、SelectFdr、mutual_info_classif、SelectFwe和GenericUnivariateSelect。

方差法

首先计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下：

from sklearn.datasets import load_iris
from sklearn.feature_selection import VarianceThreshold

#方差选择法，返回值为特征选择后的数据
#参数threshold为方差的阈值
iris = load_iris()
print(iris.data[0])
print(iris.target[0])
Var = VarianceThreshold(threshold=3)     # 创建对象
New_feature = Var.fit_transform(iris.data)  # 筛选除新的特征
print(New_feature[0])
输出：
[ 5.1  3.5  1.4  0.2]
0
[ 1.4]

从输出结果看，只有data的第三列满足该条件。

Pearson系数

Pearson系数的计算方式如下：
$r_{xy}^2=\frac{con(x,y)}{\sqrt{var(x)var(y)}}$
其中，属于 $x$ 表示一个特征的观测值， $X$ 表一个特征的多个观测值， $y$ 表示这个特征观测值对应的类别列表。
Pearson相关系数的取值在0到1之间，Sklearn实现pearson系数的特征选择：

from sklearn.feature_selection import SelectKBest, f_classif
from scipy.stats import pearsonr
from sklearn.datasets import load_iris
import numpy as np

iris=load_iris()
# 函数输入特征矩阵和目标向量，输出二元组（评分，P值）的数组，数组第i项为第i个特征的评分和P值。在此定义为计算相关系数
def multivariate_pearsonr(X, y):
    scores, pvalues = [], []
    for ret in map(lambda x:pearsonr(x, y), X.T):
        scores.append(abs(ret[0]))
        pvalues.append(ret[1])
    return (np.array(scores), np.array(pvalues))

# pearson函数
#   输入：x为特征，y为目标变量
#   输出：r： 相关系数 [-1，1]之间，p-value: p值
#   注： p值越小，表示相关系数越显著，一般p值在500个样本以上时有较高的可靠性。

# SelectKBest的第一个参数是计算评估特征是否好的函数，第二个参数k为选择的特征个数
transformer = SelectKBest(score_func=multivariate_pearsonr, k=2)
Xt_pearson = transformer.fit_transform(iris.data, iris.target)
print(Xt_pearson)

当然也有其他利用该系数的方式，如果使用这个评价指标来计算所有特征和类别标号的相关性，那么得到这些相关性之后，可以将它们从高到低进行排名，然后选择一个子集作为特征子集（比如top 10%），接着用这些特征进行训练，看看性能如何。此外，还可以画出不同子集的一个精度图，根据绘制的图形来找出性能最好的一组特征。

卡方检验

卡方检验只能用于二分类任务，就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。
经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有种取值，因变量有种取值，考虑自变量等于且因变量等于的样本频数的观察值与期望的差距，构建统计量：
$\chi^2=\sum\frac{(A-E)^2}{E}=\sum_{i=1}^k\frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k\frac{(A_i-np_i)^2}{np_i}$
在实际运用中使用sklearn的chi2和SelectKBest的组合就可完成基于卡方检验的特征选择。

互信息法

经典的互信息也是评价定性自变量对定性因变量的相关性的。相关系数、卡方检验、互信息法选择特征的原理是相似的，但相关系数通常只适合于连续特征的选择。互信息计算公式如下：
$I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$
在实际运用中使用sklearn的mutual_info_classif和SelectKBest的组合就可完成基于互信息法的特征选择。

1.3.2 Wrapper方法

封装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。

递归特征消除法

递归特征消除的主要思想是，反复构建模型，然后选出其中贡献最差的特征，把选出的特征剔除，然后在剩余特征上继续重复这个过程，直到所有特征都已遍历。这是一种后向搜索方法，采用了贪心法则。而特征被剔除的顺序，即是它的重要性排序。为了增强稳定性，这里模型评估常采用交叉验证的方法。具体实现如下：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
#递归特征消除法，返回特征选择后的数据
#参数estimator为基模型
#参数n_features_to_select为选择的特征个数
# 函数RFE即返回已经选择好的特征
RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data,iris.target)

1.3.3 Embedded

集成法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

基于惩罚项的特征选择法

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。实现代码:

from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression

# 带L1惩罚项的逻辑回归作为基模型的特征选择
SelectFromModel(LogisticRegression(penalty="l1",C=0.1)).fit_transform(iris.data, iris.target)

基于树模型的特征选择法

树模型在学习时，是以纯度为评价基准，选择最好的分裂属性进行分裂，这本身也可以看作一个特征选择的过程。这里选择随机森林算法为选择算法，在实现上，有平均不纯度减少和平均精确度减少两种。
1.3.3.2.1.平均不纯度减少
树模型的训练过程，总在选择最优的属性将数据分裂，属性的优劣是通过计算每个特征对树的不纯度的减少程度。而对于随机森林，可以计算每课树减少的不纯度的平均值，作为特征的重要性系数。
但不纯度方法存在一定的缺陷。不论哪种度量手段，都存在着一定的偏好。例如信息增益偏好取值多的属性、信息增益率偏好取值少的属性。且对于存在关联的一组强特征，率先被选择的属性重要性远远高于后被选择的属性，因为某属性一旦备选意味着数据集不纯度会迅速下降，而其他属性无法再做到这一点，容易对特征的理解产生歧义。
1.3.3.2.2.平均精确度减少
平均精确度减少是直接度量每个特征对模型精确率的影响。主要思路是打乱特征的特征值顺序，度量顺序变动对于模型精确率的影响。很明显，对于不重要的变量，打乱顺序对精确率影响不会太大，但重要的特征，就会对精确率产生明显的影响。

Sklearn实现代码：

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

#GBDT作为基模型的特征选择
SelectFromModel(RandomForestClassifier()).fit_transform(iris.data, iris.target)

深度学习特征选择方法

可以从深度学习模型中选择某一层神经层的特征，这些特征就可以用来进行最终目标模型的训练。

1.3.4 其他

如通过绘制特征的分布图，有时可以指导特征工程，如数据分箱范围等。

感谢阅读。

如果觉得文章对你有所帮助，欢迎打赏哦～

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
淘陶居老袁藏品东海堂
【造像艺术】文化遗产•汉地木造像的区域特征、古代精品造像欣赏。。。。。。（来源：蠢牛/颜旭茂）原创2016-06-12作者：作者：蠢牛（颜旭茂）木造像的地位一直挺尴尬的。国外大型博物馆的木造像基本都是宋元以前的，明代只藏极品。国内也就故宫、国博和上博有能力弄几尊宋木，山西省博貌似只有一尊顶级的明代菩萨能拿得出手，其他木雕大省的博物馆再怎么也应当展示些明清木雕吧，总比同时代那什么坛坛罐罐更有艺术性。
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
应酬的不容易曾珊_1aa2
春节期间，有人逼婚，有人劝酒，不管是逼婚还是劝酒，都有点把自己得意志强加在别人头上的意思。请客送礼也藏着这种感觉。过节时送礼和收礼，都是类似的礼物，收下，太多，转送，不礼貌，拒绝，就会有一个又一个小战争。这些事情都有点强买强卖的意思，对方的好意你必须接受，即便带着点恶意，如劝酒你也得接受，否则就是不给对方面子。中国式的请客、吃饭、送礼的一些特征：1送大家都送的礼。因为没有用心，所以不知道对方要什么
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
电子技术引领汽车智能新浪潮，尽在AUTO TECH 2025广州国际汽车电子技术盛会 JSZNZZ 汽车
随着科技的持续进步，汽车电子行业正迎来深刻的转型。这一变革的显著特征是从传统的机械控制方式逐渐过渡到智能化和网联化的管理系统。这种转变不仅提升了汽车电子产品的技术复杂性，还极大地丰富了其创新性和功能性。在这个过程中，产品开发的质量和效率变得尤为关键，它们直接决定了企业在激烈竞争环境中的市场地位和商业成功。面对快速变化的市场需求，汽车电子行业在产品开发过程中遇到了多方面的挑战。其中，信息孤岛是一个显
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache