SunJackson

特征工程-数据处理

特征工程

连续型变量
- 连续变量无量纲化
- 连续变量数据变换
- 连续变量离散化
类别变量
时间型、日期型变量
缺失值处理
特征组合

连续型变量处理

什么是连续型变量？

在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.

连续变量无量纲化

统一数据单位，消除数据间由于量纲带来的差异，使数据量级尽量保持在相同范围内。这样，表征不同属性（单位不同）的各特征之间才有可比性.

无量纲化方法：标准化、归一化、正则化，区间缩放法

标准化

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

z-score标准化（零-均值标准化），经过处理后的数据均值为0，标准差为1。处理方法是：

x′=(x−μ)/σ
x是原始数据，u是样本均值，σ是样本标准差。

均值为0会使数据以0为中心左右分，标准差为1有什么好处呢？http://www.cnblogs.com/zhaokui/p/5112287.html

小数定标标准化

y=x/10^j （j确保max(|y|<1），通过移动x的小数位置进行标准化

对数Logistic模式

y=1/(1+e^(-x))

归一化

min-max归一化，该方法是对原始数据进行线性变换，将其映射到[0,1]之间。变换函数为
x′=(x−min)/(max−min)
min是样本的最小值，max是样本的最大值。由于最大值与最小值可能是动态变化的，同时也非常容易受噪声(异常点、离群点)影响，因此一般适合小数据的场景。此外，该方法还有两点好处：

如果某属性/特征的方差很小，如身高：np.array([[1.70],[1.71],[1.72],[1.70],[1.73]])，实际5条数据在身高这个特征上是有差异的，但是却很微弱，这样不利于模型的学习，进行min-max归一化后为：array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]])，相当于放大了差异；
维持稀疏矩阵中为0的条目。

归一化的其他方法：
- 对数转化
  y=log10(x)
- 反余切函数转换
  y=atan(x)*2/PI

正则化

正则化的过程是将每个样本缩放到单位范数（每个样本单位范数为1），如果后面要使用如二次型（点积）或者其他核方法（核方法是一类模式识别的算法，其目的是找出并学习一组数据中的相互关系）计算两个样本之间的相似。
normalization主要思想是对每个样本计算p-范数，然后对样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数等于1。
p-范数的计算公式：||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p
该方法主要应用于文本分类和聚类中。
在sklearn中有三种正则化方法，l1范数、l2范数、max范数

区间缩放法

区间缩放法的思路有多种，常见的一种为利用两个最值进行缩放，公式表达为：
x′=(x−min)/(max−min)

连续变量数据变换

连续变量数据转换主要是通过函数变换改变原始数据的分布。

连续变量数据转换的目的：

便于置信区间分析或者可视化 (缩放数据，对称分布)
为了获取更容易解释的特征 (获取线性特征)。
降低特征数据的维度或者复杂度
方便使用简单的回归模型

连续变量数据变换方法：

单变量变换
- 线性变换
- 非线性变换
多变量变换

单变量变换-线性变换

执行单变量分析的方法取决于变量类型是分类类型还是连续类型。在连续变量的情况下，我们需要了解变量的中心趋势和分散，使用各种统计度量可视化方法进行测量。

单变量变换-非线性变换

多变量变换

双变量分析的主要目的是发现两个变量之间的关系。可以对分类和连续变量的任何组合执行双变量分析。在两个连续变量之间进行双变量分析时，散点图（ scatter plot）是找出两个变量之间的关系的一个很好的方式。散点图表示变量之间的关系可以是线性或非线性。

连续变量离散化

对连续特征进行离散化处理，一般经过以下步骤:
(1) 对此特征进行排序。特别是对于大数据集，排序算法的选择要有助于节省时间，提高效率，减少离散化的整个过程的时间开支及复杂度。
（2）选择某个点作为候选断点，用所选取的具体的离散化方法的尺度进行衡量此候选断点是否满足要求。
（3）若候选断点满足离散化的衡量尺度，则对数据集进行分裂或合并，再选择下一个候选断点，重复步骤（2）（3）
（4）当离散算法存在停止准则时，如果满足停止准则，则不再进行离散化过程，从而得到最终的离散结果。

连续变量离散化的目的：

离散特征的增加和减少都很容易，易于模型的快速迭代；
稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
逻辑回归属于广义线性模型，表达能力受限，单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反；
特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

连续变量离散化方法：

无监督方法
- 分箱法
- 直观划分
有监督方法
- 1R方法
- 基于卡方的离散方法

无监督方法-分箱法

分箱法包括等宽分箱法和等频分箱法，它们是基本的离散化算法
分箱的方法是基于箱的指定个数自顶向下的分裂技术，在离散化的过程中不使用类信息，属于无监督的离散化方法。在等宽或等频划分后，可用箱中的中位数或者平均值替换箱中的每个值，实现特征的离散化。

自顶向下的分裂策略：即先把整个数据集当作一个区间，再逐步选出端点，对大的区间进行分裂得到小的区间

自底向上的合并策略：将数据取值范围内的所有数据值列为一个单独的区间，再递归的找出最佳近邻可合并的区间，然后合并他们，形成较大的区间。在判定最佳邻近可合并的区间时，会用到卡方统计量来检测两个对象间的相关度。

1、等距划分
从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界，每个等份里面的实例数量可能不等。

2、等频划分
区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。

这两种方法的弊端；
比如,等宽区间划分,划分为5区间,最高工资为50000,则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反,所有工资高于50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。

无监督方法-直观划分

根据直观划分离散化。为了使所划分的区间更加自然，规整（例如不出现大量的小数，整数位除最高位外全部为0）。

规则：3-4-5规则。根据最高有效位的取值范围，将区间划分为相对等宽的几个3，4,或5个区间。

如果最高有效位包含3，7（2,3,2），6，9个不同的值，则划分为三个区间；如果包含2,4,8个不同的值，则划分为4个区间；如果包含1,5,10个不同的值，则划分为5个等宽的区间。

步骤：

根据信息的最大max最小值min确定所需考虑的最低low（第5个百分位数）和最高high值（第95个百分位数）。
根据low，high确定最高有效位的位（个位，十位，百分位。。。。），则令msd=1,10,100。。。。。然后将low，higi向下和向上取值（使区间能够包含low，high范围），得到新的low和high。
计算最高有效位取值的不同个数=（high-low）/msd.并根据上面的规则确定划分区间。
向上向下兼容。如果min>low,则使low=min,否则创建新区间（min,low],在high处同样使用此方法。
可以递归的使用此方法对每一个结果区间进行划分操作。

无监督方法-聚类划分

基于聚类分析的离散化方法也是一种无监督的离散化方法。此种方法包含两个步骤：

首先是将某特征的值用聚类算法（如K-means算法）通过考虑特征值的分布以及数据的临近性，划分成簇或组；然后是将聚类得到的簇进行处理，可分为自顶向下的分裂策略和自底向上的合并策略。分裂策略是将每一个初始簇进一步分裂为若干子簇，合并策略是通过反复地对邻近簇进行合并，聚类分析的离散化方法也需要用户指定簇的个数，从而决定离散产生的区间数。

有监督方法-1R方法

1R是一种使用分箱的有监督的方法，他把连续的区间分成小的区间，然后再使用类标签对小区间的边界进行调整，每个区间至少包含6个实例，除了最后一个区间外，最后一个区间包含所有未被列入其他区间的实例。如果下一个实例的类标签与此区间中大多数实例的类标签相同，则把此实例加入区间中，否则，形成下一个新的区间，反复操作，直至结束。把区间中大多数实例的共同标签作为此区间的类标签，如果最后有相同的类标签出现，则合并。

有监督方法-基于卡方的离散方法

卡方的离散化方法采用的是自底向上的合并策略，最常用的基于卡方的离散化方法是ChiMerge方法，是一种自动化的离散化算法。过程如下：

首先将数值特征的每个不同值看做一个区间，对每个相邻区间计算卡方统计量，将其与需要人为设定置信水平参数（由统计学知识算出一个与计算量相比较的阈值）进行比较，高于阈值则把相邻区间进行合并（高的卡方统计量表示这两个相邻的区间有相似的类分布，相似类分布的区间应该进行合并形成一个区间），合并的过程递归的进行，直到计算得到的卡方统计量不再大于阈值，离散化过程终止，得到最终的离散化结果。

置信水平参数设置过高会导致过分离散化，过低离散化不足。

###有监督方法-基于信息熵的方法

基于熵的离散化。是一种监督的，自顶向下的分裂技术。

该方法原理：选择属性A中具有最小熵的值作为分裂点，并递归的划分结果区间，直到所有候选分类点上的最小信息需求（基于熵的某个公式）小于某个阈值或者结果区间的个数大于某个阈值。其中属性A为D的类标号属性。即：基于熵的离散化使用元祖的类标号信息，类标号属性提供每个元祖的类信息。

注：这里的熵指信息熵。是对不确定性的一种度量。信息量越大，不确定性就越小，熵也就越小；信息量越小，不确定性越大，熵也越大。根据熵的特性，我们可以通过计算熵值来判断一个事件的随机性及无序程度，也可以用熵值来判断某个指标的离散程度，指标的离散程度越大，该指标对综合评价的影响越大。

类别变量

什么是类别型变量?

分类变量（categorical variable）是说明事物类别的一个名称，其取值是分类数据。如“性别”就是一个分类变量，其变量值为“男”或“女”；“行业”也是一个分类变量，其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。简单来说这类变量通常都是文本类的，但是在进行建模时，python不能像R那样去直接处理非数值型的变量，因此我们往往需要对这些类别变量进行一系列转换，如哑变量或是独热编码。例如性别这个特征：男性人数为x1,男性中流失人数x11,女性人数x2，女性中流失人数x22。那么我们以x11/x1作为男性编码；x22/x2作为女性编码。

其变量值是定性的，表现为互不相容的类别或属性。

1. 无序分类变量

无序分类变量（unordered categorical variable）是指所分类别或属性之间无程度和顺序的差别。，它又可分为①二项分类，如性别（男、女），药物反应（阴性和阳性）等；②多项分类，如血型（O、A、B、AB），职业（工、农、商、学、兵）等。对于无序分类变量的分析，应先按类别分组，清点各组的观察单位数，编制分类变量的频数表，所得资料为无序分类资料，亦称计数资料。

2. 有序分类变量

有序分类变量（ordinal categorical variable）各类别之间有程度的差别。如尿糖化验结果按－、±、+、++、+++分类；疗效按治愈、显效、好转、无效分类。对于有序分类变量，应先按等级顺序分组，清点各组的观察单位个数，编制有序变量（各等级）的频数表，所得资料称为等级资料。

变量类型不是一成不变的，根据研究目的的需要，各类变量之间可以进行转化。例如血红蛋白量（g/L）原属数值变量，若按血红蛋白正常与偏低分为两类时，可按二项分类资料分析；若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时，可按等级资料分析。有时亦可将分类资料数量化，如可将病人的恶心反应以0、1、2、3表示，则可按数值变量资料（定量资料）分析。

对类别型变量一般是进行编码处理，使其变成数值型变量。

类别型数据编码处理

类别型数据编码目的：

机器学习或者深度学习算法一般无法处理类别型数据
构造新的特征，扩充新特征

类别型数据编码方法：

one-hot encoding 独热编码 ;
dummy encoding 哑变量编码;
label-encoding 标签编码;
count-Encoding 频数编码（可以去量纲化，秩序，归一化）;
Target encoding 目标编码用目标变量中的某一类的比例来编码;

one-hot encoding 独热编码

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效，Pandas中提供get_dummies方法可以方便的将数值转化为One-hot向量
例如：
自然状态码为：000,001,010,011,100,101
独热编码为：000001,000010,000100,001000,010000,100000
可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的

dummy encoding 哑变量编码

label-encoding 标签编码

标签编码直接将类别转换为数字。pandas.factorize提供了这一功能，或者，pandas中category类型的列提供了cat.codes。使用标签编码能够保持原本的维度

count-Encoding 频数编码

频数编码使用频次替换类别，频次根据训练集计算。这个方法对离群值很敏感，所以结果可以归一化或者转换一下（例如使用对数变换）。未知类别可以替换为1。

尽管可能性不是非常大，有些变量的频次可能是一样的，这将导致碰撞——两个类别编码为相同的值。没法说这是否会导致模型退化或者改善，不过原则上我们不希望出现这种情况。

Target encoding 目标编码

它使用目标变量的均值编码类别变量。我们为训练集中的每个分组计算目标变量的统计量（这里是均值），之后会合并验证集、测试集以捕捉分组和目标之间的关系。

使用目标变量时，非常重要的一点是不要泄露任何验证集的信息。所有基于目标编码的特征都应该在训练集上计算，接着仅仅合并或连接验证集和测试集。即使验证集中有目标变量，它不能用于任何编码计算，否则会给出过于乐观的验证误差估计。

如果使用K折交叉验证，基于目标的特征应该在折内计算。如果仅仅进行单次分割，那么目标编码应该在分开训练集和验证集之后进行。

此外，我们可以通过平滑避免将特定类别编码为0. 另一种方法是通过增加随机噪声避免可能的过拟合。处置妥当的情况下，无论是线性模型，还是非线性模型，目标编码都是最佳的编码方式

时间型、日期型变量

时间型、日期型变量处理目的：

将无法直接参与训练的日期类型转化为可以参与训练的数据
提取时间日期中的关键数据特征，比如上午、下午、周几、上旬、下旬等等

时间型、日期型变量处理方法：

直接使用python的datetime库进行日期转换
使用pandas自带的时间处理功能提取日期型和时间型的特征变量
其他

缺失值处理

常见的数据缺失处理方法：

删除缺失值记录
缺失值替换:
- 用0替换
- 平均数替换
- 众数替换
- 用插值法填充
- 预测缺失值替换
- 构造NaN encoding编码（构造一个新的字段来标识是否有缺失(1/0)，该方法在任何时候都可使用）
忽略缺失值（有一些模型，如随机森林，自身能够处理数据缺失的情况，在这种情况下不需要对缺失数据做任何的处理，这种做法的缺点是在模型的选择上有局限。）

特征组合

使用多个特征生成一个之前不存在的新特征。

特征组合目的：

生成新的特征，扩充特征维度
通过将单独的特征进行组合（相乘或求笛卡尔积）而形成的合成特征。特征组合有助于表示非线性关系。

更多内容请看：https://www.sunjackson.com

【分布式日志篇】从工具选型到实战部署：全面解析日志采集与管理路径网罗开发人工智能实战 java集 spring boot 人工智能分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
推荐系统的未来发展方向：大模型的主流化 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《推荐系统的未来发展方向：大模型的主流化》关键词：推荐系统，大模型，深度学习，人工智能，未来趋势摘要：本文深入探讨了推荐系统的发展历程及其在当前人工智能时代的重要性。重点分析了深度学习在大模型中的应用，探讨了大模型的主流化趋势及其面临的挑战。通过案例研究，展示了大模型在实际推荐系统中的应用效果，并对未来的发展方向进行了展望。目录大纲推荐系统的概述1.1推荐系统的发展历程1.2推荐系统的基本架构深度
使用 Spring AI 调用本地模型实现 drebander AI 编程 spring java springAI
在本篇博客中，我们将学习如何使用SpringAI框架调用本地的PyTorch模型，并通过SpringBoot提供一个预测接口。SpringAI是一个用于将人工智能应用集成到Spring生态系统中的框架，它支持多种AI模型和数据源的集成，帮助开发者将AI模型无缝地集成到Java应用中。1.准备PyTorch模型首先，我们需要训练并保存一个PyTorch模型。这里我们使用一个简单的神经网络模型作为示例
数据结构与算法分析：专题内容——人工智能中的寻路3之广度优先搜索（代码详解）梅见十柒数据结构与算法分析算法 c语言广度优先笔记
一、前言广度优先搜索尝试在不重复访问状态的情况下，寻找到一条最短路径。广度优先搜索保证如果存在一条到目标状态的路径，那么找到的肯定是最短路径。事实上，深度优先搜索和广度优先搜索的唯一不同就是广度优先搜索使用队列来保存开放集，而深度优先搜索使用栈。每次迭代时，广度优先搜索从队列头拿出一个未访问的状态，然后从这个状态开始，计算后继状态。如果达到了目标状态，那么搜索结束。任何已经在闭合集中的后继状态将会
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
如何从Oracle Autonomous Database加载文档 fGVBSAbe 数据库 oracle python
OracleAutonomousDatabase是一种云数据库，利用机器学习来自动化数据库调优、安全性、备份、更新以及其他传统由数据库管理员(DBAs)执行的例行管理任务。在本文中，我们将演示如何从OracleAutonomousDatabase加载文档。我们将使用连接字符串或TNS配置来进行连接。技术背景介绍OracleAutonomousDatabase通过自动化的方式极大地简化了数据库管理的
虚拟与现实的桥梁：Facebook AI 如何变革社交互动模式 LokiSan Facebook facebook 智能合约人工智能隐私保护
在过去的十年里，社交平台的发展经历了巨大的变化，而其中最为引人注目的便是人工智能（AI）技术的引入。作为全球最大的社交平台之一，Facebook在人工智能的应用上不断创新，通过AI变革了社交互动的方式，为用户带来了更加智能和个性化的社交体验。人工智能如何融入社交平台人工智能并非突然出现在Facebook的社交模式中，而是通过不断的发展和技术积累，逐步渗透到平台的各个方面。首先，AI被应用于内容推荐
元宇宙如何改变社交平台的交互模式？Facebook的未来展望 Roc_z7 Facebook facebook 隐私保护社交媒体元宇宙
随着科技的进步，"元宇宙"这个概念逐渐从科幻走进现实，并开始改变我们对社交平台的认知。元宇宙是一个虚拟的沉浸式三维世界，结合了虚拟现实（VR）、增强现实（AR）和人工智能（AI）等技术。Facebook（现Meta）作为全球最大的社交平台之一，早已着手布局元宇宙，力求在未来的社交世界中占据一席之地。那么，元宇宙将如何改变社交平台的交互模式？Facebook如何借此机会发展？本文将一一探讨。什么是元
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
人工智能和云计算带来的技术变革：人工智能实现自动化营销的方式 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的不断发展，我们正面临着一场技术革命。这场革命正在改变我们的生活方式、工作方式和商业模式。在这篇文章中，我们将探讨人工智能如何实现自动化营销的方式，并深入了解其背后的核心概念、算法原理、代码实例等。1.1人工智能简介人工智能是一种计算机科学的分支，旨在让计算机具有人类智能的能力，如学习、推理、感知、语言理解等。人工智能的目标是让计算机能够理解自然语言、解
RELLM: 利用正则表达式进行结构化生成的LLM库 safHTEAHE 正则表达式 python
在人工智能生成文本的应用中，确保输出符合特定格式是非常重要的。RELLM是一个库，它通过包装本地HuggingFace管道模型实现了结构化的生成。其核心功能在于逐步生成每一个词元，并在每一步中屏蔽不符合提供的部分正则表达式的词元。这使得输出能够严格遵循指定的格式。技术背景介绍人工智能语言模型（LLM）如GPT等，在生成文本时通常不限制输出格式。然而，在某些应用场景下，遵循特定的输出格式（如JSON
自动驾驶中的虚实迁移学习:降低对真实世界数据的依赖 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,迁移学习,虚实环境,数据效率,深度学习,强化学习1.背景介绍自动驾驶技术作为人工智能领域的重要应用之一，其发展离不开海量真实世界驾驶数据。然而，收集和标注真实世界驾驶数据成本高昂，且存在安全隐患。因此，如何降低对真实世界数据的依赖，提高自动驾驶系统的训练效率和安全性，成为一个亟待解决的关键问题。虚实迁移学习(Virtual-to-RealTransferLearning)作为一种新兴的机
进入大模型时代，你真的准备好了吗？鹏哥聊AI 人工智能
前言-PREFACE近期OpenAIo1系列模型发布，在面对复杂问题和专业领域上，有了大幅长足进步，对于博士水平的物理问题，GPT-4o只能得不及格的59.5分，而o1直接干到92.8分，虽然主要是科学、编码和数学模型专业能力方面的提升，还没达到人工智能的通用人工智能AGI和超级人工智能水平，但带来冲击力和震撼还是挺强的，试想一下，拥有一个Openo1的模型，就相当于在数学、物理、编码等方面有博士
使用SolarChat实现中英韩翻译的实战指南 azzxcvhj python
在这篇文章中，我们将探索如何利用SolarChat这一强大的聊天模型来实现中英韩翻译功能。SolarChat是一个方便的语言模型接口，能够帮助我们将自然语言处理任务集成到项目中。本文将详细介绍这个模型的核心原理，并通过示例代码展示如何使用它进行翻译。技术背景介绍随着人工智能的发展，语言模型在各种自然语言处理任务中扮演了重要角色。特别是在翻译、对话生成等领域，先进的语言模型如SolarChat为我们
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
【分享】一个查看无线网络密钥的小方法（查看 WiFi密码，热点密码）| 区块链面试题：区块链技术中，如何保证交易的匿名性和隐私性？| 公钥加密，数字签名，零知识证明追光者♂ 工具技巧解决办法百题千解计划(项目实战案例）网络 wlan 热点密码 WiFi密码区块链面试 WiFi
“你不是我，你不会懂。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！感谢大家点赞收藏⭐留言！！！目录一、基础回顾步骤1、win+R:cmd，进入Dos命令窗口
千万年薪招揽AI大牛！罗福莉加盟小米，将如何改变其大模型战略？前端
近年来，人工智能(AI)领域发展迅速，其中大模型技术的突破更是引领着新一轮科技浪潮。AI代码生成器作为AI技术的重要应用，也正逐渐改变着软件开发的模式。1月18日，一则重磅消息震惊业界：DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米，并可能领导小米大模型团队，年薪高达千万级别。这一举动不仅体现了小米对AI大模型技术的重视，也预示着小米在大模型领域的战略布局将迎来新
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
【AIGC半月报】AIGC大模型启元：2024.07（上） LeeZhao@ AIGC 人工智能 AI Agent
AIGC大模型启元：2024.07（上）(1)AIGVBench-T2V（文生视频基准测评）(2)Gen-3Alpha（Runway）(3)Step-2、Step-1.5V、Step-1X（阶跃星辰开源大模型）(4)InternVL2.0“书生·万象”（上海人工智能实验室）(5)CodeGeeX4-ALL-9B（智谱AI）(6)TTT（全新LLM架构）(1)AIGVBench-T2V（文生视频基准
认知的形式化：数学是建立在明确的公设定理体系之上的高级语言形态 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知形式化，数学语言，公设理体系，高级语言，人工智能，逻辑推理，算法设计1.背景介绍在当今数据爆炸和人工智能飞速发展的时代，如何有效地理解和处理信息成为了一个至关重要的课题。认知科学、人工智能和计算机科学等领域都在积极探索如何将人类的认知能力形式化，并将其转化为可计算的模型。数学作为一种高度抽象和形式化的语言，在认知科学和人工智能领域扮演着至关重要的角色。它为我们提供了描述和推理世界的逻辑框架，并
【cs.AI】25.1.11 arxiv更新速递 hinmer arxiv cs.AI每日更新 chatgpt gpt 人工智能自然语言处理自动驾驶深度学习 aigc
25.1.1012:00-25.1.1112:00共更新75篇—第1篇----=====MultilingualPerformanceofaMultimodalArtificialIntelligenceSystemonMultisubjectPhysicsConceptInventories关键词:多语言,多模态,人工智能,GPT-4,物理教育,物理概念清单链接1摘要:我们研究了一种基于大型语言
【LLM】25.1.11 Arxiv LLM论文速递 hinmer arxiv LLM每日更新 chatgpt gpt 人工智能自然语言处理 ai aigc 深度学习
25.1.1012:00-25.1.1112:00共更新36篇—第1篇----=====Supervisionpoliciescanshapelong-termriskmanagementingeneral-purposeAImodels关键词:通用型人工智能，风险管理，监督政策，模拟框架PDF链接摘要:通用型人工智能（GPAI）模型，包括大型语言模型（LLM）的快速普及和部署，给AI监管实体带来
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
AI需要的基础数学知识大囚长机器学习大模型人工智能
AI（人工智能）涉及多个数学领域，以下是主要的基础数学知识：1.线性代数矩阵与向量：用于表示数据和模型参数。矩阵乘法：用于神经网络的前向传播。特征值与特征向量：用于降维和主成分分析（PCA）。奇异值分解（SVD）：用于数据压缩和降维。2.微积分导数与偏导数：用于优化算法（如梯度下降）。链式法则：用于反向传播算法。积分：在概率和统计中有应用。3.概率与统计概率分布：如高斯分布、伯努利分布等。贝叶斯定
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
人工智能与人工计算的发展——孙凝晖院士一位安分的码农大语言模型人工智能
人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日，OpenAI公司推出一款人工智能对话聊天机器人ChatGPT，其出色的自然语言生成能力引起了全世界范围的广泛关注，2个月突破1亿用户，国内外随即掀起了一场大模型浪潮，Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现，2022年也被誉为大模型元年。当前信息时代
基于遗传算法的城市旅行问题（TSP）求解 NovakG_ 深度学习 python 算法深度学习神经网络
1.遗传算法背景介绍遗传算法是一种基于生物进化论中的自然选择和遗传机制的优化算法，模拟了生物进化过程以搜索最优解。通过仿真染色体的交叉、变异等操作，遗传算法将求解过程转换为类似生物进化的迭代运算。该算法在解决复杂的组合优化问题时，通常比常规优化算法更高效，且具有广泛应用，包括组合优化、机器学习、信号处理、自适应控制和人工生命等领域2.遗传算法基本解题思路遗传算法的设计思路主要受到大自然中生物体进化
AI时代，需要怎样的架构师？腾讯云架构师峰会来了！架构
引言架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能等前沿技术的蓬勃发展，一系列创新解决方案如微服务架构、AI大模型、自动化运维工
算法中的时间复杂度和空间复杂度 CM莫问人工智能算法常见概念算法人工智能 python 时间复杂度空间复杂度
一、背景随着人工智能的纵深发展，我们会发现现在做算法很多时候都是通过掉包来解决问题了。Torch或者Tensorflow之类的深度学习库大大减少了算法工程师的工作量，而且在张量运算、反向传播等环节，这些深度学习库的模块设计也尽最大可能地降低了计算的时间和空间复杂度，从而不需要我们额外进行过多的干预。如果不是科班读计算机相关专业的，相信不少朋友第一次听说时间复杂度和空间复杂度的概念是在找工作刷lee
Anthropic 正计划为其聊天机器人 Claude 推出“双向语音模式”和一个新的记忆功能新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/Anthropic正计划为其聊天机器人Claude推出“双向语音模式”和一个新的记忆功能
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，