MTVideoAI

机器学习实战-75:ML特征工程完全攻略手册

机器学习实战-75:ML特征工程完全攻略手册)

深度学习原理与实践(开源图书)-总目录，建议收藏，告别碎片阅读！

sklearn提供了丰富的特征工程库，特征工程包含:特征预处理、特征降维和特征选择。sklearn的sklearn.preprocessing库支持特征预处理；sklearn的sklearn.decomposition/sklearn.lda库库支持特征降维；sklearn的sklearn.feature_selection库来进行特征选择。

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

顾名思义机器学习的核心目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征选取失当，机器学习模型和算法再完美也无力回天。特征工程的重要性占机器学习工程项目80%的工作量。

注意：本文中使用sklearn中的鸢尾花(yuānwěi)数据集来对特征处理功能进行说明。如果不熟悉该数据集请阅读sklearn的数据集(含python源码)并先了解一下鸢尾花(yuānwěi)数据集。

1 特征预处理

没有预处理的数据特征，可能存在下列问题:

不属于同一量纲：即特征的规格不一样，使用数据时需要度量转换。
存在缺失值：缺失值需要补充。
信息冗余：对于某些定量特征(如:分数)，其包含的有效信息为区间划分，可以通过二值化得到定性特征(如:等级)。
定性特征不能直接使用：某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。
特征需要变换：不同的机器学习算法和模型对数据有不同的处理能力，通过非线性变换使线性模型具有非线性模型的效果。

使用sklearn中的sklearn.preprocessing库来进行数据预处理，可以覆盖以上问题的解决方案。

鸢尾花(yuānwěi)数据集是源自20世纪30年代的经典数据集。它是用统计进行分类的鼻祖。数据包含三个亚属:山鸢尾花(Iris Setosa)、变色鸢尾花(Iris Versicolor)和维吉尼亚鸢尾花(Iris Virginica)。鸢尾花具有四个特征：花萼长度(cm)、花萼宽度(cm)、花瓣长度(cm)、花瓣宽度(cm)，这些形态特征在过去被用来识别物种。鸢尾花(iris)数据集的数据特征: 每个样本具有4个特征(sepal length, sepal width, petal length, petal width),特征的单位是cm。一共150个样本。

导入iris数据集的代码如下：

from sklearn.datasets import load_iris
iris = load_iris()

1.1 特征标准化(无量纲化)

sklearn.preproccessing提供了多种稳健的缩放器或变换器。sklearn.preproccessing库官方文档

1.1.1 标准化

标准化需要计算特征的均值和标准差。标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。

使用sklearn.preproccessing库的MinMaxScaler类对数据进行区间缩放的代码如下：

from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform(iris.data)

1.1.2 区间缩放法

区间缩放法的思路有多种，常见的一种为利用两个最值进行缩放。

使用sklearn.preproccessing库的MinMaxScaler类对数据进行区间缩放的代码如下：

from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform(iris.data)

1.1.3 规范化

归一化是将单个样本缩放为具有单位范数的过程，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准。归一化常用于文本分类和聚类上下文的向量空间模型。

使用sklearn.preproccessing库的Normalizer类对数据进行归一化的代码如下：

from sklearn.preprocessing import Normalizer
Normalizer().fit_transform(iris.data)

1.2 定量特征的二值化

特征二值化是对数值特征进行阈值处理以获得布尔值的过程。使用二进制特征值可能简化概率推理。

定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0。

使用sklearn.preproccessing库的Binarizer类对数据进行二值化的代码如下：

from sklearn.preprocessing import Binarizer
Binarizer(threshold=3).fit_transform(iris.data)

1.3 定性特征的哑编码

由于iris数据集的特征皆为定量特征，故使用其目标值进行哑编码（实际上是不需要的）。使用sklearn.preproccessing库的OneHotEncoder类对数据进行哑编码的代码如下：

from sklearn.preprocessing import OneHotEncoder
OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))

1.4 预处理缺失值

使用不完整数据集的基本策略是丢弃包含缺失值的整个行和/或列。然而，这是以丢失可能有价值的数据（即使不完整）为代价的。更好的策略是估算缺失值，即从数据的已知部分推断它们。
对于不完整的数据集，针对包含缺失值的整个行和/或列有2中基本的处理策略。(1) 丢弃包含缺失值的整个行和/或列; (2) 估算缺失值, 即使用平均数，中位数或其中缺失值所在的行或列的最频繁的值补全缺失数据。

由于iris数据集没有缺失值，故添加一条包含缺失值的记录。使用sklearn.preproccessing库的Imputer类对数据进行缺失值计算的代码如下：

from numpy import vstack, array, nan
from sklearn.preprocessing import Imputer
# The parameter strategy is the missing value filling method. The default is mean.
Imputer().fit_transform(vstack((array([nan, nan, nan, nan]), iris.data)))

1.5 数据变换

常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。也可以基于FunctionTransformer实现自定义变换器。

1.5.1 多项式变换

使用sklearn.preproccessing库的PolynomialFeatures类对数据进行多项式转换的代码如下：

from sklearn.preprocessing import PolynomialFeatures
PolynomialFeatures().fit_transform(iris.data)

1.5.2 单变元函数变换(自定义变换)

可以使用任意函数实现变换器FunctionTransformer，以帮助我们进行数据清理或处理。基于单变元函数的数据变换可以使用sklearn.preproccessing库的FunctionTransformer对数据进行对数函数转换的代码如下：

from numpy import log1p
from sklearn.preprocessing import FunctionTransformer
FunctionTransformer(log1p).fit_transform(iris.data)

2 特征选择

当数据预处理完成后，我们需要优选数据特征以最大化机器学习算法的性能。特征选择过程可以从以下两个角度考虑:

特征是否发散：优选发散的样本特征，否则不利于区分样本。
特征与目标的相关性：优选与目标相关性高的特征。

特征选择根据特征选择的形式不同可分为3中类型: 过滤法(Filter)、包装法(Wrapper)和嵌入法(Embedded)。
根据特征选择的形式又可以将特征选择方法分为3种：

过滤法：按照发散性或者相关性对各个特征进行评分，然后选择特征;
包装法：根据目标函数(如预测效果)评分，每次选择若干特征;
嵌入法: 先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。

我们使用sklearn中的feature_selection库来进行特征选择。sklearn.feature_selection库官方文档。

2.1 过滤法(Filter)

2.1.1 方差选择法

使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用sklearn.feature_selection库的VarianceThreshold类来选择特征的代码如下：

from sklearn.feature_selection import VarianceThreshold
VarianceThreshold(threshold=3).fit_transform(iris.data)

2.1.2 相关系数法

使用相关系数法，先要计算各个特征对目标值的相关系数以及相关系数的P值。用sklearn.feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下：

from sklearn.feature_selection import SelectKBest
from scipy.stats import pearsonr
# k is number of features
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

2.1.3 卡方检验

经典的卡方检验是检验定性自变量对定性因变量的相关性。用sklearn.feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下：

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# k is number of features
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

2.1.4 互信息法

经典的互信息也是评价定性自变量对定性因变量的相关性的。

2.2 包装法(Wrapper)

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。使用sklearn.feature_selection库的RFE类来选择特征的代码如下:

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# n_features_to_select is number of features
RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)

2.3 嵌入法(Embedded)

2.3.1 基于惩罚项的特征选择法

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。使用sklearn.feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型，来选择特征的代码如下：

from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression
# Logistic regression with L1 penalty
SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(iris.data, iris.target)

2.3.2 基于树模型的特征选择法

树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下：

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier
# Feature selection of GBDT as a base model
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

3 特征降维

部分机器学习项目，由于数据集特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。常见的降维方法包括:基于L1惩罚项的模型、主成分分析法(PCA)和线性判别分析(LDA)。降维的本质就是将原始的样本映射到维度更低的样本空间中。PCA是为了让映射后的样本具有最大的发散性；而LDA是为了让映射后的样本有最好的分类性能。所以说PCA是一种无监督的降维方法，而LDA是一种有监督的降维方法。

3.1 主成分分析法(PCA)

使用sklearn.decomposition库的PCA类选择特征的代码如下：

from sklearn.decomposition import PCA
# n_components is the dimensionality after dimension reduction.
PCA(n_components=2).fit_transform(iris.data)

3.2 线性判别分析(LDA)

使用sklearn.lda库的LDA类选择特征的代码如下：

from sklearn.lda import LDA
# n_components is the dimensionality after dimension reduction.
LDA(n_components=2).fit_transform(iris.data, iris.target)

系列文章

机器学习原理与实践(开源图书)-总目录
深度学习原理与实践(开源图书)-总目录
Github: 机器学习&深度学习理论与实践(开源图书)

参考资料

[1] 周志华. 机器学习. 清华大学出版社. 2016.
[2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
[3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.
[4] sklearn.preproccessing库官方文档
[5] sklearn.feature_selection库官方文档
[4] 使用Sklearn做特征工程

你可能感兴趣的:(机器学习专题,机器学习原理与实践,机器学习,特征工程,数据预处理python,特征选择python,数据降维python)

计算机网络笔记、面试八股（二）—— HTTP协议 Your_Raymond 计算机网络 http 计算机网络面试
本章目录2.HTTP协议2.1HTTP协议简介2.2HTTP协议的优点2.3HTTP协议的缺点2.4HTTP协议属于哪一层2.5HTTP通信过程2.6常见请求方法2.7GET和POST的区别2.8请求报文与响应报文2.8.1HTTP请求报文2.8.2HTTP响应报文2.9响应状态码2.10HTTP1.0和1.1的区别2.10.1长连接2.10.2错误响应码2.10.3缓存处理2.10.4带宽的优化
DeepSeek+知网研学轻松搞定研究生选题 AI新视界 AI学术学术软件推荐 AI工具 AI学术学习人工智能学术
选题是研究生学术研究的起点，一个好的选题不仅决定了研究的方向，还直接影响研究的深度和成果。本文将详细介绍如何结合DeepSeek大模型与知网研学，帮助研究生高效完成选题工作。一、选题的重要性与挑战选题的重要性：选题是研究的核心，决定了研究的创新性和可行性。好的选题能够为后续研究提供明确的方向和动力。选题的挑战：如何从海量文献中找到有价值的研究方向？如何判断选题的创新性和研究价值？如何确保选题的可行
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
设计模式-责任链模式小九没绝活设计模式设计模式责任链模式 java
核心思想责任链模式通过将多个处理对象（Handler）连接成一条链，允许请求在链上传递，直到被某个对象处理或链终止。核心目标是解耦请求发送者与接收者，让多个对象都有机会处理请求，增强系统的灵活性和可扩展性。模式结构角色职责抽象处理者定义处理请求的接口（Handler），通常包含设置下一个处理者的方法具体处理者实现抽象处理者接口，判断是否能处理请求，否则传递给下一个处理者客户端创建处理链，并向链的头
效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍我就是全世界语言模型人工智能自然语言处理
MiniCPM-V-2.6概述1.1模型背景MiniCPM-V-2.6是由nuoan开发的一款达到GPT-4V级别的多模态大型语言模型（MLLM）。该模型专为手机上的单图像、多图像和视频处理设计，旨在提供高效、准确的多模态内容理解与生成能力。随着移动设备的普及和计算能力的提升，用户对于在移动端进行复杂图像和视频处理的需求日益增长。MiniCPM-V-2.6的推出，正是为了满足这一需求，提供了一种在
基于大模型的腮腺多形性腺瘤全周期诊疗方案研究报告 LCG元围术期危险因子预测模型研究人工智能
目录一、引言1.1研究背景与目的1.2研究现状与趋势二、大模型预测原理与方法2.1大模型概述2.2数据收集与预处理2.3模型训练与优化三、术前预测与评估3.1肿瘤特征预测3.2风险评估3.3案例分析四、术中方案制定与实施4.1手术方案选择4.2面神经保护策略4.3麻醉方案确定五、术后恢复与并发症预测5.1恢复情况预测5.2并发症风险预测5.3案例分析六、术后护理与康复6.1护理措施6.2康复训练6
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
网络系统管理专栏-配套练习+知识点详解漩涡·鸣人智能路由器网络
目录总体规划1、设备命名规范和设备的基础信息2、密码恢复和软件版本统一模块三：网络搭建与网络冗余备份方案部署表1-11Ipv6地址分配表模块五：出口安全防护与远程接入试题解析：考核点1：考点解析：2、Portfast+Bpduguard防环方案3、rldp◆考核点2：考点解析：◆考核点3：考点解析：◆考核点4：考点解析：◆考核点5：考点解析：◆考核点6：考点解析：◆考核点7：◆考核点8：◆考核点9
cocos2dx : 解决中文乱码问题 ^随风~~ Cocos2d-x C++乱码
在使用cocos2dx的时候，代码里面使用了中文或者是在cocosstudio编辑器里面使用了中文，显示的时候会出现乱码问题，下面提供几个解决方案：方案一：最前面加上命令:#pragmaexecution_character_set("utf-8")方案二：使用XML文件：问题与解决方法在windows环境下使用visualstudio开发cocos2d-x，由于visualstudio默认编码为
项目经理的“汇报力”修炼：如何快速打造让领导、客户眼前一亮的方案？
在项目管理领域，流传着一句话：“干得好不如说得好，说得好不如呈现得好。”项目经理作为“资源整合者”和“信息枢纽”，70%以上的工作本质是沟通与汇报——向上争取资源，向下传递目标，向外管理客户预期。能否快速产出逻辑清晰、价值聚焦的汇报方案，直接决定了项目的推进效率与个人职业发展天花板。一、项目经理的工作本质：用汇报“撬动”资源项目经理的日常不是埋头写代码或画图纸，而是通过系统性表达解决三类核心问题：
在嵌入式系统中实现低功耗MQTT协议：从协议解析到硬件优化 W说编程物联网嵌入式网络编程物联网网络协议 c语言嵌入式硬件
在嵌入式系统中实现低功耗MQTT协议：从协议解析到硬件优化1.引言：物联网时代的低功耗挑战随着物联网设备的爆炸式增长，设备续航与网络可靠性成为嵌入式系统设计的核心矛盾。据统计，70%的物联网设备因功耗问题导致维护成本倍增。核心需求：在维持TCP/IP协议栈功能的前提下，将设备待机功耗降至μA级；确保弱网环境（如2G/NB-IoT）下的数据传输可靠性。本文将以MQTT协议为例，详解在STM32+LW
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
实现图片处理功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本项目基于OpenHarmony三方库ImageKnife进行图片处理场景开发使用：支持不同类型的本地与网络图片展示。支持拉起相机拍照展示与图库照片选择展示。支持图片单一种变换效果。支持本地/在线图片格式：JPG、PNG、SVG、GIF、DPG、WEBP、BMP实现图片处理功能源码链接效果预览使用说明下载安装根目录下的oh-package.json5中depend
一名成功的项目经理的20个项目管理经验
项目管理既是一门科学，也是一门艺术。成功的项目经理往往能在复杂多变的项目环境中，通过系统性方法和灵活应对策略，带领团队突破瓶颈、达成目标。以下是20条经过实战验证的项目管理经验，涵盖从需求管理到团队赋能的完整链条，助力项目经理从“合格”走向“卓越”。一、需求管理：从混沌到清晰绘制用户故事地图用可视化的用户旅程串联碎片化需求，确保每个功能点都能对应业务价值。工具实践：通过Miro或Figma构建动态
C# 的 as 关键字 visual-studio
as运算符将表达式结果显式转换为给定的引用或可以为null值的类型。如果无法进行转换，则as运算符返回null。与强制转换表达式不同，as运算符永远不会引发异常。EasT其中，E是返回值的表达式；T是类型或者类参的名称。下面语句结果相同：EisT?(T)(E):(T)nullas运算符仅考虑引用、可以为null、box（装箱）和unbox（拆箱）转换。不能使用as运算符执行用户定义的转换。{IEn
【科研必备】EI/Scopus收录！2025年3-4月智能制造、自动化、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！努力毕业的小土博^_^ 学术会议推荐制造自动化人工智能深度学习神经网络算法
【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！文章目录【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等
深度解析Java中的代码分支策略规划：掌握GitFlow与GitHub Flow的艺术墨夶 Java学习资料2 java github 开发语言
在这个技术日新月异的时代，每一个开发者都在寻找提高效率、减少错误并优化团队协作的方法。而当涉及到代码管理时，选择正确的分支策略至关重要。今天，我们将深入探讨如何在Java项目中应用两种流行的分支策略——GitFlow和GitHubFlow，并通过详尽的示例代码来展示它们的实际运用。1.分支管理策略概览分支管理策略不仅帮助团队成员之间进行有效的沟通，还确保了代码库的健康状态。无论是小型创业公司还是大
【Gitee】error: failed to push some refs to “xxx“ git did not exit cleanly (exit code 1)解决方法 Ctrl Z. gitee git
目录1.本地仓库与远程仓库存在冲突2.权限问题3.网络问题4.远程仓库不存在或地址错误另：有关查看分支的介绍在push时操作失败且返回退出码1通常意味着在推送代码到远程仓库时遇到了问题。以下是几种可能的原因以及对应的解决办法：1.本地仓库与远程仓库存在冲突当远程仓库的代码有更新，而本地仓库没有同步这些更新时，就会产生冲突。需要先拉取远程仓库的最新代码，合并到本地分支后再尝试推送。gitpullor
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
华为ensp--BGP路径选择Community 华为路由bgp
学习新思想，争做新青年，今天学习的是BGP路径选择Community实验目的·理解团体属性的概念与作用·熟悉运用团体属性来控制路由传递的方法·理解No-Export、No-Advertise、No-Export-Subconfed属性的区别实验内容本实验网络中，R1属于AS100，R2、R3和R4属于AS编号为200的一个联盟，R5属于AS300。在联盟AS200中，R2和R4属于成员AS2001
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
记：应聘北京思特奇信息技术股份有限公司 C++工程师指针的值是地址大四求职 c++敏捷开发
一轮，软件上的笔试题这里记录几个问题。1.构成C语言的基本单位是函数。2.敏捷开发：相对于“非敏捷”，更强调程序员团队与业务专家之间的紧密协作、面对面的沟通（认为比书面的文档更有效）、频繁交付新的软件版本、紧凑而自我组织型的团队、能够很好地适应需求变化的代码编写和团队组织方法，也更注重软件开发过程中人的作用。（来自百度百科）一个通俗的博客另一个。我个人的理解就是以人为中心，尽量以口头交流为主，以尽
A/B测试结果置信度不足时如何决策测试工具
在A/B测试结果置信度不足时，我们需要综合采用多种策略来做出明智决策。增加样本量、延长测试周期、结合实际业务场景、多指标综合评估。其中，增加样本量尤为关键，因为样本量不足往往导致数据波动较大，易产生假阳性或假阴性，从而使测试结论失去可靠性。通过优化采样策略和科学分配资源，能够有效提升测试数据的稳定性和可信度，为后续决策提供更为坚实的数据支撑。一、A/B测试原理与背景、测试信度的重要性A/B测试作为
需求池膨胀时如何科学排序优先级需求分析
需求池膨胀时如何科学排序优先级主要依靠数据驱动、战略对齐、风险评估**。其中数据驱动是关键，通过收集历史数据、用户反馈与市场趋势，对各项需求进行量化评估，帮助企业在需求膨胀时做出精准排序和资源配置。实践表明，数据驱动的决策可使需求响应速度提升约30%，大大优化资源分配效果。一、需求池膨胀现象的背景与挑战、需求池指的是企业内部或市场上积累的各类需求、项目或功能请求。随着企业发展和市场环境变化，需求池
dig 命令深入学习服务器linuxdns解析
一、dig命令有什么用dig命令（DomainInformationGroper）是一个用于查询DNS(域名系统）记录的强大工具，它提供了详细的DNS信息，主要用于帮助用户诊断、调试和验证与域名解析相关的问题。除了dig命令，还有一种跟dig功能是差不多的命令nslookup二、dig命令安装如果您的Linux系统默认没有安装dig，可能会提示dig:commandnotfound。请使用以下命令
Flutter 适配HarmonyOS NEXT：调用原生功能实现相册选取与拍照
Flutter适配鸿蒙系统：调用原生功能实现相册选取与拍照项目背景我们的移动端项目基于Flutter开发，为控制开发周期与成本，采用了HarmonyOSNEXT（简称鸿蒙）的Flutter兼容库，并更新了部分三方库为鸿蒙的Flutter兼容库。在图片视频选择与拍摄功能上，我们之前调用的是Android和iOS的原生方法，现在需要为鸿蒙开发一套原生配合使用的方案。遇到的问题鸿蒙的Flutter兼容库
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他