Eric2016_Lv

机器学习小组知识点27：数据预处理之数据离散化（Data Discretization）

离散化和概念分层产生

通过将属性域划分为区间，离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法，减少属性值的数量特别有好处。通常，这种方法是递归的，大量的时间花在每一步的数据排序上。因此，待排序的不同值越少，这种方法就应当越快。许多离散化技术都可以使用，以便提供属性值的分层或多维划分——概念分层

对于给定的数值属性，概念分层定义了该属性的一个离散化。通过收集并用较高层的概念（对
于年龄属性，如young, middle-age 和senior）替换较低层的概念（如，年龄的数值值），概念分层可以用来归约数据。通过这种泛化，尽管细节丢失了，但泛化后的数据更有意义、更容易解释，并且所需的空间比原数据少。在归约的数据上进行挖掘，与在大的、未泛化的数据上挖掘相比，所需的I/O 操作更少，并且更有效

对于用户或领域专家，人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而，许多分层蕴涵在数据库模式中，并且可以在模式定义级定义。概念分层常常自动地产生，或根据数据分布的统计分析动态地加以提炼。

数值属性的概念分层可以根据数据分布分析自动地构造。五种数值概念分层产生方法：分
箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段。

分箱

分箱方法。这些方法也是离散化形式。例如，通过将数据分布到箱中，并用箱中的平均值或中值替换箱中的每个值，可以将属性值离散化。就象用箱的平均值或箱的中值平滑一样。这些技术可以递归地作用于结果划分，产生概念分层。

直方图分析

直方图分析算法递归地用于每一部分，自动地产生多级概念分层，直到到达一个预先设定的概念层数，过程终止。也可以对每一层使用最小区间长度来控制递归过程。最小区间长度设定每层每部分的最小宽度，或每层每部分中值的最少数目。

聚类分析

聚类算法可以用来将数据划分成聚类或群。每一个聚类形成概念分层的一个结点，而所有的结点在同一概念层。每一个聚类可以进一步分成若干子聚类，形成较低的概念层。聚类也可以聚集在一起，以形成分层结构中较高的概念层

基于熵的离散化

一种基于信息的度量称作熵，可以用来递归地划分数值属性A 的值，产生分层的离散化。这种离散化形成属性的数值概念分层。给定一个数据元组的集合S，基于熵对A 离散化的方法如下：
A 的每个值可以认为是一个潜在的区间边界或阈值T。例如，A 的值v 可以将样本S划分成分别满足条件A<v 和A≥v 的两个子集，这样就创建了一个二元离散化。
给定S，所选择的阈值是这样的值，它使其后划分得到的信息增益最大。
其中，S1和S2 分别对应于S 中满足条件A<T和A≥T 的样本。对于给定的集合，它的熵函数根据集合中样本的类分布来计算

算法描述如下：

STEP 1:

（1）初始化分裂点集合为空，属性所有取值集合为全集。

（2）按照属性值的大小顺序，将属性值集合和对应的类标号集合排序。

（3）选择最佳分类点（熵值最小）将属性分类为两个区间。

（4）递归处理所得到的两个区间。

STEP 2:

（1）合并所有的相邻、区间类信息熵为0且区间里属性类别相同的区间。

（2）计算所有的相邻区间合并后的区间类信息嫡，合并计算得到的区间类信息嫡最小且不超过阈值心的相邻区间

（3）重复（2）直到不再满足条件

具体实现如下：

#coding=utf-8
#以下为需要调节的参数
######################################################
ClassNum = 33 #设置类的总数，以生成统计不同类样本数量
######################################################
FeatureNum = 145 #生成需要离散化的属性数组
#######################################################
InfoThreshold = 0.5 #熵值大于此值时不再合并
#######################################################
MaxGroup = 70 #最大离散化成多少组（分割点数加1）
#######################################################
MinGroup = 5 #最少离散化成多少组（分割点数加1）
#######################################################
BlockSize = 5 #抽样大小，每BlockSize个数据抽取一个
#######################################################
MaxDeep = 7 #对大递归深度
#######################################################
MinSplit = 3000 #叶节点小于此值时不再分裂
#######################################################
MinLeaf = 100 #控制最小叶节点大小
#######################################################
NeedDisCol = [....] #需要离散化的维列表，默认维数从1开始（0对应id号）
######################################################
#训练集及类标
fTrain = open("...")
fLabel = open("...") #转化后的单列类标
######################################################
#写入文件
fDis = open("...", "a+")

#将NeedDisCol转变为0开始
for i in range(len(NeedDisCol)):
 NeedDisCol[i] = NeedDisCol[i] - 1

from pandas import Series, DataFrame
import pandas as pd
import random
import math
import numpy as np

ItTrain = pd.read_csv(fTrain, chunksize = BlockSize)
ItLabel = pd.read_csv(fLabel, chunksize = BlockSize)

#定义同时迭代两个文件的函数,返回list
def getLine(It, rd):
 for df in It:
 aList = df.values[:, 1:].tolist() #去掉id列,返回指定行
 if rd >= len(aList):
 return aList[0]
 else:
 return aList[rd]
 return False

#抽取样本数据
TrainSet = []
LabelSet = []
count = 0
while True:
 #产生随机数，并更新已读取文件的行数
 rd = int(random.random() * BlockSize)
 count = count + BlockSize

 TrainList = getLine(ItTrain, rd)
 if not TrainList:
 break
 else:
 TrainSet.append(TrainList)
 LabelList = getLine(ItLabel, rd)
 if not LabelList:
 break
 else:
 LabelSet.append(LabelList)
 ########################################
 if count % 100000 == 0:
 print "读取了%d行" % count
 ########################################



#将类标按照特征升序排列
def SortTogether(theFeature , theLabel):
 arr = np.array(theFeature)
 NumSort = np.argsort(arr)
 #复制thelabel\theFeature
 copyOfFeature = [0]*len(theFeature)
 copyOfLabel = [0]*len(theLabel)
 for i in range(len(theFeature)):
 copyOfFeature[i] = theFeature[i]
 copyOfLabel[i] = theLabel[i]
 #按获得的索引NumSort排序
 for i in range(len(theFeature)):
 theFeature[i] = copyOfFeature[NumSort[i]]
 theLabel[i] = copyOfLabel[NumSort[i]]


#将每个类标标上对应的tip（表示其(包含)前面的各类统计）
def TipTheLabel(theLabel):
 TipLabel = []
 for i in range(len(theLabel)):
 inTip = [0] * (ClassNum + 1) #从一开始
 TipLabel.append(inTip)
 TipLabel[0][theLabel[0]] = 1
 for i in range(1, len(theLabel)):
 for j in range(1, ClassNum + 1):
 TipLabel[i][j] = TipLabel[i - 1][j]
 TipLabel[i][theLabel[i]] = TipLabel[i][theLabel[i]] + 1
 return TipLabel


#获取对应区间的类的数量列表
def GetPointNumList(theLabel, start, end, TipLabel):
 result = []
 if start >= end or start < 0 or end >= len(theLabel):
 return [0] * ClassNum
 for i in range(1,ClassNum + 1):
 classCounter = TipLabel[end][i] - TipLabel[start][i]
 result.append(classCounter)
 return result

#计算特点的熵值
def GetEntropyOfCertainPoint(theLabel, start, end, thePoint, TipLabel):
 if start == end:
 return 0
 LList = GetPointNumList(theLabel, start, thePoint - 1, TipLabel)
 RList = GetPointNumList(theLabel, thePoint, end, TipLabel)
 NL = float(thePoint - start)
 NR = float(end - thePoint + 1)
 EntropyL = 0
 EntropyR = 0
 for aClassNum in LList:
 if aClassNum == 0:
 continue
 else:
 p = aClassNum / NL
 EntropyL = EntropyL - p * math.log(p)
 for aClassNum in RList:
 if aClassNum == 0:
 continue
 else:
 p = aClassNum / NR
 EntropyR = EntropyR - p * math.log(p)
 result = (NL * EntropyL) / (NL + NR) + (NR * EntropyR) / (NL + NR)
 return result


#获取有最大熵值的点,越小越好
def GetMaxEntropyPoint(theFeature, theLabel, start, end, TipLabel, ThisEntropy):
 MinPoint = start + MinLeaf
 MinEntropy = GetEntropyOfCertainPoint(theLabel, start, end, MinPoint, TipLabel)

 #i = MinPoint + 20
 #while True: 

 for i in range(MinPoint + 1, end - MinLeaf):
 theEntropy = GetEntropyOfCertainPoint(theLabel, start, end, i, TipLabel)
 if MinEntropy >= theEntropy:
 MinEntropy = theEntropy
 MinPoint = i
 #print "执行到球maxpoint", MaxPoint
 ThisEntropy[0] = MinEntropy
 return MinPoint

#合并左右分裂列表及本分裂点
def GetCombinList(LList, thePoint, RList):
 theList = []
 for aNum in LList:
 theList.append(aNum)
 theList.append(thePoint)
 for aNum in RList:
 theList.append(aNum)
 return theList

#递归离散化函数
def GetDisPointList(theFeature , theLabel, start, end, Deep, TipLabel):
 #大于最大递归深度，返回
 if Deep > MaxDeep:
 return []
 #小于最小分裂数，返回
 if end - start < MinSplit:
 return []
 #分割之前的信息熵
 #BeforeEntropy = GetEntropyOfCertainPoint( theLabel, start, end, start + 1, TipLabel)
 #分割
 ThisEntropy = [0] #留作扩展
 thePoint = GetMaxEntropyPoint(theFeature, theLabel, start, end, TipLabel, ThisEntropy)
 LList = GetDisPointList(theFeature, theLabel, start, thePoint - 1, Deep + 1, TipLabel)
 RList = GetDisPointList(theFeature, theLabel, thePoint, end, Deep + 1, TipLabel)
 CombinList = GetCombinList(LList, thePoint, RList)
 return CombinList

#最大熵离散化函数
def DisACol(theFeature , theLabel, ToTipLabel): 
 SortTogether(theFeature, theLabel)
 TipLabel = TipTheLabel(theLabel)
 DisPointList = GetDisPointList(theFeature , theLabel, 0, len(theFeature) - 1, 0, TipLabel)
 #print 'DisACol'
 ToTipLabel[0] = TipLabel
 return DisPointList

#由分裂点下表获取分裂点值
def GetDisNumFromPoint(theDisPointList, theFeature):
 result = []
 for aPoint in theDisPointList:
 result.append(theFeature[aPoint])
 return result

#获取列对应的拷bei
def getCertainCol(theSet, theCol):
 result = []
 for item in theSet:
 result.append(item[theCol])
 return result

#删除相同的点
def DelEqual(alist, theFeature):
 i = len(alist) - 1
 while True:
 if i<1:
 break
 #如果相邻分割点对应的值相同，则删除一个
 if theFeature[alist[i]] == theFeature[alist[i-1]]:
 del alist[i-1]
 i = i - 1
 return alist

#获取列表中临近分割区间的最小合并信息熵
def GetMinSplitPoint(List, theLabel, MinEntropy, TipLabel):
 MinPoint = 0
 TheEntropy = GetEntropyOfCertainPoint(theLabel, 0, List[1], 1, TipLabel)
 for i in range(1, len(List)-1):
 iEntropy = GetEntropyOfCertainPoint(theLabel, List[i-1], List[i+1], List[i-1] + 1, TipLabel)
 if iEntropy < TheEntropy:
 MinPoint = i
 TheEntropy = iEntropy
 iEntropy = GetEntropyOfCertainPoint(theLabel, List[-2], len(theLabel) - 1, List[-2] + 1, TipLabel)
 if iEntropy < TheEntropy:
 MinPoint = len(List) - 1
 TheEntropy = iEntropy
 MinEntropy[0] = TheEntropy
 return MinPoint

#合并信息熵小于阈值的区间InfoThreshold = 0.5,MinGroup = 20
def CombineResult(List, theLabel, TipLabel):
 MinEntropy = [0]
 while True:
 if len(List) <= MinGroup:
 break
 MinPoint = GetMinSplitPoint(List, theLabel, MinEntropy, TipLabel)
 if MinEntropy[0] >= InfoThreshold and len(List) < MaxGroup:
 break
 else:
 del List[MinPoint]
 print "结束合并，信息熵= %f" % MinEntropy[0]
 return List

#逐列检查，判断离散点（用于分割离散区间）
SaveAllColDisPoint = []
for i in range(FeatureNum):
 newlist = [-100000]
 SaveAllColDisPoint.append(newlist)
for aCol in NeedDisCol:
 theFeature = getCertainCol(TrainSet, aCol) #深度拷贝
 theLabel = getCertainCol(LabelSet, 0)
 TipLabel = [0]
 theDisPointList = DisACol(theFeature , theLabel, TipLabel)
 TipLabel = TipLabel[0]
 theDisPointList = DelEqual(theDisPointList, theFeature)
 theDisPointList = CombineResult(theDisPointList, theLabel, TipLabel)
 theDisNumList = GetDisNumFromPoint(theDisPointList, theFeature)
 SaveAllColDisPoint[aCol] = theDisNumList
 print SaveAllColDisPoint[aCol]
 print "判断%d列完成" % aCol

#由列表获取写入行
count = 1
def getLineFromList(aItem, count):
 theLine = 'X' + str(count) + ','
 for num in aItem:
 theLine = theLine + str(num) + ','
 return theLine[:-1] + '\n'

for aItem in SaveAllColDisPoint:
 fDis.write(getLineFromList(aItem, count))
 count = count + 1

fTrain.close()
fDis.close()
fLabel.close()

通过自然划分分段

3-4-5 规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地，该规则根据最重要的数字上的值区域，递归地、逐层地将给定的数据区域划分为3、4 或5 个等长的区间。该规则如下：
如果一个区间在最重要的数字上包含3、6、7 或9 个不同的值，则将该区间划分成3 个区间（对于3、6 和9，划分成3 个等宽的区间；而对于7，按2-3-2 分组，划分成3 个区间）；
如果它在最重要的数字上包含2、4 或8 个不同的值，则将区间划分成4 个等宽的区间；
如果它在最重要的数字上包含1、5 或10 个不同的值，则将区间划分成5 个等宽的区间。
该规则可以递归地用于每个区间，为给定的数值属性创建概念分层。由于在数据集中可能有特别大的正值和负值，最高层分段简单地按最小和最大值可能导致扭曲的结果。例如，在资产数据集中，少数人的资产可能比其他人高几个数量级。按照最高资产值分段可能导致高度倾斜的分层。这样，顶层分段可以根据代表给定数据大多数的数据区间（例如，第5 个百分位数到第95 个百分位数）进行。越出顶层分段的特别高和特别低的值将用类似的方法形成单独的区间。此处类似于分位数划分区间。

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
【字节跳动】数据挖掘面试题0010：解释全国人均收入下降，各省份人均收入增加的现象，属于辛普森悖论（开放性问题）言析数智数据挖掘常见面试题辛普森悖论局部与整体分析差异归因数据分析面试题
文章大纲一、辛普森悖论的核心定义二、现象成因：加权平均中的“权重偏移”三、数学逻辑与案例说明1.数学表达式2.具体案例四、辛普森悖论的本质：忽略“混杂因素”的影响五、生活中常见的辛普森悖论案例及应对策略1.医疗疗法效果评估2.大学录取率的性别偏差3.篮球运动员投篮效率4.公司员工绩效与部门规模如何利用辛普森悖论？（数据分析中的价值）六、总结全国人均收入下降而各省份人均收入增加的现象，确实属于辛普森
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
【力扣（LeetCode）】数据挖掘面试题0003： 356. 直线镜像
文章大纲题目描述**坐标变化规律**解题方案题目描述在一个二维平面空间中，给你n个点的坐标。问，是否能找出一条平行于y轴的直线，让这些点关于这条直线成镜像排布？平行于y轴的直线（即垂直于x轴的直线，其方程形式为(x=a)，其中(a)为常数）的对称点具有以下显著特点：坐标变化规律设直线为(x=a)，平面内任意一点(P(x,y))关于该直线的对称点为(P’(x’,y’))，则两者坐标满足：纵坐标不变：
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&