南山以南青如山

数据挖掘十大算法(一)：k-近邻算法

1、基本概念

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

1.计算已知类别数据集中的点与当前点之间的距离；
2.按照距离递增次序排序；
3.选取与当前点距离最小的k个点；
4.确定前k个点所在类别的出现频率；
5.返回前k个点所出现频率最高的类别作为当前点的预测分类。

2、约会网站配对效果判定

海伦女士一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选，但她并不是喜欢每一个人。
经过一番总结，她发现自己交往过的人可以进行如下分类：

不喜欢的人
魅力一般的人
极具魅力的人

海伦收集的样本数据主要包含以下3种特征：(按照顺序)

1. 每年获得的飞行常客里程数
2. 玩视频游戏所消耗时间百分比
3. 每周消费的冰淇淋公升数

label:1代表不喜欢,2代表魅力一般,3代表极具魅力

导入模块

import numpy as np
import operator
import os
import pandas as pd

读入数据

# 这里采用最先进的读数据方式~比传统的处理方法好太多
def read_file(filename):
    # '\t' 指按照空格切分
    data = pd.read_csv(filename, header=None, sep='\t')
    ret = pd.DataFrame(data)
    feature_mat = ret.values[:, 0:3]
    label_mat = ret.values[:, 3]
    return feature_mat, label_mat

数据可视化

mydata, labels = read_file('datingTestSet2.txt')

fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)

ax.scatter(mydata[:, 0], mydata[:, 1], 15.0*np.array(labels), 15.0*np.array(labels))
ax.set_xlabel('Frequent flyer miles earned each year')
ax.set_ylabel('Percentage of time spent playing video games')
plt.show()

# 可以明确看到两个特征之间的关系, 这时候我们完全可以排除别的特征!

我们对数据进行归一化也可以按照需要增加权重

# 重点把握np.tile函数的使用
# 归一化之后再次可视化 验证是否正确
def normal_data(data_mat):
    m = data_mat.shape[0]
    max_value = data_mat.max(axis=0)
    min_value = data_mat.min(axis=0)
    ranges = max_value - min_value

    data_mat = (data_mat - np.tile(min_value, (m, 1))) / np.tile(ranges, (m, 1))
    return data_mat, ranges, min_value

模型建立结束-- 测试模型的性能

def class_dataset(test_data, train_data, train_label, k):
    dataSetSize = len(train_data)
    # 在列向量方向上重复inX共1次(横向)，行向量方向上重复inX共dataSetSize次(纵向)
    test_mat = np.tile(test_data, (dataSetSize, 1))
    distance = ((test_mat - train_data) ** 2).sum(axis=1)
    distance = distance ** 0.5
    index_distance = distance.argsort()

    class_dic = {}
    for i in range(k):
        data_label = train_label[index_distance[i]]
        class_dic[data_label] = class_dic.get(data_label, 0) + 1

    class_dic = sorted(class_dic.items(), key=operator.itemgetter(1), reverse=True)
    return class_dic[0][0]

def class_test():
    ratio = 0.10
    training_data, train_label = read_file('datingTestSet1.txt')
    train_data, ranges, min_value = normal_data(training_data)
    num_train = train_data.shape[0]
    num_test = int(ratio * num_train)
    error_count = 0

    for i in range(num_test):
        class_result = class_dataset(train_data[i, :], train_data[num_test:, :],
                                     train_label[num_test:], 3)
        print('''The classifier came back with: {}, the real answer is :{}'''
              .format(class_result, train_label[i]))
        if class_result == train_label[i]:
            pass
        else:
            error_count = error_count + 1
    print('The total error rate is %2f' % (error_count / float(num_test)))

The classifier came back with: 2.0, the real answer is :3.0
The classifier came back with: 1.0, the real answer is :1.0
The classifier came back with: 2.0, the real answer is :2.0
The classifier came back with: 1.0, the real answer is :1.0
The classifier came back with: 3.0, the real answer is :3.0
The classifier came back with: 3.0, the real answer is :3.0
The classifier came back with: 2.0, the real answer is :2.0
The classifier came back with: 1.0, the real answer is :1.0
The classifier came back with: 3.0, the real answer is :1.0
The total error rate is 0.050000

最后使用算法：构建完整可用系统

import numpy as np
import operator
import os
import pandas as pd

def class_dataset(test_data, train_data, train_label, k):
    dataSetSize = len(train_data)
    # 在列向量方向上重复inX共1次(横向)，行向量方向上重复inX共dataSetSize次(纵向)
    test_mat = np.tile(test_data, (dataSetSize, 1))
    distance = ((test_mat - train_data) ** 2).sum(axis=1)
    distance = distance ** 0.5
    index_distance = distance.argsort()

    class_dic = {}
    for i in range(k):
        data_label = train_label[index_distance[i]]
        class_dic[data_label] = class_dic.get(data_label, 0) + 1

    class_dic = sorted(class_dic.items(), key=operator.itemgetter(1), reverse=True)
    return class_dic[0][0]

def read_file(filename):
    # '\t' 指按照空格切分
    data = pd.read_csv(filename, header=None, sep='\t')
    ret = pd.DataFrame(data)
    feature_mat = ret.values[:, 0:3]
    label_mat = ret.values[:, 3]
    return feature_mat, label_mat

def normal_data(data_mat):
    m = data_mat.shape[0]
    max_value = data_mat.max(axis=0)
    min_value = data_mat.min(axis=0)
    ranges = max_value - min_value

    data_mat = (data_mat - np.tile(min_value, (m, 1))) / np.tile(ranges, (m, 1))
    return data_mat, ranges, min_value

def class_person():
    '''
    误点：
    :return:
    '''

    class_dic = {1: '你一点也不喜欢这个人~',
                 2: '你可能会有一点喜欢这个人~',
                 3: '你会真的很喜欢这个人!'}

    train_data, train_label = read_file('datingTestSet2.txt')
    train_data, ranges, min_vale = normal_data(train_data)


    fly = float(input('请输入每年获得的飞行常客里程数：'))
    game_time = float(input('请输入每天玩视频游戏所消耗时间百分比：'))
    ice_cream = float(input('请输入每周消费的冰淇淋公斤数：'))

    test_data = np.array([fly, game_time, ice_cream])

    # 一定不要忘了对输入的测试数据也有进行归一化处理
    test_data = (test_data - min_vale) / ranges
    ret = class_dataset(test_data, train_data, train_label, 3)
    return '系统提示：你对该名男子的感觉是：{}'.format(class_dic[ret])


if __name__ == '__main__':
    ret = class_person()
    print(ret)

3、约会网站配对之sklearn再实现

Scikit learn 也简称sklearn，是机器学习领域当中最知名的python模块之一。sklearn包含了很多机器学习的方式：

Classification 分类
Regression 回归
Clustering 非监督分类
Dimensionality reduction 数据降维
Model Selection 模型选择
Preprocessing 数据与处理

使用sklearn可以很方便地让我们实现一个机器学习算法。一个复杂度算法的实现，使用sklearn可能只需要调用几行API即可。所以学习sklearn，可以有效减少我们特定任务的实现周期。

KNneighborsClassifier参数说明：

1. n_neighbors：默认为5，就是k-NN的k的值，选取最近的k个点。
2. weights：默认是uniform，参数可以是uniform、distance，也可以是用户自己定义的函数。uniform是均等的权重，
   就说所有的邻近点的权重都是相等的。distance是不均等的权重，距离近的点比距离远的点的影响大。用户自定义的函数，接收距离的数组，
   返回一组维数相同的权重。
3. algorithm：快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法
   ball_tree、kd_tree、brute方法进行搜索，brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。
   kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，
   每个结点是一个超矩形，在维数小于20时效率高。ball tree是为了克服kd树高纬失效而发明的，
   其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体。
4. leaf_size：默认是30，这个是构造的kd树和ball树的大小。这个值的设置会影响树构建的速度和搜索速度，
   同样也影响着存储树所需的内存大小。需要根据问题的性质选择最优的大小。
5. metric：用于距离度量，默认度量是minkowski，也就是p=2的欧氏距离(欧几里德度量)。
6. p：距离度量公式。在上小结，我们使用欧氏距离公式进行距离度量。除此之外，还有其他的度量方法，例如曼哈顿距离。
   这个参数默认为2，也就是默认使用欧式距离公式进行距离度量。也可以设置为1，使用曼哈顿距离公式进行距离度量。
7. metric_params：距离公式的其他关键参数，这个可以不管，使用默认的None即可。
8. n_jobs：并行处理设置。默认为1，临近点搜索并行工作数。如果为-1，那么CPU的所有cores都用于并行工作。

KNeighborsClassifier提供了以一些方法供我们使用，如图所示

import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier


def read_file(filename):
    # '\t' 指按照空格切分
    data = pd.read_csv(filename, header=None, sep='\t')
    ret = pd.DataFrame(data)
    feature_mat = ret.values[:, 0:3]
    label_mat = ret.values[:, 3]
    return feature_mat, label_mat

def normal_data(data_mat):
    m = data_mat.shape[0]
    max_value = data_mat.max(axis=0)
    min_value = data_mat.min(axis=0)
    ranges = max_value - min_value

    data_mat = (data_mat - np.tile(min_value, (m, 1))) / np.tile(ranges, (m, 1))
    return data_mat, ranges, min_value


def class_test():
    training_data, train_label = read_file('datingTestSet1.txt')
    test_data, test_label = read_file('datingTestSet2.txt')
    train_data, ranges, min_value = normal_data(training_data)
    test_data, test_ranges, test_min_value = normal_data(test_data)

    num_test = len(test_data)
    error_count = 0

    ## 建立模型
    model = KNeighborsClassifier(n_neighbors=3, algorithm='auto')
    ## 拟合模型
    model.fit(train_data, train_label)


    for i in range(num_test):
        class_result = model.predict(test_data[i].reshape(1, -1))
        print('''The classifier came back with: {}, the real answer is :{}'''
              .format(class_result, test_label[i]))
        if class_result == test_label[i]:
            pass
        else:
            error_count = error_count + 1
    print('The total error rate is %2f' % (error_count / float(num_test)))

if __name__ == '__main__':
    ret = class_person()
    print(ret)

4、sklearn之breast cancer实现

重点把握:
可视化中拟合曲线的画法
测试集传入的方式, 可以一次性传入多个测试样本

知识点补充:

1.np.linspace 在指定的间隔内返回均匀间隔的数字
2.np.meshgrid 函数
  根据传入的两个一维数组参数生成两个数组元素的列表。
  如果第一个参数是xarray，维度是xdimesion，
  第二个参数是yarray，维度是ydimesion。
  那么生成的第一个二维数组是以xarray为行，共ydimesion行的向量；
  而第二个二维数组是以yarray的转置为列，共xdimesion列的向量。
3.ravel() 为扁平化函数

x = np.arange(16).reshape(4, 4)
print(x.ravel())

输出:
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]


4. np.r_：（row，行）将切片对象转换为沿第一轴的连接
   np.c_：（column，列）将切片对象转换为沿第二轴的连接
   
5. 当前的图表和子图可以使用plt.gcf()和plt.gca()获得，分别表示Get Current Figure和Get Current Axes。在pyplot模块中， 
   许多函数都是对当前的Figure或Axes对象进行处理，比如说：plt.plot()实际上会通过plt.gca()获得当前的Axes对象ax， 
   然后再调用ax.plot()方法实现真正的绘图。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

# This is used for our dataset
from sklearn.datasets import load_breast_cancer

# =============================================================================
# We are using sklearn datasets to create the set of data points about breast cancer
# Data is the set data points
# target is the classification of those data points.

# The data[:, x:n] gets two features for the data given.
# If you want to get a different two features you can replace 0:2 with 1:3, 2:4,... 28:30,
# There are 30 features in the set so it can only go up to 30.
# If we wanted to plot a 3 dimensional plot then the difference between x and n needs to be 3 instead of two
# =============================================================================

dataCancer = load_breast_cancer()
data = dataCancer.data[:, 0:2]
target = dataCancer.target


# 模型建立和拟合
model = KNeighborsClassifier(n_neighbors=9, algorithm='auto')
model.fit(data, target)

# plots the points
plt.scatter(data[:, 0], data[:, 1], c=target, s=30, cmap=plt.cm.prism)

# Creates the axis bounds for the grid
axis = plt.gca()
x_limit = axis.get_xlim()
y_limit = axis.get_ylim()


# Creates a grid to evaluate model
x = np.linspace(x_limit[0], x_limit[1])
y = np.linspace(y_limit[0], y_limit[1])
X, Y = np.meshgrid(x, y)
xy = np.c_[X.ravel(), Y.ravel()]  # (2500,2)


# Creates the line that will separate the data
boundary = model.predict(xy)
boundary = boundary.reshape(X.shape) # (50, 50)

# Plot the decision boundary
# plt.contour()是用来画等高线的. 通过boundary中的边界在X和Y中找到相应的坐标.打印出来一看便知
axis.contour(X, Y, boundary, colors='k')

# Shows the graph
plt.show()

5、算法提升

$k$ 近邻法三要素：距离度量、 $k$ 值的选择和分类决策规则。常用的距离度量是欧氏距离及更一般的pL距离。 $k$ 值小时， $k$ 近邻模型更复杂； $k$ 值大时， $k$ 近邻模型更简单。 $k$ 值的选择反映了对近似误差与估计误差之间的权衡，通常由交叉验证选择最优的 $k$ 。

K值的选择:

如果K值小,则模型复杂.估计误差增大
如果K值大,则模型简单.近似误差增大

通过实例去理解构造方法

最后会形成一个这样的树

6、总结

优点

简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归
可用于数值型数据和离散型数据
训练时间复杂度为O(n)；无数据输入假定
对异常值不敏感

缺点

计算复杂性高；空间复杂性高
样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）
一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分
最大的缺点是无法给出数据的内在含义

docker容器配置tomcat并部署项目虹猫大侠 docker ubuntu docker tomcat ubuntu
1、搜索镜像并拉取，就选第一个tomcat，看起来用的比较多1、搜索镜像：dockersearchtomcat2、拉取镜像：dockerpulltomcatroot@ivan-virtual-machine:/home/tomcat#dockersearchtomcatNAMEDESCRIPTIONSTARSOFFICIALAUTOMATEDtomcatApacheTomcatisanopenso
深度学习与搜索引擎优化的结合：DeepSeek的创新与探索 m0_74825634 面试学习路线阿里巴巴深度学习搜索引擎人工智能
目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek的深度学习架构4.1?查询解析与语义理解4.2?搜索排名与相关性排序4.3?个性化推荐与用户行为分析5、总结引言随着人工智能（AI）技术的迅速发展，深度学习（DeepLearning）
Unity引擎开发：动画系统实现all chenlz2007 游戏开发2 unity 游戏引擎 nginx lucene 3d
动画系统实现1.动画控制器(AnimatorController)1.1动画控制器概述在Unity引擎中，动画控制器（AnimatorController）是管理角色动画的核心组件。它通过状态机（StateMachine）来控制不同动画状态之间的切换，确保动画流畅和自然。动画控制器可以用于多种场景，如角色动画、UI动画等。在动作游戏中，动画控制器主要用于管理角色的移动、攻击、跳跃等动画状态，确保这
【机器学习】支持向量机（SVM）详解：原理与优化宸码机器学习模式识别支持向量机机器学习算法人工智能数据挖掘 python
支持向量机（SVM）详解：原理与优化支持向量机(SVM)详解1.基本概念2.数学原理2.1线性可分情况2.2最优化问题2.3拉格朗日对偶问题2.4核函数技巧（KernelTrick）2.5非线性分类与支持向量3.优缺点分析3.1优点3.2缺点4.SVM与其他算法的比较5.总结支持向量机(SVM)详解1.基本概念支持向量机（SupportVectorMachine,SVM）是一种强大的监督学习算法，
机器学习基础 dringlestry 机器学习人工智能
了解机器学习的基本概念，如监督学习、无监督学习、强化学习、模型评估指标（准确率、召回率、F1分数等）。机器学习（MachineLearning，ML）是人工智能（AI）的一个分支，它使计算机能够通过数据和经验自动改进，而无需明确编程。机器学习可以根据学习方式和数据的有无，分为以下几种基本类型：1.监督学习（SupervisedLearning）监督学习是一种机器学习类型，其中模型通过带标签的数据进
修改阿里云服务器windows远程桌面默认端口号自由软件开发者 Windows windows
默认为3389,打开系统注册表,找到如下子键:计算机\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TerminalServer\Wds\rdpwd\Tds\tcp然后修改PortNumber为自己要开放的端口号如果上面的没生效,修改下面的计算机\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Con
Windows Server 服务器远程端口修改/3389修改 JIASHI412 服务器网络 linux
目录远程端口修改操作步骤：1注册表修改tcp下的值2注册表修改RDP-Tcp下的值3防火墙处理4服务器重启远程端口修改操作步骤：1注册表修改tcp下的值打开“开始→运行”，输入“regedit”，打开注册表，进入以下路径：[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TerminalServer\Wds\rdpwd\Tds\tcp]，看见
AI人工智能常见的专业术语奇华智能人工智能大模型 ChatGPT LLM AI
模型（model）：计算机层面的认知学习算法（learningalgorithm），从数据中产生模型的方法数据集（dataset）：一组记录的集合示例（instance）：对于某个对象的描述样本（sample）：也叫示例属性（attribute）：对象的某方面表现或特征特征（feature）：同属性属性值（attributevalue）：属性上的取值属性空间（attributespace）：属性张
编程小白冲Kaggle每日打卡（14）--kaggle学堂：＜机器学习简介＞你的第一个机器学习模型 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能
Kaggle官方课程链接：YourFirstMachineLearningModel本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。YourFirstMachineLearningModel建立你的第一个模型。好哇！选择建模数据你的数据集有太多的变量，你无法理解，甚至无法很好地打印出来。你如何将如此庞大的数据量缩减到你能理解的程度？我们将从使用直觉选择几个变量开始。后续课程将向您展示自动
【论文精读】MapTR：用于在线矢量化高精地图构建的结构化建模与学习青衫弦语自动驾驶人工智能深度学习 transformer
论文地址：MAPTR:STRUCTUREDMODELINGANDLEARNINGFORONLINEVECTORIZEDHDMAPCONSTRUCTION源代码：MapTR摘要High-definition（HDMap）map为自动驾驶场景提供了丰富且精确的环境信息，是自动驾驶系统规划中不可或缺的基础组件。本文提出了MapTR，一种用于高效在线矢量化高精地图构建的结构化端到端Transformer模
文献阅读 250222-A Robust Causal Machine Learning Approach ZzYH22 笔记
InferringHeterogeneousTreatmentEffectsofCrashesonHighwayTraffic:ADoublyRobustCausalMachineLearningApproach来自##Intro:研究问题：高速公路交通事故对交通系统和经济都产生了相当大的影响。在这种情况下，准确可靠的应急响应对于有效的交通管理至关重要。但是，车祸对交通状态的影响因不同因素而异，并
深入浅出机器学习：概念、算法与实践倔强的小石头_ AI 机器学习算法人工智能
目录引言机器学习的基本概念什么是机器学习机器学习的基本要素机器学习的主要类型监督学习（SupervisedLearning）无监督学习（UnsupervisedLearning）强化学习（ReinforcementLearning）机器学习的一般流程总结引言在当今数字化时代，数据量呈爆炸式增长。机器学习作为一门多领域交叉学科，致力于让计算机系统从数据中自动学习模式和规律，进而实现对未知数据的预测和
文献阅读(part2)--Towards K-means-friendly spaces Simultaneous deep learning and clustering GUI Research Group 机器学习 python 深度聚类
学习笔记，仅供参考文章目录AbstractIntroductionBackgroundandRelatedWorksProposedFormulationOptimizationProcedureInitializationviaLayer-wisePre-Training(通过分层预训练进行初始化)AlternatingStochasticOptimizationExperiments合成数据演
QSerialPort 总结 foxgod windows c++
1QSerialPort能读多于512字节的数据吗？答：可以，需要自己判断数据是否完整，或者根据数据是否有头和尾来判断，参考https://blog.csdn.net/Kelvin_Yan/article/details/78975147?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnP
ACCFIN5246 Machine Learning in Finance 后端
DataScience&MachineLearninginFinance(ACCFIN5246)CourseProject–Spring20251Instruction(I)Deadline:4March,noon.(II)Thiscourseprojectcountstowards(i)35%(viaquizformat)+(ii)50%viathereflectivereport,totheo
从Swift桥接文件到Clang-LLVM weixin_33671935 c/c++swift 前端 ViewUI
前言今天在Swift工程中不小心创建了一个OC文件，于是乎提示我创建一个桥接文件，那么为什么需要创建桥接文件呢，它的原理又是什么呢？打开百度一搜，全是教你怎么创建桥接文件的，似乎找不到答案~LVVM-LowLevelVirtualMachineClang-CLangeFamilyFrontendforLVVM编译器探究GCCGNU编译器套件（GNUCompilerCollection）包括C、C+
Neat Vision：深度学习NLP注意力机制可视化工具教程纪亚钧
NeatVision：深度学习NLP注意力机制可视化工具教程neat-visionNeat(NeuralAttention)Vision,isavisualizationtoolfortheattentionmechanismsofdeep-learningmodelsforNaturalLanguageProcessing(NLP)tasks.(framework-agnostic)项目地址:h
tensorboard使用过程中报错：[Errno 22] Invalid argument Jackilina_Stone 【EH】报错处理 python 深度学习 pytorch
1报错如下所示：D:\code\deep_learning\logs>tensorboard--logdir=traind:\anaconda3\lib\site-packages\h5py\__init__.py:34:FutureWarning:Conversionofthesecondargumentofissubdtypefrom`float`to`np.floating`isdeprec
构建未来课堂——C#教育技术下的学习管理系统(LMS)深度解析与实现墨夶 C#学习资料1 c#学习开发语言
在信息技术飞速发展的今天，传统的教育模式正经历着前所未有的变革。在线教育平台、移动学习应用以及智能化教学工具层出不穷，为广大学生和教师提供了更加便捷的学习途径。其中，学习管理系统（LearningManagementSystem,LMS）作为连接师生之间的桥梁，扮演着至关重要的角色。本文将聚焦于如何使用C#编程语言结合最新的.NET框架和技术栈来开发一个功能完备且易于扩展的LMS系统，带领读者一同
达梦数据库并发场景下，抓取执行久/等待久的慢SQL 泛冬以南常用技术记录数据库 sql
--ss单位是秒select*from(select(SELECTround(SUM(TOTAL_SIZE/1024/1024),2)FROMV$MEM_POOLCwhereC.name='VIRTUALMACHINE'ANDC.CREATOR=A.THRD_IDGROUPBYCREATOR)ASVM_TOTAL_SIZE_BY_M,a.trx_id,a.thrd_id,clnt_ip,c.ROL
深度学习模型：原理、架构与应用一ge科研小菜菜工具深度学习
深度学习（DeepLearning）是机器学习中的一个分支，基于人工神经网络的发展，尤其是多层神经网络的研究，使其在语音识别、图像处理、自然语言处理等领域取得了显著进展。深度学习的核心是通过大量数据的训练，学习到数据的内在结构和模式，并且具备自动从复杂的输入中提取特征的能力。本文将从深度学习的基本原理、常见模型、训练技巧、应用领域及其面临的挑战等方面进行详细探讨，帮助理解深度学习模型如何在现代科技
【YashanDB 知识库】kettle 同步大表提示 java 内存溢出数据库
【问题分类】数据导入导出【关键字】数据同步，kettle，数据迁移，java内存溢出【问题描述】kettle同步大表提示ERROR：couldnotcreatethejavavirtualmachine!【问题原因分析】java内存溢出【解决/规避方法】①增加JVM的堆内存大小。编辑Spoon.bat，增加堆大小到2GB，如：if"%PENTAHO_DI_JAVA_OPTIONS%"==""set
机器学习_19 集成学习知识点总结数据媛机器学习集成学习人工智能 python scikit-learn numpy scipy
集成学习（EnsembleLearning）是一种强大的机器学习范式，通过组合多个模型的预测结果来提高整体性能和泛化能力。它在分类、回归和特征选择等任务中表现出色，广泛应用于各种实际问题。今天，我们就来深入探讨集成学习的原理、实现和应用。一、集成学习的基本概念1.1集成学习的定义集成学习通过组合多个学习器（通常称为“弱学习器”）的预测结果，构建一个更强的模型（“强学习器”）。其核心思想是利用多个模
CS 189/289A Machine Learning 后端
CS189/289AIntroductiontoMachineLearningDue:Wednesday,February26at11:59pm•Homework3consistsofcodingassignmentsandmathproblems.•WepreferthatyoutypesetyouranswersusingLATEXorotherwordprocessingsoftware.I
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》再见孙悟空_ 「2025 DeepSeek技术全景实战」算法学习计算机视觉 deepSeek 深度学习 transformer 人工智能
引言：为什么自监督学习成为AI新宠？在传统监督学习需要海量标注数据的困境下，自监督学习（Self-SupervisedLearning）凭借无需人工标注的特性异军突起。想象一下，如果AI能像人类一样通过观察世界自我学习——这正是DeepSeek图像补全方案的技术哲学。根据，自监督学习通过设计巧妙的"预训练任务"（PretextTask），让模型在无标签数据中自动学习图像语义特征。而图像补全正是这类
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
第26篇：pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习还不秃顶的计科生联邦学习深度学习人工智能开发语言
第一部分：解决的问题联邦学习（FederatedLearning,FL）是一种分布式机器学习方法，允许客户端在本地数据上训练模型，同时通过中心服务器共享学习成果。传统FL框架假设客户端使用相同的模型结构（模型同构），但在实际中可能面对：统计异质性：客户端的数据分布不均（non-IID）。资源异质性：客户端硬件资源有限。模型异质性：客户端可能拥有不同的模型结构。模型异构的个性化联邦学习（MHPFL）
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
ROS turtlesim 无法通过键盘控制 turtle 移动狗头鹰 ubuntu linux
原因：当我们在singlemachine上进行试验时，如果出现了上述问题，除了指令输入错误、本地没该功能包，未选中turtle_teleop_key终端进行操作等简单原因外，还有可能是未正确设置环境变量ROS_MASTER_URI,ROS_HOSTNAMEsolutions：vim~/.basrhc打开文件.bashrc,在文件末尾加上exportROS_HOSTNAME=ubuntu.local
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息