qq_45482563

机器学习系列之一通用流程（1、问题建模）

@[机器学习系列之一①问题建模
机器学习系列之一②特征工程
机器学习系列之一③常用模型
机器学习系列之一④模型融合](这里写自定义目录标题)

1、问题建模

通用流程包含4大部分，分别是：问题建模、特征工程、模型选择和模型融合。问题建模主要包含三个部分：评估指标、样本选择和交叉验证

1.1 评估指标

评估指标用于反映模型效果。通常，线下使用机器学习评估指标，线上使用业务指标评估指标根据任务类型分类，可分为分类指标、回归指标、聚类指标和排序指标。

1.1.1 分类指标

精确率（P）召回率（R）P-R曲线（二分类）、F1 、精确率A、错误率ER（多分类）
ROC/AUC 正样本排在负样本前面的概率，与排序有关，对排序敏感
对数损失（logloss）衡量真实概率分布与预测概率分布之间的差异，取值越小越好，对预测概率敏感

1）P/R 多用于二分类任务，可根据混淆矩阵进行计算
其中，TP（True Positive）表示真实结果为正例，预测结果也为正例；FP（False Positive）表示真是结果为负例，但是预测结果是正例；TN（True Negative）表示真是结果为正例，预测结果为负例；FP（False Negative）表示真是结果为负例，预测结果也为负例。TP+FP+FN+TN=样本总数

精确率和召回率的定义：

P-R曲线（P为纵轴、R为横轴），PR曲线越靠近右上角越好，曲线下的面积叫AP（平均精确率）分数。

虽然PR曲线可以在一定程度上反映模型性能，但是计算不方便，因此提出了F1值。F1值是P与R的调和平均值：

精确率和准确率要进行区分，精确率是二分类指标，准确率是多分类指标，

2) ROC/AUC
ROC(接收者操作特征) 纵坐标真正率（TPR），横坐标假正率（FPR），越靠近左上角性能越好。

AUC（Area Under ROC Curve）是ROC曲线下的面积，取值越大说明模型越可能将正样本排在负样本前面。AUC*2 = Gini+1。计算方式：
物理角度，AUC是ROC曲线面积：

从概率角度，AUC考虑样本的排序质量，它与排序误差有关，公式：

因为AUC与排序有关，所以它对排序敏感，而对预测分数没有那么敏感。但是P-R曲线对于预测分数比较敏感。
3）对数损失logloss
是对预测概率的似然估计。本质上是利用样本中已知的分布，求解使这种分布出现的概率最大的最佳模型参数。

其二分类计算公式：（这不就是LR的损失函数嘛）

其中，y∈{0，1}，pi表示第i条样本预测为1的概率
在多分类任务中，计算公式：

其中，N为样本数，C为类别数，yij=1表示第i条样本的类别为j，pij表示第i条样本类别j的概率。
logloss主要是衡量预测概率分布与真实概率分布的差异，取值越小越好。与AUC不同，logloss对于预测概率比较敏感。

1.1.2 回归指标

平均绝对误差（MAE） 很好刻画预测值与真实值的偏差，对数据分布的中值进行拟合。进阶：WMAE(加权平均绝对误差)
平均绝对百分误差（MAPE） 计算绝对误差百分比来表示预测结果，值越小越好。与量纲无关，但对于负值的惩罚大于正值均方根误差（RMSE）表示预测值与真实值差值的样本标准差，对数据分布的平均值进行拟合。对于误差样本有更大的惩罚，但是对于离群点敏感。

1）MAE，也称为L1范数损失。对于损失函数需要求二阶导数的（XGBoost），无法使用。

其中，N为样本数，yi为第i条样本的真实值，pi为第i条严格不能的预测值。如果考虑了样本权重，可以使用加权平均绝对误差（WMAE），公式：、

其中，wi表示第i条样本的权重。
2)MAPE，计算绝对误差百分比来表示预测结果，值越小越好。

MAPE与量纲无关，因此在特定场景下不同问题具有一定可比性。但是，在yi=0出无定义，如果yi接近0可能导致MAPE大于1，而且，MAPE对于负值误差的惩罚大于正值误差。故而提出了改进指标：MASE，sMAPE、MDA。
3）RMSE ，表示预测值与真实值差值的样本标准差，与MAE相比，RMSE对于误差样本有更大的惩罚，但是对于离群点更敏感，健壮性不如MAE。是对数据分布的平均值进行拟合。

1.1.3 排序指标

平均准确率均值（MAP） 0/1表示相关与不相关
NDCG 相关性度量可以分为多级

1) MAP，分两步计算，首先计算排序的平均精确率，在计算总体平均精确率。MAP指标会限定评估排在前面的文档质量。

其中，AP@K表示前k个结果的平均准确率；M表示每次排序的总文档，可能一次返回文档数不足K个；P（k）表示前k个结果的准确率；rel(k)表示第k个结果是否相关文档，相关取值为1，否则为0。

其中，Q为查询数量，APq@K为第q次查询的AP@K结果。下面有个例子

2）NDCG（归一化贴现累计收益）

其中，NDCG@K表示计算前K个结果的NDCG；relk表示第k个位置的相关性得分；IDCG@K是前K个排序返回结果集能够得到的最佳排序结果，用于归一化DCG@K；|REL|为结果集按相关性排序后的相关性得分列表。
相对于MAP描述相关性只有0/1二值表示，NDCG可以分为多等级。比如网页排序中常用5个等级使得评分更加丰富。但是相关性描述是一个超参数，需要人为定义，此外还需要考虑位置偏偏置，使得不同位置的权重不同。例子：

1.2 样本选择

从海量数据中识别和选择相关性高的数据作为模型输入。目的是从完整训练集T中选择一个子集S属于T，子集S不在包含冗余样本。理想情况下是S最小，然后模型效果不变差。样本选择的方法有很多，主要分为三类：数据去噪、采样、原型选择和训练集选择。前两者最为简单有效而且应用最多。

1.2.1数据去噪

噪声可能会导致数据质量下降，影响模型效果，但是可以提提升模型的健壮性。
数据噪声可能是特征值不对，比如特征值缺失、超出特征值域范围；也可能是标注不对，比如二分类正样本标注成负样本。
针对误标注实例有很多成功的处理方案，最常见的有集成过滤（EF）、交叉验证委员会过滤法（CVCF）和迭代分割过滤法（IPF），这些方法都是基于融合或者投票的思想进行数据过滤的。
除了以上方法之外，还可以就业务考虑做一些数据过滤工作，比如清洗爬虫数据和不具代表性样本等。再如过滤掉无效曝光数据，根据用户最后一次点击位置行为的位置，过滤掉最后一次点击之后的展示，可以认为用户没有看到，也可以保留最后一次点击之后的少数几个曝光。

1.2.2采样

采样是一个完善的统计技术，从整体选择一部分来进行推论。采样能够克服高维特征以及大量数据导致的问题，有助于降低成本，缩短时间甚至提升效果，在不平衡分类问题中还能帮助平衡样本比例。进行采样时最关心采样方法和采样比例。
通常，考虑样本对总体的估值不超出边界误差的情况下能够计算出样本量，如下不等式：

一个好的样本子集应该具有无偏性和很小的样本方差。其中，无偏性是指对样本的期望等于全体样本期望，也即E(e) =e0。样本方差是平衡样本估计值和真实值的偏差，即Var(e)=E[e-E(e)]2，小方差能保证估计值不会产生太大偏差。
现今的采样方法主要介绍下面五种：

无放回简单随机抽样。从含有N条样本的数据集T中采样s条样本，每条被采样的概率都是1/N
有放回简单抽样。与①类似，但是每次从数据集T中抽取出一条样本后，还将其放回到数据集T中，因此每条样本可以多次被选中
平衡采样。根据目标变量进行采样，根据预定义的比例对样本进行重新组合，主要应用于不平衡分类问题（指不同类别的数据量差别很大，通常对小数据量的类别上采样或者对大数据量类别下采样）。比如一个二分类中，正样本100条，负样本10000条，采样目标是正负比例1：10，那么上采样（常用ADASYN和SMOTE）就是对正样本复制10遍，负采样就是对负样本随机删除然后只保留1000条。
整群采样。先将数据集T中的数据分组成G个互斥的簇，然后从G个簇中简单随机采样s个簇作为样本集。
分层采样。数据集T划分成不同的层，然后每层内部进行简单随机采样，最后汇总成样本集合S。也常用于不平衡分类问题中。

1.2.3 原型选择和训练集选择

原型选择是基于实例的方法，在样本选择过程中不需要训练模型，而是选取相似度或距离都指标来选找到分类精度和数据量最佳的训练集，多采用KNN算法。
训练集选择是构建预测模型来进行样本选择的方法的统称，比如决策树、ANN和SVM算法。原型选择和选练集选择两大类别的样本选择方法有很多，但是没有一种通用方法。
原型选择有很多分类标准，根据从数据集T中选择样本集S的方向可以分为5类：

还可以根据选择的样本，原型原则相关算法可以分为三类：

Condensation。保留决策边界处样本
Edition。删除边界的异常点，使得边界更加平滑。
Hybrid。尝试找到最小的样本集S，能够保持甚至提升测试集上的泛化精度。

1.3 交叉验证

划分训练集和测试集的方法统称为交叉验证。下面介绍几种常用的：

1.3.1 留出法

留出法（Hold-out）是将数据集D随机划分成两个互斥的数据集，一份用于训练，一份用于测试。本质上，并不算交叉验证法，因为数据没有交叉。通常做法是2/3作为训练集，1/3作为测试集。如下图所示。

值得注意，单次划分的得到的结果往往不靠谱，在正常实验中，我们通常会进行多次留出法实验，每次随机划分，最终得到的实验结论进行平均。
在实际应用中，有一种场景使用留出法：数据有明显的时间序列因素，即线上数据的时间都在离线数据即之后，这种情况下根据时间对离线数据集进行划分，使得测试集时间分布在训练集之后。

1.3.2 K折交叉验证

K折交叉验证将数据集D划分为K份互斥数据集Dk，一般是平均分配使得每一份数据量接近且数据分布尽可能一致。每次使用一份数据测试及，其余k-1份数据训练，需要迭代K轮得到k个模型；最后将K份测试记过汇总到一起评估一个离线指标。

K折交叉验证的稳定性与K取值很相关。K值太小实验稳定性偏低，K值太大可能导致成本太高，K常用取值是5和10。K折交叉验证能够很好的避免过拟合和欠拟合，得到的结论也更有说服力。
相比留出法，K折交叉验证更为复杂，但是数据利用率更高。留一法LOO是K折中的一个特例，其中K=N，每一条样本当测试集，其余训练。优点是不受随机样本划分的影响，但是计算成本太高，甚至不可行。因此，常用于数据稀疏。
对于类别数据不均衡的情况，可以使用分层K折交叉验证。对每个类别进行k折交叉，使得各个类别数据分布与完整数据集分布更为一致。

1.3.3 自助法

自助法（Bootstrapping）以自主采样为基础，使用有放回的重复采样的方式进行训练集测试集的构建。比如构建n条样本的训练集，每次从数据集D采样一条放入训练，然后有放回重新采样，重复n次得到n条样本的训练集，然后将没出现过的放到测试集。可以计算出其概率是：因为没被采样的概率是（1-1/n）,那么n次之后:

这就意味着，数据量很大的时候，约有36.8%的数据不会出现在训练集中。前面两种方法会因训练集的大小不一致而产生一定的偏差，而自助法不会。但是自助法改变了初始数据分布，会引入估计偏差，所以在数据足够时，一般采用留出法和交叉验证，而在数据量小并且难以有效区分训练集和测试集时，采用自助法。

参考文档
美团机器学习实践
百面机器学习

Github2025-03-10 开源项目周报 Top13 老孙正经胡说开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本周(2025-03-10统计)共有13个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7TypeScript项目2JavaScript项目2C++项目1JupyterNotebook项目1Vue项目1文档项目1Rust项目1Svelte项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个For
2021-06-04 VSC++：数组移位。智者知已应修善业 c++算法经验分享笔记 c语言
本实例是真正的O(N)不是有些需要最坏O(2N)才能完成的却硬称O（N）本例在数组中是已经完全完成了的。void数组移位(){//缘由https://ask.csdn.net/questions/7441793?spm=1005.2025.3001.5141inta[47]{},*aa,n=0,p=0,x=0;aa=a;//时空复杂度O（N）std::cin>>n>>p;while(x>a[x++
Harmony------应用程序框架小码狼 Harmony 学习 harmonyos arkts 鸿蒙
1.应该程序框架基础多Module设计机制模块化开发：一个应用多个功能，每个功能可作为一个模块，Module中可以包含源代码、资源文件、第三方库、配置文件等，每一个Module可以独立编译，实现特定的功能支持多设备：每个Module都会标注所支持的设备类型，可以根据需要组合Module类型ability类型的module：用于实现应用的功能和特性，每个ability类型的module编译后，会生成
机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
Oracle-表空间/用户的创建与使用一诚学编程 oracle
--对象--需要create的都是对象已学的对象：表table--普通用户只能查询user开头的数据字典selecttablespace_namefromuser_tablespaces;--dba用户才能够查询selecttablespace_namefromdba_tablespaces;--创建表空间（需要管理员权限dba用户）--语法解释CREATETABLESPACEts_test--表
easyexcel操作文件读取中某列为null 温馨提示   java
使用EasyExcel.read()方法读取出来某列为空的解决办法最近使用easyexcel操作文件，发现第一列取出来都是null值，排查了半天终于发现了问题，就是Data中属性值严格要求驼峰命名规则，否则识别不出来。@DatapublicclassExcelDateSubject{@ExcelProperty(value="一级标题",index=0)privateStringOneSubjec
C#原型模式：通过克隆对象来优化创建过程江沉晚呤时设计模式 java 开发语言 .netcore microsoft asp.net c#
在软件开发中，创建对象是非常常见的操作。然而，在某些情况下，构造对象的过程可能非常复杂或耗时，特别是当对象的创建涉及多个步骤或者需要初始化大量数据时。为了解决这个问题，**原型模式（PrototypePattern）**应运而生。它允许通过复制一个已有的对象来创建新的对象，从而避免了重复的创建成本和复杂的初始化过程。什么是原型模式？原型模式是一种创建型设计模式，它通过克隆一个现有的对象来生成新对象
适配器模式（Adapter Pattern）详解：如何通过适配器解决接口不兼容的问题江沉晚呤时设计模式服务器 .net 运维 c#.netcore 开发语言适配器模式
在软件开发中，我们经常遇到不同系统或组件之间的接口不兼容的问题。如何将这些不兼容的接口进行整合，使得它们能够协同工作，成为一个常见的挑战。适配器模式（AdapterPattern）正是为了解决这个问题而设计的一种结构型设计模式。适配器模式通过提供一个中间层，将不兼容的接口适配成客户端需要的接口，从而让它们能够正常协作。本文将深入探讨适配器模式的概念、工作原理以及在C#中的实现，帮助开发者在实际项目
C# 建造者模式（Builder Pattern）详细讲解江沉晚呤时设计模式 C#java 数据库开发语言 .netcore c#net javascript
一、什么是建造者模式？建造者模式（BuilderPattern）是一种创建型设计模式，它通过将一个复杂对象的构建过程与其表示分离，使得同样的构建过程可以创建不同的表示。这个模式主要应用于那些构建过程复杂且涉及多个步骤的场景，特别适合于需要灵活配置且逐步构建的对象。1.1.设计模式分类设计模式（DesignPatterns）分为三大类：创建型模式（CreationalPatterns）：关注如何创建
常见设计模式解读（二）苏雨流丰计算机面经设计模式开发语言 java spring boot
文章目录4.策略模式（StrategyPattern）4-1.定义4-2.实现示例4-3.应用场景5.代理模式（ProxyPattern）5-1.定义5-2.实现示例5-3.应用场景5-4.注意事项6.装饰器模式（DecoratorPattern）6-1.定义6-2.实现示例6-3.应用场景7.适配器模式（AdapterPattern）7-1.定义7-2.实现示例4.策略模式（StrategyPa
Python的Numpy数组np.array()基本用法详解（二）苏雨流丰 Python30Days python 开发语言 numpy array
本节主要讲授array获取元素、转置、重塑等方法"""@Date:2022-01-21@Author:苏雨流丰@lang:Python@summary:访问、获取np.array的元素"""导入numpy包importnumpyasnp初始化工作np_34_list=[[1,3,5,7],[2,4,6,8],[1,2,5,6]]np_44_list=[[1,3,5,7],[2,4,6,8],[1,
python-git- GitHub 45度看我 github
python之git-GitHub一：github原文链接二：WhatisGitHub1>创建仓库2>创建分支3>提交修改4>发起PullRequest三：理解GitHub流四：创建你的GitHub主页1>setting-->“Commitchanges”按钮五：典型的项目1>社区（TheCommunity）2>文档（TheDocs）3>Issue创建一个问题单4>PullRequest六：Git
Python基础语法（二）：条件、循环与运算符算法工程师y python 开发语言
本篇Python基础语法（二）将深入讲解编程中至关重要的条件判断、循环结构和运算符，它们是实现复杂逻辑的基石。一、条件语句（if-elif-else）条件语句用于根据不同的条件执行不同的代码块。Python中用if、elif（elseif的缩写）和else实现。1.基本语法age=18ifage（大于）、大于10>5→True=大于等于5>=5→True3)and(2<4)→Trueor任一条件为
matlab怎么将代码在gpu上运行,使用GPU加速MATLAB代码？如果有片海
使用GPU加速MATLAB代码？AccelerEyes于2012年12月宣布，它将与Mathworks在GPU代码上合作，并已停止使用MATLAB的产品Jacket：http://blog.accelereyes.com/blog/2012/12/12/exciting-updates-from-accelereyes/不幸的是，他们不再销售Jacket许可证。据我所知，基于ArrayFire的J
上传本地项目到GitHub shi_jiaye 笔记 github
一、在GitHub上创建仓库1.点击右上角头像–>点击Yourrepositories2.点击New3.创建仓库网址复制一下，在后面git上传时会用到二、打开GitBash1.cd进入项目所在路径2.输入gitinit在当前项目的目录中生成本地的git管理（当前目录下出现.git文件夹）3.输入gitadd.将项目上的文件添加到仓库中注意add后面有个空格，后面还有个点4.输入gitcommit-
NET Markdown 解析神器--Markdig dotNET跨平台
Markdig是一款快速、强大、符合CommonMark标准、可扩展的.NETMarkdown处理器。Markdig是一个为.NET平台设计的快速、强大且易于扩展的Markdown处理器，它完全符合CommonMark标准。这个库以其卓越的性能和丰富的功能集而著称，包括一个无需正则表达式的快速解析器和HTML渲染器，以及对垃圾回收压力的最小化。核心特性Markdig的一些显著特性包括：1.极速性能
大学生论文“AI味儿”渐浓？使用AI工具各高校“立规矩”了→央视新闻2025-02-26 18:39——大家觉得ai到底好不好——会不会像手机一样，也是一把双刃剑——大家要好好利用即可，不是猛兽！分享是一种传递，一种快乐杂学百货铺-啥都学人工智能
大学生论文“AI味儿”渐浓？使用AI工具各高校“立规矩”了→央视新闻2025-02-2618:39——大家觉得ai到底好不好——会不会像手机一样，也是一把双刃剑——大家要好好利用即可，不是猛兽！百度首页大学生论文“AI味儿”渐浓？使用AI工具各高校“立规
【CSDN】java使用POI&EasyExcel操作文件学习笔记骑鱼过海的猫123 java 学习笔记
文章目录1.Apachepoi参考CSDNurl:[CSDNPOI文档](https://blog.csdn.net/fgghhfg574/article/details/103343030)参考B站视频:[B站POI视频](https://www.bilibili.com/video/BV1cG411M7ut?p=6&vd_source=31d376c1e57cf8a26a31cd3b47080
西门子PLC转MQTT协议OPC协议网关应用案例钡铼技术网关工业物联网关钡铼PLC采集网关 PLC物联网关物联网 PLC转MQTT网关 PLC采集网关嵌入式OPC UA网关
BL102是一款采集西门子、三菱、欧姆龙、台达、AB、施耐德等各种PLC数据转换为ModbusTCP、OPCUA、MQTT、华为云IoT、亚马逊云IoT、阿里云IoT、金鸽云等协议的网关。BL102下行支持：西门子、三菱、欧姆龙、台达、AB、施耐德等各种PLC。BL102上行支持：ModbusTCP、MQTT、OPCUA、华为云IoT、阿里云IoT、AWSIoT、金鸽云等协议。BL102支持OPC
一次Linux下 .net 调试经历 norsd C#VC Debug linux .net
背景：Xt160Api,之前在windows下用.net调用，没有任何问题。但是移植到Linux去后，.net程序调用init(config_path)总是报错/root/test找不到traderApi.ini(/root/test是程序目录)然后退出程序解决过程:于是考虑是不是参数传错了，但是无论这个参数是什么，报错内容始终如此。甚至某些情况下，比如加了几句Console.WriteLIne(
Windows 图形显示驱动开发-WDDM 3.0功能- D3D12 增强型屏障（二）程序员王马 windows图形显示驱动开发驱动开发 windows
同步图形处理器旨在并行执行尽可能多的工作。任何依赖于先前GPU工作的GPU工作都必须在访问相关数据之前同步。增强型屏障接口使用显式SyncBefore和SyncAfter值作为逻辑位字段掩码。在执行屏障之前，屏障必须等待所有前面的命令SyncBefore范围完成。同样，屏障必须阻止所有后续的SyncAfter范围，直到屏障完成。D3D12DDI_BARRIER_SYNC指定GPU工作相对于屏障的同
github 上拉取，修改，增加分支及提交 AI_央木 github git
1.github中ssh配置1.1gitconfig--globaluser.name“你的名字”gitconfig--globaluser.email“你的邮箱”1.2生成id_rsa.pubssh-keygen-trsa-C"姓名/邮箱"1.3ssh配置将生成的id_rsa.pub中的内容拷贝到key中2.拉取项目gitclonegit@xxxx3.本地创建新分支gitcheckout-bxx
【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
JavaScript松散比较与严格比较 hzw0510 前端开发 javascript 开发语言 ecmascript
在JavaScript中，==（双等号）和===（三等号）都用于比较两个值，但它们的比较方式有显著区别。以下是它们的详细对比：1.==（双等号）名称:松散相等（LooseEquality）行为:在比较之前会尝试进行类型转换，将两个值转换为相同类型后再比较。示例:console.log(5=="5")
推荐文章：GPU 基于顶点着色器的高效动画系统 for Unity.Entities 劳治亮
推荐文章：GPU基于顶点着色器的高效动画系统forUnity.Entities去发现同类优质开源项目:https://gitcode.com/1、项目介绍该项目是一个专为Unity.Entities设计的轻量级但极快的GPU顶点着色器动画系统。灵感源自Nordeus和Unity的合作，经过优化和调整，以适应最新的实体系统。它特别适用于需要大量角色各自独特动画的情况，且动画状态处理极其简单。2、项目
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
【DeepSeek应用】本地部署deepseek模型后，如何在vscode中调用该模型进行代码撰写，检视和优化？ AndrewHZ 深度学习新浪潮 AI算法工程师面试指北 vscode 人工智能深度学习 DeepSeek 算法语言模型编辑器
若已成功在本地部署了DeepSeek模型（例如通过vscode-llm、ollama或私有API服务），在VSCode中调用本地模型进行代码撰写、检视和优化的完整流程如下：1.准备工作：确认本地模型服务状态模型服务类型：若使用HTTPAPI服务（如FastAPI/Flask封装），假设服务地址为http://localhost:8000。若使用ollama部署，模型名称为deepseek，调用命令
JAVA中运算符要注意的地方优雅的落幕 Java java 开发语言
本文章主要突出其与C语言的区别1.增量运算符+=-=*=%=1.a+=1.0a+=1.0;a=(int)(a+1.0);这两个等价而不是单纯的等价于a=a+1.02.a=a++publicstaticvoidmain(String[]args){inta=10;a=a++;System.out.println(a);}在上述代码中，a的结果是什么呢？是不是a=11?但其实不是的a=10其实这样赋值
小米音频理解技术重大突破：7B模型借助DeepSeek-R1算法引领行业新篇章耶耶Norsea 网络杂烩人工智能深度学习
摘要小米公司通过采用DeepSeek-R1算法的迁移技术，在音频理解领域实现了重大突破。其7B模型在MMAU音频评测基准中表现出色，成功登顶排行榜。MMAU评测基准包含10000条音频样本，涵盖语音、环境声和音乐等多种类型，难度极高。即便如此，该模型的表现已超越人类专家的82.2%识别准确率，展现出卓越的音频理解能力。关键词小米音频突破,DeepSeek-R1算法,7B模型进展,MMAU评测基准,
异步加载回调问题，多个资源异步加载，让其全部加载完回调 QO_GQ lua 开发语言
刚刚遇到一个bug，场景大图需要提前加载，所有场景组件就需要等图加载好后再处理，但是由于场景背景图是异步加载的，并且是同时for循环进行异步加载的，所以无法确认哪一个图是最后加载出来的，抱着试一试的心态，这样写了一下，发现没用：---记载所有背景图functionLoadBgRawImage(mapID,func)fori=1,lendo...localpath="xxx\xxx\xxx.jpg"
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &