Actually_xxl

ML_chapter1.2模型评估

Machine Learning

chapter1概论 1.2

学习总结于《机器学习》周志华、CSDN大佬们的博客

一、误差 error

1.训练误差 training error

也称经验误差，是指学习器在训练集上的误差

$R_{emp}(\hat{f}) = \frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat{f}(x_i))$ , $N$ 是训练样本容量， $L$ 是损失函数

2.测试误差 test error

也称泛化误差，是指学习器在新样本上的误差

$R_{test}(\hat{f}) = \frac{1}{N'}\sum_{i=1}^{N'}L(y_i,\hat{f}(x_i))$ , $N ‘$ 是训练样本容量， $L$ 是损失函数

二、评估方法

1.留出法

定义：

直接将数据集 $D$ 划分为两个互斥的集合，其中一个集合作为训练集 $S$ ，另一个作为测试集 $T$ ，在 $S$ 上训练出模型后，用 $T$ 来评估其测试误差。

训练/测试集的比例：

训练集与测试集的划分，存在着一定的问题。一般来说，测试集较小时，评估结果的方差较大；训练集较小时，评估结果偏差较大。常见的做法是将大约2/3～4/5的样本用于训练，剩余样本用于测试。

p次留出法：

为了减小因样本划分不同而引入的差别，将数据集进行p次随机划分，每次产生一个训练/测试集用于实验评估，p次后得到p个结果，并返回p次结果的均值。

2.交叉验证法

定义：

先将数据集 $D$ 划分为 $k$ 个大小相似的互斥子集，每个子集 $D_i$ 都尽可能保持数据分布的一致性，即从 $D$ 中通过分层采样得到，然后，每次使用 $k - 1$ 个子集的并集作为训练集，余下的子集作为测试集。如此便可以得到 $k$ 组训练/测试集，从而进行 $k$ 次训练和测试，最终返回 $k$ 个测试结果的均值。

p次 $k$ 折交叉验证：

$k$ 折交叉验证通常随机使用不同的划分重复p次，最终的评估结果是这p次 $k$ 折交叉验证结果的均值。

留一法：

若数据集中包含 $m$ 个样本，令 $k = m$ ，则得到了交叉验证法的一个特列：留一法（LOO）。留一法不受随机样本划分方式的影响，因此留一法的评估结果往往被认为比较准确；而然，在数据集比较大时，训练 $m$ 个模型的计算开销可能是难以忍受的。

3.自助法

定义：

给定包含 $m$ 个样本的数据集 $D$ ，我们对它进行采样产生数据集 $D^{'}$ ：每次随机有放回的从 $D$ 中挑选一个样本，将其拷贝放入 $D^{'}$ ，重复 $m$ 次，便得到包含 $m$ 个样本的数据集 $D^{'}$ 。样本在 $m$ 次采样中，始终不被采到的概率是 $(1-\frac{1}{m})^m$ ,取极限得：

$\lim\limits_{m\rightarrow\infty}(1-\frac{1}{m})^m = \frac{1}{e}\approx 0.368$

即通过自助采样，初始数据集 $D$ 中约有36.8%的样本未出现在采样数据集 $D^{'}$ 中，于是我们可以将 $D^{'}$ 用作训练集， $D$ \ $D^{'}$ 用作测试集。

优缺点：

自助法在数据集较小，难以有效划分训练/测试集时很有用，自助法能从初始数据集中产生多个不同的训练集，对集成学习等方法有很大好处。而自助法产生的数据集改变了初始数据集的分布，会引入估计偏差，因此，在初始数据量足够时，留出法和交叉验证法更常用一些。

4.调参

机器学习常涉及两类参数：一类是算法的参数，即超参数；另一类是模型需要学习的参数。前者通常是由人工设定多个参数候选值后产生模型，后者则是通过学习来产生多个候选模型（如神经网络在不同轮数停止训练）。

三、性能度量

1.均方误差（回归）

回归任务的性能度量指标。

$\frac{1}{m} \sum_{i=1}^{m}(f(x_i)-y_i)^2$

一般的对于数据分布 $D$ 和概率密度函数 $p (.)$ ，均方误差可以描述为：

$\int_{D} (f(x_i)-y_i)^2p(x)dx$

2.错误率与精度（分类）

分类任务中最常用的两种性能度量，既适用于二分类，也适用于多分类。

对于样例集D，

错误率的定义为：

$\frac{1}{m} \sum_{i=1}^{m}I(f(x_i)\not=y_i)$

精度（accuracy）的定义为：

$\frac{1}{m} \sum_{i=1}^{m}I(f(x_i)=y_i) = 1-E(f;D)$

一般的对于数据分布 $D$ 和概率密度函数 $p (.)$ ，错误率与精度可以描述为：

$\int_{D} I(f(x_i)\not=y_i)p(x)dx$

$\int_{D} I(f(x_i)=y_i)p(x)dx = 1-E(f;D)$

3.查准率、查全率（分类）

查准率与查全率

错误率和精度虽然常用，但并不能满足所有任务的需求。如对于信息检索问题，我们往往更关心的是"检索的信息中有多少比例是用户感兴趣的"（查准率），“用户感兴趣的信息又有多少被检索出来”（查全率），因此“查准率（precision）”和“查全率（recall）”是更实用于此类需求的性能指标。

对于二分类问题，根据其真实类别于学习器预测类别，我们有如下的混淆矩阵：

	预测结果	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

查准率 $P$ 与查全率 $R$ 分别定义为：

$P(precision)=\frac{TP}{TP+FP}$

$\frac{TP}{TP+FN}$

查准率与查全率是一对矛盾的度量，通常，查准率高时，查全率往往偏低（如挑选西瓜时，只挑最有把握的瓜，但难免会漏掉不少好瓜）；查全率较高时，查准率往往偏低（如想把好瓜尽可能多的跳出来，则可以把所有西瓜都选上，那么所有好瓜必然都被选上了，但真正例的比例在挑出的‘好瓜’中则会明显下降）。

PR曲线

在机器学习中分类器往往输出的不是类别标号，而是属于某个类别的概率值，因此俺顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率，查准率。并以此查准率作为纵轴、查全率作为横轴，就得到了“P-R曲线“。

在很多情况下，人们通过比较P-R曲线下面积的大小，来衡量学习器的性能优劣，它在一定程度上表征了学习器在查准率和查全率上取得相对‘双高’的比例。

很多情况下P-R曲线的下面积值并不易计算，因此通常我们采用以下一些性能度量指标：

平衡点BEP

平衡点（Break- Even Point）它是“查准率=查全率”时的取值。

$F_1$ 度量

F1是基于查准率与查全率的调和平均定义的：

$\frac{1}{F1} = \frac{1}{2}*(\frac{1}{P}+\frac{1}{R})$

$\frac{2*P*R}{P+R} = \frac{2*TP}{样例总数+TP-TN}$

$F_\beta$ 度量

$F_\beta$ 是基于查准率与查全率的加权调和平均定义的，可以表达出对于查准率/查全率的不同偏好：

$\frac{1}{F_\beta} = \frac{1}{1+\beta^2}*(\frac{1}{P}+\frac{\beta^2}{R})$

$\frac{(1+\beta^2)*P*R}{(\beta^2*P)+R}$

其中 $\beta>0$ 度量了查全率对查准率对相对重要性， $\beta=1$ 时退化为标准的 $F_1$ ； $\beta>1$ 对于查全率由更大影响； $\beta<1$ 时对查准率由更大影响。

macro（宏）与micro（微）

很多时候，我们进行过多次训练/测试、在多个数据集上进行训练/测试或事执行多分类任务，生成了多个二分类混淆矩阵，我们希望在n个二分类混淆矩阵上综合考察查准率和查全率。

macro的做法是现在各混淆矩阵上分别计算查准率和查全率，记为 $P_1,R_1),(P_2,R_2),...,(P_n,R_n)$ ，在计算平均值，这样就得到宏查准率（macro- P）、宏查全率（macro-P）、宏F1（macro-F1）：

$\frac{1}{n}\sum_{i=1}^{n}P_i$

$\frac{1}{n}\sum_{i=1}^{n}R_i$

$\frac{2*macro-P*macro-R}{macro-P+macro-R}$

micro的做法是将各混淆矩阵的对应元素进行平均，得到TP、FP、TN、FN的平均值，在基于这些平均值计算出微查准率（micro- P）、微查全率（micro-P）、微F1（micro-F1）：

$\frac{\overline{TP}}{\overline{TP}+\overline{FP}}$

$\frac{\overline{TP}}{\overline{TP}+\overline{FN}}$

$\frac{2*macro-P*macro-R}{macro-P+macro-R}$

4.ROC与AOC（分类）

很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值（threshold）进行比较，若大于阈值则分为正类，否则为反类。实际上，我们可以根据这个概率预测结果，对测试样本进行排序， “最可能”是正例的排在前面，“最不可能”是正例的排在后面。这样，分类过程就相当于在这个排序中以某个“截断点（cut point）”将样本分为两部分，前一部分分为正例，后一部分分为反例。

如果我们更为关注正负类别判别的质量，这个阈值就可能不是0.5，那么这个阈值怎么取，就需要借助ROC曲线与AUC。

TPR与FPR

这里引入两个衡量正负类别判别质量的指标：真正例率（TPR）、假正例率（FPR）

Ture Positive Rate： $\frac{TP}{TP+FN}$

False Positive Rate： $\frac{FP}{FP+TN }$

ROC

ROC全称“受试者工作特征”，纵轴是“真正例率”，横轴是“假正例率”，ROC曲线如下图所示：

横轴和纵轴都是从0到1的，我们希望FPR尽可能的小，尽可能少的被误判，TPR尽可能的高，即找回尽可能多。所以理想状态ROC曲线应该是尽量向左上方偏斜。

而对角线则意味着一个随机变量的分类，即如果有一个随机判别为正类或者负类的判别器，就会沿着对角线走，在随机分类中，被正确分类的和被错误分类的比例相等，这样我们就需要确定一个阈值，让FPR尽可能小，让TPR尽可能大。而为了兼顾FPR与TPR，即尽量接近于拐点。

AUC

AUC的值就是处于ROC curve下方的那部分面积的大小。通常，AUC的值介于0.5到1.0之间，较大的AUC代表了较好的performance。假定ROC曲线是由坐标为 ${(x_1,y_1),(x_2,y_2),...(x_m,y_m)\}$ 的点按序连接而形成，则AUC可估算为：

$\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)(y_i+y_{i+1})$

形式化地看，AUC考虑点是样本预测的排序质量，因此它与排序误差有紧密联系。给定 $m^+$ 个正例和 $m^-$ 个反例，令 $D^+$ 和 $D^-$ 分别表示正、反例集合，则排序损失定义为：

$l_{rank} = \frac{1}{m^+m^-}\sum_{x^+\in D^+}\sum_{x^-\in D^-}(I(f(x^+)lrank=m+m−1x+∈D+∑x−∈D−∑(I(f(x+)<f(x−))+21I(f(x+)=f(x−)))$

考虑每一对正反例，若正例预测值小于反例，则记一个罚分，若相等，则记0.5个罚分。容易看出， $l_{rank}$ 对应的是ROC曲线之上的面积，因此有

$AUC = 1-l_{rank}$

5.代价敏感错误率与代价曲线

上面的方法中，将学习器的犯错同等对待，但在现实生活中，将正例预测成假例与将假例预测成正例的代价常常是不一样的，因此为了权衡不同类型错误所造成的不同损失，可以为错误赋予“非均等代价”

一般来说， $cost_{ii}=0$ ；若将第0类判别为第1类所造成的损失更大，则 $cost_{01}>cost_{10}$ ；损失程度相差越大， $cost_{01}$ 与 $cost_{10}$ 值的差别越大。

令 $D^+$ 和 $D^-$ 分别表示正、反例集合，则**“代价敏感”错误率**：

$E(f;D;cost)=\frac{1}{m}(\sum_{x_i\in D^+}I(f(x_i)\not=y_i)\times cost_{01}+\sum_{x_i\in D^-}I(f(x_i)\not=y_i)\times cost_{10})$

在非均等代价下，ROC曲线不能直接反映出机器学习的期望总体代价，而“代价曲线”则可以达到该目的， $p$ 是样例为正例的概率

代价曲线图的横轴是取值为 $[0, 1]$ 的正例概率代价

$\frac{p \times cost_{01}}{p \times cost_{01}+(1-p)\times cost_{01}}$

纵轴是取值为 $[0, 1]$ 的归一化代价

$cost_{norm} = \frac{FNR\times p \times cost_{01}+FPR\times (1-p)\times cost_{10}}{p \times cost_{01}+(1-p)\times cost_{01}}$

其中FPR是假正例率，而 $F N R = 1 - T P R$ 是假反例率。

代价曲线的绘制很简单：设ROC曲线上一点的坐标为(TPR，FPR) ，则可相应计算出FNR，然后在代价平面上绘制一条从(0，FPR) 到(1，FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价；如此将ROC 曲线土的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的面积即为在所有条件下学习器的期望总体代价，如图所示：

6.AUC与PR的比较

我们常用ACC准确率来判断分类器分类结果的好坏，既然有了ACC为什么还需要ROC和PR呢，很重要的一个因素是实际的样本数据集中经常会出现数据偏斜的情况，要么负类样本数大于正类样本数，要么正类样本数大于负类样本数。

比如说我负类样本数有9,000个，正类样本数有100个，如果阈值选得过高，正类样本都判断为负类，同样负类样本都判定为负类，那么准确率90%，看起来还不错，但是如果考虑ROC中的TPR和FPR的话就会知道，此时的TPR=0，FPR=0，也就是误纳率是0，但是误拒率是100%，是左下角的点，并不是很好的一个点，而原来的ACC就不具有代表性。

ROC曲线和PR曲线都能用于评价分类器的效果，并且还可以缓解数据偏斜带来的模型评价不准确的问题。但是由于两者的计算方式（or 重点 or 思路）不同，运用场景也会有所区别。

ROC：分别用正类总数目与负类总数目去‘归一化’TP和FP，当数据集的分布改变时，ROC曲线不会跟着剧烈改变，比较稳定，着重于考察模型的排序能力，能用于评估分类器的整体性能。
PR：相比而言PR曲线完全聚焦于正例，当我关心模型在特定数据分布上的预测效果，并且只关心precision 和 recall时，PR可以更精确地选出此场景下需要的模型。

数据标注工具详解 Sally璐璐 ai 大数据
数据标注工具是构建高质量AI训练数据集的核心基础设施，其功能覆盖图像、文本、视频、音频、3D点云等多模态数据的标注与管理。以下从工具类型、核心功能、行业应用及技术趋势等方面进行系统介绍：一、主流数据标注工具分类与特性1.通用型标注平台LabelStudio由Heartex开发的开源工具，支持文本、图像、视频、音频及时间序列数据标注，可通过YAML自定义标注界面19。其内置质量控制机制（如标注审核、
MyBatis 简介 hweiyu00 技术栈杂谈 mybatis
MyBatis简介MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射，能够帮助开发者将Java对象与数据库表进行灵活映射，简化数据持久化操作。以下从多个维度详细介绍MyBatis：一、核心定位与优势轻量级框架：相比Hibernate等全自动ORM框架，MyBatis更“轻”，开发者需手动编写SQL语句，灵活性更高，便于优化性能。ORM映射功能：通过XML或注解方式，将J
Flutter基础（对接 API） aaiier flutter
1.添加依赖首先在pubspec.yaml中添加http包：dependencies:flutter:sdk:flutterhttp:^1.1.0#网络请求库然后运行flutterpubget来获取依赖包。2.创建API服务类创建一个专门的类来处理所有API请求，方便统一管理。import'dart:convert';//用于JSON编解码import'package:http/http.dart
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
基于人工智能的图表生成器警世龙开发记录人工智能自然语言处理
基于人工智能的图表生成器软件需求分析本项目旨在开发一个基于Web的图表生成工具，利用人工智能技术将自然语言描述转换为专业的流程图、时序图等可视化图表。具体需求如下：支持用户输入自然语言描述来生成图表。提供实时预览功能，让用户能够即时看到生成的图表。允许用户对生成的Mermaid代码进行编辑。支持图表的缩放和平移操作。提供代码保存和图片导出功能。具备快捷键支持，提高用户操作效率。技术选型前端HTML
最新抖音 iOS 设备注册算法（配合心跳做不上榜人气用） qq_1771238069 ios 算法 cocoa
最新业务需要研究了一周时间做出来了可以配合心跳包做抖音人气用一下部分代码#-*-encoding:utf-8-*-importjson,random,time,sysimportrequestsfromurllib.parseimporturlparse,parse_qsimportratelimitfromloguruimportloggerfromspiders.reg.confimportm
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
算法大厨日记：猫猫狐狐带你用代码做一锅香喷喷的“预测汤” Gyoku Mint AI修炼日记猫猫狐狐的小世界人工智能人工智能机器学习 python 算法 database 深度学习数据挖掘
️【开场·今天的料理名叫“预测炖汤”】猫猫：“咱今天突发奇想，决定用机器学习代码给你炖一锅‘预测汤’喵！这不是教你代码，是要告诉你怎么把‘算法’吃进肚子里~”狐狐：“别急，她又在打比方了。这锅汤从数据准备到调参优化，就跟你平常做饭的过程没两样，只不过食材都被咱们用代码换了一遍。”【第一步·数据准备，就是挑菜啦】猫猫：“首先是挑菜（数据预处理），不能什么菜都扔进去锅里吧？要洗干净去皮（数据清洗），再
Flask(四) 模板渲染render_template @昵称不存在 Flask flask python 后端
文章目录过程详解（路由HTML模板）数据是怎么传过去的？多变量示例✅Jinja2支持条件判断、循环、模板继承：✅安全性Flask默认也会对变量进行HTML转义：{{chart|safe}}在pyecharts中怎么用？模板继承文件结构示例base.html（母板模板）index.html（子模板）login.html（子模板）过滤器宏和模板包含Flask-Login登录系统1、安装Flask-Lo
Python实例题：基于 Flask 的博客系统狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：1.base.html2.index.html3.post.html4.create_post.html5.login.html6.register.htmlPython实例题题目基于Flask的博客系统要求：使用Flask框架构建一个简单的博客系统。实现用户认证（注册、登录、注销）。支持博客文章的创建、编辑、删除和查看。使用SQLite数据库存
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
JSON数据格式及其在WEB开发中的应用 m0_70273331 Web前端经验分享前端前端框架
json与xml互相转换JSON的格式必须是数组或者对象，其属性支持一下类型：boolean:true,falsenumber:0,1,2,3string:“abc”object:null,{},{“a”:“b”}array:[],[1,2]严格的语法约束不能有ascii之外的字符，汉字应使用”\u6c49”格式；然而在utf-8流行的时代，汉字不编码已不是啥大问题了；不能有注释，行注释与块注释都
2021-07-08 转载Cesium中文网 liuqun69 java python linux 人工智能 html
Cesium更新日志英文完整更新日志：https://github.com/CesiumGS/cesium/blob/master/CHANGES.md中文：http://cesium.coinidea.com/site/download.html中文更新日志由Cesium中文网(京ICP备15014655号)提供1.83-2021-07-01：Cesium-1.83.zip新增对KTX2和基本通
JSON简介及其应用 Jackson@ML MongoDB JavaScript Node.js json JavaScript Node.js
JSON简介及其应用[email protected]的概念JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，采用键值对（key-value）的方式组织数据，语法类似JavaScript对象，易于人阅读和机器解析。2.JSON的作用JSON有几方面的作用如下：•在前后端数据交互中传
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
开发者视角：一键拉起与快速安装的巧妙运用 tongjiwenzhang 携带参数安装信息可视化大数据 android ios
Apptrace技术集成方案SDK集成基础Android集成配置//build.gradle(Module)dependencies{implementation'com.apptrace.sdk:core:3.2.1'implementation'com.apptrace.sdk:deeplink:2.0.0'}//AndroidManifest.xmliOS集成配置//Podfilepod'A
H5液态玻璃背景效果实现木木黄木木 html5 css javascript
H5液态玻璃背景效果实现教程在现代网页设计中，动态和交互式的背景效果可以大大提升用户体验。本教程将详细介绍如何使用HTML5技术实现一个美观、流畅的液态玻璃背景效果，无论你是初学者还是有经验的开发者，都能轻松掌握。效果预览本教程提供了两种实现方式：基础版本：使用Canvas2DAPI实现，适合初学者，兼容性好高级版本：使用WebGL和GLSL着色器实现，效果更加逼真，但复杂度更高两个版本都具有以下
AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安 | 不摸鱼的独立开发者日报（第36期）不摸鱼_ 不摸鱼的独立开发者日报人工智能科技产品经理 microsoft 个人开发游戏
✍️说明日报相关信息：网站：https://daily.nomoyu.com/RSS：https://daily.nomoyu.com/rss/rss.xml欢迎一起沟通交流AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安“人工智能教父”GeoffreyHinton在访谈中表示，他对自己毕生的工作成果表示深切忧虑，并致力于警告世界AI带来的巨大风险，他的主要观点如
arm交叉编译qt应用中含opengl问题解决 m0_55576290 青泥何盘盘 qt arm开发 qt 开发语言
问题是采用正点原子方案中，用虚拟机交叉编译含opengl的qt程序会出现编译失败问题，因为正点原子中的交叉编译qt源码时没有编opengl。野火似乎有解决：https://doc.embedfire.com/linux/rk356x/Qt/zh/latest/lubancat_qt/install/install_arm_2.html
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号