西岸行者

FSL小样本学习few-shot learning知识点整理

FSL小样本学习Few-shot learning知识点整理

前言
小样本训练的一些特殊概念
- Zero-Shot One-Shot Few-Shot
- N-Way K-Shot 分类问题
- support sets支持集，query sets 查询集
- episodes
- 用一个例子来理解这些新概念
Matching networks
Prototype Networks
Relation Networks
Domain-adversarial prototypical network
Meta learning- learning to learn
Model-Agnostic Meta-Learning (MAML)
参考资料

前言

虽然deeplearning在语音视频和语言处理上有了革命性的进步，数据增强和正则化技术也是的小数据样本的过拟合问题得到了改善，但是距离大数据大模型的差距还是存在的。本文结合《Matching Networks for One Shot Learning》，《Domain-Adaptive Few-Shot Learning》和《Prototypical Networks for Few-shot Learning》，《Learning to Compare: Relation Network for Few-Shot Learning》等论文的内容，梳理一下few shot learning的一些知识点，试图探究一下提高小样本学习的方法。经典的方法可以用预训练模型，固定一定层数，refine一个新模型的方法，还有就是度量学习也能令小样本得到一个不错的高维空间聚类分布。但没有解决域漂移等经典顽疾。所以希望从这几篇论文和众多网文中寻找一些思路。
近年来FSL问题大都基于meta-learning的方法，第一类是基于基础训练+finetune的转移学习思路，这样可以快速的构建源类别和目标类别的桥梁；第二类是基于度量学习方法的演进，具体来说就是将NCA的方法迁移到Fsl问题上来，matching network为support set和query set建立了不同的编码器，prototype network实质上市学习了一个度量空间，这个空间里每个类别都有一个原型表达，通过计算新进类别和这些原型表达的距离实现分类的目标，Relation network通过计算query集合与few samples新类的关系评分，重构了进入类别的样例分布；还有一类是实现一个独特的优化算法代替经典的梯度算法，进而满足FSL的要求，Model-Agnostic Meta-Learning (MAML)就属于这一类。

小样本训练的一些特殊概念

Zero-Shot One-Shot Few-Shot

三个概念其实就是针对于目标集合数为0，1，大于1的场景，本篇的重点是大于1但也没大多少的情况。三类场景也都面临训练资料匮乏，无法利用大数据来驱动模型的问题，所以需要新的数学建模方法，来实现类似人类对于新鲜事物极快的学习接受能力。

N-Way K-Shot 分类问题

所谓N-Way K-Shot 分类问题就是指用少量样本构建分类任务。主要应用于少样本学习（Few-Shot Learning）领域样本数据不足的情况，后来逐渐延伸到元学习（Meta-Learning）领域。每次在构建分类任务时，从数据集里抽取N-类的数据，每一类数据由K-个样本构成。这样就形成了一个小型分类任务的数据集，实际上就是原始数据集的一次采样。【3】

support sets支持集，query sets 查询集

few shot learning-FSL和元学习中都会用到这两个概念，我起初的理解是训练集（Training Set）对应支持集（Support Set）、测试集对应为查询集（Query Set）。但后来演练代码又觉得不对，因为每个集合里都要划分Support Set/Query Set组合，结合Prototype Networks和triplets的概念，倒是可以将support set理解成anchor（proxy anchor），而Query set是类别对应anchor的分类定标参考。不同的论文对于这两个集合构建的思路有些差异，但都是基于数据量有限的排列组合玩法来设计的。

episodes

在Matching networks论文中对训练周期的定义上提出了episodes的概念，为了区别大数据训练的epochs，在episodes周期里，都是为了服务于few-shot任务的子类别样本训练，这个子类别就是区别于epochs中全类别子样本训练，。很多meta-learning中的任务也喜欢用episodes这个词汇，而对应神经网络中的mini-batch是比较合适的。

用一个例子来理解这些新概念

我们一般习惯用已有的知识和概念去理解新的事物，那么对于一个已经熟悉了基本神经网络训练过程的人，如何去理解和认识上述几个新概念呢？还是拿个小栗子一目了然。
假设：20-way 5-shot问题：

每个episodes提取出来20个类别，而不是所有的类别（传统softmax分类训练要加载所有类别）；
每个类别是有5个examples可供训练，因为训练中还要分support-sets+query-sets，5-shots场景至少需要5+1个样例，至少一个query example去何support-sets的样例做距离（分类）判断。
验证集和训练集的分类方法尽量保持一致。
测试集可以变换成5-way 1-shot等等方式来评估模型的泛化能力。
最后每个epoch还要设定由多少个episodes来组成，好像大家都喜欢用1000来作为典型值。

Matching networks

这是google的几位专家在Matching Networks for One Shot Learning提出来的概念，这是结合深度神经网络的度量学习方法和外部记忆增强型神经网络（augment neural networks with external memories）的特点，匹配网络试图消除对finetune方法的需求【7】。融入了attention机制的匹配网络，可以被理解成为嵌入空间的权重最邻近分类器。

Prototype Networks

通过训练集确定prototype，其实本质上就是模型利用训练集作为先验知识的过程。这个网络很像DML里的NCA，论文中也提到了这点。针对于小样本集合的识别，往往是利用预训练模型，转移学习小样本的特征，但这样会带来过拟合问题，联想到人类过目不忘的一些生理学特点，原型网络利将小样本集合的原型（特征平均值）来投射到多维空间，避免了个体样本带来的偏差。
本文有一个假设条件：一个分类器应该具有一个简单的归纳偏置（inductive bias），所以原型网络就是简单的将聚类点表达成了向量高维平均值（the mean of the support set）。不能免俗贴张原图：

注释里明确的说到了用softmax而不是距离来实现分类，但仔细想来对于fewshot来说，利用了目标类别的先验知识（support set）得到的空间，而zeroshot只能利用原有训练集的空间，与其他网络的情况没什么本质分别，暂时无法理解如何提升zero-shot能力一说。另外这种原型网络的距离选择，直观上也能理解欧式距离更好一些，如何获取cosine similarity的高维向量均值，还需要从长计议。假设N个标签的支持Support集和 $S=\{(x_1,y_1),...,(x_N,y_N)\}, x_i \in\Bbb R^D,y\in\{1,...,K\}$ ，那么 $S_k$ 就是标签为 $k$ 的子集和样例。定义 $f_\phi :\Bbb R^D\to\Bbb R^M$ 是具有可学习参数 $\phi$ 的嵌入函数，那么原型定义为：
$c_k=\frac{1}{|S_k|}\sum_{(x_i,y_i)\in S_k}f_\phi (X_i)$
查询集的向量来说，原型网络是利用softmax而不是用距离（loss）产生的空间分布，具体的对数似然函数概率公式为：
$p_\phi(y=k|x)=\frac{e^{-d(f_\phi(x),c_k)}}{\sum_{k'}e^{-d(f_\phi(x),c_{k'})}}$
损失函数就是取似然函数的负数最小化来做梯度SGD。文中的定义如下：
$J(\phi)=-log\ {p_\phi (y=k|x)}$
这里有一个概念叫做自信息self-information（也叫信息惊诧度）， $I(m)=log{\frac{1}{p(m)}}=-log\ {p (m)}$ ，简单的说就是如果老张家的孩子长得越来越像隔壁老王这样小概率的事情出现了，那么信息惊诧度（自信息）量越大；如果都按部就班的，谁家的孩子长得像谁，信息量的值就越小，所以自信息也可以作为一种loss函数来为SGD服务。
训练episodes通过随机采集训练集合的子类，提取子类中的每一类子集作为support set，剩余的子集作为query set，实现meta-learning的小样本学习，论文也给出了算法的具体伪码：

文中其他部分还讲了很多，但初次接触上面的已经交代很清楚了，剩下的就是找代码来分析了。

Relation Networks

这也是被介绍比较多的网络之一

Domain-adversarial prototypical network

《Domain-Adaptive Few-Shot Learning》这篇文章将Domain-shift和Few-shot两个比较难的话题合二为一，提出了DAPN网络，训练方法也是基于N-Way K-Shot设计的，网络结构是在ResNet特征提取之后引入了一个带有attention机制的自编码器作为对抗网络，采用 Prototype Networks的metric方法。文中用下图重点强调了什么是DA-FSL，进而阐述两个问题统一考虑的必要性。

DA问题是zero shot领域的最头疼的事情，上图的标签看上去是一致的，只是域从照片变成了卡通图片（域漂移），而下面阿黄（不懂这狗的品种）训练数据又少了，那么第四象限的识别就更加困难了。FSL一直以来被转移学习范式所研究，但目标类除了样例少，目标域的分布也很难和训练集合对等。语音领域举例来说不同手机在不同屋子里录到的声音就有自己的混音、噪声以及直流bias等特点，那么在实验室做录取的声音如何能自适应到各种环境复杂下的声音识别问题，是语音识别的巨大挑战，这个挑战比基于图像的更加难以应对。本篇提出的DA-FSL确实是需要努力的方向。相对于原始的将两个概念简单结合（据说论文之前的算法假设目标和源的标签空间是相同的），对于全局和具体单类分布完全不一样的情景无法覆盖，而DA-FSL通过loss函数的调制，很好的解决了这个看似矛盾的问题。
上图就是所谓的DAPN，域对抗原型网络，顾名思义这个网络增加了一个对抗学习方法，去解决few-shot 域自适应问题。unsupervised domain adaptation问题最后往往都依赖于对抗学习，利用discriminator鉴别器来减小源和目标类之间的特征距离。
网络图有re-weighting模块，即将四个loss值做自适应的评估，这是个典型的多任务学习问题，从图上看这个模型是集大成者（大杂烩），比之前的几个都复杂，虽然作者评估下来是牛的一塌糊涂，但最终是有时间的沉淀才能证明其价值。当然对于ai老白来说，确实是个不错的模型，虽然很多地方都懵懂了。

Meta learning- learning to learn

小样本FSL总是和META-LEARNING混在一起，以至于很难分清楚，也可以把这理解成解决训练资料不多的机器学习的两个方面，源是FSL，方法是meta-learning。meta-learning和multi-task learning又有很深渊源，这块是最近几年非常火的主题。

Model-Agnostic Meta-Learning (MAML)

这个有点复杂，mark一下后面啃。

参考资料

【1】斯坦福《深度多任务学习与元学习》课程(2019) by Chelsea Finn
【2】当小样本遇上机器学习 fewshot learning
【3】关于N-Way K-Shot 分类问题的理解
【4】AutoML: Methods, Systems, Challenges (new book)
【5】最前沿：百家争鸣的Meta Learning/Learning to learn
【6】TEMPORAL CONVOLUTIONAL NETWORKS
【7】《Domain-Adaptive Few-Shot Learning》, An Zhao, Beijing Key Laboratory of Big Data Management and Analysis Method
Gaoling School of Artificial Intelligence, Renmin University of China
【8】《Prototypical Networks for Few-shot Learning》Jake Snell，University of Toronto

你可能感兴趣的:(机器学习,度量学习)

【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
《AI语言模型的关键技术探析：系统提示、评估方法与提示工程》 XianxinMao 人工智能语言模型自然语言处理
文章主要内容摘要1.系统提示(SystemPrompt)定义:用于设置模型行为、角色和工作方式的特殊指令重要性:定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(RL)应用核心特点:多次采样和交叉验证策略空间探索动态权重调整实践价值
node笔记05——Nodejs学习之Express中间件与接口的编写，GET和POST接口的编写和案例演示。 noahsark747 学习中间件前端
认识expressexpress是基于Node.js平台的web开发框架作用和Node.js内置的http模块类似，是专门用来创建Web服务器的。本质上Express就是一个npm的第三方包提供了快速创建Web服务器的便捷方法。中文官网：expressjs.com.cnexpress的作用：快速方便的创建Web网站服务器和API接口服务器express的基本使用一、下载express包npmiex
JavaWeb开发 - Filter过滤器详解秦老师Q JavaWeb基础 java web java-ee
前言本章节主要学习JavaWeb开发中的Filter过滤器技术，收录于JavaWeb基础专栏，该专栏主要学习JavaWeb开发原生框架、Servlet、JSP、请求对象、响应对象、Session会话对象、Filter过滤器、三层开发模型等知识点，欢迎童鞋们互相交流。觉得不错可以三连订阅喔。目标1.概念2.Filter介绍3.入门案例4.验证登录案例4.1登录代码4.2过滤器验证内容1.概念Filt
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
TiDB Drems 凉兮分布式
架构原理及安装部署第一天：学习任务【PCTA备考指南1/16】TiDB架构原理及安装部署：https://asktug.com/t/topic/34500第二天：学习任务【PCTA备考指南2/16】TiDB使用管理手册：https://asktug.com/t/topic/34505第三天：学习任务【PCTA备考指南3/16】TiDB管理工具：https://asktug.com/t/topic/
qt/c++学习笔记之基于tcp的文件同步程序demo（第二部分） Bryce学亮 qt c++学习
server服务器端头文件filebase.h#ifndefFILEBASE_H#defineFILEBASE_H#include#include#include#include#includeenumMsgType{MsgTypeInvaid=0,MsgTypeFile,MsgTypeDel,MsgTypeRename};classfilebase:publicQObject{Q_OBJECTp
大神教你用Python实现Wake On Lan远程开机功能云计算运维工程师技术干活
这篇文章主要介绍了使用Python实现WakeOnLan远程开机功能，文中给大家补充介绍了python通过wakeonlan唤醒内网电脑开机，非常不错，感兴趣的朋友跟随小编一起学习吧Wake-On-LAN简称WOL，是一种电源管理功能；如果存在网络活动，则允许设备将操作系统从待机或休眠模式中唤醒。许多主板厂商支持IBM提出的网络唤醒标准。该标准允许网络管理员远程打开PC机电源，以便进行文件升级、资
如何快速在Windows 10 + Anaconda 3 中使用Mxnet及gluon qianchess mxnet使用 mxnet win10 anaconda gluon 人工智能
如何快速在Windows10+Anaconda3中使用Mxnet及gluon网络上Mxnet的安装以及使用方法很多，自从其作者之一李沐推出了基于Mxnet的深度学习课程之后，我也尝试着去使用了一下Mxnet。首先第一步就是在自己的系统中安装Mxnet及其相关组建。现在的Mxnet常常会跟其虚拟环境Gluon结合在一起，所以下文就一起阐述一下，顺便记录一下自己踩的坑。注意本文的大部分内容都可以在官网
JavaWeb 前端基础 html + CSS 快速入门 | 018 菜鸟阿康学习编程前端前端 html css
今日推荐语指望别人的救赎，势必走向毁灭——波伏娃日期学习内容打卡编号2025年01月17日JavaWeb前端基础html+CSS018前言哈喽，我是菜鸟阿康。今天正式进入JavaWeb的学习，简单学习html+CSS这2各前端基础部分，以下是我的重点总结，希望对你有所帮助。（建议先看左侧目录，先了解文章结构）（请忽略错误的大纲编号，我直接从笔记中粘贴过来的，就没严格纠正了，重点在内容！）文末和主页
3D UNet和Swin-UNETR 学無芷境计算机视觉
3DUNet和Swin-UNETR都是用于医学图像分析的深度学习网络，它们对三维（3D）数据进行特征提取和分割。3DUNet3DUNet是UNet架构的一个变体，专门设计用于处理三维医学图像数据。UNet最初是为二维（2D）图像分割任务设计的，具有典型的编码器-解码器结构。3DUNet扩展了这种架构，以便更好地处理具有深度信息的体积数据，如CT或MRI扫描。主要特点：编码器：逐渐下采样图像，提取并
GESP认证C++编程真题解析 | 汇总热爱编程的通信人 c++开发语言
学习C++从娃娃抓起！记录下CCF-GESP备考学习过程中的题目，记录每一个瞬间。2024年12月一级：二级：三级：四级：五级：2024年9月一级1.GESP认证C++编程真题解析|B4034小杨购物-CSDN博客2.GESP认证C++编程真题解析|B4035美丽数字-CSDN博客二级：1.GESP认证C++编程真题解析|B4036数位之和-CSDN博客2.GESP认证C++编程真题解析|B403
推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
java学习记录17 cwtlw java学习总结 java 学习开发语言笔记
泛型泛型概念Java泛型（generics）是JDK5引入的一个新特性，泛型提供了编译时类型安全检测机制，该机制允许程序员在编译时检测到非法的类型。泛型的本质是参数化类型，即给类型指定一个参数，然后在使用时再指定该参数的值，那么这个类型就可以在使用时决定了。这种参数类型可以用在类、接口和方法中，分别被称为泛型类、泛型接口、泛型方法。publicclassTestClass{privateTvalu
我爱读书 antd
分享自己对读书的热爱。读书能让我走进一个个奇妙的世界，与古今中外的名人对话。读《西游记》，我仿佛跟随唐僧师徒四人历经九九八十一难，去往西天取经；读《海底两万里》，又如同潜入神秘的海底世界，探索未知的奥秘。读书还能让我学到知识，开阔视野，让我在知识的海洋里畅游，感受学习的乐趣。
自学记录鸿蒙API 13：PreviewKit从文件预览到应用开发 harmonyos-next
学习了一些API13之后，我决定研究一下PreviewKit（文件预览服务）。这个模块可以快速预览多种文件类型，包括文本、图片、视频、音频和PDF等，为文件管理类应用提供了系统级支持。这次学习不仅是技术上的积累，更是个人能力的全面提升。我会从实际开发的角度，带大家了解PreviewKit的功能和实现，并分享如何利用它开发出一款实用的文件预览助手应用。通过我的实践经验，希望能为其他开发者提供灵感与帮
Python学习笔记 | 类与对象 MUYUN友逹 Python学习笔记类与对象
基于Python3版本的学习。初识概念：类(class)与对象(object)生活中我们所说的类，是物以类聚的类，是分门别类的类，是多个类似事物组成的群体的统称。而在Python中我们所遇到的类（class），比如整数、字符串、浮点数等，不同的数据类型就属于不同的类。准确来说，它们的全名是整数类、字符串类、浮点数类。每一个类之下都包含无数相似的不同个例。在Python的术语里，我们把类的个例就叫做
Spring-@Configuration注解简析
大家好，我是半夏之沫一名金融科技领域的JAVA系统研发我希望将自己工作和学习中的经验以最朴实，最严谨的方式分享给大家，共同进步写作不易，期待大家的关注和点赞关注微信公众号【技术探界】前言Spring中的@Configuration注解修饰的类被称为配置类，通过配置类可以向容器注册bean以及导入其它配置类，本篇文章将结合例子和源码对@Configuration注解原理进行学习，并引出对Spring
机器学习数据预处理preprocessing之KernelCenterer 一叶_障目机器学习人工智能
sklearn.preprocessing.KernelCenterer对矩阵XXX执行中心化操作，即使得核矩阵的行和列的均值为零给定二维矩阵XXX，可以下式得到其核变换矩阵KKK：K(X,X)=ϕ(X).ϕ(X)TK(X,X)=\phi(X).\phi(X)^TK(X,X)=ϕ(X).ϕ(X)T式中ϕ(X)\phi(X)ϕ(X)是一种将XXX从原始空间映射到希尔伯特空间的函数希尔伯特空间是一种完
Python语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
Python语言的计算机基础绪论在当今信息技术飞速发展的时代，编程已经成为了一种必备技能。Python凭借其简洁、易读和强大的功能，逐渐成为初学者学习编程的首选语言。本文将以Python语言为基础，探讨计算机科学的基本概念，并帮助读者更好地理解计算机的工作原理以及如何利用Python进行编程。一、Python简介Python是一种高级编程语言，由荷兰人GuidovanRossum于1991年首次发
锐捷路由器网关RG-NBR6135-E和锐捷交换机 Ruijie Reyee RG-ES224GC 电脑登录web方法 zh7314 硬件工程
2025年1月17日22:29:35最近淘了点东西，准备在家里搞一套深度学习的服务器，先把网关和交换机搞到了锐捷路由器网关RG-NBR6135-E电脑登录web方法在拿到机器的时候，如果不是全新建议拿根牙签，差入reset5-10秒,灯光会全部闪几下，重置机器，因为有些机器会配置的ip和网段无法访问默认的web服务ip，在机器上面的默认配置单配置参考：https://baijiahao.baidu
Python 爬虫实战案例 - 获取社交平台事件热度并进行影响分析西攻城狮北 Python实用案例 python 爬虫事件热度影响分析
目录一、引言二、数据爬取三、数据分析四、可视化展示五、总结一、引言在当今信息爆炸的时代，社交平台成为了各类事件发酵和传播的重要场所。了解社交平台上事件的热度以及其潜在影响，对于舆情监测、市场营销、社会趋势分析等领域具有重要意义。本文将通过一个实际案例，展示如何使用Python爬虫技术获取社交平台上特定事件的相关数据，并对其热度和影响进行深入分析。在本篇博客中，我们将学习如何使用Python编写一个
OpenCV基础学习 yzx991013 OpenCV基础全集学习
5.1开运算完整代码：importcv2importnumpyasnpdefcir():try:image=cv2.imread("./image/xingtai/cirrec.jpg")kernel=cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(11,11))src=cv2.morphologyEx(image,cv2.MORPH_OPEN,kerne
opencv图像基础学习 yzx991013 OpenCV基础全集 opencv 人工智能计算机视觉
2.3图像的加密解密源码如下：importcv2importnumpyasnpimportmatplotlib.pyplotaspltdefpassImg():img=cv2.imread('./image/cat.jpg',0)h,w=img.shape#生成一个密码，加密key_img=np.random.randint(0,256,size=(h,w),dtype=np.uint8)img_
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
【数仓】数据质量监控和风与影数据仓库大数据数据库数据挖掘数据仓库
今天来填2个月前的坑。之前提到了数据质量：【数仓】数据质量我在面试中也碰到了数据质量的问题，没回答出来。今天学习一下数据质量监控原则。欢迎点击此处关注公众号。1.数据质量概述数据质量的高低代表了该数据满足数据消费者期望的程度，这种程度基于他们对数据的使用预期，只有达到数据的使用预期才能给予管理层正确的决策参考。数据质量管理作为数据仓库的一个重要模块，主要可以分为数据的健康标准量化、监控和保障。
人工智能英语学习笔记「已注销」
基础篇单词mythologyn.ancientmythsingeneral;ideasthatmanypeoplethinkaretruebutthatdonotexistorarefalse神话Examples:AsatyrishalfmanandhalfgoatinGreekandRomanmythology.在希腊和罗马神话中，森林之神是半人半羊的样子。Thishasbeenwellillu
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
从小白到高手：人工智能学习中的挑战与突破博雅智信人工智能深度学习机器学习 python 大语言模型
引言：人工智能学习之路充满挑战学习过程中常见的问题与困境环境安装与配置问题简单报错反复调试，时间浪费大学习进度慢，难以找到合适的方向网上资料过多，选择困难导师催进度，任务压力大不敢多问：与同事、师兄师姐的尴尬理论与实践脱节，缺乏实战经验专注力不足，容易被干扰找一个师傅带着的好处高效解决问题，避免走弯路个性化学习路线与系统化知识框架实战经验的传授与导师的成长指导1.引言：人工智能学习之路充满挑战人工
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他