喜欢打酱油的老鸟

观点 | AI 的偏差，取决于人们如何使用机器学习系统

https://mp.weixin.qq.com/s?__biz=MzI5NTIxNTg0OA==&mid=2247495153&idx=3&sn=c6c94c270ee859e219bc9d5146046852&chksm=ec545a76db23d3603fdfb4d38d4ef47d6c433ea15f840a4d1e64d2d17a836a9912f8e73b0f59&scene=0

「AI 的偏差」是机器学习中非常受关注的一个问题，著名分析师 Benedict Evans 对此发表了一篇文章，雷锋网 AI 科技评论编译整理如下。

机器学习在数据中发现模式。「AI 偏差」意味着它可能会发现错误的模式——一个用于检测皮肤癌的系统可能会更加关注照片是否是在医生办公室拍摄的。机器学习不「理解」任何东西——它只是在数据中寻找模式，如果样本数据不具有代表性，那么输出也不会具有代表性。同时，机器学习的机制让我们难以发现这一问题。

由于人类的多样性，而且有很多理由说明关于人类的数据可能带有隐含的偏差，在人类中这一问题比较明显。但是，如果你认为这仅仅和人有关，那就产生了误导，这就像试图发现仓库里的洪水或是燃气轮机的故障，这是误导性的，或者是不完整的。一个系统可能偏向于不同的皮肤色素沉着，另一个系统可能偏向于西门子传感器。

这些问题不是机器学习的新问题，也不是唯一的问题——所有复杂的组织都会做出错误的假设，而且总是很难做出决定。解决办法是制作工具和流程来检查这个问题，并进行用户教育，确保人们不只是「做人工智能所说的」。机器学习比人更擅长做某些事情，就像狗比人更擅长发现毒品一样，但你不会根据狗的证据来对某个人定罪。狗比任何机器学习都聪明得多。

机器学习是当今最重要的基本技术趋势之一，也是未来十年技术将改变世界的主要方式之一。作为其中的一部分，机器学习的某些方面引起了人们的关注——例如，它对就业的潜在影响，以及它可能被用于做人们认为不道德的事情，例如，它可能赋予某些政治组织新的能力去压迫它们的人民。另一个，也就是这篇文章的讨论的主题，是 AI 偏差的问题。

这并不是一件简单的事情。

什么是「AI 偏差」？

「原始数据是矛盾的，使用它是一个坏主意；相反，数据应该小心烹制，精心处理。」
——Geoffrey Bowker

直到 2013 年，如果你想制作一个软件系统，比如说，识别照片中的猫的系统，你可以写下合乎逻辑的步骤。你会做一些东西来寻找图像中的边缘，一个眼睛检测器，一个毛皮纹理分析仪，然后试着计算腿的数量，等等，然后你会把它们连接在一起……但是它永远不会真正起作用。从概念上讲，这相当于试图制造一匹机械马——理论上是可能的，但在实践中太复杂了，我们没有能力去描述它。你最终止于成百上千的手写规则，却没有得到一个可用的模型。

在机器学习中，我们不使用手写规则来识别 x 或 y。相反，我们取了 1000 个 x 和 1000 个 y 的例子，让计算机根据这些例子的统计分析建立模型。然后我们可以给这个模型一个新的数据点，在给定的精度下，判断数据点是否适合示例集 X 或示例集 Y。机器学习使用数据生成模型，而不是由人类编写模型。这种做法得到了出人意料的好结果，对于识别或模式查找问题来说尤其如此，这就是为什么整个技术行业都在围绕机器学习技术进行改造的原因。

但是，这里面有一个陷阱。在现实世界中，你的数千（或数十万，或数百万）个 x 和 y 的例子也包含 A、B、J、L、O、R 和 P。这些例子可能分布不均匀，并且，它们样本数可能足够多，以至于相比于 X，系统更关注 L 和 R。

这在实践中意味着什么？我最喜欢举的例子是图像识别系统倾向于将一张草丘的照片判断为「绵羊」。大多数关于「绵羊」的图片都是在长满草的山丘上拍摄的，因为这就是绵羊通常生活的地方，而在图片中，草比白色绒毛状的小东西更为突出，所以系统给予它最多的权重。

关于这一点，最近，一个更为严重的例子出现了：一个在照片中寻找皮肤癌的项目也出现了误判。为了进行测量，在皮肤癌的照片中经常出现皮肤科医生放置的尺子，但是健康皮肤的示例照片中不包含尺子。对于系统来说，虽然尺子（或者更确切地说，我们视为尺子的像素）只是示例集之间的差异，但它们有时比皮肤上的小斑点更突出。因此，用来检测皮肤癌的系统有时候检测的是尺子。

这里要理解的一个核心问题是，系统对它所「看」到的内容没有语义上的理解。我们查看一个像素网格，并将其转换为绵羊、皮肤或尺子，但系统只看到一系列数字。它看不到三维空间、物体、纹理或绵羊，它只看到了数据中的模式。

与此同时，试图诊断此类问题的挑战在于机器学习系统生成的模型（神经网络）包含数千或数十万个节点。我们不能直接查看模型内部，知道它是如何做出决定的——如果可以的话，那么这个过程就足够简单，你一开始就不需要 ML，可以自己编写规则。人们担心 ML 是一个「黑盒子」。（不过，我稍后会对此进行解释，这个问题经常被夸大。）

这是一个非常简单的「AI 偏差」或「机器学习偏差」问题：一个试图在数据中找到模式的系统发现的可能是错误的模式，并且你可能根本意识不到。这是这项技术的一个基本特征，学术界和大型科技公司（的数据人员）的每个人都很清楚这一点，但它产生的后果是复杂的，我们对这些后果的设计出来的潜在解决方案也是复杂的。

首先，我们来谈谈后果。

AI 偏差场景

这个问题最明显和最直接的体现是人类的多样性。最近有报道称，亚马逊已经尝试建立一个机器学习系统来筛选应聘者。由于亚马逊目前的员工群体偏向男性，「成功雇佣」的例子在实际中也偏向男性，因此，该系统在招聘时也会选择男性。亚马逊发现了这一点，因此该系统从未被用于实践。

这个例子中最重要的一点是，据报道，即使在简历中没有明确标注性别，系统也显示出这种偏差。系统也看到了「成功的应聘者」样本集中的的样本在其它方面的模式——例如，女性可能会用不同的词来描述成就，或者在学校参与了各种各样的体育活动。当然，这个系统不知道曲棍球是什么，不知道人是什么，也不知道「成功」是什么——它只是对文本进行统计分析。但是，它所看到的模式不一定是人类会注意到的事情，而且对于某些事情（例如，描述「成功」的词汇，在不同性别之间可能会有所不同），人类可能很难发现。

当一个非常擅长在苍白皮肤上发现皮肤癌的机器学习系统遇到深色皮肤时，情况变得更糟了，反之亦然。这可能不是因为样本中存在偏差，而是因为你可能需要以不同的方式构建模型，以从中挑选出不同的特征。即使是在像图像识别这样的狭窄应用中，机器学习系统也是不共通的。你必须调整系统的结构，有时只需要通过尝试和错误，以便在你感兴趣的数据中很好地发现特定的特性，直到获得满意的准确度。但是你可能没有意识到系统在一组数据上测试的准确度是 98%，而在另一组数据上可能只有 91%（即便这种准确度仍然超过人类）。

到目前为止，我使用的都是人或者和人有关的例子。但重要的是，我们要理解围绕人的偏差只是下面这个问题的一个子集：我们将会使用 ML 做很多事情，而样本偏差在所有这些事情中都将是需要被考虑的一部分。同样地，即使和你合作的是人，数据中的偏差也是可能存在的。

为了系统地理解这一点，回顾一下前面皮肤癌的例子，并考虑可能会被打破的三种假设方式是很有用的：
没有一个人是均匀分布的：在不同色调的照片中，皮肤照片颜色并不是完全相同的，所以你的系统对皮肤色素沉着的判断可能是错误的。

你的数据包含一个突出的、分布不均的非人类特征，它没有诊断价值，但系统会对此进行训练——例如皮肤癌照片中的尺子，或绵羊照片中的草。在这种情况下，如果我们看到的是「尺子」（但它不存在）的像素，结果就会改变。

你的数据还包含一些其他的特征，即使人们在寻找这些特征时也看不到它们。

「即使人们寻找它」是什么意思？好吧，我们知道，或者应该知道，数据可能会在不同的人类群体中产生偏差，并且至少可以计划寻找这个偏差。换句话说，关于为什么你可能会期望你的数据会在人类群体中产生偏差，有着各种各样的社会原因。如果我们看有尺子的照片，我们可以看到尺子——我们只是忽略了它，因为我们知道它是无关的，但我们忘记了系统什么都不知道。

但是，如果你所有的不健康皮肤照片都是在有白炽灯的办公室里拍摄的，而你健康皮肤照片是在荧光灯下拍摄的呢？如果你在拍摄健康照片和不健康照片的中间更新了智能手机上的操作系统，而苹果或谷歌对降噪算法做了一些小的改动，会怎么样？不管他们看起来多么厉害，人类可能完全不会注意到这些变化，但是机器学习系统会立即看到并使用它。系统什么都不知道。

到目前为止，我们一直在讨论错误的相关性，但是数据中也可能存在完全准确和正确的预测模式，但出于道德、法律或基于产品的原因，你不想使用这些模式。例如，在某些司法管辖区，即使女性可能是更安全的驾驶者，向女性提供更好的汽车保险费率也是不允许的。我们可以很容易地想象一个系统，它查看历史数据，并学会将「女性」名字与低风险联系起来，因此你可以从数据中删除名字——但是，正如上面的亚马逊示例一样，可能还有其他因素向系统揭示性别（当然，它没有性别概念），除非监管机构事先对你提供的报价进行统计分析，并对你处以罚款，否则你可能不会意识到这一点。

最后，在我们讨论这个问题的时候，好像我们只会将这些系统用于以某种方式涉及人、社会互动和假设的事情。而实际上并非如此。如果你制造燃气轮机，你会对将机器学习应用到来自你产品上几十或数百个传感器的遥测（音频、振动、温度或任何其他传感器生成的数据，这些数据很容易被重新用于机器学习模型）非常感兴趣。比如，你可能会说，「这是 1000 台即将发生故障的涡轮机的数据，这是 1000 台运转良好的涡轮机的数据——可以建立一个模型来区分它们的不同之处」。现在，假设 75% 的坏涡轮机使用了西门子传感器，只有 12% 的好涡轮机使用传感器（假设这与故障没有关系）。该系统将建立一个和西门子传感器相关的模型来检测涡轮。

AI 偏差管理

我们该怎么办？你可以从三个方面来考虑这个问题：

训练数据收集和处理的方法的严谨性
分析和诊断模型行为的技术工具
在产品中部署 ML 的训练、教育和注意事项

「Molière's Bourgeois Gentilhomme」中有一个笑话，讲的是一个人被教导文学分为「诗」和「散文」，他很高兴地发现自己在无意识的情况下，一辈子都在讲散文。统计学家们今天可能也有同样的感受——他们一直在研究「人工智能」和「样本偏差」，但他们自己没有意识到这一点。寻找和担忧样本偏差并不是一个新的问题——我们只需要非常系统地对待这个问题。如前所述，从实际上来看，在某些方面，我们在看待和人有关的问题时可能更容易。这是因为，我们知道，我们可能对不同的人类群体有偏差，但我们可能没有意识到的是，我们可能对西门子有偏差。

当然，不同的是，人们不再直接进行统计分析了，而是由机器完成的，它生成的模型复杂度和规模都非常大，不容易分析。透明度问题是关于偏差的主要关注领域之一。我们担心这一点并不只是因为它有偏差，而且因为这些偏差是没有办法分辨的，它在某种程度上是全新的，不同于其他形式的组织，在这些组织中有清晰的逻辑步骤可以检查。

这有两个问题：我们可能在某些方面可以检查 ML 系统，而检查任何其他系统实际上并不容易。
首先，当前机器学习研究的一部分是寻找工具和方法，找出机器学习系统中最突出的特征。同时，机器学习（在目前的表现形式中）是一个非常新的领域，科学技术正在迅速地革新。人们今天认为不实用的东西可能很快会变得实用。这个 OpenAI 项目就是一个有趣的例子。

其次，你可以在现有系统或组织中检查和理解决策的想法在理论上是正确的，但在实践中是有缺陷的。在一个大的组织中，如何进行决策的审查一点也不容易。这可能是一个正式的决策过程，但它并不是人们实际互动的方式，而且人们本身往往没有一个清晰的逻辑和系统的方式来做出他们自己的决定。正如我的同事 Vijay Pande 所说的那样，人们也是黑匣子——许多公司和机构中将成千上万的人和问题结合在一起。以美国宇航局为例，我们从邮报上得知，航天飞机在重返大气层时会解体，美国宇航局内部的不同人员掌握的信息让他们认为可能会发生一些不好的事情，但整个系统并不知道这一点。与此同时，当美国宇航局失去了先前的航天飞机时，它正经历着这个检查过程，但由于非常相似的原因，它又失去了另一个航天飞机。很显然，组织和人类系统遵循清晰的逻辑规则，你可以检查、理解和改变这些规则，但在实际上并非如此。这被称为 Gosplan fallacy。

在这种情况下，我经常将机器学习与数据库，尤其是关系型数据库进行比较。关系数据库是一种新的基础技术，它改变了计算机科学中可能发生的事情，改变了更广阔的世界，它是一切事物的组成部分，我们现在一直在使用它，但却没有注意到它。但是数据库也存在问题，这些问题也有相同的特点：系统可能建立在错误的假设或错误的数据之上，这很难分辨，往往使用它的人会按照系统告诉他们的做而不加质疑。有个老笑话是说，税务局把你的名字拼错了，改变你的名字比说服他们改成正确的名字要容易得多。这是 SQL 固有的技术问题，它是 Oracle 的执行失败，还是大型官僚机构的制度失败？

在一个更简单的层面上，人们可以从人们因为卫星导航系统过时而驾驶汽车冲入河流中的现象中看到这个问题。是的，从理论上来说，地图应该是最新的。但是，你的车漂到海里有多少是地图的错呢？

所有这些都是说，ML 偏差将以与过去问题大致相同的方式引起问题，并且它是否可以解决和发现的概率与过去大致相同。因此，最容易想象的人工智能偏差造成伤害的场景可能不是来自重要机构的主要研究人员。相反，它是一个第三层的技术承包商或软件供应商，将一些它并不真正理解的开放源代码组件、库和工具捆绑在一起，然后将其出售给一个在标签上看到「AI」并且不问问题、将其交给最底层员工，并告诉他们做「人工智能」所说的任何事。这就是在数据库上发生的情况，它不是人工智能的问题，甚至不是「软件」问题，这是一个「人类」问题。

结论

「任何你可以训练狗去做的事情，机器学习都可以做——但是你永远不能完全确定你训练狗做什么。」
我经常认为「人工智能」这个词在这样的对话中是无济于事的。它造成了一种很大程度上的错误印象，即我们实际上已经创造了智能，但实际上并没有。它们只是机器，比洗衣机更有用一点。洗衣机洗衣服比人好得多，但是如果你把盘子而不是衣服放进洗衣机，然后按启动键，它还是会把它们洗干净，但这并不是你想要的结果。洗衣机不知道什么是衣服或盘子，它只是自动化的一种形式，在概念上与以前的自动化浪潮并没有什么不同。

也就是说，正如汽车、飞机或数据库一样，这些系统既可以是非常强大的，也可以是非常局限的，这完全取决于人们如何使用它们，取决于人们对这些系统的工作方式意图是好是坏，以及人们受教育的程度。
因此，「AI 是数学，它不可能有偏差」的说法是完全错误的。但是，说 ML 是「固有的偏差」也是错误的。ML 在数据中找到模式，至于是什么模式取决于数据，而数据取决于我们，我们如何处理它取决于我们自己。正如前面所说，机器学习比人更擅长做某些事情，就像狗比人更擅长发现毒品一样，但你不会根据狗的证据来定罪。狗比任何机器学习都聪明。

via：

https://fanyi.baidu.com/?aldtype=16047#auto/zh

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

观点 | AI 的偏差，取决于人们如何使用机器学习系统

你可能感兴趣的:(人工智能,AI偏差)