柯宝最帅

【AI底层逻辑】——篇章1&2：统计学与概率论&数据“陷阱”

引入

一、“思维方式”是解题关键！！

1、统计思维的诞生

2、概率的力量

概率与数理统计的区别？

如何验证假设？

经验与现实如何共存——贝叶斯定理？

“朴素”的朴素贝叶斯？

二、数据“陷阱”

1、数据收集的偏差

2、数据处理的悖论

3、正确解读数据

4、精准预测的挑战

总结

引入

本系列博客尝试讨论一些有关AI的通识问题，AI本身就是一个跨学科、专业、抽象、复杂的问题，学习相关专业知识可能会很困难，尤其是一些数学公式和复杂的程序代码。本系列博客以“机器智能”的底层逻辑为切入点，重点放在讨论AI的核心技术和原理上。本系列逻辑：

一、“思维方式”是解题关键！！

近年来AI的发展离不开高性能计算机及分布式技术、机器学习和ANN的发展、积累的大数据等，但最本质的因素是——思维方式的改变。解决人工智能问题本质是把现实中的应用场景问题转化为一个计算机可以处理的数学问题，这一步几乎占据了问题解决的一半。如今AI主要依赖的是数学工具和信息技术而不是医学等，这就是认知思维上的改变。

使机器智能化并不是列出所有的智力规则让计算机遵照执行，因为这样计算机永不会超出人的认知范围，实际上是让计算机从大量数据中自己“学习”规律，这也是思维上看待问题角度的一个改变——如何在充满不确定性的环境中解决比较确定的问题，于是一个重要的数学工具——“统计学”诞生了！

1、统计思维的诞生

以前的科学相信，这个世界存在简单而通用的真理，如欧几里得5条几何学真理、牛顿运动3定律、麦克斯韦4个电磁微分方程、爱因斯坦相对论等，所以科学家尝试用简洁的公式描述复杂世界的规律，即世界万物在一定先决条件下都具有可预测性——“决定论”！但是现在发现无法用简单几个公式描述世界的全部细节，越是微观越不确定，部分人转换思维创造了——“统计学”，它承认了不确定性的存在，接收误差对结果的影响，并把它们作为前提条件进行数学建模和分析！

统计学应用实例：利用放射性元素的半衰期和现在包含的放射量推测出地球的年龄！半衰期具有典型的统计学意义，体现了个体随机性和总体不确定性之间的联系，即——即便无法准确掌握每个个体的随机情况，但是可以利用统计规律来推算出总体状态！

严格来说统计和统计学在数学定义上时不同的，统计本质是一个数学过程，只要有数据就可统计，要处理的数据是确定的，如本月自己的开销总和，此过程不涉及统计学，不用对一些不确定性的情况进行推断。统计学则不同，是一门研究不确定性的学科，研究对象具有大量的随机性！——注意随机不是均匀。

2、概率的力量

概率与数理统计的区别？

概率论与数理统计时常被一起提及，但两者存在区别。概率论是统计学的基础，是对随机性进行数学研究的理论基础；数理统计则关注通过大量原始数据研究对象行为规律的方法——概率论更偏数学理论，数理统计更多的是应用！举例来说，概率论研究的是一个“白盒”，清楚盒子里几个红球几个白球（即已知数学上的分布函数），然后猜测摸到特定颜色球的可能；数理统计面对的是“黑盒”，只能看到每次从盒子里摸出来的是红球还是白球，然后猜测盒子中颜色的分布。前一个是参数估计，后一个称为假设检验！

随着重复试验次数的增大，事件的频率会呈现稳定性，这个频率常数近似可代表事件发生的可能性，即它的概率！这是一个比较抽象的概念，首先概率是个经验值，由频率推导而来；其次概率揭示了不确定性中的确定；概率避免不了“黑天鹅”数据（异常值）。重复试验的次数越多，得到的概率越让人信服，这依托于大数定律，定律表明样本数量越多，结论越接近真实的概率分布。如今经常提及的蒙特卡洛方法理论依据就是大数定律，原理很朴实：不断抽样逐次逼近，比如计算圆周率Π，就是利用计算机在正方形和圆中不断撒点，通过面积比和点的数量之间的关系计算！这能用于很多需要枚举的算法，如下围棋、走迷宫或计算任何不规则图形的面积等。

如何验证假设？

大数定理很有用但在现实生活中无法适用所有场景！某些时候我们只掌握了有限个“小数据”，但必须马上做出判断，这时通常的做法是先提出一些假设，然后想办法验证它们是否合理——即假设检验。基本思想是先假设它成立看会产生什么后果，当观测结果出现的概率很低时可拒绝此假设；方法是反证法，是一种推翻既定假设的工具，假设检验就是一种在待检验假设成立时计算观测结果出现概率的统计方法！

举例，手里有一组数据但是不清楚总体分布函数，又或者只知道它的数学分布形式，但不确定具体参数。此时为了推断总体分布的某些特性，可先假设总体服从泊松分布，或者假设服从正态分布的总体的数学期望是某个值等。随后根据手上的样本数据，判断这些假设是要接收还是拒绝，假设检验就是这样一个决策过程！它也称显著性检验，“显著”一词表示概率足够低足以拒绝假设。

进行参数估计时，除了想知道参数的平均值，也关心精确程度（区间），即置信区间。

在已知总体数学分布形式但不知具体参数时，可用Z检验法、T检验法、F检验法来判断假设是否足以拒绝！实际上我们不知道总体服从何种分布，这时需要根据样本来检验假设的分布，常用卡方检验法，实际值与期望值如果相同，卡方值为0，两者相差越大卡方值越大。

经验与现实如何共存——贝叶斯定理？

想象这样一种情形，我们知道的概率统计与现实生活出现冲突，或者说前人的经验不符合自己亲身经历，即出现了理论与现实的矛盾。举个例子，如猜硬币正反面，按理说每次正反面的概率都是0.5，可以随便猜总会猜对一半，但是那毕竟是理论你无法保证眼前这枚硬币确实如此，如一枚硬币抛了10次有8次都是正面，那么下次你就应该猜正面！即根据历史经验不断修正自己认知，此思考方式背后的数学原理是贝叶斯定理！

贝叶斯定理蕴含了一种解决问题的框架思路：不断地通过增加信息和经验，逐步逼近真相或理解未知。它的过程可归纳为：“过去的经验”+“新的证据”得到“修正后的判断”，提供了一种将新观察到的证据和已有的经验相结合进行推断的客观方法。引入了条件概率关系：后验概率P(A|B)=先验概率P(A)xP(B|A)/P(B)。先验概率一般是由以往的数据分析或统计得到的概率数据，后验概率是在某些条件下发生的概率，是在得到信息后重新加以修正的概率。当先验概率足够强大时，即使出现新的证据，先验概率也会有惊人影响力，所以要全局来看！

贝叶斯定理帮助我们，基于少量数据做出最合适的推理和判断！

“朴素”的朴素贝叶斯？

贝叶斯定理研究的是条件概率，也即在特定条件下的概率问题。基于此思想，人们提出了朴素贝叶斯算法。朴素贝叶斯常解决分类问题，目的在于把具有某些特征的样本划分到最可能属于的类别，也就是样本属于哪个类别的概率最大，就认为它属于哪个类别。如邮件分类、文章分类、情感分析等。

它“朴素”在哪儿？即满足一个基本假设：假设给定目标的各个特征之间是相互独立的，即条件独立性。这是因为如果每个特征不是相互独立的，在计算概率时，必须把这些特征的所有排列组合都考虑一遍，计算量大甚至产生指数级参数数量，实际执行难度很大！有时忽略一些条件之间的关联性得到的结论与实际不会有太大偏差。

二、数据“陷阱”

上面我们知道了人工智能的解题思路——统计思维！！不过统计学高质量的数据，AI运作的基础也是数据，如果数据错误或者对数据的理解出现偏差，将直接导致结论谬误。有时数据具有欺骗性和迷惑性，使用时需要对它们进行甄别！！

1、数据收集的偏差

收集数据的质量直接关乎分析结论的成败，但错误的收集方法会导致结果偏差。如统计对象出现错误、统计对象不全面只抽取部分数据等，这些会导致两种常见的数据偏差——幸存者偏差和选择性偏差。幸存者偏差是由于没有准确选择研究对象的偏差，提醒我们要考察所有类型的数据；选择性偏差是由于没有“公平”地挑选数据导致的偏差，提醒我们要客观地挑选数据。两者都未看清数据全貌，导致“以偏概全”。

2、数据处理的悖论

我们习惯使用统计数据来简化事物描述，但错误的统计方法不仅不能反映事实，还会使数据变得毫无意义！

例如在统计公司的工资水准时用平均值常常会迷惑视线，正常用中位数，反映数据集中程度的度量通常有平均数、中位数、众数等，如果这三个是同一个数，则数据是对称分布的，但更多的情况是正倾斜（平均值在后两者左侧）或负倾斜（平均值在后两者右侧）。

辛普森悖论：如A、B两家医院，总体病人的治愈率A：90%、B：80%，这是你会想着选择A医院，但是如果继续看数据细节把病人分为重症和非重症两类来看，会发现两类分别的治愈率都是B医院较高，B成为了更好选择。这是由于数据中存在潜在变量（如病情严重程度不同病人的占比），按照潜在变量分组后的数据是不均匀的。即在分组比较中占据优势的一方（B医院），在综合评估中却成了失势的一方，该现象成为辛普森悖论。即同一组数据的整体趋势和分组趋势可能完全不同，用数学语言有下列关系式：

当 $\frac{a_1}{b_1}<\frac{c_1}{d_1},\frac{a_2}{b_2}<\frac{c_2}{d_2}$ 时，不能得出 $\frac{a_1+a_2}{b_1+b_2}<\frac{c_1+c_2}{d_1+d_2}$ 的结论，反过来也是不能。

由于此悖论的存在，仅仅通过有限个统计数字无法直接推导和还原真相，这是统计数据的致命缺陷，因为数据可按各种形式分类和比较，潜在变量无穷无尽，不怀好意的人可能会借此给他人呈现处对自己有利的分类拆分数据方法的到的结论。为了避免这种情况，需要仔细分析各种影响因素，不能笼统概括更不能浅尝辄止看待问题！

3、正确解读数据

相关性不等于因果性

两个变量存在相关关系并不代表其中一个变量的改变是由另一个变量引起。相关性体现了两个事物之间相互关联的程度，如房屋面积与价格的正相关性，海拔高度与大气压的负相关性，不过数据之间通常只能呈现关联性，而很难直接体现因果性，AI就是一个典型代表，计算机只能通过发现数据之间的联系而不负责解释原因；而想要得到因果性必须从理论上证明两个变量确实存在因果关系，并且排除所有其他隐含变量同时导致这两个变量的可能性。只通过几组数据不能轻率作结论，很多时候只是表象，无法确认是否存在隐藏在内部的变量！

数据表达的局限性

这个世界是多维的，数据只是其中一维，当我们把现实世界的某件事情或某个状态转变为数据，就已经剔除了（损失了）很多信息，因为数据只表达了事物的一个侧面。如讨论AI时代的就业问题，正方会说出现了越来越多的岗位和职业；反方则说越来越多人因为机器人替代而失去了工作，双方都是正确的但都只能反映该问题的一个方面。

概率就是一种典型的、存在局限的表达。100%肯定的事情与99%可能的事情存在本质区别，以某种药物的99%的治愈率而言，即使只有1%的失败率但是也是威胁人生命的巨大风险。小概率事件必须引起重视，因为概率小不代表风险小。

4、精准预测的挑战

对于生活而言任何一个小的决策、行动、环境改变，都会对未来产生巨大影响；对于一个AI预测模型而言，任何细微的输入变化都会导致截然不同的预测结果，这是一种混沌现象。预测分为两种情况，一种是对客观现象的预测，不受预测本身的影响，如预测地球在宇宙的运行轨迹；另一种指那些会受到预测行为本身影响的预测，如市场、股市、政治，这些会随着预测变动，之前的预测也就失去了意义，这里存在不稳定因素——人的自由意志。

总结

至此，我们讨论完了前两章不确定情况下的统计方法和数据甄别需要注意的地方，但是还缺少一个理论武器。如果要研究不确定性的问题，只会统计学是不行的，还需要知道如何将不确定性转化位确定性的理论——信息论。

信息论是运用概率论和数理统计方法研究信息的理论，如今的通信系统、数据传输、数据加密、数据压缩几乎都离不开它的身影，它奠定了信息技术发展的理论基础。这会在下次博客中讨论！

声明：参考机械工业出版社《大话机器智能》书籍，仅供学习交流！

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

【AI底层逻辑】——篇章1&2：统计学与概率论&数据“陷阱”

引入

一、“思维方式”是解题关键！！

1、统计思维的诞生

2、概率的力量

概率与数理统计的区别？

如何验证假设？

经验与现实如何共存——贝叶斯定理？

“朴素”的朴素贝叶斯？

二、数据“陷阱”

1、数据收集的偏差

2、数据处理的悖论

3、正确解读数据

4、精准预测的挑战

总结

你可能感兴趣的:(AI底层逻辑,人工智能)