数据派THU

独家 | 一文带你熟悉贝叶斯统计

作者：Matthew Ward

翻译：陈之炎

校对：陈丹

本文约5000字，建议阅读10+分钟

本文为你带来贝叶斯统计的基础示例及全面解释。

标签：贝叶斯统计

图：Unsplash，Chris Liverani

贝叶斯统计这个术语最近被广泛使用。它常用于社交场合、游戏和日常生活中，如棒球、扑克、天气预报、总统选举投票等。

在许多科学领域，可以用贝叶斯统计来确定粒子物理和药物有效性实验的结果，它还可用于机器学习和人工智能，以预测你想看什么新闻故事或观看什么Netflix节目。

不管是否对它有充分的理解，贝叶斯统计已融入了我们的日常生活当中，为此，笔者想通过本文对贝叶斯统计做全面的解读，通过一个详尽的例子来展示这个术语的含义。一旦你理解了这个例子，那么便基本上理解了贝叶斯统计。

首先，在读本文之前，假设读者事先对Bayes定理有所熟悉，愿意把公式当成一个黑匣子的读者，也不成问题。如果需要复习一下贝叶斯定理的话，可以到 Medium resources（https://towardsdatascience.com/bayes-theorem-the-holy-grail-of-data-science-55d93315defb）中查找相关资源。

示例和原始观察

这是教科书中经常用到的一个经典例子，我是十多年前在John Kruschke的《DoingBayesian Data Analysis: A Tutorial Introduction with R》中首次了解到它的，现在已经找不到当时的副本拷贝了，所以这里的任何内容重复纯属偶然。

还是从抛硬币实验开始，把一个硬币翻转N次，每次出现正面时记录一个1，每次出现背面时记录一个0，这便构成了一个数据集。利用这个数据集和Bayes定理，我们想弄清楚抛硬币的结果是否有偏差，以及这个实验的置信度。

技术含量的内容来了：首先定义θ是出现正面的偏差——即硬币落地时出现正面的概率。

这意味着，如果θ=0.5，那么没有偏差，正反面出现的概率完全均等。如果θ=1，那么硬币就永远不会出现反面。如果θ=0.75，那么如果翻转硬币的次数足够大的话，将看到大约每4次翻转中有3次出现正面。

为此，定义 y为硬币是否落在正面或背面的特征。这意味着y只能是0（反面)或1(正面），可以用P(y=1|θ)=θ对这些信息进行数学编码。

打开天窗说亮话：如果硬币为正面的概率是θ，那么出现正面的偏差便是θ。

同理: P(y=0|θ)=1 - θ

现在，把多次硬币实验串起来，当抛掷N 次硬币时,出现a 次正面(虽然，重复使用a 不太应该，但这样却使得后续符号标注更为便捷)。

由于硬币翻转相互独立，只需将概率相乘，于是：

为了避免使用总数N和减法，通常定义b为出现反面的次数，写成：

让我们举两种特例来做一个快速的合理性检查，以确保上述表达式的正确性。

假设: a,b≥ 1. 则：

当偏差趋于零时，概率也趋于零。这是预料中的，因为我们观察到α个正面 (a≥1)，所以完全偏向反面是非常不可能的。
同样，当θ接近1时，概率趋近于0，因为观察到至少有一次翻转出现了反面。

如果你已经目瞪口呆了，那么我鼓励你停下来，再真正地思考一下这个问题，从而获得一些关于符号的直觉。它只涉及基础概率和变量的数目。

另一种特殊情况是：当a=0或b=0时。在b=0的情况下，将连续获得a次正面的概率定义为：θα。

接下来，离得出正确的结论还有一定的距离，因为在这个示例中，有一个固定的数据集（正面和反面的集合）需要分析。

因此，从现在开始，应该考虑a和b固定的数据集的情况。

贝叶斯统计

随着θ在[0,1]之间的变化，获得一个分布函数P(a，b|θ)。接下来，要做的是将它乘以一个常数，把它当作是概率分布。

其实，这就称之为beta分布（注意：我在此处省略了它的表达式），只将它记作β(a，b)。

我们乘的数是下面这个式子的倒数：

称为（移位）β函数。再说一遍，如果没有理解的话，可以忽略它。它只是将分布转换为概率分布。如果我不提的话会有人打电话给我。

似乎不需要这么复杂地把它看作是Θ的概率分布，但这实际上正是我们要求的。来看以下三个例子：

红色的表示，如果观察到2个正面和8个背面，那么硬币偏向背面的概率就更大，均值出现在0.20，由于没有足够的数据，在其他地方出现正面的可能性或许更高，存在真正的偏差。

中间曲线说明：如果观察到5个正面和5个背面，那么最有可能的是偏差是0.5，同样还有很大的误差空间。如果试验次数足够多，获得了更多的数据，猜测则更有信心，这种情况也是我们所期望的：

当观察到50个正面和50个背面时，可以说置信度95%，真实偏差在0.40到0.60之间。

此时，你可能会反驳道：这只是普通的统计，哪里是贝叶斯定理？说得对。因为现在不是在真空中建立统计模型，所以才会有贝叶斯定理，偏差存在先验概率。

先写下该案例中的Bayes定理：想通过观察到的数据求出偏差的概率θ，用到了Bayes定理的连续形式：

我只是想让大家对贝叶斯统计有一个感觉，所以我不会详细地去推导这个简化的式子。只需注意“后验概率”（方程的左边）即：在已知数据后得到的分布，似然度乘以先验概率再除以标准化常量。

现在，如果你的分母是B(a，b)，那么并计算出的结果将会是另一个β分布！如果你们能理解这些定义，那这并不是太难的练习，但如果你相信了这一点，那么你会看出这样做多么美妙。

如果先验偏差具有分布β(x，y)，数据出现a个正面和b个反面，得到：

P(θ|a,b)=β(a+x, b+y).

根据这个模型中的数据来更新置信度的方式真是无比简单！

现在来检查一下它是否真的有意义。假设偏差未知，将可以导出先验概率分布β（0，0）是一条平直的线，即所有的偏差都有同样的可能。

来做一个这样的实验，翻转4次硬币，观察到3个正面和1个背面。贝叶斯分析告诉我们，后验概率分布是β (3，1）：

哎呀！不确定性太大了，看起来这种偏差在很大程度上是针对正面的。

危险：这是因为我们使用了一个错误的先验概率。在现实世界中，将偏差0.99与0.45等同起来是不合理的。

来看看，如果使用一个更为温和的先验概率分布β（2，2），此时假设偏差最有可能接近0.5，无论数据说明了什么，它依然是对的。

在这种情况下， 3个正面和1个背面的结果更新为概率分布是β（5，3）：

啊，好多了，可以观察到3次正面和1次背面，不要忽略这些数据，新的概率受到了先验概率的影响。

这就是贝叶斯统计的伟大之处！如果我们有大量的数据，那么即便观察到一些偏离点也无伤大雅。

另一方面，只要数据足够充分，即使我们99%肯定某件事也可以接受。这只是一句口头禅的数学形式化：非凡的主张需要非凡的证据支持。

因为只有大量的数据才能够证明硬币偏差是0.90，所以需要有大量的数据，这也是非贝叶斯分析的部分缺陷。如果我们没有大量的数据，并且偶尔抽到了一些异常值，那么就更容易相信这种偏差了。

现在应该了解贝叶斯统计的工作原理了吧，如果理解了这个示例，那么其余的大部分工作只是添加参数和更新版本，实际上，通过上述内容已经对这个术语的含义有了一个非常到位的了解。

得出结论

接下来，需要解释的主要问题是如何处理数据，在对数据进行分析之后，如何得出结论？

你可能经常听到做统计的人谈论“95%的置信度”。几乎在每一堂统计课程中都会提到置信区间，同样需要找出贝叶斯统计的相应概念。

标准的术语称之为最高密度区间(HDI)：95%的HDI意味着一个区间，其分布下的面积为0.95(即：分布的95%的区间)，该区间中的每个点都比区间以外的任何点具有更高的概率：

虽然看起来不像，但是应该是完全对称的

首先要正确地画出间隔，注意，阴影区域的曲线上的点的概率都高于区域外曲线上的点的概率 (即：可能性更大)。

注：依然有很多置信度为95%的间隔为非HDI。第二幅图便是这样一个例子，即使曲线下的面积是0.95，大紫点也不在区间内，而且高于左边一些包含在该区间内的点。

最后，如果这个值的一些小邻域完全位于95%的HDI内，则称偏差θ₀是可信的，这个小阈值通常称为实际等价区(ROPE)，它是必须设置的一个值。

将其设为0.02，如果从0.48到0.52的整个间隔均在95%的HDI内，那么这是一个可信的假设。

注意，由于函数本身的复杂性，计算beta分布的HDI实际上非常难。没有完美的解决方案，所以通常情况下，可以通过查表来得出计算结果，或者以某种方式取它的近似值。

均值为μ=a/(ab)，标准差为：

确实有对应的表格。

在本文中，我使用“两个标准差”规则来近似，该规则为均值两边的两个标准差的区间内的置信度约为95%。

注意，如果分布曲线比较陡，例如，概率分布为β（3，25），那么这种近似会产生偏差。

回到以上相同例子，添加这一新术语，看看它是如何工作的。假设偏差未知，令先验概率分布β（0，0）为平坦直线。

这表明，所有的偏差都同样有可能发生。现在来做一个实验，观察到3个正面和1个背面。贝叶斯分析告诉我们，新分布是β（3，1）。

此时，置信度95%的HDI约为0.49~0.84。为此，可以肯定地说，真正的偏差发生在这个区间。请注意，猜测硬币正反面是等概率的（偏差为0.5），而不是一个假设，区间[0.48，0.52]不完全在HDI 之内。

这个例子说明了选择不同阈值的重要性，因为如果选择间隔为0.01而不是0.02，那么抛掷硬币是等概率的假设是可信的（因为[0.49，0.51]完全在HDI之内）。

让我们来看一下，如果使用一个稍微合理的先验概率分布β（2，2），假设：抛掷硬币是等概率事件，根据数据得出的结论是显而易见的。

此时， 3个正面和1个背面告诉我们，后验分布函数是β（5，3）。置信区间为 95%的HDI为0.45~0.75。使用相同的数据，得到了更窄的间隔，尤为重要的是，我们对硬币是等概率时间的说法更为信服，所以这是一个可信的假设。

从而可以推导出一种“统计不确定性原则”，如果要获取大的确定性，那么会使间隔变得越来越宽。直观地说，如果给定一个范围， 99.999999%确定的偏差均在这个范围之内，那么几乎给出了所有的可能性。

如果想要找出精确的偏差点，那么必须放弃确定性（除非处于一种极端的情况下，分布是一个非常尖锐的尖峰）。你会得到这样的结果：可以用1%的确定性说，真实偏差在0.59999999到0.60000001之间。

如果已经锁定了一个小范围，则必须放弃确定性。这与海森堡不确定性原理相类似，海森堡不确定性原理表明：越精确地知道一个粒子的动量或位置，就越无法准确地知道另一个粒子的动量或位置。

总结

总结一下，准确地搭建统计模型需要注意的几个要点。对贝叶斯模型持反对意见的人认为，可以通过主观地选择先验概率，从而得出任何你想要的答案。

抽象地说，这种反对意见本质上是正确的，但在现实实践中，可以绕开它。下面对如何进行贝叶斯统计做一下总结。

第一步是写出似然函数P(θ|a，b)，在上述例子中，为β (a，b)，直接从收集的数据中得出，这完全由数据来决定。

第二步是确定先验分布，在这一步可以有所选择，但同时也是一种约束。在现实生活统计中，可能会有很多先验信息，根据这些信息决定如何选择。

回想一下，我们对认为可能是真实的事实进行了先验编码，并定义了它的置信度。假设根据投票数据来预测谁将赢得选举，需要建立了一个模型，给定有前一年的数据，收集的数据经过测试后，便知道它有多准确！

因此，在已有数据基础上计算先验概率，是一个明智的选择，因为在这里只有一种选择，这并不意味着，可以任意选择你想得出的结论。

在此不再赘述了，在上述例子中，如果随机选择一个硬币的先验概率分布β（100，1），并希望它出现偏差，那么有权视模型为无用的。

先验概率必须已知，并且必须是合理的。如无法证明先验概率，那么就不可能得出一个好的模型。先验概率的选择是一个特性，而不是一个bug。如果说贝叶斯模型比所有其他模型都精确得多，那是因为它没有忽略先验知识。

当贝叶斯统计的反对者使用“先验的任意性”作为理由时，它的失效的确令人沮丧。另一方面，学者们应该在的科学论文中对先验概率做更为深入的研究，以避免出现任何不必要的偏差。

第三步是设置一个ROPE，以明确特定的假设是否可信。这只里规定了在置信区间为95%的HDI边缘考虑正确的猜测是否可信。

诚然，这一步确实相当武断，但每个统计模型都存在这个问题，它非贝叶斯统计所独有，在现实生活中也不是一个典型的问题。如果某件事离HDI太近，那么可能需要更多的数据。

如果你是一名科学家，那么就应重新做实验，或者你得承认，这可能会得出另一种结果。

原文标题：

What is Bayesian Statistics?

原文链接：

https://medium.com/cantors-paradise/what-is-bayesian-statistics-3bc39b19c45f

offrey-hinton-deep-learning-will-do-everything/

编辑：黄继彦

校对：杨学俊

译者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师，现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。业余时间喜爱翻译创作，翻译作品主要有：IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等，其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组，希望能和大家一起交流分享，共同进步。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

独家 | 一文带你熟悉贝叶斯统计

示例和原始观察

贝叶斯统计

得出结论

总结

你可能感兴趣的:(机器学习,人工智能,大数据,编程语言,数据分析)