TechBeat人工智能社区

斯坦福大学团队提出AI生成文本检测器DetectGPT，通过文本对数概率的曲率进行可解释判断

原文链接：https://www.techbeat.net/article-info?id=4583
作者：seven_

随着以ChatGPT等大型语言模型（large language models，LLMs）的爆火，学界和工业界目前已经开始重视这些模型的安全性，由于ChatGPT强大的知识存储和推理能力，其目前可以针对各种各样的用户输入来产生非常流畅和完整的回答，甚至在一些专业领域以及公共讨论话题中，它也可以从容应对。例如，一些学生可能会使用LLMs来帮助他们完成书面作业，使老师无法准确的判断学生的学习效果，这也的的确确是LLMs带来的负面影响。

论文链接：
https://arxiv.org/abs/2301.11305
项目主页：
https://ericmitchell.ai/detectgpt/

近日，来自斯坦福大学的研究团队发布了一个名为DetectGPT的检测模型来判断一个文本段落是否是由机器生成的。作者首先观察了LLMs的运行机制，他们发现LLM生成的文本往往占据模型的对数概率函数的负曲率区域。根据这一现象，作者提出想法，能够基于概率函数的曲率标准来对文本进行判定呢？

实验结果表明，这种想法完全可行，DetectGPT不需要专门训练一个单独的分类器，也不需要额外收集真实场景中或者机器生成的文本段落数据，它只需要对当前模型计算其对数概率并与另外一个通用的预训练语言模型（例如T5）的段落随机扰动进行比较，即可得出结论。作者发现DetectGPT比现有的zero-shot文本检测方法更具有鉴别能力。

一、引言

如果我们仔细推敲ChatGPT等LLMs生成出的文本回答，会发现它们的答案仍然有明显的机器翻译痕迹。但是这种生成技术确实在一些领域能够以假乱真，甚至取代人工劳动，特别是在学生的论文写作和记者的新闻写作中，这都会带来很大的风险，例如影响学生的学习积极性，也有可能会因为虚假新闻导致公众获得错误的信息。但是幸运的是，目前机器模型生成的文本与人类编写出的文字相比仍然有不小的差距，这使得我们及时开发文本检测方法和工具成为可能。之前已经有很多工作将机器生成的文本检测任务看做是一个二分类问题[1]，具体来说，这些方法的目标是对一个候选文本段落的来源进行分类，其中这些文本来源是预定义的类别。但是这种方法有几个明显的缺点，例如它们会非常倾向于参与训练的那些文本来源，并且不具备增量学习功能，如果想要使模型能够识别未知来源的文本，就需要对模型整体重新训练。因此考虑开发具有zero-shot功能的模型才更符合现实场景，即根据文本源模型本身来进行开发，不进行任何形式的微调或适应，来检测它自己生成的样本。

zero-shot文本检测任务最常见的方法就是对生成文本的平均token对数概率进行评估，并设置阈值进行判断。本文作者针对此提出了一个简单的假设：机器对自己生成的文本进行改动时往往会比原始样本的对数概率低，而人类对自己所写文本的改动会远超过原本文本的对数概率。换句话说，与人类写的文本不同，模型生成的文本往往位于对数概率函数具有负曲率的区域（例如，对数概率的局部最大值），如下图所示。

作者基于这一假设设计了DetectGPT，为了测试一个段落是否来自一个源模型 $p_{\theta}$ ，DetectGPT将与 $p_{\theta}$ 相关候选段落的对数概率与对 $p_{\theta}$ 进行随机扰动生成的段落的平均对数概率（例如用T5参与扰动）进行比较。如果被扰动的段落的平均对数概率比原始段落低一些，那么候选段落很可能来自于 $p_{\theta}$ ，这一过程的具体运行如下图所示。

二、本文方法

对于机器生成的zero-shot文本检测任务设置，即检测一段文本或候选段落 $x$ 是否是源模型 $p_{\theta}$ 的样本，在模型训练时无需加入外部数据，其呈现“白盒设置”的特点，模型中的检测器可以评估当前样本对 $p_{\theta}$ 的对数概率情况。此外“白盒设置”也不限制对模型架构和参数规模的选择，因此作者在对DetectGPT的性能评估中也选用了目前通用的预训练Masked模型，用来生成与当前段落比较接近的候选文本，但是这些段落的生成不会经过任何形式的微调和域适应。

2.1 模型扰动假设

上文提到，DetectGPT基于这样一个假设：来自源模型 $p_{\theta}$ 的样本通常位于 $p_{\theta}$ 的对数概率函数的负曲率区域。如果我们对一段话 $\sim p_{\theta}$ 施加一个小的扰动，产生 $\tilde{x}$ ，那么与人类编写的文本相比，机器生成的样本的对数值 $\log p_{\theta}(x)-\log p_{\theta}(\tilde{x})$ 应该是比较大的。基于这一假设，作者首先考虑了一个扰动函数 $q(\cdot \mid x)$ ，它会先在 $\tilde{x}$ 上给出一个分布，代表意义相近的略微修改过的 $x$ 的版本。使用扰动函数的概念，我们可以q轻松的定义出扰动差异指标 $\mathbf{d}\left(x, p_{\theta}, q\right)$ ：

对上述假设更为正式的定义如下：如果 $q$ 在数据流形分布上产生样本，对于样本 $\sim p_{\theta}$ 来说， $\mathbf{d}\left(x, p_{\theta}, q\right)$ 大概率为正，而对于人类编写文本， $\mathbf{d}\left(x, p_{\theta}, q\right)$ 对所有 $x$ 都趋向于0。

如果此时将扰动函数 $q(\cdot \mid x)$ 定义为来自T5等预训练模型生成的扰动样本，而不是人类改写的样本，就可以以一种自动的、可扩展的方式对上述假设进行经验性测试。对于机器生成样本，这里作者使用了四个不同的LLM进行输出，例如使用T5-3B模型来产生扰动，对于给定样本，按照2个字的跨度进行随机扰动，直到文本中15%的字被覆盖。随后使用经过T5处理的100个样本按照假设进行近似计算，发现扰动差异的分布对于人类编写文本和机器生成样本是明显不同的，机器样本往往有较大的扰动差异。

上图展示了来自GPT-2、GPT-Neo-2.7B、GPT-J和GPT-NeoX 四个模型与人类样本扰动后的分布对比，其中蓝色区域为人类编写文本的分布，橙色为机器生成文本的分布。

2.2 将扰动差异解释为曲率

通过上图，只能看出扰动差异在鉴别文本是否来自人类还是机器方面是有效的，但是其衡量的理论指标还不够清晰。因而作者进一步为扰动差异寻找到了理论依据，作者表明扰动差异近似于候选段落附近对数概率函数的局部曲率的度量，更具体地说，它与对数概率函数的Hessian 矩阵的负迹成正比。为了处理离散数据的不可微性，作者在这里仅考虑了在潜在语义空间中的候选段落，其中的小扰动对应于保留与原始相似含义的文本编辑过程。因为本文选用的扰动函数 (T5) 是经过大量自然文本语料预训练的，所以这里的扰动可以被粗略地认为是对原始段落的有效修改，而不是随意编辑。

作者首先利用Hutchinson提出的迹估计器[3]给出矩阵 $A$ 迹的无偏估计：

随后使用有限差分来近似这个表达式：

联立上述两式子并使用 $h = 1$ 进行简化，就可以得到负Hessian矩阵的迹估计:

作者观察到上式其实对应于扰动差异 $\mathbf{d}\left(x, p_{\theta}, q\right)$ ，其中扰动函数 $q(\cdot \mid x)$ 可以使用Hutchinson迹估计器中使用的分布 $q_{z}(z)$ 代替。这里， $\tilde{x}$ 是一个高维的token序列，而 $q_{z}$ 是一个嵌入语义空间中的向量。由于扰动文本模型生成的句子与 $x$ 相似，语义变化较小，因此可以将扰动文本模型视为与当前采样相似的语义嵌入 $\left(\tilde{z} \sim q_{z}\right)$ ，然后将其映射到token序列中 $(\tilde{z} \mapsto \tilde{x})$ 。这样做，可以保证语义空间中的采样都保持在数据流形附近，当随机扰动发生后，对数概率就会产生明显下降，这样就可以将扰动差异解释为近似限制在数据流形上的曲率。

三、实验效果

本文的实验部分作者使用了六个数据集，涵盖了各种日常领域，例如使用XSum数据集中的新闻文章来进行假新闻检测实验，使用SQuAD上下文中的维基百科段落来表示机器编写的学术论文，以及使用Reddit WritingPrompts数据集来表示机器生成的创意写作。此外，为了评估分布变化的稳健性，作者还使用了WMT16的英语和德语部分以及人类专家在PubMedQA数据集中编写的标准答案。

作者首先对DetectGPT的zero-shot文本检测能力进行评估，实验结果如下表所示，可以看出，DetectGPT在所有15种数据集和模型组合中的14种实验组合上都得到了最准确的检测性能。尤其是DetectGPT最大程度地提高了XSum数据集的平均检测精度（0.1 AUROC 改进），在SQuAD维基百科上下文数据集上也有明显的性能提升（0.05 AUROC 改进）。

此外，作者还选取了一部分监督学习训练的检测器进行对比。作者着重探索了几个领域，或者说几种语境，对比结果如下图所示。例如在英语新闻数据上，监督检测器可以达到与 DetectGPT 接近的检测性能，但在英语科学写作数据下，其性能明显低于本文方法。而在德语写作中监督学习方法会完全失败。相比之下，以DetectGPT为代表的零样本方法更容易泛化到新的语言和领域中。

四、总结

随着LLMs的不断发展和改进，我们应该一方面对它们在越来越多的领域中减轻人类工作者的创作压力感到高兴，另一方面也更应该同步发展针对它们的安全检测技术，这对于这一领域未来的健康发展至关重要。本文从这些大模型本身的运行机制出发设计了DetectGPT方法，DetectGPT通过一个简单的数据分布特点即可判断出文本的来源，此外作者还对本文方法进行了详尽的理论推导，这使得DetectGPT具有更高的可信度和可解释性。此外DetectGPT的zero-shot特性使它相比那些使用数百万数据样本定制训练的检测模型更具有竞争力。此外作者在文章的最后还谈到了DetectGPT的未来计划，他们会进一步探索对数概率曲率属性是否在其他领域（音频、视频或图像）的生成模型中也能起到很好的检测作用，这一方向也具有非常重要的现实意义，让我们一起期待吧。

参考文献

[1] Jawahar, G., Abdul-Mageed, M., and Lakshmanan, L. V. S. Automatic detection of machine generated text: A critical survey. In International Conference on Computational Linguistics, 2020.
[2] Narayan, S., Cohen, S. B., and Lapata, M. Don’t give me the details, just the summary! Topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018.
[3] Hutchinson, M. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines. Communications in Statistics - Simulation and Computation, 19(2):433–450, 1990. doi: 10.1080/ 03610919008812866. URL https://doi.org/10. 1080/03610919008812866.

Illustration by Bittu Designs from IconScout

-The End-

关于我“门”
▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”：
[email protected]

众多主播都在用的超有趣桌面小宠物！开开心心_Every 宠物 virtualenv eclipse python django pygame java
BongocatMver是一款主播直播必备萌系插件，是一款开源软件。软件由国外一个高中生kuroni开发出来，让手鼓猫中的手臂可以跟随鼠标，按键的操作而发生动作。萌系的猫咪造型以及键盘映射的交互动画，十分适合游戏主播、绘画主播、音游主播在直播时使用的虚拟造型插件，可以给你的直播间或视频带来无限的元气。软件采用Live2d模型来实现自定义形状，用户可以根据自己的设定来更换不同形状的猫。精准的面部捕捉
HarmonyOS鸿蒙开发 BuilderParam在父组件的Builder的点击事件报错：Error message:is not callable BruceGwo 鸿蒙Harmony harmonyos 华为
HarmonyOS鸿蒙开发BuilderParam在父组件的Builder的点击事件报错：Errormessage:isnotcallable最近在鸿蒙开发过程中，UI做好了，根据列表item进行点击跳转，报错了报错信息如下Errormessage:isnotcallableStacktrace:atanonymous(entry/src/main/ets/pages/demolab/Builde
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
鸿蒙特效教程06-可拖拽网格苏杰豪鸿蒙特效教程 HarmonyOS Next harmonyos 鸿蒙华为
鸿蒙特效教程06-可拖拽网格实现教程本教程适合HarmonyOSNext初学者，通过简单到复杂的步骤，一步步实现类似桌面APP中的可拖拽编辑效果。效果预览我们要实现的效果是一个Grid网格布局，用户可以通过长按并拖动来调整应用图标的位置顺序。拖拽完成后，底部会显示当前的排序结果。实现步骤步骤一：创建基本结构和数据模型首先，我们需要创建一个基本的页面结构和数据模型。我们将定义一个应用名称数组和一个对
LangChain组件Tools/Toolkits详解（5）——返回产出artifact 龙焰智能 langchain artifact ToolCall BaseTool 工具产物 ToolMessages
LangChain组件Tools/Toolkits详解（5）——返回产出artifact本篇摘要14.LangChain组件Tools/Toolkits详解14.5返回产出artifact14.5.1定义工具14.5.2使用ToolCall调用工具14.5.3与模型一起使用14.5.4从子例化BaseTool返回参考文献本章目录如下：《LangChain组件Tools/Toolkits详解（1）—
计算机网络课程内容详解-ChatGPT4o作答部分分式计算机网络
计算机网络课程是一门系统讲解网络体系结构、通信协议、网络技术和应用的专业课程，旨在帮助学生理解计算机网络的工作原理、设计思想和实际应用。以下是计算机网络课程内容的详细介绍，涵盖知识结构、主要内容及应用方向。一、课程目标掌握计算机网络的基本概念、结构及运行原理。理解计算机网络分层模型（如OSI七层模型和TCP/IP四层模型）。掌握常见的通信协议及其功能（如HTTP、FTP、DNS等）。学会网络设备（
JDK8新特性陈天在睡觉知识点总结 JavaSE java JDK8 javase 八股文后端
JDK8是官方发布的一个大版本,提供了很多新特性功能给开发者使用,包含语言、编译器、库、工具和JVM等方面的十多个新特性。本文将介绍编码过程中常用的一些新特性。一、Lambda表达式1.优点简化匿名内部类的写法，允许你以简洁的方式表示可传递给方法或存储在变量中的代码块，用更加简洁和表达性的语法来编写匿名函数，从而简化了对函数式接口的实现，使代码更加简洁紧凑。提高了代码的可读性和可维护性，尤其是在处
Java面试高频问题深度解析：JVM、锁机制、SQL优化与并发处理 Debug Your Career 面试 java 面试 jvm
问题列表Java中如何实现一个工作流引擎？Bean的作用域有哪些？JVM中的锁机制是如何工作的？三个方法分别被synchronized锁住，方法a调用方法b，b能获取到a的锁吗？会有什么问题？SQL优化时，EXPLAIN中需要关注哪些关键点？什么是覆盖索引？SELECT*一定不会命中索引吗？SELECT*和SELECT全字段在性能上有区别吗？什么是回表？它与索引有什么关系？100万数据分给10个线
JS基础-事件模型(事件&事件流&自定义事件&事件冒泡/代理) LYFlied html&浏览器 javascript 事件模型事件流前端面试
文章目录一、事件与事件流二、事件模型1.DOM0级模型2.IE事件模型3.DOM2级模型4.DOM3级事件处理方式三、事件对象四、事件绑定与解除1.事件绑定1.1对象.on事件名字=事件处理函数1.2.对象.addEventListener("没有on的事件名字",事件处理函数,false)3.对象.attachEvent("有on的事件名字",事件处理函数);2.解除绑定五、EventWrapp
python环境部署工具 uv Honnnnnn uv
以原先使用的pipenv工具为例子，通过pipfile.lock生成requirements文件，再将requirements转成pyproject.toml文件，最后生成uv.lock基于当前虚拟环境导出requirements.txt--pipfreeze>requirements.txt（如果原先不是env而是基础的通过requirements.txt文件，省去转化requirements的
weixin089校园综合服务小程序+ssm(文档+源码)_kaic 开心毕设小程序微信小程序旅游微信 php
摘要随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，校园综合服务被用户普遍使用，为方便用户能够可以随时进行校园综合服务小程序的数据信息管理，特开发了基于校园综合服务小程序的管理系统。校园综合服务小程序的设计主要是对系统所要实现的功能进行详细考虑，确定所要实现的功能后进行界面的设计，在这中间还要考虑如何
Android一个APP里面最少有几个线程积跬步DEV Android 开发实战大全 Android
Android应用启动时，默认会创建一个进程，该进程中最少包含5个系统自动创建的线程，具体如下：Main线程（主线程/UI线程）负责处理用户交互、UI更新等核心操作，所有与界面相关的逻辑必须在此线程执行。若在此线程执行耗时操作（如网络请求），会导致界面卡顿甚至触发ANR（应用无响应）。FinalizerDaemon线程（终结者守护线程）当对象重写了finalize()方法时，该线程负责将这些对象放
access读取EXCEL文件,并根据动态生成表，完成报表的导入 MES先生 ACCESS VBA access
OptionCompareDatabasePublicsheetidAsString'报表IDPublictempAsString'获取年月时分秒PublictmpIAsInteger'对应EXCEL行PublictmpJAsInteger'对应EXCEL列PublicXlsAppAsObjectPublicXlsWorkbookAsObjectPublicXlsWorkSheetAsObject
Docker 容器基础技术：namespace 寻雾&启示 docker 容器运维
在容器内进程是隔离的，比如容器有自己的网络和文件系统，容器内进程的PID为1，这些都是依赖于Linuxnamespace所提供的隔离机制。本篇我们来了解下Linux有哪些namespace，以及它们是如何实现隔离的。文中案例代码均由ChatGPT生成，在Linux内核5.15.0-124-generic，ubuntu22.04LTS系统上测试通过。namespace类型每个进程都有自己所属的nam
【读点论文】Chain Replication for Supporting High Throughput and Availability 寻雾&启示分布式系统论文阅读
在分布式系统中，强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库，其保证了强一致性，但往往牺牲了可用性和吞吐量。而像NoSQL数据库，虽然其吞吐量、和扩展性很高，但往往只支持最终一致性，无法保证强一致性。由此ChainReplicationforSupportingHighThroughputandAvailability提出了链式复制协议，旨在保证高吞吐、高可用的同时，支持数据的强一
vLLM - 查看模型是否支持云客Coder 人工智能
支持的模型：https://docs.vllm.ai/en/latest/models/supported_models.html要确定是否支持给定模型，您可以检查HF存储库中的config.json文件。如果"architectures"字段包含下面列出的模型架构，那么理论上应该支持它。查看模型架构查看模型的config.json中的architecturescat~/.cache/huggin
【access开发】导入excel 并生成表 Access开发易登软件 vba Access开发 Excel html vba access excel 前端 access数据库低代码
hi，大家好呀！最近天气越来越暖了，在这个春暖花开的季节了，每天心情应该都是美美的，正所谓一年之计在于春，在这个美好的季节，大家一起努力学习学习吧！那我们来看看今天学点啥呢？大家在刚接触access时，很多都是excel的高手，学习的过程中，总会想着，怎么把现在的excel数据导入到access，那这个时候该怎么来操作呢？如果是新手，那肯定是导入excel就可以了，那如果你是一个爱show技术的e
Android Jetpack 应用架构指南小李子学编程 Android 开发文档指南 android android jetpack 学习
AndroidJetpack应用架构指南本指南涵盖Android应用开发的最佳实践和推荐架构，助力开发者构建健壮高效的应用程序。。前置要求本文假设您已具备Android框架基础知识。若需系统学习Android开发，建议先完成《Android基础知识》目录新架构设计背景移动应用交互特性核心架构原则分离关注点数据模型驱动界面单一数据源单向数据流分层架构设计界面层数据层领域层依赖管理方案工程实践指南参考
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
Golang算法（二）数据结构小烧卖算法 GO语言
数据结构栈队列双向链表二叉搜索树红黑树栈typeStackstruct{head*Node}typeNodestruct{datainterface{}next*Node}funcNewStack()*Stack{s:=&Stack{head:&Node{data:nil,next:&Node{},},}returns}func(s*Stack)Push(datainterface{}){n:=&
《Oracle DBA入门实战：十大高频问题详解与避坑指南》鸿·蒙数据库 Oracle数据库 DBA入门数据库管理 IT技术干货学习笔记
OracleDBA入门作业十问十答本文为OracleDBA入门作业整理，涵盖工具使用、配置管理及权限控制等核心知识点，适合新手快速上手。如有疑问或补充，欢迎评论区交流！1.DBA常用工具有哪些？OracleUniversalInstaller(OUI)用途：安装、升级或删除软件组件。OracleDatabaseConfigurationAssistant(DBCA)用途：通过图形界面创建、删除或修
Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频三花AI 三花AI 人工智能 3d 音视频
StabilityAI发布StableVirtualCamera：从2D图像生成3D视频StableVirtualCamera[4]是由StabilityAI最新发布的一款能够从一张或多张2D图像（最多支持32张）生成具有真实深度和透视感的3D视频的技术。用户可以自由定义相机轨迹，或者选择预设的动态相机路径，例如360°旋转、螺旋、变焦（DollyZoom）等，效果极其丝滑。不过，当输入图像包含人
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
微信视频号禁止下载？3招隐藏技巧秒存！安卓/iOS双端亲测有效，最后1招官方都默许微丽宝值得分享视频下载视频号里面的短视频怎样下载
一、视频号不提供下载按钮的原因版权保护为保护创作者原创内容，避免未经授权的传播和侵权行为[1][2]。平台生态维护鼓励用户在微信生态内互动（点赞、评论、分享），减少内容外流[1]。用户体验优化避免用户因下载导致存储空间不足或下载速度问题[1]。二、安卓用户下载方法1分钟提取缓存文件完整播放目标视频（确保缓存生成）。进入手机【文件管理】→【内部存储】→【Android】→【data】→【com.te
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
回答我！！！如何用“快递分拣”讲明白OSI五层模型？茫忙然计算机网络网络
刚开始学习计算机网络时，会比较难理解计算机网络的五层协议，毕竟确实挺抽象的，接下来我用寄快递的过程来类比计算机网络的五层协议（物理层、数据链路层、网络层、传输层、应用层），帮助大家理解每一层的功能和作用。1.物理层（PhysicalLayer）——交通工具和道路快递中的比喻：卡车、飞机、轮船等运输工具，以及高速公路、铁路、航线等物理路径。功能：负责将包裹（数据）从一个地点物理传输到另一个地点，不关
使用kubeadm部署高可用IPV4/IPV6集群---V1.32
使用kubeadm部署高可用IPV4/IPV6集群https://github.com/cby-chen/Kubernetes开源不易，帮忙点个star，谢谢了k8s基础系统环境配置配置IP#注意！#若虚拟机是进行克隆的那么网卡的UUID和MachineID会重复#需要重新生成新的UUIDUUID和MachineID#UUID和MachineID重复无法DHCP获取到IPV6地址sshroot@1
聊聊langchain4j的HTTP Client langchain4j
序本文主要研究一下langchain4j的HTTPClientlangchain4j-http-clientlangchain4j提供了langchain4j-http-client模块，它实现了一个HttpClientSPI（服务提供者接口），其他模块通过该接口调用LLM提供商的RESTAPI。这意味着底层HTTP客户端可以被自定义，通过实现HttpClientSPI，还可以集成任何其他HTTP
C语言三大程序结构 & 单分支语句要下雨了吗 c语言 c++visual studio
核心概念：程序就像流水线，通过顺序、选择、循环三种结构完成复杂任务一、三大程序结构图解结构类型形象比喻代码示例顺序直行马路→不拐弯printf("A");printf("B");选择岔路口→二选一if...else循环环形跑道→重复绕圈for/while二、选择结构：if语句完全指南1.基础语法（单分支）if(条件表达式){语句1；//条件成立时执行}else{语句2；//条件不成立时执行}2.真
langchain4j+Tika小试牛刀 llm
序本文主要研究一下langchain4j结合ApacheTika进行文档解析步骤pom.xmldev.langchain4jlangchain4j-document-parser-apache-tika1.0.0-beta1examplepublicclassTikaTest{publicstaticvoidmain(String[]args){Stringpath=System.getPrope
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end