Alexxinlu

【CSDN-NLP】ChatGPT 简介

目录

1 背景与发展历程
- 1.1 背景
- 1.2 发展历程
2 技术原理
- 2.1 第一阶段：训练监督策略模型
- 2.2 第二阶段：训练奖励模型
- 2.3 第三阶段：采用强化学习来增强模型的能力。
3 国内使用情况及应用的领域
4 面临的数据安全挑战与建议
- 4.1 ChatGPT获取数据产生的问题
- - 4.1.1 数据泄露问题
  - 4.1.2 删除权问题
  - 4.1.3 语料库获取合规问题
- 4.2 ChatGPT恶意利用产生的问题
5 结语
6 参考

团队博客: CSDN AI小组

1 背景与发展历程

1.1 背景

ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT3.5架构的大型语言模型并通过强化学习进行训练。

ChatGPT以文字方式互动，除了可以透过人类自然对话方式进行交互，还可以用于相对复杂的语言工作，包括自动文本生成、自动问答、自动摘要等在内的多种任务。如：在自动文本生成方面，ChatGPT可以根据输入的文本自动生成类似的文本，在自动问答方面，ChatGPT可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。

ChatGPT因其在许多知识领域给出详细的回答和清晰的答案而迅速获得关注，但其事实准确性参差不齐被认为是一重大缺陷。ChatGPT于2022年11月发布后，OpenAI估值已涨至290亿美元。上线两个月后，用户数量达到1亿。

ChatGPT主要包含以下特点：

(1) OpenAI使用 RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术对 ChatGPT 进行了训练，且加入了更多人工监督进行微调。
(2) 可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案。
(3) ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时，机器人会说明哥伦布不属于这一时代并调整输出结果。
(4) ChatGPT 可以承认自身的无知，承认对专业技术的不了解。
(5) 支持连续多轮对话。
(6) ChatGPT可以通过分析语料库中的模式和敏感词或句子来识别敏感话题（种族，政治，人身攻击等）。它将会自动识别可能触发敏感问题的输入，并且可以自动过滤掉敏感内容，最大程度地确保用户的安全。此外，它也可以帮助用户识别出可能触发敏感问题的话题，从而避免他们无意中使用不当的语言破坏聊天气氛。

图1 示例：ChatGPT 写自我介绍

图2 示例：ChatGPT 改代码 Bug

图3 示例：ChatGPT 写代码

1.2 发展历程

在过去几年中，Google一直是NLP领域大规模预训练模型的引领者，而2022年11月ChatGPT的发布，其效果惊艳了众多专业以及非专业人士，虽然Google也紧接着发布了类似的Bard模型，但已经错失了先机。下图是这场旷日持久的AI暗战之下的关键技术时间线。

图4 Google与OpenAI在LLM领域的发展时间线

2 技术原理

图5 ChatGPT 模型的训练过程

在整体技术路线上，ChatGPT在效果强大的GPT 3.5大规模语言模型（LLM，Large Language Model）基础上，引入“人工标注数据+强化学习”（RLHF，Reinforcement Learning from Human Feedback）来不断微调（Fine-tune）预训练语言模型，主要目的是让LLM模型学会理解人类的命令指令的含义（比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令），以及让LLM学会判断对于用户给定的问题（也称prompt），什么样的答案是优质的（富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准）。

具体而言，ChatGPT的训练过程分为三个阶段：

2.1 第一阶段：训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由专业的人类标注人员，给出每个问题（prompt）的高质量答案，形成问答对，然后用这些人工标注好的数据来微调 GPT-3.5模型（获得SFT模型, Supervised Fine-Tuning）。

经过这个过程，可以认为SFT初步具备了理解人类问题中所包含意图，并根据这个意图给出相对高质量回答的能力，但是很明显，仅仅这样做是不够的，因为其回答不一定符合人类偏好。

2.2 第二阶段：训练奖励模型

这个阶段主要是通过人工标注训练数据，来训练奖励模型（Reward Mode）。在数据集中随机抽取问题，使用第一阶段训练得到的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑（例如：相关性、富含信息性、有害信息等诸多标准）给出排名顺序。这一过程类似于教练或老师辅导。

接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对。奖励模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。

2.3 第三阶段：采用强化学习来增强模型的能力。

PPO（Proximal Policy Optimization，近端策略优化）强化学习模型的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为Importance Sampling。PPO由第一阶段的监督策略模型来初始化模型的参数，这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。具体而言，在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的奖励模型给出质量分数。把奖励分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

从上述原理可以看出，ChatGPT具有以下几个优势：(1) ChatGPT 的基模型GPT3.5使用了千亿级的数据进行了预训练，模型可谓是“见多识广”；(2) ChatGPT 在强化学习的框架下，可以不断学习和优化。

3 国内使用情况及应用的领域

ChatGPT 目前仍然处于体验和试用阶段，且未在国内进行开放注册，所以国内暂时还没有实际性的应用。不过在ChatGPT发布之后，国内开始出现平替产品，例如近期国内正式发布的首个功能对话大模型ChatYuan。

ChatGPT 由美国OpenAI公司于2022年11月发布，官网暂未对国内进行开放，但有其他方法可以使用，教程详见这里。

ChatYuan由中国初创公司元语智能2022年12月发布，在线体验网址为：www.clueai.cn/chat。

4 面临的数据安全挑战与建议

ChatGPT存在一些数据安全问题，这些问题分为两类，一类是ChatGPT获取数据产生的问题，一类是ChatGPT恶意利用产生的问题。

4.1 ChatGPT获取数据产生的问题

4.1.1 数据泄露问题

用户在使用ChatGPT时会输入信息，由于ChatGPT强大的功能，一些员工使用ChatGPT辅助其工作，这引起了公司对于商业秘密泄露的担忧。因为输入的信息可能会被用作ChatGPT进一步迭代的训练数据。

建议：ChatGPT可提升工作生产力，不建议完全禁用，公司可以制定相应的规则制度，并且开发相应的机密信息检测工具，指导并辅助员工更安全地使用ChatGPT。

4.1.2 删除权问题

ChatGPT用户必须同意公司可以使用用户和ChatGPT产生的所有输入和输出，同时承诺ChatGPT会从其使用的记录中删除所有个人身份信息。然而ChatGPT未说明其如何删除信息，而且由于被收集的数据将用于ChatGPT不断的学习中，很难保证完全擦除个人信息痕迹。

建议：要求ChatGPT给出明确的删除信息的流程，与使用的公司达成协议。

4.1.3 语料库获取合规问题

如果ChatGPT通过抓取互联网上的信息获得其训练数据，可能并不合法。网站上的隐私政策条款本身表明数据不能被第三方收集，ChatGPT抓取数据会涉及违反合同。在许多司法管辖区，合理使用原则在某些情况下允许未经所有者同意或版权使用信息，包括研究、引用、新闻报道、教学讽刺或批评目的。但是ChatGPT并不适用该原则，因为合理使用原则只允许访问有限信息，而不是获取整个网站的信息。在个人层面，ChatGPT需要解决未经用户同意大量数据抓取是否涉及侵犯个人信息的问题。

建议：要求ChatGPT公布数据的使用明细与脱敏流程，对于不符合规范的行为，要求其进行删除。在使用的过程中，如果发现有侵犯隐私信息的情况，也可以要求其进行改进。

4.2 ChatGPT恶意利用产生的问题

用户对ChatGPT的恶意利用也会带来很多数据安全问题，如：(1) 撞库：生成大量可用于对在线帐户进行自动攻击的潜在用户名和密码组合，进行撞库攻击；(2) 生成恶意软件：利用自然语言编写的能力，编写恶意软件，从而逃避防病毒软件的检测；(3) 诱骗信息：利用ChatGPT的编写功能，生成钓鱼电子邮件；利用对话功能，冒充真实的人或者组织骗取他人信息。

建议：对于使用ChatGPT的用户，需要要求其明确指出内容是使用ChatGPT生成的。也可以使用技术手段，自动检测ChatGPT生成的内容（例如近期斯坦福大学推出DetectGPT，以应对学生通过ChatGPT生成论文），并进行进一步的干预。

5 结语

ChatGPT 现在还处于测试阶段，可以看出在未来它可以极大地提升人类的生产力。但由于这是一个新鲜事物，还没有完善的法规和政策对它进行约束和规范，所以可能会存在一些数据安全等问题。要想实现ChatGPT以及类似产品在国内的落地与商业化，还有很长的路要走。

6 参考

[1] ChatGPT官网
[2] ChatGPT会取代搜索引擎吗
[3] ChatGPT发展历程、原理、技术架构详解和产业未来
[4] ChatGPT面临的数据安全挑战
[5] ChatGPT维基百科
[6] AI 真要成精了？ChatGPT 上手体验
[7] OpenAI 何以掀翻 Google 布局多年的AI大棋？

你可能感兴趣的:(Alex:,NLP在问答领域的落地与研究,自然语言处理,chatgpt,人工智能)

【Q&A】Qt中直接渲染和离屏渲染效率哪个高？浅慕Antonio Q&A qt 信息可视化开发语言
直接渲染和离屏渲染的效率取决于具体场景和实现方式，以下是详细对比分析：一、直接渲染（On-screenRendering）原理直接将图形数据绘制到屏幕缓冲区（BackBuffer），完成后通过交换缓冲区显示到屏幕。通常在paintEvent等事件中通过QPainter直接绘制。优势减少数据复制：无需额外的缓冲区传输，直接写入屏幕缓冲区。实时性高：适合需要快速更新的场景（如动画、实时数据可视化）。简
网页编辑器能否满足Word公式与图片的直接复制粘贴？ 2501_90699800 编辑器 word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word
要求：开源，免费，技术支持编辑器：百度ueditor前端：vue2,vue3,vue-cli,react,html5用户体验：Ctrl+V快捷键操作功能：导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏平台：Windows,macOS,Linux,RedHat,CentOS,Ubuntu,中标麒麟,银河麒麟,统信UOS,
【hot100】刷题记录(46)-下一个排列捞鱼哲学家算法数据结构 leetcode python
题目描述：整数数组的一个排列就是将其所有成员以序列或线性顺序排列。例如，arr=[1,2,3]，以下这些都可以视作arr的排列：[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1]。整数数组的下一个排列是指其整数的下一个字典序更大的排列。更正式地，如果数组的所有排列根据其字典顺序从小到大排列在一个容器中，那么数组的下一个排列就是在这个有序容器中排在它后面的那个排列。如果不存在下一个更大的
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
数组模拟邻接表 #图论旧物有情数据结构图论数据结构
文章目录为什么要用数组来模拟邻接表存储思路遍历思路树是特殊的图，因此邻接表可以存储图和树两种数据结构。为什么要用数组来模拟邻接表在算法设计当中，利用数组来代替结构体模拟各种数据结构会更加简单。存储思路给定如下数据,我们可以构造如下的一个邻接表请看代码/**idx:索引,代表数组哪个位置,是否连续不重要,因为我们的存储是链式的。h[idx]:顶点表,下标idx代表是哪个顶点,初始值全部为-1,代表没
软件工程：数据字典愚戏师软件工程软件工程数据库
一、数据字典的核心作用定位：数据字典是数据流图（DFD）的补充说明文档，与DFD共同构成系统的逻辑模型。核心价值：消除二义性：明确数据流、存储、元素的定义，避免理解偏差。设计依据：为数据库设计、代码开发提供数据规范。团队协作：作为开发团队的共享词汇表，确保术语一致性。二、数据字典的四大组成要素1.数据流（DataFlow）定义：数据在系统中的流动路径。描述内容：来源与去向：起点（外部实体/处理）、
亿级分布式系统架构演进实战（五）- 横向扩展（缓存策略设计） power-辰南 java技术架构师成长专栏多级缓存策略 spring cloud 分布式系统缓存一致性高并发缓存问题解决方案
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）亿级分布式系统架构演进实战（三）-横向扩展（数据库读写分离）亿级分布式系统架构演进实战（四）-横向扩展（负载均衡与弹性伸缩）核心目标降低数据库读压力，提升响应速度一、多级缓存架构客户端CDN/浏览器缓存本地应用缓存分布式缓存数据库缓冲池1.1客户端缓存缓存数据类型：•静态资源（JS/CSS/图片）•
LeetCode 热题 100_跳跃游戏 II（79_45_中等_C++）(贪心算法) Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏II（79_45）题目描述：输入输出样例：题解：解题思路：思路一（贪心选择）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){in
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
弱网测试究竟要怎么做，才能防止漏测？学掌门 IT 软件测试程序员软件测试软件测试工程师
1、为什么要进行弱网测试？在游戏测试–黑盒测试中，分为功能测试与专项测试，在上几篇文章中说的都是功能测试，而专项测试主要包括弱网和性能测试。（其实弱网也是性能的一种。）功能测试主要是保证功能的完整性，能让玩家能够流程的体验整个游戏功能，而弱网测试就是其中需要关注的异常点。首先我们知道现在的网络场景一般是无网络2g3g4g和wifi，以及即将要到来的5g。弱网当然就包括无网、2g，3g不知道算不算，
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
【轻松学C：编程小白的大冒险】— 09 运算符与表达式的实际应用秋知叶i #C 语言 c语言开发语言
在编程的艺术世界里，代码和灵感需要寻找到最佳的交融点，才能打造出令人为之惊叹的作品。而在这座秋知叶i博客的殿堂里，我们将共同追寻这种完美结合，为未来的世界留下属于我们的独特印记。【轻松学C：编程小白的大冒险】—09运算符与表达式的实际应用一、运算符家族大阅兵二、算术运算符：数学界的五虎上将1.加法运算符`+`2.减法运算符`-`3.乘法运算符`*`4.除法运算符`/`5.取模运算符`%`二、赋值运
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
mysql修改表中所有字段不许为空_如何用SQL语句修改一个表的字段，让它不能为空... Asama浅间
展开全部ALTERTABLE表ALTERCOLUMN[字段名]字段类型NOTNULLSQL语句1、基32313133353236313431303231363533e78988e69d8331333365643661本介绍：sql语句是对数据库进行操作的一种语言。结构化查询语言(StructuredQueryLanguage)简称SQL，结构化查询语言是一种数据库查询和程序设计语言，用于存取数据以
React中的高优先级任务插队机制东方睡衣 react.js javascript 前端
说到高优先级任务插队机制，就要提到Reatfiber这个东西了，也就是时间分片，说实话这东西我之前了解过，但是下午被面试官问到了，我还说都能答上来，结果突然问到时间分片后，被分化的小任务的执行顺序，还有就是如果有优先级高的任务插入进来，它们的执行顺序是什么，当时头皮发麻，想着我都说到这里了，怎么还问，刚刚看了下，其实原理很简单，下面一起来看看吧！在React的concurrent模式下，低优先级任
cv2 orb 图像拼接_图像拼接Opencv源码重构是佐罗而非索隆 cv2 orb 图像拼接
请看赵春江https://me.csdn.net/zhaocj的主页，他已经对Opencv图像拼接流程中的代码做了很详细的解释。前人栽树，后人乘凉。一.本文所做的事1.重构了Opencv图像拼接的源代码，整个代码是面向过程的；2.在赵春江源码分析基础上，对一些细节部分进行说明。代码链接：https://github.com/mhhai/ImageStitch二.特征点检测一切起源于这段代码Ptrf
高级前端面试题-React 圣诞小子 javascript 面试
react概念类组件和函数组件,什么时候用类组件获取组件实例类组件如何实现逻辑复用？高阶组件、renderprops选择hooks的优点状态逻辑复用；状态逻辑集中，易于理解；类组件不利于优化，比如不能很好的压缩为什么要用hooks,解决了什么问题同上react的context的使用场景共享对一个组件树全局的信息，不需要一层层传参受控组件和非受控组件非受控组件：数据只保存在内部state中；受控组件
【数据治理】数据湖治理实践：腾讯云数据湖元数据实践指南菜鸟蜀黍数据治理大数据
最近数据湖非常的火，但是一旦没弄好，就会变成“数据沼泽”。如何避免“数据湖”变成“数据沼泽”呢？最好的办法就是治理先行。本文的内容主要包括四部分：1、数据湖背景概述，介绍腾讯数据湖的整体架构；2、数据湖统一元数据模块的详细架构实现；3、介绍腾讯云上元数据多租户的设计模式；4、介绍统一元数据的两大核心能力：在线数据目录和离线数据治理的功能。01什么是数据湖随着Snowflake公司股价高歌猛进和各大
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
c++ stl库有哪些技术 C++ 老炮儿的技术栈 c++算法学习笔记 c++
C++STL（标准模板库）包含以下一些重要技术：容器-序列容器：如vector（动态数组），支持快速随机访问和尾部插入/删除；list（双向链表），适合频繁的插入和删除操作；deque（双端队列），能在两端高效地进行插入和删除。-关联容器：像map（键值对映射），基于红黑树实现，提供快速的查找、插入和删除操作；set（集合），同样基于红黑树，元素唯一且有序。迭代器提供了一种统一的方式来访问容器中的
设计模式之工厂模式的优缺点 C++ 老炮儿的技术栈算法 c++学习笔记
工厂模式是一种创建对象的设计模式，它将对象的创建和使用分离。以下是工厂模式的优缺点：优点-解耦对象的创建和使用：使得代码的依赖关系更加清晰，使用者不需要了解对象的具体创建过程，只需要关心如何使用对象，降低了代码的耦合度。-提高可维护性和可扩展性：当需要创建新的对象或者修改对象的创建逻辑时，只需要在工厂类中进行修改，而不需要在所有使用该对象的地方进行修改，便于代码的维护和扩展。-便于代码复用：工厂类
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
架构演进的方式 pumpkin84514 架构设计架构
架构演进过程中，常用的三种模式是拆迁者模式、绞杀者模式和修缮者模式。它们代表了三种不同的演进路径，适用于不同的业务环境和技术场景。下面详细解释每种模式的内容、使用场景，并对比它们的差异。1.拆迁者模式内容拆迁者模式（也称为重建模式）是一种彻底重构现有系统的方式。通常，在这种模式下，原有系统被完全放弃，并用一个全新的系统替代。在这种情况下，架构和代码需要从头开始重新设计和实现。使用场景系统老化严重：
大模型在冠心病风险预测及临床方案制定中的应用研究 LCG元围术期危险因子预测模型研究人工智能机器学习 python
目录一、引言1.1研究背景与目的1.2国内外研究现状1.3研究方法与创新点二、大模型预测冠心病风险原理与方法2.1数据收集与预处理2.1.1数据来源2.1.2数据清洗与整理2.2特征工程2.2.1特征提取2.2.2特征选择与优化2.3模型选择与训练2.3.1常用模型介绍2.3.2模型训练过程三、术前风险预测与手术方案制定3.1术前风险预测指标与模型应用3.2基于风险预测的手术方案制定3.3案例分析
HTML5响应式使用css媒体查询前段技术人 html5 css 媒体
HTML负责搭建页面结构，CSS负责样式设计，并且通过媒体查询实现了较好的响应式效果，能够适应不同屏幕尺寸下面就是写了一个详细的实例。CSS部分*{margin:0;padding:0;box-sizing:border-box;}*是通配选择器，会选中页面上的所有元素。margin:0;将所有元素的外边距设置为0。padding:0;将所有元素的内边距设置为0。box-sizing:border
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
虚拟机如何扩容磁盘克里斯蒂亚诺罗纳尔多阿维罗运维 linux 服务器
在日常的虚拟化环境中，虚拟机的磁盘空间不足是一个常见的问题。当虚拟机磁盘空间不够用时，扩容磁盘是一个常见的解决方案。本文将详细介绍如何在虚拟机中扩容磁盘，包含操作步骤，并解释在扩容过程中为什么可以直接删除原有分区。步骤1:扩容虚拟机磁盘首先，我们需要在虚拟化平台上扩展虚拟机的磁盘大小。以下是两种常见虚拟化平台（VMware和VirtualBox）扩容磁盘的步骤：VMware打开VMware管理控制
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他