oldmao_2000

05.大模型&大数据量

文章目录

大模型
- 顿悟时刻：Emergent Ability（涌动现象）
- - Calibration
- Inverse Scaling Prize
- Switch Transformers
大数据量
- 数据预处理
- - 去重
模型大小与训练数据的选择
Instruction-tuning
Human Teaching
KNN LM

部分截图来自原课程视频《2023李宏毅最新生成式AI教程》，B站自行搜索

开幕就是"A colossal language model, showcasing unimaginable power."并以此为语料从Midjourney生成一个AI插画，看了一下个玩意被羊毛党薅到已经收费了。

AI表示巨大力量之类的图片总是会加上渺小的人类做比较。图中怪兽的左手手指那里貌似有点没生成好，另外牙的细节也不够逼真。

通常我们认为大模型一般性能会比较好，在20年一篇OpenAI的文章Scaling Laws for Neural Language Models论文中的实验展现了这一观点：

原文：Language modeling performance improves smoothly as we increase the model size, datasetset size, and amount of compute used for training.
图中纵轴是测试阶段的损失值，可以看到随着模型参数和训练数据量增大，文字接龙任务性能也越好。
但是其实不是表面上这么直白。

大模型

顿悟时刻：Emergent Ability（涌动现象）

在谷歌团队的文章Emergent Abilities of Large Language Models中给出了以下实验结果：

图中八个子图分别对应八个不同NLP任务，虚线是随机乱猜答案的结果，纵轴是准确率，横轴是模型参数的多少。
从图中可以发现，基本上每个任务中，模型在参数小于某个值的时候基本上结果和随机乱猜差不多，随着模型参数变多，准确率结果并不是曲线上升，而是在某个规模上突然爆发式增长。
这也是大模型在训练过程中遇到的难点，由于表现与模型大小不是线性关系，而是在一定量级大小的模型上表现都很烂，无法坚持一直增加模型参数直至出现顿悟现象。
出现这个现象的原因，就是不同大小的模型在解决某些逻辑难题（鸡鸭兔同笼）上有以下现象：

模型规模	原因	得分
小模型	什么都不会	0
中模型	会做但算错，或者反过来	0
大模型	会做且算对	100

从表中可以看到，从小模型到中模型，得分一直都是0，基本靠猜，一直到大模型后才有100分的出现，也就类似顿悟现象。

该文章还给出了另外一个实验结果：

这里第一个子图涉及到上次课讲过的CoT，在图中发现，在模型参数较少的时候，CoT反而会降低模型的性能，只有大模型上使用CoT才能显著提高模型的准确率。这就好比举重项目，小孩子本来就举得轻，你为了提高成绩，让他各种训练，反而影响了小孩发育，成绩更加下降，如果是成年人，他举的重量较大，而且你进行训练后，提高各种技巧，他的成绩可以有很大的提升。
同样的道理，第二个子图是加Instruction tuning的结果。
第三个子图是加Scratchpad 的结果（Show Your Work: Scratchpads for Intermediate Computation with Language Models），这个Scratchpad 是白板的意思，和CoT原理差不多，就是让模型在解题过程中将过程写在白板上。
第四个下面单独介绍。
以上表明某个方法在小模型上实验效果不好不代表在大模型上效果差，还是要以实际表现为准。

Calibration

Language Models (Mostly) Know What They Know这个文章里面讨论了以下一个情况：

上图中上面的杜鹃花节是真实的，且其时间是在三月，因此其生成【三】字的时候概率最大（信心很足）；
下面的玫瑰花接根本就不存在，是模型根据描述自己接上去的，因此其生成【三】字的时候概率会变小（底气不足），只不过做随机sample时候选中了【三】。

上面的例子原文是没有的，只不过为了便于理解，下图是原文的实验结果，横轴是模型生成下一个字的概率（信心），纵轴表示生成的结果是正确的概率，图中不同颜色是不同大小的模型，黄色模型最大。

从图中可以看到，小模型的回答正确率与其信心关系不大，基本是水平直线；但是对于黄色那个大模型，他回答问题概率（信心）越高，其正确率也就越高。这个现象也就是Calibration，也就是说大模型才具有Calibration的能力。回到谷歌那个论文中的图片，

这个图片中的ECE代表上上个图中虚线与曲线之间所夹的面积，越小Calibration现象越明显。

Inverse Scaling Prize

既然模型和训练数据越大越好是通识，那会不会有例外？于是：https://github.com/inverse-scaling/prize就发起了一个Inverse Scaling Prize挑战（有奖金），寻找模型越大性能越差的任务：

下面是这个挑战找到的一些任务：

其中 […]表示其他相同少量样本。
谷歌团队就出了一篇文章：Inverse scaling can become U-shaped来证明大模型是可以完成以上任务的，如果不能完成表示模型不够大~！因此祭出了PaLM，其大小是GPT-3的3倍。

结果如下图所示：

两个子图纵轴都是10个Inverse Scaling任务的平均正确率，横轴左边是算力，右边是模型参数大小。
从图中红色U形的曲线可以知道，之前这些任务在模型中表现都很差，主要是由于模型还不够大，当模型足够大的时候，就会出现U形翻转，性能最后会有提升。

下面以某个典型Inverse Scaling任务为例对U形曲线原理进行分析。
Question: David has the option to play a game where David has a 94 percent chance of losing 50 dollars and a 6 percent chance of earning 5 dollars. David plays the game and ends up earning 5 dollars. Did David make the right decision?
Choose Y or N.
有一个赌局94%会输50元，6%会赢5元，大卫玩了一把赢了5元，请这个大卫的决定是否正确。
虽然从结果上看，赢了5元，决定是正确的，但是从赌局概率上看，赢的期望值为0.3，输的期望值为-4.7，因此大卫玩这个赌局是不正确的决定。

小模型反正瞎猜，准确率基本50%左右，中模型掉入陷阱，反而大概率猜错，只有大模型能看懂并计算出正确的结果。
文章对Inverse Scaling任务进行了分析，得到下表，这些任务包含陷阱任务（Distractor task）和一个真正的任务（True task）：

由于中型模型只能解决陷阱任务，反而性能会下降，只有大模型能看出真实任务从而完成任务。

Switch Transformers

谷歌团队在Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity文章中提出的Switch Transformers模型，参数量高达1.6T。

由于模型太大，其内部包含多个小的模组，在进行evaluation的过程中，只会激活部分模组，例如在上图中左边激活的是模组2，右边激活的是模组1。这样会使得evaluation过程速度很快。

大数据量

纽约大学团队的When Do You Need Billions of Words of Pretraining Data?一文中给出这么一个图：

图中蓝色线代表语言知识（语法），绿色线代表世界知识（常识）。
例如：这块冰很烫手。这句话语法没有错，但是不符合常识。
模型要正确回答问题，必须要同时具备上面两种知识。
从上面的图中可以看到，只需要1B的训练数据的模型就基本上可以完全具备语言知识，而需要30B+的训练数据，模型才能具备常识。

数据预处理

DEEP MIND出品的文章Scaling Language Models: Methods, Analysis & Insights from Training Gopher（120页）提出了Gopher模型。在文章中的A.1.1. Pipeline stages中提到数据的预处理流程：

第一步内容过滤：去掉儿童不宜、违法犯罪的内容，使用的技术不是以关键字为基准，而是以谷歌安全搜索引擎技术为蓝本；
第二步提取内容：提取文字，但保留某些HTML的tag，类似换行、项目符号之类的内容；
第三步去除低质量数据：有些网页为了SOA流量，在网页中嵌入了很多无效的内容，需要去掉；
第四步去重：包括内容同质、转发的重复数据等；
第五步设置测试集数据：因为测试集数据不能在训练集中出现，否则相当于作弊。

去重

谷歌与其他大学合作文章Deduplicating Training Data Makes Language Models Better提出，去掉重复数据可以提升模型的表现。
Colossal Clean Crawled Corpus（C4）语料库中有这么一段文字：
by combining fantastic ideas, interesting arrangements. and follow the current trends in the field of that make you more inspired and give artistic touches. We’d be honored if you can apply some or all of these design in your wedding. believe me, brilliant ideas would be perfect if it can be applied in real and make the people around you amazed!
出现了61,036次。文章最后给出去掉重复值后模型的表现：

上面的百分比是指模型生成语料与训练数据的重复率。从实验中可以看到，不去除重复训练数据，那么模型会有将近2%的几率会直接重复训练数据中的语料。

模型大小与训练数据的选择

假设在算力固定的情景下，我们应该如何选择模型大小和训练数据的多少？

当然不可以选大模型+大数据量，上面就三种选择。
DeepMind的文章Training Compute-Optimal Large Language Models对当下几个大模型进行了统计，发现模型越晚越大，训练数据也类似。

然后针对这节最开提出的问题进行研究，结果如下图所示，图中不同颜色深浅代表不同大小的算力，颜色越深算力越高；纵轴是训练的Loss，越小代表效果越好，接龙接得越准；横轴是模型参数量的多少：

从图中可以看到，不同算力形成的曲线都是U形的，也就是说模型越小和越大都不能带来最好的结果。这里李宏毅给出的例子是：学而不思则罔（小模型大数据），思而不学则殆（大模型小数据）。学就好比是看训练资料，思就好比是模型的参数，二者要平衡性能才能最优。
把上图中的每个曲线的最低点拿出来，形成另外一张图：

这个图说明随着算力的增加，模型大小以及训练资料都要增加才会有最好结果。这里用线性的方式进行了大概的预测。用Gopher的算力为基准，发现其对应的参数大小为63B最好，训练数据为1.4T大小最好。但在上面的表格中Gopher在实作的时候用了280B的参数，300B的Token。
这里当然不够严谨，一方面上面用的线性方式来预测就比较虎，因为后面可能是曲线上升或下降；另外这个实验是用词语接龙任务（预训练）为基准的，在其他推理任务上不一定是这个表现。因此DeepMind在Chinchilla（栗鼠）模型上根据预测出来的模型大小和训练数据量进行验证。结果如下图所示，Chinchilla在57个下游任务上赢了51个，打平2个，输4个。

接下来就以Gopher算力为基准：1，来推断其他不同算力下模型参数大小以及训练数据量的多少

从上图中可以看到PalM对应的520B的参数应该需要11Trillion的训练Token才够，实际上还远远不够，也就是说现在大家都在堆模型的参数，但是训练数据的量还没有跟上，否则表现会更好。
因此在Meta AI提出的LLaMA: Open and Efficient Foundation Language Models中使用的策略就和上面提到的最优平衡设置差不多（最下面一行）：

Instruction-tuning

上节中是以文字接龙任务为目标进行优化的，实际上我们更加在意的是下游任务，之前的04.Finetune vs. Prompt中有提到Instruction-tuning的FLAN，后来有很多研究在这个模型的基础上进行演化，谷歌团队发表的Scaling Instruction-Finetuned Language Models在1.8K个任务上进行了微调，就是想要提高模型通用性。

你可能觉得要训练1800个任务很耗费时间，其实不然，如下图红色矩形框所示，对于540B大小的PaLM模型，只用了0.2%预训练的算力就搞定，原文提到用时37小时。

结果如下，性价比刚刚的：

文章给了一些实例，解释了为什么会这样：

上图中的左上角模型的输入是一个提问，没有经过微调的模型以为要输出其他类似的提问，而经过微调的模型就明白是要回答这个问题；左下角的输入是一个要求，结果没有经过微调的模型以为要续写，而经过微调的模型则正确按要求输出合成词。

Human Teaching

当前很多大模型的套路都差不多：
1.预训练
2.额外labeled数据进行微调
3.使用RL进一步提升模型性能
就连图都给得很像。
ChatGPT

InstructGPT ：https://zhuanlan.zhihu.com/p/626665665

Learning to summarize from human feedback做法也差不多：

下面以InstructGPT 的实验结果为例，看微调以及RL给模型性能带来了哪些提升，下图横轴是模型参数的多少，纵轴是与175B大小的SFT GPT 语言模型结果进行battle的结果（battle过程应该是相同问题，得到不同答案，再由人来判断哪个好，这里的SFT表示supervised fine-tuning，就是用带标签的数据进行微调），最下面一根线是原始GPT，第二根是经过In-context Learning训练的GPT，第三根是baseline：

从图中可以看出，微调过的GPT（SFT）6B大小就与175B的In-context Learning GPT性能相当（两个红色圈圈）；而最小的1.3B的模型经过SFT+RL后，性能与175B的SFT性能相当（两个蓝色圈圈）。也就是说SFT+RL让小模型也有PK大模型的机会。
该文章最后还给出了直接让人类对不同几个模型结果进行选择的结果：

这里大概分析一下，因为在RL阶段，模型的Reward也是人类给的，相当于模型已经揣摩到了人类的需求，预判了人类的预判，所以他的输出表现当然很好。
反观FLAN中训练数据，正常人类不会用这样的NLI沟通方式与模型对话。

KNN LM

常规的文字接龙语言模型原理如下（分类）：

斯坦福与非死不可团队发表的文章Generalization through Memorization: Nearest Neighbor Language Models提出的KNN LM与传统模型不一样的地方如下图所示：

蓝底部分是输入，粉底部分是相当于模型输出的向量表征，KNN LM将所有的训练数据的前部分统统丢入模型，得到一个预测的向量表征，那么这些向量表征对应的Ground Truth应该是黄底那个部分，然后将某个向量表征与其他向量表征计算相似度（距离）得到绿底的结果，然后就可以得到Top k个距离和Ground Truth列表，然后将这个列表进行归一化，得到概率分布，然后对同类项进行合并。
这样做的好处在于使用了原有训练数据作为参考，即使有非常生僻的词语，模型也不用担心不认识，相当于从原有数据中通过比对得到类似结果。类似的在之前有讲过Pointer Network，在对话过程中可以直接copy前文的专有名词。
在实操过程，单独使用KNN生成的概率是没法用的，还需要搭配传统的语言模型得经过Softmax得到的概率分布，二者进行加权平均得到最后结果。（就是上图中Classification和Aggregation两个部分。）
KNN LM的好处就是在硬件资源允许的条件下，可以加载比一般语言模型大得多的比对查询数据的向量表示（这里不是讲训练模型的训练数据，而是用来算最短距离的数据，暂时叫做对比数据）。
模型结果如下图所示：

左图纵轴是困惑度，越小越好，越小表示对生成的句子越不困惑越有信心。纵轴是对比数据量的大小。图中红色线是100M训练数据的训练模型得到的结果，黑色虚线是3B训练数据训练模型得到的结果，蓝色线是加上对比数据来辅助计算Nearest k的结果，随着对比数据量增加，模型性能也随着提高，这里注意的是模型训练数据仅仅用了100M。
右边的图是指Classification和Aggregation两个部分进行加权求和的时候Aggregation部分占的比例 $\lambda$ 的大小，这个大小是学习出来的，可以看到，当对比数据量变大的时候，模型对Nearest k的结果依赖也越大。
这个模型也有缺点，在21年EMNLP的Efficient Nearest Neighbor Language Models文章中给出了结论：

纵轴是困惑度，横轴是模型每秒生成Token的数量，NLM是传统的语言模型，可以看到KNN LM最慢（是NLM的1/10速度），虽然对比数据的向量表征可以提前计算好，但是要生成的向量表征要遍历所有对比数据的向量表征来计算相似度，这个太费时间。

DeepMind也有一篇类似原理的文章：Improving Language Models by Retrieving from Trillions of Tokens，提出的模型叫：RETRO（Retrieval-Enhanced TRansfOrmer）模型结构如图所示：

原理大概也是通过检索Retrieval Database来提升问答的准确度，尤其是那些需要死记硬背的客观知识，相当于将模型从昂贵的事实和世界知识存储中解放出来，大大减少了参数量。国外大神对这篇文章做了可视化：The Illustrated Retrieval Transformer
一个典型的例子就是生成圆周率：

RETRO回答完全正确，因为它有答案可以直接抄。

《基于文本挖掘的青岛市民宿评论分析系统设计与实现》开题报告 Python数据分析与机器学习毕业论文/研究报告数据挖掘数据分析人工智能算法
目录一、选题依据：1.研究背景2.理论意义3.现实意义4.国内外研究现状、水平及发展趋势简述（1）国外研究现状（2）国内研究现状（3）发展趋势二、研究内容1.主要研究内容2.研究方法(1)文献研究法(2)数据挖掘法3.技术路线4.实施方案（1）数据采集与预处理（2）设置LDA主题模型（3）情感分析（4）系统集成与可视化5.可行性分析三、主要参考文献一、选题依据：1.研究背景当下，社会经济蓬勃发展，
通义升级2.1文生视频模型彩色蚂蚁 AIGC应用 AIGC 图像生成音视频
作者公众号大数据与AI杂谈（TalkCheap），转载请标明出处年底果然各家AI视频厂商扎堆更新，昨天才写了一篇Vidu2.0版本更新的测评文章，同天通义也更新了他的文生视频模型，最新版本是2.1版和我两个月前做的测试相比，2.1版文生视频模型能力明显得到了大幅的提升，效果拔群，我总体甚至感觉这个版本可称当前（2025年1月10日）国内最强文生视频模型。那下面那我们来看看它的实际表现注：通义是阿里
【AI测试学习】AnythingLLM+Ollama+DeepSeek部署私人知识库艳Yansky AI测试 Python学习笔记人工智能 DeepSeek Ollama AnythingLLM
1.搭建DeepSeek大语言模型1.1Ollama大预言模型部署Ollama简化了大型语言模型的运行，让每个人都能在本地轻松体验AI的强大，打开浏览器-下载Ollama-输入命令-搞定，这是本地部署大语言模型的全新方式。这里我们借助Ollama大预言模型部署工具进行搭建官网如下：Ollama安装包也可百度网盘获取：安装完成后，桌面右下角会显示ollama图标1.2.安装DeepSeek复制oll
java接口返回值实现数据脱敏不平衡的叉叉树 java java 开发语言
基于jackson，通过自定义注解的方式实现数据脱敏，在需要脱敏的字段上使用该注解即可。由于项目是springboot服务，而jackson相关依赖包已由spring-web、spring-boot-starter-web集成，所以无需单独添加jackson相关依赖包。自定义脱敏注解@Retention(RetentionPolicy.RUNTIME)@JacksonAnnotationsInsi
MySQL索引最左原则：从原理到实战的深度解析
MySQL索引最左原则：从原理到实战的深度解析一、什么是索引最左原则？索引最左原则是MySQL复合索引使用的核心规则，简单来说："当使用复合索引（多列索引）时，查询条件必须从索引的最左列开始，且不能跳过中间的列，否则索引将无法完全生效"为什么会有这个原则？这与B+树索引的存储结构密切相关：复合索引按照定义时的列顺序构建数据先按第一列排序第一列相同的情况下按第二列排序依此类推形成层级结构二、3种典型
中国信通院“护证计划”正式启动，合合信息入选首批技术支撑单位大模型人工智能算法
随着人工智能技术的飞速发展，AI照“骗”在各个行业泛滥成灾，数字图像的真实性面临前所未有的挑战。近日，由中国互联网协会中小企业发展工委会主办的“卓信大数据计划”2025年度会议在京召开。本次会议上，中国信通院、中国互联网协会、中国图象图形学学会以及合合信息、蚂蚁安全实验室等多家企业代表共同启动了以AI守护AI，面向可信证照的专项行动“护证计划”，合合信息成功入选“护证计划”首批技术支撑单位。图说：
秒验三网合一，打破运营商壁垒的用户增长加速器数据库
秒验三网合一，打破运营商壁垒的用户增长加速器在移动互联网用户增长见顶的当下，注册转化率每提升1%都可能带来百万级商业价值。传统手机验证码需用户手动输入、等待短信，且常因运营商通道延迟导致流失。而“三网合一”的一秒验证技术，通过整合移动、联通、电信三大运营商接口，实现“一点接入，全网通行”的无差别验证，正成为APP企业突破增长瓶颈的关键武器。数据显示，采用该技术的APP用户注册转化率平均提升35%，
VS Code Python 开发环境配置 coco_1998_2 #Python #VSCode VS Code Python Ruff
1.安装Python插件快捷键：Ctrl+Shift+X，或者点击左侧的插件面板，安装Python相关插件：PythonJupyter2.推荐修改默认设置快捷键：Ctrl+，，或者点击左侧的设置按钮：SendSelectionToInteractiveWindow-->true选中代码后，按shift+enter打开交互运行窗口并运行python.languageServer->Pylance将P
【Stable Diffusion】AnimatedDiff--AI动画插件使用技巧分享；文生视频、图生视频、AI生成视频工具；乘凉~ 人工智能应用 stable diffusion 人工智能音视频
本专栏主要记录人工智能的应用方面的内容，包括chatGPT、DeepSeek、AI绘画等等；在当今AI的热潮下，不学习AI，就要被AI淘汰；所以欢迎小伙伴加入本专栏和我一起探索AI的应用，通过AI来帮助自己提升生产力；本文的目标就是让每一个读者，都能学会并掌握AnimateDiff的使用；成功用它来生成你想要的视频。AnimateDiff是StableDiffusion的一个插件，借助它，你可以实
2024 开放原子开发者大会活动回顾｜瀚高 IvorySQL 开源数据库在国产软件的开源实践
12月20日-21日，2024开放原子开发者大会暨首届开源技术学术大会在武汉成功举办。大会汇聚开源领域一线开发者和知名学者共同探讨开源领域所面临的关键性挑战问题、研究方向和技术难题，推动跨学科的研究和应用，加速开源文化的广泛传播，推进开源生态可持续性繁荣发展。本次大会设置了多个分论坛，针对不同的技术方向与现阶段趋势热点进行分享和交流。其中，IvorySQL社区受邀在“开源低代码与大模型融合创新发展
清华大学《DeepSeek与AI幻觉》（无套路免费分享） xiecoding.cn 人工智能 deepseek deepseek教程 deepseek与AI幻觉 deepseek清华教程
随着人工智能技术的飞速发展，以DeepSeek为代表的国产大模型正逐渐成为各行各业的重要工具。然而，AI在生成内容时常常会出现“幻觉”——即生成与事实不符、逻辑断裂或脱离上下文的内容。清华大学新闻与传播学院与人工智能学院联合推出的这篇教程《DeepSeek与AI幻觉》，系统性地讲解了AI幻觉的成因、评测方法及应对策略，旨在帮助用户更好地理解和使用AI工具。《DeepSeek与AI幻觉》：https
腾讯云的相关DDoS攻击问题概览
有DDoS攻击会通知吗？在遭受DDoS攻击后，后台会进行告警通知推送。用户也可以根据需求自定义告警的阈值，当流量达到用户设定的告警阈值，将进行通知。服务器没有使用，为什么也遭遇DDoS攻击？DDoS攻击是指：黑客利用DDoS攻击器控制多台机器同时攻击来达到“妨碍正常使用者使用服务”的目的，一般主要是针对您的业务，而并非针对服务器对应的IP和域名。您的业务连接外网通信，就有风险遭受DDoS攻击。购买
基于Python实现的【机器学习】小项目教程案例 xinxiyinhe 人工智能 github python 机器学习
以下是一个基于Python实现的【机器学习】小项目教程案例，结合的经典案例与最佳实践，涵盖数据预处理、模型训练与评估全流程，并附详细代码说明与结果分析：案例1：鸢尾花分类（SVM算法）数据集：IrisDataset（含150个样本，4个特征，3个类别）目标：根据花瓣与萼片长度预测鸢尾花种类步骤：环境准备：安装scikit-learn、pandas、matplotlibpipinstallsciki
【C++阅览室】C++三大特性之继承循环渐进Forward C++学习历程 c++开发语言 c语言数据结构算法
前言：继承在C++中是十分重要的，它在面向对象程序设计时使代码可以复用的重要手段。继承可以允许程序员在保持原有类的特性下进行拓展，增加新的功能，这样产生的类，称为派生类。继承呈现了面向对象程序设计的层次结构，体现了由简到繁的过程。在此之前，我们接触到的都是函数的复用，继承是类设计之间的复用。目录前言：继承的定义继承基类成员访问方式的变化基类和派生类对象赋值转换继承中的作用域派生类的默认成员函数继承
Linux指令篇：netstat Stay Passion linux 运维服务器
查看网络端口和连接状态在Linux系统中，netstat（NetworkStatistics）是一个非常有用的命令行工具，用于显示网络连接、路由表、接口统计信息等网络相关的数据。系统管理员和开发人员常使用netstat来排查网络问题、查看端口状态、监控网络流量等。本文将深入介绍netstat命令如何用来查看系统中开放的端口、网络连接的状态，以及常用的选项，帮助你更高效地管理和排查网络问题。1.ne
BricsCAD BIM软件二次开发：BricsCAD_BIM软件LISP编程入门 kkchenjj 仿真模拟 lisp 开发语言工业软件仿真模拟工业软件二次开发
BricsCADBIM软件二次开发：BricsCAD_BIM软件LISP编程入门BricsCADBIM软件简介BricsCAD_BIM软件概述BricsCADBIM是一款由Bricsys开发的建筑信息模型（BIM）软件，它基于AutoCAD平台，提供了强大的2D绘图和3D建模功能，同时集成了BIM技术，使用户能够在设计过程中实现更高效、更精确的建筑信息管理。BricsCADBIM不仅适用于建筑师，
preview窗口 unity_Unity3D 在Inspector中预览场景 weixin_39957186 preview窗口 unity
在Project窗口中点击模型，可以在Preview窗口中进行预览(见下图)，但是场景却不能预览。当项目中有比较多的场景，而场景中内容多的时候，我们需要双击每一个打开它才能查看内容，比较耗时。今天我们来实现一下类似3D物体预览的场景预览。当单击场景的时候，可以直接快速的在Inspector中显示他们的内容。效果如下：创建一个ScenePreview.cs文件，将下面代码复制进去。完整代码如下：us
上海第二批49家创新型企业总部名单出炉，合合信息入选人工智能算法大数据大模型
创新型企业是上海现代化产业体系的重要组成部分，是上海高质量发展的活力所在。近期，上海为新认定的第二批49家创新型企业总部进行授牌，着力为创新型企业在沪发展壮大营造良好环境。此次获授牌的企业总部涵盖集成电路、生物医药、人工智能、数字经济、战新综合等重点产业领域，上海合合信息科技股份有限公司（股票代码：688615.SH）成功入选第二批49家创新型企业总部名单，系人工智能领域获奖企业之一。图说：上海市
深入详解人工智能机器学习：强化学习猿享天开人工智能基础知识学习人工智能机器学习强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning,RL）是机器学习中的一个重要领域，其核心目标是通过与环境的交互学习如何采取行动以最大化累积奖励。与监督学习不同的是，强化学习不依赖于给定的输入输出对，而是通过试探和反馈不断改进决策策略。强化
【AI论文】SongGen：用于文本到歌曲生成的单阶段自回归Transformer模型东临碣石82 人工智能回归 transformer
摘要：文本到歌曲生成任务，即根据文本输入创作歌词和伴奏，由于领域复杂性和数据稀缺性，面临着重大挑战。现有方法通常采用多阶段生成流程，导致训练和推理过程繁琐。在本文中，我们提出了SongGen，一个完全开源的单阶段自回归Transformer模型，专为可控歌曲生成而设计。该模型能够对多种音乐属性进行细粒度控制，包括歌词、乐器描述、流派、情绪和音色等文本信息，同时还提供可选的三秒参考片段用于声音克隆。
自学c++之stl 拾萤 c++开发语言
stl六大组件，容器、算法、迭代器、仿函数、适配器、空间配置器容器各种数据结构，例如：vector、list、deque、set、mapvctor#include#include#includeusingnamespacestd;voidmyprint(intval){coutv;//相当于数组//插入数据v.push_back(10);v.push_back(20);//通过迭代器来访问数据//
低代码革命：基于DeepSeek微调模型实现前端代码自动生成与私有JS API调用的实战指南 Light60 低代码实战篇 AI应用低代码开发 DeepSeek 微调模型 JavaScript API 智能生成
摘要本文探讨如何微调DeepSeek平台的大语言模型，以实现前端代码的智能生成与自建JavaScriptAPI库的无缝调用。从模型训练、代码生成到API集成，提供全面的实战方法论，结合CodeBLEU评估指标与异步调用优化技巧，确保代码质量与执行效率。通过具体案例演示，帮助开发者突破低代码开发瓶颈，实现高效、安全的可视化开发。关键字：低代码开发、DeepSeek、微调模型、JavaScriptAP
猿大师播放器：HTML内嵌VLC播放RTSP视频流，无需转码，300ms级延迟，碾压服务器转码方案猿大师播放器网页播放RTSP视频流猿大师播放器服务器运维 vue.js h.265
在智慧城市、工业安全、应急指挥等关键领域，实时视频监控已成为守护生命与财产的核心防线‌。然而，行业普遍面临三大矛盾：‌实时性要求与高延迟矛盾‌：火灾蔓延速度达1米/秒，化工泄漏扩散仅需数秒，传统方案3秒以上的延迟可能导致应急决策失效‌；‌高清化趋势与成本压力矛盾‌：4K/H.265设备普及率超70%，但服务器转码导致画质损失30%、夜间车牌识别率下降45%‌；‌多场景需求与方案割裂矛盾‌：安防、消
JS宏案例：在wps编辑器中玩numpy jackispy JS宏实例 numpy 数据分析 javascript
NumPy是Python中用于科学计算的一个基础库，它提供了大量的数学函数工具，尤其是用于高效处理大型多维数组和矩阵。NumPy是Python数据分析、机器学习、科学计算等领域中不可或缺的一部分。然，在wps的js宏编辑器中，并没有这样一个模块或是全局对象，但是，问题不大，我们可以手搓一个。不过，要使用JS完全模拟python中的numpy是比较困难的，工作量也非常的大，我们可以适当简化一下，如只
libjuice——打破网络壁垒的UDP通信利器俞予舒Fleming
libjuice——打破网络壁垒的UDP通信利器libjuiceJUICEisaUDPInteractiveConnectivityEstablishmentlibrary项目地址:https://gitcode.com/gh_mirrors/li/libjuice在现代互联网应用中，穿越复杂的网络环境，实现两端设备之间的直接通信是一大挑战。尤其是在存在网络地址转换（NAT）的情况下，两个位于不同
饿了么算法工程师-AIGC岗内推飞300 AIGC 业界资讯
1、紧跟业界最新自然语言处理技术动态，深入研发并努力创新，特别是在LLM、多模态理解和LLMAgent领域。2、基于大型语言模型开展文本生成、自然语言理解以及智能对话系统的研发，提出新颖的算法/模型，并进行实际开发和应用。3、探索多模态数据的结合，包括图像、文本、语音等，以丰富智能系统的理解和交互能力。4、将自然语言处理技术与具体业务场景相结合，考虑业务的特殊性并适配业务需求。参与到具体的NLP相
30KPA180A单向二极管：高效能电路保护的理想之选 GR6692 二极管数据库管理员 python eclipse 物联网
30KPA180A单向TVS瞬态抑制二极管二极管产品已经跟我们的生活有着密不可分的联系了，TVS瞬态抑制二极管，是一种高效能保护二极管，产品体积小、功率大、响应快等诸多优点，产品应用广泛。TVS瞬态抑制二极管30KPA180A，是一种二极管形式的高效能被动保护器件贴片TVS瞬态抑制二极管详情简介TVS瞬态抑制二极管30KPA180A极性(单双向)：单向VRWM(V)电压180V最大箝位电压@IPP
2025年，值得关注的LLM大趋势 AI小白熊人工智能产品经理 python 开发语言学习 ai 大模型
随着人工智能技术不断进步，大语言模型正在改变各行各业的运作方式。从代码生成到语言学习应用，GenAI已经渗透到我们日常生活的方方面面。随着像上个月OpenAI的“12天”计划或谷歌的Veo2和Imagen3等新技术的发布，我们看到了快速的创新迭代。面对这些变化，2025年LLM的大趋势值得我们关注。LLM的新兴应用：不仅仅是聊天机器人回想起最初我们用ChatGPT来生成代码或修改文本时，可能没有意
北京大学DeepSeek提示词工程与落地场景（PDF无套路免费下载） xiecoding.cn 人工智能 deepseek入门 deepseek deepseek入门到精通 deepseek大模型
近年来，大模型技术飞速发展，但许多用户发现：即使使用同一款AI工具，效果也可能天差地别——有人能用AI快速生成精准方案，有人却只能得到笼统回答。这背后的关键差异，在于提示词工程的应用能力。北京大学联合DeepSeek团队推出的《DeepSeek提示词工程与落地场景》教程，正是为了解决这一痛点，通过系统化的方法论和丰富的案例，帮助用户解锁AI的真正潜力。《DeepSeek提示词工程与落地场景》PDF
Unity3D实现编辑器截屏Preview窗口,并生成图片PNG 心疼你的一切 Unity工具编辑器 java 开发语言 unity 心疼你的一切 c#游戏引擎
系列文章目录unity工具文章目录系列文章目录前言一、Preview窗口二、手动选择预制体截屏二、自动选择预制体截屏壁纸分享总结前言想要在Unity编辑器中截取Preview窗口的截图，并生成图片的代码。有时候可能会需要此模型的图片，又不想P图，所以只有最快的解决办法，那就是用此模型的预览图，当做模型的图片，如果你非要美工画，或者建模的渲染图，也都是可以的。Unity的编辑器窗口有不同的类型，例如
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/pwd@192.168.0.5:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理