HxShine

符尧：别卷大模型训练了，来卷数据吧！【干货十足】

大家好，我是HxShine。

今天分享一篇符尧大佬的一篇数据工程（Data Engineering）的文章，解释了speed of grokking指标是什么，分析了数据工程（data engineering）包括mix ratio（数据混合比例） + data format（数据格式） + data curriculum（数据课程）以及模型规模对speed of grokking的影响，同时用一个生动的随机数生成的例子讨论语言模型学习的本质，干货十足，分享给大家～

一、概述

Title：An Initial Exploration of Theoretical Support for Language Model Data Engineering. Part 1: Pretraining

文章地址：https://yaofu.notion.site/An-Initial-Exploration-of-Theoretical-Support-for-Language-Model-Data-Engineering-Part-1-Pretraini-dc480d9bf7ff4659afd8c9fb738086eb

1 Motivation

最近大模型开源社区研究热点开始从model engineering转移到data engineering，大家开始意识到数据质量的重要性。
data engineering的理论还不太成熟，例如：好数据的准确定义是什么？，如何优化数据的结构组成？我们的优化目标是什么？
对data engineering进行理论分析可以帮助我们在正式跑实验前预测每个task最终的performance，openai在gpt4的技术报告中提到了这点，非常有意义。

2 Methods

本文不提出优化数据的具体方法，仅讨论数据工程（data engineering）时应该解决的问题是什么，以及指导我们的基本原则。具体来说，我们讨论预训练和 SFT 数据优化的以下目标：

预训练阶段数据优化：找到最优的混合比例+数据格式+数据课程=>使学习速度最大化。
监督微调/指令阶段调整数据优化：寻找最小的query-response pairs(最小的训练数据)=>使用户偏好分布的覆盖范围最大。

3 Conclusion

解释了可能更好的衡量评估指标speed of grokking（获取某技能的速度）是什么，其可能更具有泛化性并且更贴近于特定的skill能力。
分析mix ratio（数据混合比例） + data format（数据格式） + data curriculum（数据课程？）以及模型规模对speed of grokking的影响。
讨论llm模型最终学习到的是什么，以及可能的一些更好衡量模型效果的metrics。

二、详细内容

1 预训练能力评估指标：speed of grokking（获取某技能的速度）

1.1 grokking是什么？

Aggregating curves of different skills lead to an overall loss curve.[1]

如上图，在训练开始时，模型记忆了训练数据，但测试精度比较低并且没有变化。随着训练的进行，从第35k步到第45k步有一个相变期，模型突然从记忆过渡到泛化，在测试集上显示出 100% 的准确率。学习过程中的这种阶段性变化被称为“grokking”。

1.2 speed of grokking和loss函数的优缺点是什么？

通常预训练模型评估指标：下一个单词预测损失（考虑到它与无损压缩的联系，信息量很大），但是loss函数并不能反映其在具体下游任务上的性能表现。

本文提到的评估指标：考虑speed of grokking摸索速度（模型获得特定技能的速度）可能是一个不错的选择替代指标。

说明：模型学习不同粒度技能的速度是不一样的，例如以下技能的难易程度不一样，模型能够学会解决这些问题所需要的时间也不一样，通过比较不同data engineering方法学习同一技能的速度（speed of grokking），可能是一个不错的评估方式。

不同粒度的技能对比：

单一技能：如两位数加法 => 难度低，学习速度块
聚合技能：一位数加法+两位数加法+两位数减法+…… => 难度中，模型所需要的学习时间中等
下游表现：GSM8k 数学作业题表现 => 难度大，模型所需要的学习时间最长

2 数据因素对speed of grokking的影响

本节主要讨论观察到的影响学习速度的数据因素，重点关注data format, mixture, and curriculum 这几个方面对模型的影响。

2.1 Format of data（训练数据格式）对模型的影响

Different format of the data gives different speed of learning. Also note that they are the same data — same equation same answer, only the formats are different.[2]

数据说明：

Plain：没有任何COT中间结果
Reverse：倒过来
Simplified Scratchpad：提供部分中间COT推理结果作为训练数据
Detailed Scratchpad：提供详细的COT推理结果作为训练数据

结果：

利用越详细的COT中间结果来训练模型，模型学习的速度越快。
并不是其他Format of data不能学习到最终的结果（2，3，4的精度最后都到100%了），而是看谁的学习速度最快。

2.2 Curriculum of data（数据课程：按照一定的课程顺序编排训练数据，使模型学到的效果最佳）

什么是data curriculum？

假设：我们想要模型具备文本生成和代码生成能力，我们有 10B 文本和 10B 代码，计算资源只允许我们训练 10B 数据。希望使模型的代码生成能力最强。以下是三种可能的解决方案：

方法1（仅限代码）：直接馈送10B代码数据
方法2（均匀混合）：将5B文本和5B代码数据均匀混合，然后将它们同时输入模型
方法3（data curriculum）：先输入5B文本，然后输入5B代码

哪一个能表现得最好？

如果模型从文本数据中学习的技能对代码数据没有帮助，那么我们可以直接执行方法1，仅利用代码数据来训练模型，就像StarCoder和AlphaCode的情况一样。
如果模型从文本数据中学习的技能可以转移到代码数据中，那么我们可能想做方法2，均匀混合
如果学习代码技能需要模型先有文本技能，也就是说文本和代码之间有依赖关系，并且文本必须先有，那么我们需要做方法3，data curriculum（数据课程）。Codex 和 CodeLLaMA 就是这种情况（尽管他们可能不是故意选择这样做的）。

参考结论

Different source of data induces different skills. Training on a particular ordering of data can give faster learning speed than training on skill-specific data.[3]

（a）：想提高skill 3任务的效果，对比只在skill 3数据上训练和在skill 1，2，3数据上训练，发现在skill 1，2，3任务上训练收敛的速度更快。

（b）：想提高skill 1任务的效果，对比只在skill 1数据上训练和在skill 1，2数据上训练，发现在skill 1，2任务上训练收敛的速度更快。

（c）：想提上Spanish QG的效果，对比只在Spanish语料和同时在【spanish、English】语料训练，发现在【spanish、English】语料收敛速度慢点，但是最终效果更好。

（d）：stance detection任务，也是在stance detection和text matching数据上同时修炼，最终的效果更好。

总结：叠加其他类型的数据，按照一定顺序来训练模型，可能比只在单一任务上训练效果更好，收敛速度更快。

2.3 Mix ratio（各部分数据比例对模型的影响）

LLaMA各部分数据占比

LLaMA data mix ratio. This ratio down weights code data like Github and StackExchange, also it down weights paper data like Arxiv.[4]

总结：

LLaMA数据中Github的数据占比不高，他的coding表现也不太好，而starcode，大部分采用code数据训练，在coding task上效果比较好。
LLaMA数据中Paper类的训练数据像Arxiv比较少，看起来科学推理效果也不高，而Galactica模型，大部分采用papers的数据，在科学推理上效果比较好。

不同的mix ratio可能造成不同的speed of learning：

Different mix ratio of data improves speed of learning.[5]

结论：好的混合比例pile提上了模型的表现，使其有更好的学习曲线，让模型能给更快的从数据中进行学习。

2.4 Caveat：model scaling（模型尺寸大小对数据工程的影响）：小于30B模型上data engineering有效果不代表大于70B的模型上该方法也会有效果

例如：代码数据真的能提升模型的推理能力吗？

7B模型：添加代码数据后，可以提升符号推理像Symbolic reasoning, like BABI and BBH-Algorithmic的效果，以及提升符号数据和语言数据的翻译能力，像such as structure-to-text or text-to-sql能力。
70B模型：对BBH-Algorithmic效果没有提升
代码数据对自然语言推理，像Natural language reasoning, like BBH-Language数据效果没有提升，对数学推理，像Math reasoning, like GSM8K的效果也没有提升。

总结：代码数据对小模型像7B模型的推理能力可能有一定帮助，但对大模型70B就没有帮助了。一些其他的观察也有出现这样的情况。如果真是这样，那可能不需要来做数据工程了，像data format / curriculum / mix ratio都没必要再做了，只需要做一些数据清洗工作就够了。

3 其他

3.1 不同skll学习曲线和整体loss曲线的关系

Aggregating curves of different skills lead to an overall loss curve.[6]

总结：

单技能的学习曲线通常表现出相变形状（在某个时间节点突然顿悟了）
模型学习不同skill的speed是不同的
集成多个skill到一块，我们可以获得一个平滑的log形状的loss曲线，说明loss函数可能只能反映一个整体的表现，而非每个具体task的效果。

3.2 loss和single-skill accuracy评价指标的优缺点

LOSS：优点：可预测，和整体表现强相关，能解释成压缩比例。缺点：不能直接翻译成下游任务的表现。
Single-skill accuracy（meso or macro level）：只能衡量single skill的效果。
其他可能的metrics：

与能力方向很好地结合（比如推理）Aligns well with a direction of capability (say reasoning)
可以从第一原理推导出来（如信息论）Can be derived from first principles (like information theory)
衡量我们与“真正的生成过程”的接近程度，例如某种相互信息 Measures how close we are to the “true generative process”, like some sort of mutual information

3.3 模型学习是真正人类生存语言的过程而非记住数据（以随机数生成为例）

说明：这里以随机数无损压缩揭示了模型学习真实的生成的过程，说明模型是学习生成过程，而非随机生成的100B或者50B的随机数

随机数生成算法。例如，[Python随机数生成算法](https://github.com/python/cpython/blob/3.11/Lib/random.py)有904行代码，31.4 kb 磁盘内存。
使用此算法生成 100B 伪随机数。
将这100B随机数发送给朋友并要求朋友对其进行压缩。
在不了解底层生成过程（算法）的情况下，如果使用一些常见的压缩软件（例如 gzip），他们最终可能会得到 50B 左右的文件，压缩率很低。
如果以某种方式弄清楚了随机数生成算法和初始种子，只需存储算法和种子，只需要 31.4kb 磁盘内存，这是极高的压缩比。
大型神经网络及其学习算法，类似于上述过程，使用大量观察来恢复底层生成过程（数据生成算法）。压缩比/训练损失越高，他们恢复潜在生成过程的可能性就越大。

三、总结

本文回顾了语言模型学习的一些现象grokking, log-linear scaling law, emergent abilities，以及影响学习速度的数据因素data format, mix ratio, and curriculum（数据格式、混合比例和课程）。

总结1: 数据工程的目标是建立一种理论并指导我们做数据（以及其他重要的学习因素），以便我们可以在没写一行代码时就可预测每项任务的最终表现（而不仅仅是预训练损失）。例如OpenAI 报道称，在 GPT-4 的开发过程中，他们在实验前预测了 HumanEval 的性能。我们相信这种预测可以通过一个未知定理来统一，该定理能够预先预测所有下游性能。

总结2: 不同的data format, mix ratio, and curriculum确实可能会提升模型的学习速度，甚至最终的效果。例如为了提升代码能力，code-LLaMA2先在文本数据上训练，然后在代码数据上训练。

总结3: 一些数据工程对小模型有提升，但不意味着在大尺寸的模型上也有效果。例如code数据只对7B大小的模型的推理能力有帮助，对70B的模型效果没有提升。

模型4: 语言模型学习的是真正的语言生成过程，而非记住数据。这里以随机数压缩的例子说明模型之所以能够学习，是因为模型学习在无损压缩的角度下近似真实的生成过程。

总结5: 不同skill模型学习的speed是不一样的，模型的loss函数不能真正反映模型学习各种task的能力，它只是一个整体的表现评估指标。

四、参考

[1] Michaud E J, Liu Z, Girit U, et al. The quantization model of neural scaling[J]. arXiv preprint arXiv:2303.13506, 2023.

[2] Lee N, Sreenivasan K, Lee J D, et al. Teaching Arithmetic to Small Transformers[J]. arXiv preprint arXiv:2307.03381, 2023.

[3] Chen M F, Roberts N, Bhatia K, et al. Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models[J]. arXiv preprint arXiv:2307.14430, 2023.

[4] Touvron H, Martin L, Stone K, et al. Llama 2: Open foundation and fine-tuned chat models[J]. arXiv preprint arXiv:2307.09288, 2023.

[5] Xie S M, Pham H, Dong X, et al. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining[J]. arXiv preprint arXiv:2305.10429, 2023.

[6] Michaud E J, Liu Z, Girit U, et al. The quantization model of neural scaling[J]. arXiv preprint arXiv:2303.13506, 2023.

五、更多文章精读

LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的？

大模型开源之光LLaMA2今天发布了，再来读下LLaMA1原文吧

Meta AI | 指令回译：如何从大量无标签文档挖掘高质量大模型训练数据？

TOT(Tree of Thought) | 让GPT-4像人类一样思考

OpenAI ｜ Let’s Verify Step by Step详细解读

进技术交流群请添加我微信:FlyShines

请备注昵称+公司/学校+研究方向，否则不予通过

如果觉得文章能够帮助到你，点赞是对我最好的支持!

contentLengthFilterRegistrationBean导致SSE连接断开
好好的SSE代码复制到项目里直接发送消息可以，却无法异步发消息，经过痛苦的排查发现有人加了过滤器给所有请求加了Content-Length头，导致SSE连接中断，因为在SSE请求上强制添加Content-Length，浏览器会认为响应已经结束，导致后续数据无法接收。所以异步发送消息接收不到是因为连接已经断了。解决方案是在过滤器中识别SSE请求（通过Accept:text/event-stream头
Java数据结构-----Map和Set
目录引入：模型：Map的使用：常见方法：Set的使用：常见方法：搜索树概念：操作：查找：插入：删除：哈希表概念：冲突哈希函数设计负载因子的调节解决哈希冲突闭散列开散列引入：Map和set是一种专门用来进行搜索的容器或者数据结构，其搜索的效率与其具体的实例化子类有关。以前常见的搜索方式有：1.直接遍历，时间复杂度为O(N)，元素如果比较多效率会非常慢2.二分查找，时间复杂度为O(logN),但搜索前
图解Java数据容器（一）：List 小W求学之旅 java list spring 数据结构
在Java开发中，List是最常用的数据结构之一，它提供了有序、可重复的元素存储能力。本文将深入剖析Java中几种主要List实现的核心特性、适用场景及性能差异，并通过流程图和代码示例帮助读者全面掌握。一、List接口概览List接口继承自Collection，定义了有序集合的行为规范，主要特性包括：有序性：元素按照插入顺序或指定顺序排列可重复性：允许存储重复元素索引访问：支持通过索引（下标）快速
分库分表之实战-sharding-JDBC绑定表配置实战
大家好，我是工藤学编程一个正在努力学习的小博主，期待你的关注实战代码系列最新文章C++实现图书管理系统（QtC++GUI界面版）SpringBoot实战系列【SpringBoot实战系列】Sharding-Jdbc实现分库分表到分布式ID生成器Snowflake自定义wrokId实战环境搭建大集合环境搭建大集合(持续更新）分库分表分库分表之实战-sharding-JDBC水平分库+水平分表配置实战
C语言：第03天笔记 Star在努力 c语言笔记算法
C语言：第03天笔记内容提要运算符算术运算符赋值运算符关系运算符逻辑运算符逗号运算符位运算运算符各类数值型数据间的混合运算整型、浮点型、字符型数据可以进行混合运算，如：10-'a'*1.5=10-97*1.5//保证参与运算的都是数字=10.0-97.0*1.5//不同数据类型可以参与运算，编译器会自动将其转换为同一数据类型后再运算（隐式类型转换）解释：整型、浮点型、字符型之间都可以参与混合运算，
17.Spring Boot的Bean详解（新手版）全栈凯哥全栈项目 spring boot java 后端
文章目录1.什么是Bean？从零开始理解1.1Bean的定义1.2为什么需要Bean？1.3Beanvs普通对象的区别2.Spring容器：Bean的家2.1什么是Spring容器？2.2容器的工作流程3.Bean的声明方式详解3.1使用@Component及其专门化注解3.1.1@Component-通用组件3.1.2@Service-业务逻辑层3.1.3@Repository-数据访问层3.1
机器学习-K近邻算法 shy_snow python 机器学习机器学习近邻算法人工智能
k-近邻分类算法，即物以类聚的思想，通过已知分类中的点和未知分类的点距离最近的前k个点的分类来预测未知点的分类。kNN.pyfromnumpyimport*importoperatordefcreateDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']returngroup,label
第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
使用Python调用C++：简单易学的方法程序员杨弋 Python全栈工程师学习指南 python c++开发语言
Python是一种易于学习和理解的编程语言，而C++是强大的编程语言。Python代码可以在很短的时间内编写出来，但如果涉及到大量的计算或需要高性能，则需要使用更快、更高效的编程语言。在这种情况下，Python调用C++是一种常见的方法，因为它可以提供C++的高速性能和Python的便捷性。在本文中，我们将介绍如何使用Python调用C++。首先，需要创建C++函数库（DLL），并确保该库包含需要
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
get和post获取数据的方式曦紫沐 get获取数据 post获取数据登录注册
1、获取get请求提交的数据当发生GET请求的时候，可以通过request.GET['名称']的方式来获取请求提交的数据2、POST获取数据ifrequest.method=='POST':if'name'inrequest.POSTandrequest.POST['name']value=request.POST['name']returnHttpResponse(value)else:retu
Ajax Get请求获取后台返回的数据 qi_rui_a Php
/**Ajax对象的成员*属性:responseText:以字符串形式接受返回的数据*readyState:*0:刚创建ajax对象*1:已经调用open方法*2:已经调用send方法*3:已经返回部分数据*4:请求完成,数据返回完整*onreadystatechange:事件:当readystatus发生改变的时候*方法:*open()创建新的http请求*send()把请求发送给服务器**/f
C++调用python的方法
一、C++中调用python接口在线手册：https://docs.python.org/3/c-api/intro.htmlWindows环境下python安装时提供了给C++调用的头文件及库文件。C++中引用头文件include，放在所有标准引用之前。将头文件目录、库文件目录添加到工程属性。调用python提供的API，传入模块名、函数名、函数参数（封装成PyObject的形式）获取返回值并解
《破局节点失效：Erlang分布式容错系统的自愈机制与恢复逻辑》后端
节点故障是无法根除的常态——硬件老化、网络波动、资源耗尽等因素，随时可能让某个节点从集群中“消失”。Erlang语言凭借其面向并发的设计哲学与原生分布式支持，成为构建容错系统的优选工具。但真正的挑战不在于避免故障，而在于当节点失效时，系统能否像有机体自愈般自动恢复，这需要对Erlang的进程模型、分布式通信与状态管理进行深度挖掘，构建一套从故障感知到服务续接的完整逻辑闭环。Erlang节点间的默认
项目篇：加入Python程序之如何在Python中使用C++？ guangcheng0312q python c++windows 开发语言
项目篇：加速Python程序之如何在Python中使用C++？通常像一些耗时的操作，我们期望在C++中去实现，然后使用Python去调用对应的接口，或者因为底层库的原因，需要支持对外的PythonAPI，那么我们通常需要支持在Python中访问C++，如何实现呢？方法比较多，本节以pybind11为例，引入一个完整的项目工程模版，如果你后续有这种需求，可以基于模版去修改。注：(懒人版)本节的所有代
1. RAG 权威指南：从本地实现到生产级优化的全面实践 javascript
1.RAG权威指南：从本地实现到生产级优化的全面实践大型语言模型（LLM）的知识受限于其训练数据，这是一个众所周知的痛点。检索增强生成（RAG）技术应运而生，它如同一座桥梁，将这些强大的基础模型与企业所需的实时、动态信息连接起来，极大地拓展了AI的能力边界。RAG将LLM从一个封闭的知识库，转变为一个能够提供准确、实时且紧密贴合上下文的动态工具。本文将作为你的向导，带你深入探索RAG的世界。我们首
Python vars() 函数：探索对象的内部程序员喵哥 Python python 开发语言
更多Python学习内容：ipengtao.comPython是一门具有强大而灵活的编程语言，可以访问和探索对象的内部属性。vars()函数是Python标准库中的一个强大工具，它可以获取对象的属性和属性值，并以字典的形式返回它们。在本文中，将深入研究vars()函数，探讨它的用途、示例和适用场景。前言在Python中，对象是一切。对象可以是数字、字符串、列表、字典、函数、类实例等等。每个对象都可
ShardingSphere技术解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
并发编程与MyBatis核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC 架构详解 Java廖志伟 Java场景面试宝典 Spring MVC Web Application Development MVC Architecture
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
AI技术正在深度重构全球产业格局，其影响已超越工具属性，演变为推动行业变革的核心引擎。
一、AI如何重塑AI的工作与行业（AI助手领域）能力升级理解与生成：基于LLM（大语言模型），AI能处理开放式问题、撰写报告、翻译代码，替代部分人类知识工作。个性化交互：通过用户历史对话分析，提供定制化建议（如学习计划、投资策略）。多模态扩展：结合图像/语音识别（如GPT-4V），实现图文分析、医学影像解读等跨模态任务。行业变革客服行业：AI客服处理70%+常规咨询（如阿里小蜜），人力转向复杂问题
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
运维工程师发展路线 SZHCI 运维
一、运维工程师发展路线1.传统运维侧重点是解决具体的问题。要求具备扎实的底层的知识储备，如网络、linux、数据库、硬件设备调试、服务部署等。以及一定的故障处理能力和经验，能够快速解决问题，实施变更。能够处理突发故障，顺利完成服务的部署，变更的实施。2.云计算运维侧重点是开源技术方案的使用，为云服务的稳定提供保证。随着业务不断发展，服务器规模扩大，就需要具备大规模服务器的批量管理能力。要求对开源技
如何在 Linux 上使用 cURL 下载文件？| cURL 命令详解 vvw& 开源项目推荐 Linux 技术文章 linux 运维服务器 ubuntu 开源 curl wget
简介如果你正在寻找快速答案，那么curl-O命令可让你使用curl命令行实用程序下载文件。当然，关于使用curl下载文件，除了-O参数之外，还有很多东西需要学习。我们将展示如何使用curl在Linux上下载文件，并提供多个curl下载命令的示例，你可以使用这些命令来满足不同的要求。如果你不熟悉curl，我们建议你通读本文。如果你熟悉curl但只需要快速回顾一下，请随意跳转到特定部分。什么是curl
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
【论文笔记】GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
原文链接：https://arxiv.org/abs/2506.00034v1简介：现有的多传感器融合方法多使用基于注意力的拉直(flatten)融合或通过几何变换的BEV融合，但前者可解释性差，后者计算开销大（如下图(a)(b)所示）。本文提出GaussianFusion（下图(c)），一种基于高斯的多传感器融合框架，用于端到端自动驾驶。使用直观而紧凑的高斯表达，聚合不同传感器的信息。具体来说，
扩散模型（Diffusion Model）简介
参考：Diffusionmodel—扩散模型-CSDN博客；由浅入深了解DiffusionModel-知乎；https://arxiv.org/abs/2308.093881.概述扩散模型是一种生成模型。可用在视觉生成任务上，如图像超分辨率、去模糊、JPEG伪影移除、阴影移除、去雾/霾/雨等等。扩散模型分为前向（扩散）过程和逆过程。前向过程逐步为图像增加逐像素噪声，直到图像满足高斯噪声；逆
MySQL窗口函数学习小菜0-o mysql 学习 java
视频链接基本语法窗口限定一个范围，它可以理解为满足某些条件的记录集合，窗口函数也就是在窗口范围内执行的函数。基本语法窗口函数有over关键字，指定函数执行的范围，可分为三部分:分组子句(partitionby)，排序子句(orderby)，窗口子句(rows)over(partitionbyorderbyrowsbetweenand)窗口函数适用于在不破坏原有表结构的基础上，新增一列窗口的确定分组
【线上故障排查】缓存穿透攻击的识别与布隆过滤器（面试题 + 3 步追问应对 + 案例分析）程序员岳彬从项目到面试：Java 高频面试题场景化通关指南缓存 java 后端 spring boot linux redis
一、高频面试题问题1：什么是缓存穿透？它对系统的核心危害是什么？参考答案：缓存穿透指的是用户请求的数据在缓存和数据库中都不存在，导致请求直接绕过缓存打到数据库。核心危害是大量无效请求会耗尽数据库资源，比如CPU、内存或连接数，严重时可能引发数据库宕机，进而导致整个系统崩溃，影响服务可用性。第一步追问：缓存穿透和缓存雪崩有什么本质区别？参考答案：两者本质不同。缓存穿透是请求不存在的数据，攻击或逻辑漏
MySQL事务实现原理巴里巴气 MySQL知识记录 mysql 数据库
目录MySQL事务介绍事务基础及其实现原理回滚日志MVCC多版本并发控制事务的特性多个事务同时执行出现的三种现象四种隔离级别及其实现原理尽量不要使用长事务MySQL事务介绍要保证⼀组数据库操作，要么全部成功，要么全部失败事务是在存储引擎层实现的,MySQL是支持多存储引擎的系统,不是所有的存储引擎都支持事务,目前最常用的存储引擎InnoDB是支持事务的事务基础及其实现原理回滚日志回滚日志是一种用于
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen