哦豁灬

deepseek(1)——deepseek 整体架构

deepseek 最新的主要是两个模型：

通用多模态大模型 deepseek-v3，671B，通用模型，用于常见日常问题
推理模型 deepseek-r1,671B，推理模型，擅长处理复杂、需要多步思考的问题，适合做深度研究、解决代码/数学问题

DeepSeek-R1 是首个验证了仅通过 RL（强化学习）无需 SFT （监督微调）就能得到大幅推理能力增强和涌现的模型。这种训练方式大幅降低了数据标注成本，简化了训练流程，整体训练成本也得到了降低。

deepseek 的特点：

在DeepSeek-R1 之前，模型较为普遍训练路线是 SFT 结合 RL（监督微调结合强化学习），而 DeepSeek 在本次发布中首次在实验里验证了仅通过 RL 也能带来能力提升。
多头潜在注意力机制（Multi-Head Latent Attention），这能够显著降低推理阶段的成本、提高效率。

1 deepseek MOE 架构

上图展示了 deepseek 从传统的 MoE 模型架构（a）的基础上，做的两部分改进（b）与（c）：

传统的 MOE 模块（a）：MOE 模块包含 $N$ 个前馈神经网络（FFN）专家，根据输入数据的特征动态选择最合适的 $K$ 个专家进行处理，而不是激活所有专家。所有专家的参数总和构成了整个 MoE 模块的参数量，在前向计算过程中，只激活了部分专家，实际参与计算的参数量被称为激活参数量。激活参数量小于 MOE 模块参数量。例如，Mixtral 8*7B 模型包含8个专家，每次选择其中的2个专家进行计算，模型的总参数量为46.7B，而激活参数量为12.9B。
细粒度专家划分（b）：deepseek 把传统 MOE 的 $N$ 个专家做更细粒度的划分，降低每一个专家的参数量，增大专家数量。将 $N$ 个专家拆分成 $m N$ 个专家，每一个专家的隐层维度变成原来的 $\frac{1}{m}$ 相应的每次会激活 $m K$ 专家。这样一来，MOE 模块的参数量和激活参数量保持不变，但是对于专家的组合可以更加灵活。
共享专家分离（c）：把激活专家分为共享专家（Shared Experts）和路由专家（Routed Experts），共享专家和路由专家在数据处理流程上有显著的区别。对于共享专家，输入数据无需经过路由模块的计算，所有数据都会直接通过共享专家进行处理；对于路由专家，输入数据会先经过路由模块，该模块根据输入数据的特征选择最合适的专家进行计算。路由模块通过计算输入数据与各个专家的匹配概率，选择概率最高的专家进行处理。最终，将路由专家和共享专家的计算结果相加，形成 MoE 模块的最终输出。这种方式，能够在处理不同的输入数据时，既能捕捉到输入数据的共性，又能关注到输入数据的差异性。这种设计能够提高模型的泛化能力和适应性。

此外，deepseek-v3 针对 MoE 中常见的负载不均衡问题，提出了一种新的负载均衡策略。在用于选择专家的 Gate 模块中引入了一个可学习的偏置项。在计算路由得分时，这个偏置项会被动态地加到每个路由专家的得分上：

动态调整路由倾向：通过学习偏置项，模型可以动态地调整对不同路由专家的偏好。如果某个专家的负载过重，其对应的偏置项可能会被学习为负值，从而降低其被选择的概率。反之，对于负载较轻的专家，其偏置项可能会被学习为正值，提高其被选择的概率。
无额外损耗: 该偏置项是直接通过模型的训练目标进行优化的，而不是通过一个独立的负载均衡损失函数。这意味着，模型在努力提高主要任务性能的同时，也会自然而然地学习到一种更均衡的路由策略，而不会因为额外的负载均衡损失而影响性能。

deepseek-v3 参数：

共享专家 1 个，路由专家 256 个（总共 257 个专家），激活专家 8 个（每 token 专家数为 9 个（1 个共享 + 8 个激活））
总参数量：671B；激活参数量 37B（5.5%）

2 群体相对策略优化（Group Relative Policy Optimization，GRPO）

大模型训练大体可以分为3种模式，预训练（Pretraining），有监督精调（Supervised Fine-Tuning, SFT），基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）。其中，SFT 让模型通过学习训练数据数据分布的方式来提高模型在特定任务或指令上的表现，RLHF使用人类反馈来定义奖励函数，然后通过强化学习算法优化模型。让模型能生成符合人类喜好的回复。

主流的 RLHF 算法有 PPO（Proximal Policy Optimization）、DPO（Direct Preference Optimization）以及 GRPO 等。

GRPO可以算作是PPO的计算效率优化版本，在保持效果的同时，降低计算资源消耗。

在强化学习领域，PPO 算法被广泛认为是强化学习中的基准算法之一。PPO 采用了 Actor-Critic 架构，这一架构可以形象地理解为：有一个演员（actor）在舞台上表演，而一个评论家（critic）在台下观看。演员的目标是通过不断调整自己的表演行为来获得观众的认可，并从观众那里获得及时反馈。而评论家的任务则是评估演员的表演，并提供全面的建议。

在自然语言处理（NLP）生成模型的场景中，被训练的模型相当于演员，其表演即为生成的回复。相应地，会有评论家和观众模型来评价回复的质量。具体来说，PPO使用了四个模型：

Policy 模型（又称 Actor）：输入一段上文，输出下一个 token 的概率分布。该模型需要训练，是我们最终得到的模型。输出下一个 token 即为 Policy 模型的行为。
Value 模型（又称 Critic）：用于预估当前模型回复的总收益。该总收益不仅局限于当前 token 的质量，还需要衡量当前 token 对后续文本生成的影响。该模型需要训练。
Reward 模型：事先用偏好数据进行训练，用于对 Policy 模型的预测进行打分，评估模型对于当前输出的即时收益。
Reference 模型：与 Policy 模型相同，但在训练过程中不进行优化更新，用于维持模型在训练中的表现，防止在更新过程中出现过大偏差。

Value 模型由于考虑的是整体的总收益，会考虑当前 token 对于后续 token 生成的影响，因此会更加偏向对未来收益的青睐；reward 模型考虑的是当前的即时收益，因此更偏向于仅仅考虑当前的收益。

PPO 在大模型的 RLHF 阶段被成功应用，不断提升模型回复表现的上限。PPO 在计算成本和训练稳定性方面仍然存在一定的挑战。GRPO 算法对此进行了优化，其核心目标是去除 Value 模型，以此来减少训练的计算资源。

上图展示了 GRPO 相对于 PPO 的改进。

传统的 PPO 使用 Value 模型来估计模型回复的总收益，这实际上是对未来模型回复各种可能性的一个平均分值估计；GRPO 的方法通过大模型根据当前的上文输入进行多次采样，生成多个预测结果 $o_{i}$ ，并分别使用 Reward 模型对这些预测结果进行评分得到 $r_{i}$ ，最后取这些评分的平均值来替代 Value 模型的预期总收益估计。

通过这种方式，GRPO 在训练过程中可以减少一个模型的前向和反向传播计算，从而降低计算资源的消耗。

2.1 SFT 以及主流的一些强化学习方法

监督微调（STF）：在标注的SFT数据上对预训练模型进行微调。
直接偏好优化（DPO）：DPO依赖于理论上的偏好模型，如Bradley-Terry模型，来测量奖励函数与经验偏好数据的对齐程度。它直接根据策略定义偏好损失，无需在训练过程中明确学习 Reward 模型。
近端策略优化（PPO）：PPO算法采用Actor-Critic架构，需要 Policy 模型、Value 模型、 Reward 模型、 Reference 模型。使用 Value 模型评估模型的预期总收益（模型回复的好坏）。
群体相对策略优化（GRPO）：GRPO算法采用Actor-Critic架构，需要 Reward 模型、Reference 模型，但是删掉了 Value 模型。不使用 Value 模型，而是使用一组 LLM 生成的针对同一上文输入的多次采样结果来做预期总收益的估计。

3 多头隐式注意力（Multi-Head Latent Attention，MLA）

在标准的 Transformer 模型中，多头注意力（Multi-Head Attention, MHA）机制通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力头都有自己的查询（Query, Q）、键（Key, K）和值（Value, V）矩阵。对于序列中的每一个 token，都需要计算各自的 QKV，进而计算注意力。在推理过程中，大模型所采用的 token by token 递归生成方式，上文 token 的 KV 计算不会受到后续生成 token 的影响，因此可以缓存下来，避免重复计算，提高推理效率，这就是 KV cache 的由来。即，当生成第 $t + 1$ 个 token 时，可以利用之前事先算好的上文 $t$ 个 token 的 KV 值。同样地， $t + 1$ 位置 token 的 KV 值计算出来后也将保存在 KV cache 中。

目前大模型对于注意力机制做的一些改进，包括 MQA （Multi-Query Attention）、GQA （Group Query Attention）都是为了想方设法减少 KV Cache。

DeepSeek 提出的 MLA 的出发点也是如此。减少 KV Cache 就可以实现在更少的设备上推理更长的 Context，或者在相同的 Context 长度下让推理的 batch size 更大，从而实现更快的推理速度或者更大的吞吐总量。从而达到降低推理成本的目的。

如上图所示，MQA 与 GQA 的办法是通过共享 K，V 的注意力头，降低 KV Cache的数据维度。

MLA 的办法本质上是对原本 MHA 的 KV Cache 作低秩分解，得到一个低维的隐向量（Latent Vector）。在推理阶段，MLA 只需要缓存该隐向量，由此大大降低需要缓存的数据量。

对于某一层某一个 token 的表征 $h_t$ , MLA 通过降维映射矩阵（down-projection matrix） $W^{DKV}$ 得到对 $K$ , $V$ 压缩后的隐向量：

$c_t^{KV} = W^{DKV} h_t$

在前向过程中，需要对此隐向量进行升维还原，即:

$[k_{t, 1} ^{C}; k_{t, 2} ^{C}; \cdots; k_{t, n_h} ^{C}] = k_t^C = W^{UK}c^{KV}_t$

$[v_{t, 1} ^{C}; v_{t, 2} ^{C}; \cdots; v_{t, n_h} ^{C}] = v_t^c = W^{UV}c_t^{KV}$

$k_t^R = RoPE(W^{KR}h_t) \\ k_{t, i} = [k_{t, i}^C; k_t^R]$

其中， $W^{UK}$ 和 $W^{UV}$ 是对应的升维映射矩阵（up-projection matrix）, 可以直接得到 $h_t$ 对应的 $K$ 和 $V$ 向量： ${k}^{C}_{t}$ 、 ${v}^{C}_{t}$ 。

MLA 利用低秩分解的办法，通过增加少量的模型参数变量（降维映射矩阵与升维映射矩阵），引入低维隐向量 ${k}^{C}_{t}$ 和 $ ${v}^{C}_{t}$ 作为 KV Cache，降低 KV Cache 所带来的显存压力，降低推理成本。

此外，DeepSeek 还将 Query 也进行了低秩分解，能够在训练过程中降低显存占用，提高训练资源利用率。

上面的方案还会影响位置编码 RoPE（Rotary Position Embedding），因此需要针对 RoPE 进行处理。

如果在隐向量 $h_{t}$ 中包含 RoPE，经过升降维操作后，会对位置信息造成破坏。为了解决这个问题，MLA（Multi-Head Linear Attention）提出了解耦RoPE的方法。

对于隐向量 ${c}^{KV}_{t}$ ，不将位置编码包含在其中，而是专门为注意力头的 Query 和 Key 新增向量维度，以添加 RoPE 的位置信息。

4 多令牌预测（Multi-Token Prediction，MTP）

当前主流的自回归的大模型都是单 token 预测，根据当前上下文预测下一个最可能的 token。MTP 的核心思想是让模型一次性预测多个 token，以提升了模型的训练效率、生成质量和推理速度。

比如现在上文是“今年春节的天气”，传统的单 token 预测模式会逐 token 预测“真的”、“好”、“冷”、“。”；而 MTP 会并行地预测这几个 token 。因此，模型不仅要学习预测下一个 token 的能力，还需要同时具备预测下 $n$ 个token的能力。

一次性生成多个 tokens，减少自回归生成的步数，达到推理加速效果。在训练过程中，MTP 的训练目标函数同时考虑了多个 token 的估计准确性，被认为可以捕捉 token 间的依赖关系，从而提升模型效果。

DeepSeek V3 的 MTP 模块，与 Meta 的 MTP 模块相比，DeepSeek 采用了级联式的结构，使用 k 个串行模块来预测 k 个 token，保留因果语言模型（Causal Language Model）的连接关系，有利于效果的提升:

模型用 $D$ 个顺序的模块，预测 $D$ 个 tokens。定义预测深度为 $k$ 的含义为，预测后续第 $k$ 个 token。

首先，在每一个预测深度模块中，都共享了一个嵌入层（embedding layer），这个共享的嵌入层在模型中除了最后负责最后预测部分的层之外，其他的所有用于得到 token 的 embedding 都是共享这个嵌入层。对于输入的第 $i$ 个 token，在第 $k$ 个预测深度处，模型将前一个深度的表示与第 $i + k - 1$ 的 embedding 拼接，作为新的输入表示。

然后通过一个预测深度 $k$ 专用的 Transformer 模块，生成当前预测深度的输出表示，将用于下一个深度的表示计算，同时用共享的输出层获得 token 预测, 与训练样本中 $i + k$ 计算损失。

DeepSeek V3 论文中报告了使用 MTP 模块的效果。他们在推理过程中，不使用 MTP 模块，只在训练过程中利用该模块约束模型的优化。实验结果表明，使用 MTP 模块训练，能够提升模型的回复质量，在 MMLU, GSM8K 等公开基准测试指标均有提升。

5 混合精度框架

DeepSeek-V3 模型使用了 FP8 训练，为了增强训练稳定性以及维持训练效果不至于下降太多，作者提出了一种精细的量化策略，另外为了进一步减少 MoE 训练中的内存和通信开销，使用 FP8 缓存和分发激活值，以 FP16 存储优化器状态。在实验中，FP8 训练模型与 BF16 基线相比，相对损失误差始终低于0.25%，在训练随机性范围内是可以接受的。

DeepSeek-V3 文中提出了一种 FP8 训练的混合精度框架。大多数计算密集型操作在 FP8 中进行，而一些关键操作则保持其原始数据格式，以平衡训练效率和数值稳定性。

为了加速模型训练，主要的核心计算内核（如 General Matrix Multiplication，GEMM 操作）在 FP8 精度下实现，这些操作接受 FP8 张量作为输入，并生成 BF16 或 FP32 格式的输出。所有与线性操作相关的三个 GEMM（前向传播、激活反向传播和权重反向传播）都在 FP8 中执行，这种设计理论上将计算速度提高了一倍。FP8 权重反向传播 GEMM 允许激活值以 FP8 格式存储，以便在反向传播中使用，从而显著减少了内存消耗。

训练框架在以下组件中保持了原始精度（如 BF16 或 FP32）：Embedding 模块、输出头、MoE 门控模块、归一化算子和注意力算子等。为了进一步保证数值稳定性，作者将模型的主权重、权重梯度和优化器状态均存储在更高的精度中。该混合精度框架示意图

除了混合精度框架之外，DeepSeek 在 AI Infra 方面做了许多工作，例如还提出了 DualPipe 算法等，提升了模型训练效率。

6 CoT 与 Long CoT

GPT-4 是 ChatGPT-3.5 的迭代升级，在效果和性能上有了显著提升；GPT-4o 增加了多模态功能；o1 专注于深度推理能力。R1 跟 o1 类似，也是专注于深度推理能力的模型。

CoT 指的是一种推理过程，其中模型在生成最终答案之前，先逐步推导出一系列的中间步骤或子目标。这些中间步骤构成了一个思维链，最终引导模型得到正确的结果。它模仿人类的推理过程，即人们往往在解决问题时不是直接得出答案，而是通过一系列的思考、分析和推理步骤。

Long-CoT（长思考/慢思考）是 CoT 的一种扩展形式。传统的 CoT 方法通过将复杂问题分解为一系列中间推理步骤来引导模型进行逐步推理。Long-CoT 使得思考过程和输出的答案解耦，可以通过更长的上下文和更复杂的推理路径（在思考过程中通过加入问题复述、思考回顾、反思、知识回忆、公式化等思考节点）来增强模型的推理能力。

7 DeepSeek R1 和 R1 Zero

DeepSeek-R1-Zero 是第一个公开的研究，验证了 LLM 的推理能力可以完全通过强化学习（Reinforcement Learning，RL）来激励，而不需要 SFT。也表明了强化学习可以促进模型自我进化。

DeepSeek R1 和 R1 Zero 模型采用 Long CoT 方法，能够清晰地展示其推理过程，提高了模型的可解释性。

DeepSeek R1 和 R1 Zero 模型的主要差异在于训练方法。

DeepSeek R1 Zero 仅用强化学习就训练出了一个效果接近 OpenAI-o1-0912 的推理模型。发现了通过设定基于规则的 Reward 模型（要求保证答案和格式的准确性），能够在强化学习的训练过程中不断进化，出现了aha moment顿悟时刻以及最终取得了出色的模型效果。

R1 Zero的回复会出现可读性差或语言混杂的情况。DeepSeek 基于 R1 Zero 的成果，设计了一个多阶段的训练策略并且添加了许多高质量 SFT 数据。在这样的人工干预下，训练出了一个效果更优的模型 DeepSeek R1。

R1 系列模型的训练流程：

7.1 R1 ZERO

R1-Zero 的特别之处在于，它无需经过 SFT 训练集进行训练就能够在推理任务中表现出色。它的训练过程直接从一个预训练的基础模型（DeepSeek V3 Base）开始，通过强化学习训练完成。

采用群体相对策略优化（GRPO），节省 RL 的训练成本。
在 RL 训练过程中，采用 Rule-based 奖励，主要由两种奖励构成：
- a) Accuracy rewards：评估模型的输出是否正确；
- b) Format rewards：强制模型将其思考过程置于指定的 $< t hink >$ 和 $< / t hink >$ 之间。
设计训练模版，指导基模型在训练过程中遵守设定的指令

随着训练进行，模型在解答推理类问题时，花更多的时间去思考，以提高回答准确率。

在 DeepSeek-R1-Zero 的训练过程中出现了 Aha Moment（顿悟时刻），代表 RL 有可能在人工系统中解锁新的智能水平，为未来更加自主和自适应的模型铺平道路。

7.2 R1

训练过程分成四个阶段：

冷启动：为了避免 RL 训练从基础模型开始的早期不稳定冷启动阶段，构建并收集少量长的 CoT 数据来微调 DeepSeek-V3-Base 作为 RL 的起点。
推理导向的强化学习：在冷启动数据上微调 DeepSeek-V3-Base 后，应用与 DeepSeek-R1-Zero 中相同的 RL 方法训练。本阶段侧重于增强模型的推理能力，尤其是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及具有明确解决方案的明确定义的问题。当 RL 提示涉及多种语言时，CoT 经常表现出语言混合现象。为了减轻语言混合问题，在 RL 训练过程中引入了一种语言一致性奖励。
拒绝抽样和监督微调：当 2 中的 RL 过程趋于收敛时，利用训练出的临时模型生产用于下一轮训练的 SFT 数据（600K推理数据）。与 1 中的冷启动数据区别在于，此阶段既包含用于推理能力提升的 600k 数据，也包含 200k 推理无关的数据。使用这 800k 样本的精选数据集对 DeepSeek-V3-Base 进行了两个 epoch 的微调。
适用于全场景的强化学习：在 3 中微调模型的基础上，使用全场景的强化学习数据提升模型回复的有用性和无害性。对于推理数据，遵循 DeepSeek-R1-Zero 的方法，利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，采用基于模型的奖励来捕捉复杂和细微场景中的人类偏好。

通过上述精细的多阶段训练，DeepSeek R1 最终得以呈现，达到了 OpenAI-o1-1217 的水平。

8 将 R1 推理能力蒸馏到小的稠密模型中

为了使参数规模较小的模型也能具备像 DeepSeek-R1 这样的推理能力，首先通过 DeepSeek-R1 推理得到的 800k 个样本。然后对 6 个不同参数量的开源模型进行直接有监督微调。这种方式也就是直接的数据蒸馏。R1 论文中表明了，通过这种方法就能够显著增强小参数规模模型的推理能力。同时也反映了 R1 模型的价值，它能够用于激发绝大多数模型的推理能力。

这相当于告诉了我们一个简单直接的模型效果优化手段，就是从 R1 模型构造数据，然后 SFT！

AI与脑科学：相互启发，探索智能的本质 Liudef06小白人工智能人工智能
AI与脑科学：相互启发，探索智能的本质人类大脑的物理组件正被逐个映射为数字模型，而人工智能的“黑箱”中则自发涌现出类人的思维结构，两大前沿领域的碰撞正重塑我们对“智能”的理解。2025年初，东南大学黄广斌教授团队发表了一项开创性研究，提出通过“细胞级别的AI孪生方法”将人脑物理组件转换为数字模型，从理论上证明：不受限制的AI能以任意小误差逼近人脑功能，并在25年内超越人类智能。这项集结了哈佛医学院
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
CSS知识复习2 Savior｀L 前端 css 前端
文章目录盒子模型CSS长度单位元素的显示模式修改元素的显示模式盒子模型的组成关于默认高度盒子内边距（padding）盒子边框（border）盒子外边距（margin）注意事项margin塌陷margin合并处理内容溢出隐藏元素方式样式继承默认样式布局小技巧浮动浮动特点浮动影响以及解决方法浮动相关属性定位相对定位绝对定位固定定位粘性定位定位层级布局版心常用布局名词重置默认样式盒子模型CSS长度单位p
LeetCode 每日一题 2025/6/30-2025/7/6
记录了初步解题思路以及本地实现代码；并不一定为最优也希望大家能一起探讨一起进步目录6/30594.最长和谐子序列7/13330.找到初始输入字符串I7/23333.找到初始输入字符串II7/33304.找出第K个字符I7/43307.找出第K个字符II7/51394.找出数组中的幸运数7/61865.找出和为指定值的下标对6/30594.最长和谐子序列m记录每一个数字出现的次数l记录去重后从小到大
OpenHarmony vs Linux：分布式操作系统的终极对决 109702008 编程操作系统 #linux系统 linux 分布式人工智能
副标题：从架构基因到场景适配，解析两大系统的分布式能力差异与未来演进引言：分布式操作系统的时代命题在万物互联时代，设备协同与算力融合成为刚需。OpenHarmony和Linux作为两大开源操作系统，代表了不同的技术路线：前者是原生分布式设计，后者是生态驱动演进。本文从分布式视角深度对比二者，为开发者提供选型参考。一、架构设计：原生支持vs生态补足能力维度OpenHarmonyLinux内核模型微内
驱动开发系列59- 再述如何处理硬件中断黑不溜秋的 GPU驱动专栏驱动开发
目录一：硬件中断以及内核是如何处理中断的二：分配硬件IRQ1.使用request_irq()分配中断处理程序2.释放IRQ3.设置中断标志4.理解电平触发与边沿触发中断三：实现中断处理程序四：使用线程中断模型五：启用/禁用中断六：查看所有已分配的中断线七：理解和使用上半部和下半部八：总结在本文中，我们将重点讨论编写设备驱动程序时一个非常关键的方面：什么是硬件中断，更重要的是，作为驱动开发者，你该如
NET中数据模型Model和数据传输对象DTO的区别岁陨命理 ui
数据模型Model主要处理业务逻辑，不可以用于数据传递使用数据模型的缺点：直接向前端返回数据模型，会暴露系统的业务核心。而使用dto的时候可以屏蔽我们不希望暴露的核心业务颗粒度太粗(输出数据无法精细调整)。但是通过不同dto的组合，可以调整输出数据的结果，从而解决颗粒度太粗的问题DTODTO的全称是数据传输对象，主要用于数据传递，是面向界面UI的使用DTO的好处：DTO的定义是根据UI的需求来个性
企业如何用Data Agent实现数据价值效率的飞跃数据库观点资讯
作者阿里云数据库高级技术专家徐大丁(辰马)一、引言：数据价值实现的困境在数字化转型的浪潮中，数据被誉为“新时代的石油”。然而，对于大多数企业而言，这座“油田”的价值却远未被充分开采。下图简单概括了企业在数据价值效率追求上的演进路径，反映出业界对数据价值效率指标的追求。组织，技术都在不断地升级。以价值效率为牵引，从报表到洞察，从分析到预测，追求更高的效率提升和决策速度。这带来了技术架构的不断演进，从
SUNDAE-一种称为“光谱剪枝”的技术来优化和压缩3DGS模型 huarzail 3DGS 剪枝 3d 算法
清华大学人工智能产业研究院、伦敦帝国理工学院、北京航空航天大学、北京理工大学、中国科学院大学、香港中文大学（深圳）、中国电信人工智能研究院（TeleAI）EVOL实验室的研究人员联合推出了一种新的3D场景表示方法-SUNDAE，它通过一种称为“光谱剪枝”的技术来优化和压缩3D高斯溅射（3DGaussianSplatting，简称3DGS）模型，同时使用神经网络补偿来保持渲染质量。项目主页：SUND
FLUX.1 Kontext全景图：下一代AI图像编辑的家族革命与技术图谱 Liudef06小白 AIGC 人工智能 AIGC
FLUX.1Kontext全景图：下一代AI图像编辑的家族革命与技术图谱120亿参数流式变换器驱动，3秒完成像素级编辑，StableDiffusion原班团队打造的AI图像新范式正在重塑创意工作流。2025年夏，BlackForestLabs（黑森林实验室）向全球创意产业投下一枚技术炸弹——FLUX.1Kontext图像编辑模型家族正式亮相。这个由StableDiffusion核心创始团队打造的A
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
深入理解Spring Bean的生命周期
在Spring框架的学习中，Bean的生命周期是一个核心知识点，它贯穿了从Bean的创建到销毁的全过程。掌握Bean的生命周期，不仅能帮助我们更好地理解Spring容器的工作原理，还能在实际开发中更灵活地控制Bean的行为。本文将基于学习笔记，详细解析Bean生命周期的七个阶段，并补充关键细节和实践要点。一、Bean定义阶段：蓝图的绘制Bean定义阶段就如同建筑前的设计图纸绘制，它决定了Bean的
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
软件建模、设计模式、重构 kingzdm java 设计模式设计模式重构 uml
软件建模、设计模式、重构软件建模软件建模体现了软件设计的思想，在需求和实现之间架起了一座桥梁，通过模型指导软件系统的具体实现。模型并不是软件系统的一个完备表示，而是所研究的系统的一种抽象。软件建模通过不同的视角去描述一个系统。软件建模视角：外部视角，交互视角，结构化视角，行为视角。软件建模方法：结构化方法，面向对象方法，基于构建方法，面向服务方法，面向方面方法，模型驱动方法，形式化方法。UML特点
C++系列（九）：C++函数三大杀器 --- 默认参数×占位符×重载 - 解锁高性能代码的终极奥义傅里叶的耶 C++语言系列（教程 +实战）c++函数默认参数占位符重载
引言在C++的编程范式中，函数不仅是代码复用的基本单元，更是抽象复杂性的核心工具。默认参数、占位参数和函数重载三大特性，共同构成了函数式抽象的"三位一体"：默认参数是接口设计的润滑剂，它通过参数预设值消除冗余调用，将"通用配置"内化于函数签名。当开发者面对高频次调用的API时，默认参数能显著减少代码噪音，使核心逻辑浮出水面。占位参数则展现了语言的预留智慧。这个看似无用的语法结构，实质是系统演进的战
深度探索：现代翻译技术的核心算法与实践（第一篇）软考和人工智能学堂 #DeepSeek快速入门人工智能 #深度学习算法
引言：翻译技术的演进之路从早期的基于规则的机器翻译(RBMT)到统计机器翻译(SMT)，再到如今主导行业的神经机器翻译(NMT)，翻译技术已经走过了漫长的发展道路。现代翻译系统不仅能够处理简单的句子，还能理解上下文、识别领域术语，甚至捕捉微妙的文化差异。本系列文章将带您深入探索现代翻译技术的核心算法与实践。作为开篇之作，本文将重点介绍神经机器翻译的基础架构——序列到序列(Seq2Seq)模型，并通
redis学习笔记
1.在docker上安装redis之后，具体可以看我之前的docker教程一.进入docker的redis容器中#进入docker的redis容器中dockerexec-itredis/bin/bash#启动redisredis-cli#设置键setmykeyabc#取出键getmykey#删除键delmykey二，Redis数据类型字符串（string），哈希（hash），列表（list），集合
Java面向对象三大特性精华实战笔记：static、继承、多态与接口
文章目录Java面向对象三大特性精华实战笔记：static、继承、多态与接口一、static1.静态变量2.静态方法二、工具类1.Javabean类2.测试类3.工具类三、继承四、多态定义表现形式多态的前提多态的好处五、接口接口的定义和使用接口中成员的特点总结Java面向对象三大特性精华实战笔记：static、继承、多态与接口一、static在public后加上static表示老师名字这个属性被所
个人总结 - LangChain4j应用（1）艾露z AI java langchain ai 人工智能
个人总结-LangChain4j应用（1）github：Releases·langchain4j/langchain4j·GitHub官方文档：Introduction|LangChain4j简要介绍：LangChain4j是一个旨在简化大语言模型（LLMs）与Java应用程序集成的框架。ChatandLanguageModels：LanguageModel：最简单的聊天模型，简单的接收字符串，不
算法学习笔记：10.Prim 算法——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记 Java Prim
在图论的世界里，最小生成树（MinimumSpanningTree,MST）是一个至关重要的概念，它在通信网络设计、电路布线、交通规划等领域有着广泛的应用。求解最小生成树的算法中，Prim算法以其独特的“逐步扩展”思想占据着重要地位。Prim算法的基本概念在正式介绍Prim算法之前，我们先回顾一下最小生成树的定义：对于一个具有n个顶点的带权连通图，其最小生成树是包含所有n个顶点的一棵无环子图，且该
算法学习笔记：11.冒泡排序——从原理到实战，涵盖 LeetCode 与考研 408 例题
在排序算法的大家族中，冒泡排序是最基础也最经典的算法之一。它的核心思想简单易懂，通过重复地走访待排序序列，一次比较两个相邻的元素，若它们的顺序错误就把它们交换过来，直到没有需要交换的元素为止。虽然冒泡排序的时间复杂度较高，在大规模数据排序中并不常用，但它是理解排序算法思想的绝佳入门案例，也是计算机考研408和算法学习中的基础内容。冒泡排序的基本概念冒泡排序（BubbleSort）之所以被称为“冒泡
一文读懂主流云厂商的云安全产品对比｜小白也能看懂！
☁️一文读懂主流云厂商的云安全产品对比｜小白也能看懂！云服务器是“家”，安全产品就是“门锁、摄像头、护栏”——你搭了房子，总得保护吧？无论你是初创开发者，还是企业运维，选对安全产品比你想象中更重要。但问题来了，阿里云、腾讯云、华为云这三大厂商的云安全产品看起来都差不多，到底有什么区别？作为一个云安全小白，云安全产品那么多到底是什么以及最后该怎么选？！一、安全防护到底防的是什么？很多人以为“云安全”
2022年MySQL最新面试题 m0_54850467 面试学习路线阿里巴巴 android 前端后端
2022年MySQL最新面试题目录前言一、数据库基础知识0、概要1、平时MySQL主要用哪个版本2、数据库三大范式是什么3、MySQL有关权限的表都有哪几个4、MySQL的binlog有有几种录入格式？分别有什么区别？平时用到哪些关系型数据库和非关系数据库,可以谈谈你对它们的理解吗?5、可以简单说说你对MySQL的逻辑架构了解吗？6、了解MySQL中的MVCC是什么?7、PostgreSQL相对于
deepseek学术论文全流程深度辅助指南（从开题至答辩）
在学术论文的创作旅程中，从开题到答辩的每一个阶段都至关重要。以下为你详细介绍如何借助高效工具和技巧，顺利完成这一复杂过程。阶段一：开题攻坚操作流程精准定位研究方向：输入指令「我是机械工程专业本科学生，请推荐5个适合毕业设计的智能机器人相关课题，要求：具有创新性但不过于前沿；需要仿真实验而非实物制作；附相关参考文献查找关键词」。通过明确专业、课题类型及具体要求，为研究方向的确定奠定基础。精心优化题目
X-Flux-ComfyUI 技术指南：基于ComfyUI的FLUX扩散模型工作流搭建
X-Flux-ComfyUI技术指南：基于ComfyUI的FLUX扩散模型工作流搭建x-flux-comfyui项目地址:https://gitcode.com/gh_mirrors/xf/x-flux-comfyui前言X-Flux-ComfyUI是一个基于ComfyUI平台的扩展项目，专门为FLUX扩散模型提供了一套完整的工作流节点。本文将详细介绍如何安装配置该扩展，并深入解析各个核心节点的功
2025生成式AI革命：从技术原理到商业应用，一文读懂未来十年的颠覆力量硅基打工人 AI 人工智能开源语言模型经验分享
引言：生成式AI为何成为2025年最火爆的技术话题？2025年，生成式AI（GenerativeAI）已从实验室走向千家万户。无论是刷屏的AI绘画、爆火的虚拟主播，还是医疗领域的蛋白质结构预测，生成式AI正以惊人的速度重塑行业格局。据《2025年人工智能发展报告》显示，全球生成式AI市场规模已突破800亿美元，年增长率达45%。与此同时，OpenAI的GPT-5、谷歌的GeminiUltra等大模
深度学习基础2 TY-2025 深度学习深度学习人工智能
5.张量索引操作（1）索引操作行列索引列表索引print(data[[0,2],[1,2]])#返回(0,1)，(2,2)两个位置的元素print(data[[[0],[1]],[1,2]])#返回0，1行的1，2列共4个元素范围索引print(data[:3,:2])#前3行前2列数据print(data[2:,:2])#第2行到最后的前2列数据布尔索引tensor([[0,7,6,5,9],[
新手向:中文语言识别的进化之路
自然语言处理（NLP）技术正在以前所未有的速度改变我们与机器的交互方式，而中文作为世界上使用人数最多的语言，其处理技术面临着独特的挑战与机遇。本文将全面剖析中文自然语言识别模型的发展历程、核心技术原理、当前应用现状以及未来发展趋势，带您深入了解这一改变人机交互方式的关键技术。一、中文NLP的特殊挑战：为什么中文处理如此困难？中文自然语言处理面临着一系列西方语言所不具备的特殊挑战，这些挑战直接影响了
进阶向:DeepSeek AI对话系统深度解析,从API调用到会话管理 nightunderblackcat Python进阶人工智能 php 开发语言
第一部分：系统架构与核心功能1.1整体架构设计┌───────────────┐┌──────────────┐┌───────────────┐│用户交互层│───▶│API调用层│───▶│会话管理层│└───────────────┘└──────────────┘└───────────────┘▲▲▲│││┌───────┴───────┐┌──────┴──────┐┌───────┴
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag