曲奇人工智能安全

【双语新闻】AGI安全与对齐，DeepMind近期工作

我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。

by Rohin Shah, Seb Farquhar, Anca Dragan

21st Aug 2024

AI Alignment Forum

We wanted to share a recap of our recent outputs with the AF community. Below, we fill in some details about what we have been working on, what motivated us to do it, and how we thought about its importance. We hope that this will help people build off things we have done and see how their work fits with ours.

我们是谁？

Who are we?

我们是Google DeepMind的主要团队，致力于研究AI系统存在风险的技术方法。自从我们的上一篇文章^[1]之后，我们已经发展成为AGI安全与对齐团队，并将其视为AGI对齐（包括机制可解释性、可扩展监督等子团队），以及前沿安全性团队（致力于前沿安全性框架^[2]的开发和运行，包括危险能力评估）。我们自上次文章发布以来一直在扩大：去年增长了39%，今年前半段增长了37%。领导团队由Anca Dragan、Rohin Shah、Allan Dafoe和Dave Orr组成，Shane Legg是执行发起人。我们属于由Anca领导的总体AI安全与对齐组织，该组织还包括Gemini Safety（专注于当前Gemini模型的安全培训），以及Voice of All in Alignment团队，专注于价值和观点多样性的一致性技术。

请注意，我保留了原文中的特殊字符和格式标点符号。
We’re the main team at Google DeepMind working on technical approaches to existential risk from AI systems. Since our last post^[3], we’ve evolved into the AGI Safety & Alignment team, which we think of as AGI Alignment (with subteams like mechanistic interpretability, scalable oversight, etc.), and Frontier Safety (working on the Frontier Safety Framework^[4], including developing and running dangerous capability evaluations). We’ve also been growing since our last post: by 39% last year, and by 37% so far this year. The leadership team is Anca Dragan, Rohin Shah, Allan Dafoe, and Dave Orr, with Shane Legg as executive sponsor. We’re part of the overall AI Safety and Alignment org led by Anca, which also includes Gemini Safety (focusing on safety training for the current Gemini models), and Voices of All in Alignment, which focuses on alignment techniques for value and viewpoint pluralism.

我们在做什么？

What have we been up to?

以下是自上次更新以来，我们列出的在2023年和2024年的前几个月内发表的一些关键工作，按照主题/子团队分类：
It’s been a while since our last update, so below we list out some key work published in 2023 and the first part of 2024, grouped by topic / sub-team.

在过去1.5年中的重大投资包括：1）加强监督，以提供正确的学习信号，帮助模型与安全性保持一致，并避免引发灾难性风险；2）前沿安全研究，分析模型是否有能力引发灾难性风险的可能性；3）（本体论的）可解释性，作为实现前沿安全和对齐目标的潜在工具。除了这些投资之外，我们还尝试了一些有前景的领域和想法，以帮助我们识别应当做新的投资方向。
Our big bets for the past 1.5 years have been 1) amplified oversight, to enable the right learning signal for aligning models so that they don’t pose catastrophic risks, 2) frontier safety, to analyze whether models are capable of posing catastrophic risks in the first place, and 3) (mechanistic) interpretability, as a potential enabler for both frontier safety and alignment goals. Beyond these bets, we experimented with promising areas and ideas that help us identify new bets we should make.

边界安全

Frontier Safety

前沿安全团队的任务是_确保从极端伤害中确保安全，通过预见、评估并帮助谷歌准备前沿模型的强大能力来实现这一点。_虽然目前的重点主要在滥用威胁模型上，我们也在研究不一致的威胁模型。
The mission of the Frontier Safety team is to ensure safety from extreme harms by anticipating, evaluating, and helping Google prepare for powerful capabilities in frontier models. While the focus so far has been primarily around misuse threat models, we are also working on misalignment threat models.

FSF

我们最近发布了我们的前沿安全框架^[5]，其大致遵循了负责任能力扩展的方法，类似于Anthropic的负责任扩展政策^[6]和OpenAI的准备性框架^[7]。关键的不同之处在于FSF适用于Google：在Google中存在多种不同的前沿LLM部署，而不仅仅是单个聊天机器人和API（这进而影响利益相关者参与、政策执行、缓解计划等）。
We recently published our Frontier Safety Framework^[8], which, in broad strokes, follows the approach of responsible capability scaling^[9], similar to Anthropic’s Responsible Scaling Policy^[10] and OpenAI’s Preparedness Framework^[11]. The key difference is that the FSF applies to Google: there are many different frontier LLM deployments across Google, rather than just a single chatbot and API (this in turn affects stakeholder engagement, policy implementation, mitigation plans, etc).

我们团队在这一领域引领了谷歌的全局策略，并且证明了负责任的能力扩展不仅可以适用于小型创业公司，同样也适用于大型科技企业。
We’re excited that our small team led the Google-wide strategy in this space, and demonstrated that responsible capability scaling can work for large tech companies in addition to small startups.

在我们试点框架时，FSF重点关注的一个领域是如何将关键能力级别（CCL）映射到我们采取的缓解措施。这是我们未来版本迭代优先级中的一个重要问题。
A key area of the FSF we’re focusing on as we pilot the Framework, is how to map between the critical capability levels (CCLs) and the mitigations we would take. This is high on our list of priorities as we iterate on future versions.

一些评论（例如在这里^[12]）也准确地指出，FSF并未包含承诺。这是因为科学处于初期阶段，最佳实践需要发展。但最终我们关心的是实际工作是否完成。在实践中，我们确实对双子座1.5进行了危险能力评估，并且报告了我们认为足以以高置信度排除极端风险的足够评估。
Some commentary (e.g. here^[13]) also highlighted (accurately) that the FSF doesn’t include commitments. This is because the science is in early stages and best practices will need to evolve. But ultimately, what we care about is whether the work is actually done. In practice, we did run and report dangerous capability evaluations for Gemini 1.5 that we think are sufficient to rule out extreme risk with high confidence.

危险能力评估

Dangerous Capability Evaluations

我们的关于《评估前沿模型的危险能力》的文章是最全面的危险能力评估集合，到我们所知的程度，它已经指导了其他组织设计评估。我们定期对前沿模型运行和报告这些评估，包括Gemini 1.0（原论文），Gemini 1.5（见第9.5.2节）以及Gemma 2（见第7.4节）。我们特别高兴能够通过我们的Gemma 2评估帮助发展开源共享的准则。我们自豪于当前在评估和FSF实施透明度方面设定的标准，并期望看到其他实验室采用类似的方法。
Our paper on Evaluating Frontier Models for Dangerous Capabilities^[14] is the broadest suite of dangerous capability evaluations published so far, and to the best of our knowledge has informed the design of evaluations at other organizations. We regularly run and report these evaluations on our frontier models, including Gemini 1.0 (original paper), Gemini 1.5^[15] (see Section 9.5.2), and Gemma 2^[16] (see Section 7.4). We’re especially happy to have helped develop open sourcing norms through our Gemma 2 evals. We take pride in currently setting the bar on transparency around evaluations and implementation of the FSF, and we hope to see other labs adopt a similar approach.

在此之前，我们通过《极端风险的模型评估》（Model evaluation for extreme risks^[17]）一文为危险能力评估设定了基础原则，并在《高级AI模型的整体安全与责任评估》（Holistic Safety and Responsibility Evaluations of Advanced AI Models^[18]）中更全面地讨论了设计评估的方法，从当前危害到极端风险。
Prior to that we set the stage with Model evaluation for extreme risks^[19], which set out the basic principles behind dangerous capability evaluation, and also talked more holistically about designing evaluations across present day harms to extreme risks in Holistic Safety and Responsibility Evaluations of Advanced AI Models^[20].

机械可解释性

Mechanistic Interpretability

机制可解释性是我们安全策略的重要组成部分，最近我们深入研究了稀疏自动编码器（SAEs）。我们发布了Gated SAEs^[21]和JumpReLU SAEs^[22]，这是SAE的新架构，显著提高了重构损失与稀疏性之间的帕雷托前沿。这两篇论文通过盲法研究严格评估了架构变化，展示了结果特征的可解释性并没有退化。顺便说一下，Gated SAEs是我们所知的第一个在具有超过10亿参数的大语言模型（Gemma-7B）上扩展并严格评估SAE的工作。
Mechanistic interpretability is an important part of our safety strategy, and lately we’ve focused deeply on Sparse AutoEncoders (SAEs). We released Gated SAEs^[23] and JumpReLU SAEs^[24], new architectures for SAEs that substantially improved the Pareto frontier of reconstruction loss vs sparsity. Both papers rigorously evaluate the architecture change by running a blinded study evaluating how interpretable the resulting features are, showing no degradation. Incidentally, Gated SAEs was the first public work that we know of to scale and rigorously evaluate SAEs on LLMs with over a billion parameters (Gemma-7B).

我们也非常兴奋地训练并发布了Gemma Scope^[25]，一个用于Gemma 2 2B和9B（每层和每个子层）的公开、全面的SAE套件。我们相信Gemma 2位于“小到足以让学术界的研究人员相对容易地进行工作”的甜蜜点与“大到足以展示有趣且可用解释技术研究的高级行为”之间。我们希望这将使Gemma 2成为学术界/外部机械解释研究中的首选模型，并能够促进更多大胆的解释性研究，而不局限于工业实验室。您可以通过访问Gemma Scope^[26]来获取它，并且有一个由Neuronpedia提供支持的交互式Gemma Scope演示^[27]，感谢Neuronpedia^[28]。
We’ve also been really excited to train and release Gemma Scope^[29], an open, comprehensive suite of SAEs for Gemma 2 2B and 9B (every layer and every sublayer). We believe Gemma 2 sits at the sweet spot of “small enough that academics can work with them relatively easily” and “large enough that they show interesting high-level behaviors to investigate with interpretability techniques”. We hope this will make Gemma 2 the go-to models of choice for academic/external mech interp research, and enable more ambitious interpretability research outside of industry labs. You can access Gemma Scope here^[30], and there’s an interactive demo of Gemma Scope^[31], courtesy of Neuronpedia^[32].

团队在四月份的进展更新中可以看到一系列关于小组研究的小博客文章，链接如下：进展更新^[33]。
You can also see a series of short blog posts on smaller bits of research in the team’s progress update^[34] in April.

在SAEs之前，我们致力于：
Prior to SAEs, we worked on:

《电路分析可解释性尺度？从仓鼠的多项选择能力证据》^[35]: 这一关键贡献在于表明用于较小模型的电路分析技术具有扩展性：我们获得了大量关于Chinchilla（70B）如何在知道答案的情况下将答案与对应的字母映射到一起的理解，即对于多项选择问题。
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla^[36]: The key contribution here was to show that the circuit analysis techniques used in smaller models scaled: we gained significant understanding about how, after Chinchilla (70B) “knows” the answer to a multiple choice question, it maps that to the letter corresponding to that answer.
事实探索：尝试在神经元级别上反向工程事实回忆^[37]：尽管这项工作未能实现其雄心勃勃的目标，即在超置的早期MLP层中机械地理解事实是如何计算的，但它确实提供了进一步的证据表明超置正在发生，并否定了关于事实回忆可能如何运作的一些简单假设。它还为该领域的未来工作提供了一些指导原则，例如将早期层视为产生“多令牌嵌入”的方式，这种方式相对独立于先前上下文。
Fact Finding: Attempting to Reverse-Engineer Factual Recall on the Neuron Level^[38]: While this work didn’t reach its ambitious goal of mechanistically understanding how facts are computed in superposition in early MLP layers, it did provide further evidence that superposition is happening, and falsified some simple hypotheses about how factual recall might work. It also provided guidelines for future work in the area, such as viewing the early layers as producing a “multi-token embedding” that is relatively independent of prior context.
AtP∗: 一种高效且可扩展的方法，用于定位LLM行为到组件^[39]: 在电路发现的关键方面是找到对研究行为至关重要的模型的哪些组件。激活补丁是一种原则性的方法，但对于每个组件都需要单独的操作（类似于训练模型），而归因补贴则是近似的方法，并且能够与两个前向和一个反向操作同时为所有组件进行操作。本文调查了归因补贴法，诊断并解决了两个问题，展示了其结果的AtP*算法对完整激活补贴提供了令人印象深刻的良好逼近效果。
AtP∗: An efficient and scalable method for localizing LLM behaviour to components^[40]: A crucial aspect of circuit discovery is finding which components of the model are important for the behavior under investigation. Activation patching is the principled approach, but requires a separate pass for each component (comparable to training a model), whereas attribution patching is an approximation, but can be done for every component simultaneously with two forward & one backward pass. This paper investigated attribution patching, diagnosed two problems and fixed them, and showed that the resulting AtP* algorithm is an impressively good approximation to full activation patching.
["Tracr：编译变换器作为可解释性实验室"](#tracr%E3%80%90%E7%BC%96%E5%8C%85%E6%9B%B1%E5%8F%98%E6%9C%AC%E4%B8%AD%E7%AB%B6%E7%BA%A2%E5%AE%9A%E5%9B%BE%E6%8D%9F" ""Tracr：编译变换器作为可解释性实验室"")(链接^[41])：“让我们能够创建变换器权重，我们知道了模型正在做什么的确切答案，这允许我们将它作为可解释性工具的测试案例。我们已经看到了一些使用Tracr的例子，但其使用的范围并没有如我们所希望的那样广泛，因为由Tracr生成的模型与在野外训练的模型有很大的不同。（这是工作完成时已知的风险之一，但我们曾期望这不会成为太大的缺点。）
Tracr: Compiled Transformers as a Laboratory for Interpretability^[42]: Enabled us to create Transformer weights where we know the ground truth answer about what the model is doing, allowing it to serve as a test case for our interpretability tools. We’ve seen a few cases where people used Tracr, but it hasn’t had as much use as we’d hoped for, because Tracr-produced models are quite different from models trained in the wild. (This was a known risk at the time the work was done, but we hoped it wouldn’t be too large a downside.)

放大监督

Amplified Oversight

我们加强的监督工作旨在对AI系统输出结果的所有原因，以及在AI拥有广泛超人类能力时的情况进行监督，这些情况接近于一个完全了解所有相关理由的人类所能提供的监督。社区通常称之为“可扩展监督”，但我们希望明确指出，并不一定包括将监督应用到大量不同情境的数量级上，即监控的含义并不局限于此。
Our amplified oversight work aims to provide supervision on any single situation that is as close as possible to that of a human with complete understanding of all of the reasons that the AI system produced its output - including when the AI has a very broad range of superhuman capabilities. (The community often calls this “scalable oversight”, but we want to be clear that this does not necessarily include scaling to large numbers of situations, as in monitoring.)

辩论的理论工作

Theoretical Work on Debate

在理论层面，原始辩论协议^[43]允许一位多项式时间验证者利用最优化论辩者之间的辩论来解决任何PSPACE内的问题。但是我们的AI系统并不最优，并且我们不应假定它们是最优的！即使一个理想的AI能够反驳谎言，如果我们实际训练的AI系统不能做到这一点，也无关紧要。当不诚实的辩论者通过将容易的问题分解为一个受限的实证主义者无法回答但最优诚实AI可以回答的困难子问题来撒谎时，晦涩的论点^[44]问题就出现了。
On the theoretical side, the original debate protocol^[45] enables a polynomial-time verifier to decide any problem in PSPACE given debates between optimal debaters. But our AI systems are not optimal, and we should not assume they are! It doesn't matter if an optimal AI could refute lies, if the AI systems we train in practice cannot do so. The problem of obfuscated arguments^[46] is exactly when a dishonest debater lies by breaking an easy problem down into hard subproblems that an optimal honest AI could answer but a bounded one could not.

双向高效率辩论^[47]提供了一种新的辩论协议，它允许一个_多项式时间_诚实策略向甚至更有限的裁判证明事实，即使面对无限制的不诚实策略也是如此。这还没有达到我们的需求：诚实策略的时间复杂度只在人类可判断的论证长度上是多项式的，而我们希望它在AI可判断的论证长度上是高效的。我们有一些正在进行中的工作，希望能跨过这个缺口，并且我们认为如果能够跨越这个差距，这将会影响我们在实证工作中研究的协议类型。
Doubly-efficient debate^[48] provides a new debate protocol that enables a polynomial-time honest strategy to prove facts to an even more limited judge, even against an unbounded dishonest strategy. This is not quite yet what we want: the honest strategy is only polynomial-time in the length of the human-judgeable argument, whereas we would like it to be efficient in terms of the length of the AI-judgeable argument. We have some work in progress that we hope will cross this gap, and we expect that if we do cross the gap this will influence which protocols we study in our empirical work.

实证工作在辩论中的应用

Empirical Work on Debate

在实证方面，我们进行了仅限于推理的辩论实验，这些实验有助于挑战社区的预期。首先，在存在信息不对称的任务中，理论表明辩论应该接近与向裁判提供完整信息一样好（甚至更好），而在这类纯推理实验中，辩论的表现要明显差得多。其次，在不存在信息不对称的任务上，拥有辩论信息的弱裁判模型并不能超过没有辩论信息的弱裁判模型。第三，我们只发现了有限的证据表明更强的辩论者可以显著提高裁判的准确性——如果想让辩论在长远上取得成功，这一点至关重要。
On the empirical side, we ran inference-only experiments with debate^[49] that help challenge what the community expects. First, on tasks with information asymmetry, theory suggests that debate should be close to as good as (or even better than) giving the judge access to the full information, whereas in these inference-only experiments debate performs significantly worse. Second, on tasks without information asymmetry, weak judge models with access to debates don’t outperform weak judge model without debate. Third, we find only limited evidence that stronger debaters lead to much higher judge accuracy – and we really need to make this be the case for debate to succeed in the long run.

我们的感觉是，这些问题之所以发生，是因为模型在评估辩论方面不太擅长：实际的论点似乎相当好。我们当前的工作正在研究如何训练我们的LLM法官成为更好的人类裁判员代理，之后我们计划使用辩论程序对辩手进行微调，并检查这是否能关闭我们所观察到的差距。
Qualitatively, our sense is that these issues occur because the models are not very good at judging debates: the actual debater arguments seem quite good. Our current work is looking into training our LLM judges to be better proxies of human judges, after which we plan to try finetuning the debaters using the debate protocol, and checking that this closes the gaps we’ve observed.

因果对齐

Causal Alignment

在团队中，一项长期的研究探索了如何理解因果激励可以为设计安全的AI系统提供贡献。因果关系为我们提供了相当通用的工具来理解那些‘试图’实现目标的代理会做什么，并且提供了它们行为的原因解释。我们开发了算法【发现代理】^[50]，可以帮助我们识别可以通过代理视角来理解系统中的哪些部分。理论上，这可以使我们能够通过经验发现具有目标导向的代理，并确定它们在优化什么。
A long-running stream of research in our team explores how understanding causal incentives can contribute to designing safe AI systems. Causality gives us pretty general tools for understanding what agents that are ‘trying’ to achieve goals will do, and provides explanations for how they act. We developed algorithms for discovering agents^[51], which can help us identify which parts of systems can be understood through an agent-lens. In principle, this could allow us to empirically discover goal-directed agents, and determine what they are optimizing for.

我们还表明，因果世界模型是智能体鲁棒性的一个关键方面，这表明一些因果工具可能适用于任何足够强大的智能体。该论文在2024年ICLR会议上获得了优秀论文提名奖。这项工作继续指导安全缓解措施的发展，这些措施通过管理智能体的激励来工作，例如基于过程监督的方法。它还可以用于设计一致性检查，评估代理在环境中的长期行为，扩展我们今天所拥有的短期时间框架的一致性检查。
We have also shown that causal world models are a key aspect of agent robustness^[52], suggesting that some causal tools are likely to apply to any sufficiently powerful agent. The paper got an Honorable Mention for Best Paper at ICLR 2024. This work continues to inform the development of safety mitigations that work by managing an agent’s incentives, such as methods based on process supervision. It can also be used to design consistency checks that look at long-run behavior of agents in environments, extending the more short-horizon consistency checks we have today.

新兴主题

Emerging Topics

这包括我们进行的一些研究，这些研究不一定属于多年计划的一部分，而是专注于解答一个特定的问题，或者探究一个领域是否应该成为我们长期关注的重点。这种研究方式已经导致了一些不同的论文产出：
We also do research that isn’t necessarily part of a years-long agenda, but is instead tackling one particular question, or investigating an area to see whether it should become one of our longer-term agendas. This has led to a few different papers:

在2022年末，人们对AI系统存在一种期望（或至少曾有这种期望），即大语言模型中只有少数类似于真理特性的功能。人们希望找到并列出所有这些功能，并确定哪个功能与“模型的信念”对应，然后利用这个功能来构建一个诚实的AI系统。在《无监督大语言模型知识发现面临的挑战》（Challenges with unsupervised LLM knowledge discovery）这篇论文中，我们旨在通过展示大量的类似于真理特性的特征（特别是那些模拟其他智能体信念的特征），有力地反驳这种直觉。我们的目标并未完全实现，这可能是因为所使用的AI系统不够强大，无法显示出这样的特征。然而，我们确实展示了存在许多显著的功能，这些功能至少具有与真理特性类似的否定一致性和平等性，并且“欺骗”了多种无监督知识发现方法。
One alignment hope^[53] that people have (or at least had in late 2022) is that there are only a few “truth-like” features in LLMs, and that we can enumerate them all and find the one that corresponds to the “model’s beliefs”, and use that to create an honest AI system. In Challenges with unsupervised LLM knowledge discovery^[54], we aimed to convincingly rebut this intuition by demonstrating a large variety of “truth-like” features (particularly features that model the beliefs of other agents). We didn’t quite hit that goal, likely because our LLM wasn’t strong enough to show such features, but we did show the existence of many salient features that had at least the negation consistency and confidence properties of truth-like features, which “tricked” several unsupervised knowledge discovery approaches.

通过"解析grokking的电路效率"(arxiv.org/abs/2309.02390^[55])，我们深入探讨了"深度学习科学"(["深度学习的影响理论"，alignmentforum.org/posts/tKYGvA9dKHa3GWBBk/theories-of-impact-for-science-of-deep-learning](""深度学习的影响理论"，alignmentforum.org/posts/tKYGvA9dKHa3GWBBk/theories-of-impact-for-science-of-deep-learning" ""深度学习的影响理论"，alignmentforum.org/posts/tKYGvA9dKHa3GWBBk/theories-of-impact-for-science-of-deep-learning" ""深度学习的影响理论"，alignmentforum.org/posts/tKYGvA9dKHa3GWBBk/theories-of-impact-for-science-of-deep-learning" ""深度学习的影响理论"，alignmentforum.org/posts/tKYGvA9dKHa3GWBBk/theories-of-impact-for-science-of-deep-learning"))。本文试图解答以下问题：在grokking现象中，为何网络的测试性能在持续训练后急剧提高？尽管网络已经在训练阶段获得了几乎完美的表现水平。

文中提出了一个令人信服的答案，并通过预测类似环境中的多个新颖现象验证了这一答案。我们本希望通过更深入理解训练动态来提升安全性，但遗憾的是，这个希望并没有得到实现（不过仍有潜力通过这些见解检测到新能力）。因此，我们决定不再在“深度学习科学”领域投入更多资源，因为还有其他更加有前景的研究方向。尽管如此，我们对这一领域的研究仍然充满热情，并期待看到更多的研究工作。

请注意：这里的翻译保留了原文中的链接和格式化标识符。
Explaining grokking through circuit efficiency^[56] was a foray into “science of deep learning^[57]”. It tackles the question: in grokking, why does the network’s test performance improve dramatically upon continued training, despite having already achieved nearly perfect training performance? It gives a compelling answer to this question, and validates this answer by correctly predicting multiple novel phenomena in a similar setting. We hoped that better understanding of training dynamics would enable improved safety, but unfortunately that hope has mostly not panned out (though it is still possible that the insights would help with detection of new capabilities). We’ve decided not to invest more in “science of deep learning”, because there are other more promising things to do, but we remain excited about it and would love to see more research on it.

《追求权力可能是可预测和可训练代理的可能》这篇短文基于追求权力框架，探讨了如何从学习到的代理目标误化角度出发来构建风险论点。该文章仍然假定人工智能系统在追求一个目标，但是具体指出这个目标集合与训练期间学得的行为一致。

请注意：翻译结果中包含了一段原文内容和其解释性的中文版本。

返回符号:
Power-seeking can be probable and predictive for trained agents^[58] is a short paper building on the power-seeking framework^[59] that shows how the risk argument would be made from the perspective of goal misgeneralization of a learned agent. It still assumes that the AI system is pursuing a goal, but specifies that the goal comes from a set of goals that are consistent with the behavior learned during training.

我们下一步计划做什么？

What are we planning next?

当前我们正在努力的工作中，最令人激动和重要的项目之一是对技术AGI安全的自我高层次方法进行修订。虽然对前沿安全性、可解释性和强化监督的投资是这一议程的关键组成部分，但这些因素并不一定能够形成一个系统性的风险应对策略。我们正构建一个逻辑框架来分析技术失准风险，并利用这个框架优先规划研究项目，以便更全面地覆盖我们需要克服的挑战集。
Perhaps the most exciting and important project we are working on right now is revising our own high level approach to technical AGI safety. While our bets on frontier safety, interpretability, and amplified oversight are key aspects of this agenda, they do not necessarily add up to a systematic way of addressing risk. We’re mapping out a logical structure for technical misalignment risk, and using it to prioritize our research so that we better cover the set of challenges we need to overcome.

在這一點上，我們特別關注需要解決的重要領域。即使強化監督檢查的表現完全符合期望，這也可能不足以確保一致性。在分佈變化的情況下，AI系統可能會以放大監督檢查無法支持的方式運行，正如我們之前在目標泛化^[60]中研究過的那樣。要應對這種情況，需要投資於敵對訓練、不確定性估計、監測等；我們希望通過控制框架^[61]的部分評估這些緩解措施。
As part of that, we’re drawing attention to important areas that require addressing. Even if amplified oversight worked perfectly, that is not clearly sufficient to ensure alignment. Under distribution shift, the AI system could behave in ways that amplified oversight wouldn’t endorse, as we have previously studied in goal misgeneralization^[62]. Addressing this will require investments in adversarial training, uncertainty estimation, monitoring, and more; we hope to evaluate these mitigations in part through the control framework^[63].

我们期待着当我们的想法准备好接受反馈和讨论时，与您分享更多。感谢您的参与，并对我们工作的质量、知识体系和行动标准提出高标准。
We’re looking forward to sharing more of our thoughts with you when they are ready for feedback and discussion. Thank you for engaging and for holding us to high standards for our work, epistemics, and actions.

参考资料 [1]

上一篇文章: https://www.alignmentforum.org/posts/nzmCvRvPm4xJuqztv/deepmind-is-hiring-for-the-scalable-alignment-and-alignment

[2]

前沿安全性框架: https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

[3]

last post: https://www.alignmentforum.org/posts/nzmCvRvPm4xJuqztv/deepmind-is-hiring-for-the-scalable-alignment-and-alignment

[4]

Frontier Safety Framework: https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

[5]

前沿安全框架: https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

[6]

负责任扩展政策: https://www.anthropic.com/news/anthropics-responsible-scaling-policy

[7]

准备性框架: https://openai.com/preparedness/

[8]

Frontier Safety Framework: https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

[9]

responsible capability scaling: https://www.gov.uk/government/publications/emerging-processes-for-frontier-ai-safety/emerging-processes-for-frontier-ai-safety#responsible-capability-scaling

[10]

Responsible Scaling Policy: https://www.anthropic.com/news/anthropics-responsible-scaling-policy

[11]

Preparedness Framework: https://openai.com/preparedness/

[12]

在这里: https://www.lesswrong.com/posts/y8eQjQaCamqdc842k/deepmind-s-frontier-safety-framework-is-weak-and-unambitious

[13]

here: https://www.lesswrong.com/posts/y8eQjQaCamqdc842k/deepmind-s-frontier-safety-framework-is-weak-and-unambitious

[14]

Evaluating Frontier Models for Dangerous Capabilities: https://arxiv.org/pdf/2403.13793

[15]

Gemini 1.5: https://arxiv.org/abs/2403.05530

[16]

Gemma 2: https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

[17]

Model evaluation for extreme risks: https://arxiv.org/pdf/2305.15324

[18]

Holistic Safety and Responsibility Evaluations of Advanced AI Models: https://arxiv.org/pdf/2404.14068

[19]

Model evaluation for extreme risks: https://arxiv.org/pdf/2305.15324

[20]

Holistic Safety and Responsibility Evaluations of Advanced AI Models: https://arxiv.org/pdf/2404.14068

[21]

Gated SAEs: https://arxiv.org/abs/2404.16014

[22]

JumpReLU SAEs: https://arxiv.org/abs/2407.14435

[23]

Gated SAEs: https://arxiv.org/abs/2404.16014

[24]

JumpReLU SAEs: https://arxiv.org/abs/2407.14435

[25]

Gemma Scope: https://deepmind.google/discover/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/

[26]

Gemma Scope: https://huggingface.co/google/gemma-scope

[27]

Neuronpedia提供支持的交互式Gemma Scope演示: https://www.neuronpedia.org/gemma-scope

[28]

Neuronpedia: https://www.neuronpedia.org/

[29]

Gemma Scope: https://deepmind.google/discover/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/

[30]

here: https://huggingface.co/google/gemma-scope

[31]

interactive demo of Gemma Scope: https://www.neuronpedia.org/gemma-scope

[32]

Neuronpedia: https://www.neuronpedia.org/

[33]

进展更新: https://www.alignmentforum.org/posts/HpAr8k74mW4ivCvCu/progress-update-from-the-gdm-mech-interp-team-summary

[34]

progress update: https://www.alignmentforum.org/posts/HpAr8k74mW4ivCvCu/progress-update-from-the-gdm-mech-interp-team-summary

[35]

《电路分析可解释性尺度？从仓鼠的多项选择能力证据》: https://arxiv.org/pdf/2307.09458

[36]

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla: https://arxiv.org/pdf/2307.09458

[37]

事实探索：尝试在神经元级别上反向工程事实回忆: https://www.alignmentforum.org/posts/iGuwZTHWb6DFY3sKB/fact-finding-attempting-to-reverse-engineer-factual-recall

[38]

Fact Finding: Attempting to Reverse-Engineer Factual Recall on the Neuron Level: https://www.alignmentforum.org/posts/iGuwZTHWb6DFY3sKB/fact-finding-attempting-to-reverse-engineer-factual-recall

[39]

AtP∗: 一种高效且可扩展的方法，用于定位LLM行为到组件: https://arxiv.org/pdf/2403.00745

[40]

AtP∗: An efficient and scalable method for localizing LLM behaviour to components: https://arxiv.org/pdf/2403.00745

[41]

链接: https://proceedings.neurips.cc/paper_files/paper/2023/file/771155abaae744e08576f1f3b4b7ac0d-Paper-Conference.pdf

[42]

Tracr: Compiled Transformers as a Laboratory for Interpretability: https://proceedings.neurips.cc/paper_files/paper/2023/file/771155abaae744e08576f1f3b4b7ac0d-Paper-Conference.pdf

[43]

原始辩论协议: https://arxiv.org/abs/1805.00899

[44]

晦涩的论点: https://www.alignmentforum.org/posts/PJLABqQ962hZEqhdB/debate-update-obfuscated-arguments-problem

[45]

original debate protocol: https://arxiv.org/abs/1805.00899

[46]

obfuscated arguments: https://www.alignmentforum.org/posts/PJLABqQ962hZEqhdB/debate-update-obfuscated-arguments-problem

[47]

双向高效率辩论: https://arxiv.org/pdf/2311.14125

[48]

Doubly-efficient debate: https://arxiv.org/pdf/2311.14125

[49]

inference-only experiments with debate: https://arxiv.org/pdf/2407.04622

[50]

【发现代理】: https://arxiv.org/abs/2208.08345

[51]

discovering agents: https://arxiv.org/abs/2208.08345

[52]

causal world models are a key aspect of agent robustness: https://arxiv.org/abs/2402.10877

[53]

alignment hope: https://www.alignmentforum.org/posts/L4anhrxjv8j2yRKKp/how-discovering-latent-knowledge-in-language-models-without

[54]

Challenges with unsupervised LLM knowledge discovery: https://arxiv.org/pdf/2312.10029

[55]

arxiv.org/abs/2309.02390: https://arxiv.org/abs/2309.02390

[56]

Explaining grokking through circuit efficiency: https://arxiv.org/abs/2309.02390

[57]

science of deep learning: https://www.alignmentforum.org/posts/tKYGvA9dKHa3GWBBk/theories-of-impact-for-science-of-deep-learning

[58]

Power-seeking can be probable and predictive for trained agents: https://arxiv.org/pdf/2304.06528

[59]

power-seeking framework: https://proceedings.neurips.cc/paper_files/paper/2022/file/cb3658b9983f677670a246c46ece553d-Paper-Conference.pdf

[60]

目標泛化: https://arxiv.org/abs/2210.01790

[61]

控制框架: https://www.alignmentforum.org/posts/kcKrE9mzEHrdqtDpE/the-case-for-ensuring-that-powerful-ais-are-controlled

[62]

goal misgeneralization: https://arxiv.org/abs/2210.01790

[63]

control framework: https://www.alignmentforum.org/posts/kcKrE9mzEHrdqtDpE/the-case-for-ensuring-that-powerful-ais-are-controlled

你可能感兴趣的:(agi,安全,llama,人工智能)

为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
零信任落地难题：安全性与用户体验如何两全？粤海科技君安全零信任终端安全网络安全 iOA
在零信任架构的实施过程中，平衡安全性与用户体验是企业数字化转型的核心命题。这一挑战的本质在于：既要通过「永不信任，持续验证」的安全机制抵御新型攻击，又要避免过度验证导致的效率损耗。一、矛盾根源：安全与体验的天然张力零信任的“永不信任”原则，本质上要求对每一次访问都进行动态评估，但这与用户对“便捷、流畅”的诉求存在天然冲突。例如：频繁的身份验证（如每次登录都需短信验证码）会打断工作节奏，某制造企业统
等保测评中的物联网设备安全评估亿林数据物联网安全网络安全等保测评
随着物联网（IoT）技术的飞速发展，物联网设备已经广泛应用于智能家居、智慧城市、工业自动化等多个领域，极大地提升了社会生产力和生活便利性。然而，随着IoT设备数量的激增，其安全性问题也日益凸显，成为我们必须面对的重要课题。在这一背景下，等级保护（等保）测评中的物联网设备安全评估显得尤为重要，它为我们提供了一个有效的安全评估和管理机制。一、物联网设备安全评估的重要性物联网设备的核心理念是实现物物相连
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
.NET中的强名称和签名机制
.NET中的强名称（StrongName）和签名机制是.NETFramework引入的一种安全性和版本控制机制。以下是关于.NET中强名称和签名机制的详细解释：强名称定义：强名称是由程序集的标识加上公钥和数字签名组成的。程序集的标识包括简单文本名称、版本号和区域性信息（如果提供的话）。作用：强名称主要用于确保程序集的唯一性和完整性。通过签发具有强名称的程序集，可以确保名称的全局唯一性，防止名称冲突
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
程序员必看！如何破解数据篡改与逆向工程的双重困境深盾科技程序员创富 c#
作为一名程序员，你是否曾遇到过这样的噩梦？辛苦开发的程序，数据被篡改，代码被轻易破解，所有的努力瞬间化为泡影！别怕，今天就来教你如何绝地反击，让黑客们望而却步！数据篡改：黑客的“拿手好戏”在程序开发中，数据安全性是重中之重。然而，黑客们却总能找到漏洞，篡改传输中的数据，导致程序运行出错，甚至引发严重的安全问题。那么，如何才能防止数据被篡改呢？数字签名：数据安全的“守护神”数字签名是一种基于密码学的
如何为加壳保护后的程序提供调试支持深盾科技安全开发语言
在软件开发领域，加壳保护是一种常见的安全手段，用于防止程序被逆向分析。然而，当程序崩溃时，开发人员需要定位原始错误位置，这就与加壳保护产生了天然的矛盾。本文将从加壳原理出发，为大家介绍兼容调试的解决方案。一、加壳的基本功能1.加密/压缩加壳最常见的功能就是对程序的整个代码段和数据段进行压缩或加密。这样做的目的是防止静态反编译，但在程序运行过程中，代码段和数据段是明文状态，所以不会对调试造成影响。2
.NET nupkg包的深度解析与安全防护指南深盾科技 .net
在.NET开发领域，nupkg包是开发者们不可或缺的工具。它不仅是代码分发和资源共享的核心载体，还贯穿了开发、构建、部署的全流程。今天，我们将深入探讨nupkg包的核心功能、打包发布流程以及安全防护措施，帮助你在.NET开发中更加得心应手。nupkg包的核心功能nupkg是NuGet包的文件格式，本质上是一个ZIP压缩包，包含编译后的程序集（.dll文件）、调试符号（.pdb文件）、描述文件（.n
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
.NET 程序的强名称签名与安全防护技术干货深盾科技安全
在.NET开发领域，保障程序的安全性和完整性至关重要。强名称签名和有效的安全防护措施是实现这一目标的关键手段。下面将详细介绍.NET程序的强名称签名以及相关的安全防护方法。一、什么是强名称签名强名称签名是.NET框架提供的一种安全机制，其主要作用是唯一标识程序集、验证程序集的完整性以及解决版本冲突问题。它本质上是通过加密技术为程序集创建数字签名，确保程序集在分发和运行过程中的安全性。二、签名文件要
iOS 多个线程对数组操作（遍历，插入，删除),实现一个线程安全的NSMutabeArray
//联系人:石虎QQ:1224614774昵称:嗡嘛呢叭咪哄一、概念1.含义:@synchronized(self){}//这个其实就是一个加锁。如果self其他线程访问，则会阻塞。这样做一般是用来对单2.重写构造方法@interfaceSHSafetyArray:NSObject{@privateNSMutableArray*_mutableArray;//声明数组}//遍历加锁-(void)m
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
iOS线程安全数组
iOS-SDK只提供了非线程安全的数组。如果要多线程并发的使用一个数组对象就必须要加锁，平凡的加锁使得代码的调用非常的麻烦。我们需要多线程的读写锁在类的内部实现，所以需要对NSMutableArray进行封装，封装后的对象负责接受所有事件并将其转发给真正的NSMutableArrayiOS-SDK只提供了非线程安全的数组。如果要多线程并发的使用一个数组对象就必须要加锁，平凡的加锁使得代码的调用非常
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方