datamonday

【LMM 004】LLaVA-RLHF：用事实增强的 RLHF 对齐大型多模态模型

论文标题：Aligning Large Multimodal Models with Factually Augmented RLHF
论文作者：Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell
作者单位：UC Berkeley, CMU, UIUC, UW–Madison, UMass Amherst, Microsoft Research, MIT-IBM Watson AI Lab
论文原文：https://arxiv.org/abs/2309.14525
论文出处：–
论文被引：20（12/31/2023）
论文代码：https://github.com/llava-rlhf/LLaVA-RLHF，168 star
项目主页：https://llava-rlhf.github.io/

ABSTRACT

大型多模态模型（Large Multimodal Models，LMM）是跨模态建立的，两种模态之间的未对齐（unalignment）可能导致幻觉（hallucination），生成的文本输出没有上下文中的多模态信息作为基础。

为了解决多模态未对齐问题，我们将文本领域的人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）应用到视觉语言对齐（vision-language alignment）任务中，要求人类标注者比较两个回答，并找出更有幻觉的那个，然后训练视觉语言模型，使模拟的人类奖励最大化。我们提出了一种名为 Factually Augmented RLHF 的对齐算法，该算法利用额外的事实信息（如图片描述和真实的多选选项）增强了奖励模型，从而缓解了 RLHF 中的 reward hacking 现象，并进一步提高了性能。
我们还利用以前可用的人类撰写的图像文本对增强了 GPT-4 生成的训练数据（用于视觉指令调优），以提高模型的综合能力。
为了在真实世界场景中评估所提出的方法，我们开发了一个新的评估基准 MMHAL-BENCH，特别关注对幻觉的惩罚。作为首个使用 RLHF 训练的 LMM，我们的方法在 LLaVA-Bench 数据集上取得了显著的改进，在纯文本 GPT-4 中的表现达到了 94%（而之前最好的方法只能达到 87%），在 MMHAL-BENCH 上比其他基准提高了 60%。

1 INTRODUCTION

大型语言模型（Large Language Models，LLMs）可以通过使用图像-文本对进行进一步的预训练或使用专门的视觉指令调优数据集进行微调来深入多模态领域，从而产生强大的大型多模态模型（LMMs）。然而，开发大型多模态模型面临着挑战，特别是多模态数据与纯文本数据集在数量和质量上的差距。LLaVA 模型是由预先训练好的视觉编码器和指令调优语言模型初始化而成的。该模型仅在 15 万个基于图像的合成对话中进行了训练，与纯文本模型利用了跨越 1800 个任务的超过 1 亿个示例相比要少得多。这种数据上的限制可能会导致视觉和语言模态之间的未对齐。因此，LMM 可能会产生幻觉输出，无法准确锚定（anchored）图像提供的上下文。

为了缓解用于 LMM 训练的高质量视觉指令调优数据稀缺所带来的挑战，我们引入了 LLaVA-RLHF，这是一种为改进多模态对齐而训练的视觉语言模型。我们的主要贡献之一是将人类反馈强化学习（RLHF）这一通用且可扩展的对齐范式应用于 LMM 的多模态对齐（RLHF是一种在基于文本的AI Agents中取得巨大成功的通用、可扩展的对齐范式）。通过收集人类偏好，重点是检测幻觉，并在强化学习中利用这些偏好对 LMM 进行微调。这种方法能以相对较低的注释成本改进多模态对齐，例如，用 3000 美元就能收集 10K 基于图像对话的人类偏好。据我们所知，这种方法是 RLHF 在多模态对齐方面的首次成功应用。

当前 RLHF 范式的一个潜在问题被称为奖励黑客（reward hacking），即从奖励模型中获得高分并不一定能改善人类的判断。为了防止奖励黑客，以前的工作建议反复收集新鲜的人类反馈，这往往成本高昂，而且不能有效利用现有的人类偏好数据。在这项工作中，我们提出了一种数据效率更高的替代方案，即尝试使奖励模型能够利用现有的人类标注数据和大型语言模型中的知识。

首先，我们通过使用分辨率更高的更好视觉编码器和更大的语言模型来提高奖励模型的一般能力。
其次，我们引入了一种名为事实增强 RLHF（Fact-RLHF）的新算法，如图 1 所示，该算法通过图像描述或真实的多选选项等附加信息来增强奖励信号，从而校准奖励信号。

为了提高 LMM 在监督微调（Supervised Fine-Tuning，SFT）阶段的泛化能力，我们利用现有的高质量人类标注的对话格式多模态数据进一步增强了合成视觉指令调优数据。具体来说，我们将 VQA-v2 和 A-OKVQA 转换为多轮 QA 任务，将 Flickr30k 转换为 Spotting Captioning 任务，并基于新的混合数据训练 LLaVA-SFT+ 模型。

最后，我们将评估 LMM 在真实世界生成场景中的多模态对齐情况，特别强调对任何幻觉进行惩罚。我们创建了一组不同的基准问题，涵盖了 COCO 中的 12 个主要物体类别，并包括 8 种不同的任务类型，最终形成 MMHAL-BENCH。我们的评估结果表明，该基准数据集与人类的评估结果非常吻合，尤其是在对反幻觉（anti-hallucinations）进行分数调整后。在我们的实验评估中，作为第一个使用 RLHF 训练的 LMM，LLaVA-RLHF 取得了令人印象深刻的结果。我们观察到，LLaVA-Bench 的得分显著提高，达到 94%，MMHAL-BENCH 的得分提高了 60%，并为 LLaVA 建立了新的性能基准，MMBench 的得分达到 52.4%，POPE 的 F1 得分达到 82.7%。

2 METHOD

2.1 MULTIMODAL RLHF

从人类反馈中强化学习（RLHF）已成为一种强大且可扩展的策略，用于将大型语言模型（LLMs）与人类价值观相统一。在这项工作中，我们使用 RLHF 对齐 LMM。我们的多模态 RLHF 基本流程可概括为三个阶段：

1）多模态监督微调（Multimodal Supervised Fine-Tuning）

利用标记/词元级（token-level）监督，在指令遵循演示数据集上对视觉编码器和预训练的 LLM 进行联合微调，生成有监督微调（SFT）模型 $π^{SFT}$ 。

2）多模态偏好建模（Multimodal Preference Modeling）

在这一阶段，对奖励模型（也称偏好模型）进行训练，使其为更好的响应打出更高的分数。成对比较训练数据通常由人工标注。形式上，让汇总的偏好数据表示为 $D_{RM} = {(\mathcal{I}, x, y_0, y_1, i)}$ ，其中 $\mathcal{I}$ 表示图像，x 表示提示（prompt）， $y_0$ 和 $y_1$ 是两个相关的响应， $i$ 表示首选响应的索引。奖励模型采用交叉熵损失函数：

3）强化学习（Reinforcement Learning）

策略模型（policy model）通过多模态监督微调（SFT）初始化，其被训练以通过最大化奖励模型提供的奖励信号，为每个用户查询生成适当的响应。为了应对潜在的过度优化挑战，特别是奖励黑客，有时会应用从初始策略模型中得出的 per-token KL 惩罚。从形式上看，给定收集的图像和用户提示集 $D_{RL} = {(\mathcal{I}, x)}$ 以及固定的初始策略模型 $π^{INIT}$ 和 RL 优化模型 $π^{RL}_{φ}$ ，全部优化损失可表述为：

其中 β 是控制 KL 惩罚尺度的超参数。

2.2 AUGMENTING LLAVA WITH HIGH-QUALITY INSTRUCTION-TUNING

最近的研究表明，高质量的指令调优数据对于大型语言模型（LLMs）的对齐至关重要。我们发现这一点对于 LMM 来说变得更加突出。由于这些模型遍及广阔的文本和视觉领域，因此清晰的调优指令至关重要。正确对齐的数据可确保模型产生与上下文相关的输出，从而有效解决语言和视觉之间的gap。

例如，LLaVA 使用纯文本 GPT-4 合成了 150k 视觉指令数据，其中图像表示为边界框上的相关描述，以提示 GPT-4。虽然已经采用了仔细的过滤来提高质量，但管道偶尔也会生成视觉未对齐的指令数据，这些数据无法通过自动过滤脚本轻松去除，如表 1 所示。

在这项工作中，我们考虑利用从现有人类注释中获得的高质量指令调优数据来增强 LLaVA（98k 对话，其中 60k 对话用于偏好建模和 RL 训练）。具体来说，我们策划了三类视觉指令数据：

VQA-v2 的 “是” 或 “否” 查询（83k）
A-OKVQA 的多选题（16k）
Flickr30k 的真实描述（23k）

我们的分析表明，这些数据集的合并大大提高了 LMM 在基准测试中的能力。这些结果超过了在比我们大一个数量级的数据集上训练的模型，如表 7 和表 4 所示。有关每个数据集的影响，请参阅第 3.5 节。

2.3 HALLUCINATION-AWARE HUMAN PREFERENCE COLLECTION

最近的 RLHF 研究分别收集了有用性和无害性偏好，受此启发，在本研究中，我们决定区分仅仅是不太有用的回答和与图像不一致的回答（通常以多模态幻觉为特征）。为此，我们为众包工作者提供了表 2 所示的模板，以指导他们在比较两个给定回复时进行注释。通过当前的模板设计，我们的目标是促使众包工作者识别出模型回答中潜在的幻觉。

不过，我们的训练过程整合了一个单一的奖励模型，强调多模态一致性和整体帮助性。我们使用 SFT 模型和 0.7 的 temperature 对最后一个响应进行重新采样，从而在 10k 个保持不变的 LLaVA 数据上收集人类偏好。奖励模型由 SFT 模型初始化，以获得基本的多模态能力。

2.4 FACTUALLY AUGMENTED RLHF (FACT-RLHF)

我们在 50k 个保持不变的 LLaVA 对话中进行了多模态 RLHF，另外还从 A-OKVQA 中抽取了 12k 个多选问题，从 VQA-v2 中抽取了 10k 个是/否问题。由于担心 LLaVA 的合成多轮对话数据中存在幻觉，我们只使用每个对话中的第一个问题进行 RL 训练，从而避免了对话上下文中预先存在的幻觉。

Reward Hacking in RLHF

在初步的多模态 RLHF 实验中，我们观察到由于 SFT 模型内在的多模态未对齐，奖励模型很弱，有时无法有效检测 RL 模型响应中的幻觉。在文本领域，以前的工作建议反复收集 "新鲜的 "人类反馈。然而，这样做的成本可能相当高，而且不能有效利用现有的人类注释数据，也不能保证更多的偏好数据能显著提高奖励模型对多模态问题的判别能力。

Facutual Augmentation

为了增强奖励模型的能力，我们提出了事实增强 RLHF（Fact-RLHF），即奖励模型可以访问额外的真实的信息，如图片描述，以校准其判断。在最初的 RLHF 中，奖励模型只需要根据用户查询（即输入图像和提示）来判断响应的质量：

在事实增强 RLHF（Fact-RLHF）中，奖励模型对图像的文本描述有附加信息：

这可以防止策略模型产生一些明显与图片描述不符的幻觉时，奖励模型被策略模型黑客攻击。对于带有 COCO 图像的一般问题，我们将五个 COCO 标题串联起来作为额外的事实信息，而对于 A-OKVQA 问题，我们使用注释的理由作为事实信息。

除了在模型微调和推理过程中都会提供事实信息外，事实增强奖励模型的训练所依据的二分类偏好数据与普通奖励模型相同。

Symbolic Rewards: Correctness Penalty & Length Penalty

在我们的一些 RL 数据中，某些问题带有预先确定的基本答案。这包括 VQA-v2 中的二元选择（如 “是/否”）和 A-OKVQA 中的多选选项（如 “ABCD”）。这些注释也可视为额外的事实信息。因此，在 Fact-RLHF 算法中，我们进一步引入了符号奖励机制，对偏离这些基本事实选项的选择进行惩罚。

此外，我们观察到 RLHF 训练的模型通常会产生更多的冗长输出，Dubois et al（2023）也注意到了这一现象。虽然用户或基于 LLM 的自动评估系统可能喜欢这些冗长的输出，但它们往往会给 LMM 带来更多幻觉。在这项工作中，我们效仿 Sun et al（2023a）的做法，将响应长度（以token数量为单位）作为辅助惩罚因子。

3 EXPERIMENTS

3.1 NEURAL ARCHITECTURES

Base Model

我们采用与 LLaVA 相同的网络架构（Liu et al., 2023a）。我们的 LLM 基于 Vicuna（Touvron et al., 2023a；Chiang et al., 2023），并使用了预先训练好的 CLIP 视觉编码器 ViT-L/14（Radford et al., 2021）。我们在最后的 Transformer 层之前和之后都使用了网格特征（grid features）。为了将图像特征投射到词嵌入空间，我们采用了线性层。值得注意的是，我们利用了 LLaVA 线性投影矩阵的预训练检查点，在我们的研究中集中于多模态对齐的端到端微调阶段。对于 LLaVA-SFT±7b，我们使用了 Vicuna-V1.5-7b LLM 和 ViT-L/14，图像分辨率为 256 × 256。对于 LLaVA-SFT±13b，我们使用 Vicuna-V1.5-13b LLM 和 ViT-L/14，图像分辨率为 336 × 336。

RL Models: Reward, Policy, and Value

奖励模型的结构与基本的 LLaVA 模型相同，只是最后一个词元的嵌入输出被线性投影为一个标量值，以表示整个反应的奖励。根据 Dubois et al（2023）的研究，我们从奖励模型初始化价值模型。因此，在用基于 LLavA-13B 的奖励模型训练基于 LLaVA-7B 的策略模型时，价值模型也是 13B 大小。为了将所有模型（i.e., police, reward, value, original policy）整合到一个 GPU 中，我们在 RLHF 的所有微调过程中都采用了 LoRA（Hu et al., 2021）。我们使用带有 KL 惩罚的近端策略优化（PPO；Schulman et al., 2017）来进行 RL 训练。无需进一步说明，LLaVARLHF-7b 和 LLaVA-RLHF-13b 都是用 LLaVA-SFT±13b 初始化奖励模型训练的。更多详情请见附录 F。

3.2 MMHAL-BENCH DATA COLLECTION

为了量化和评估 LMM 响应中的幻觉，我们创建了一个新的基准 MMHAL-BENCH。MMHAL-BENCH 与之前的 VLM 基准有两个主要区别：

1）专业性： Liu et al（2023a;b）；Li et al（2023d）从一般意义上（如有用性、相关性）评估响应质量，而我们则专注于确定LMM响应中是否存在幻觉。我们的评估指标就是直接根据这一主要标准制定的。
1. 实用性：之前的一些 LMM 基准 Li et al（2023d）；Rohrbach et al（2018）也对幻觉进行了研究，但他们将问题限定为是/否问题，我们发现其结果有时可能与 LMM 生成的详细描述不一致。我们在MMHAL-BENCH中没有过度简化问题，而是采用了一般的、现实的和开放式的问题，这样可以更好地反映实际用户与LMM交互中的反应质量。

在 MMHAL-BENCH 中，我们精心设计了 96 对图像问题，涉及 8 个问题类别 × 12 个物体主题。更具体地说，我们观察到 LMM 在回答某些类型的问题时经常会对图像内容做出错误的判断，因此我们根据这些类型设计了问题：

物体属性： LMM 错误地描述了单个物体的视觉属性，如颜色和形状。
对抗物体： LMM 在回答问题时会涉及图像中不存在的东西，而不是指出找不到所指的物体。
比较： LMM 错误地比较多个物体的属性。
计数： LMM 无法计算指定对象的数量。
空间关系： LMM 无法理解答案中多个对象之间的空间关系。
环境： LMM 对给定图像的环境做出错误推断。
整体描述： LMM 在对整个图像进行全面而详细的描述时，对给定图像中的内容作出错误的断言。
其他： LMM 无法识别文字或图标，或根据观察到的视觉信息进行错误推理。

我们以对抗的方式创建和过滤问题。更具体地说，我们设计了图像问题对，以确保原始 LLaVA-13BX336 模型在回答这些问题时产生幻觉。虽然这些问题最初是根据 LLaVA-13BX336 的行为定制的，但我们观察到它们也具有更广泛的适用性，可导致其他 LMM 也产生幻觉。

为了避免数据泄露或对 LMM 在训练过程中观察到的数据进行评估，我们从 OpenImages（Kuznetsova et al., 2020）的验证集和测试集中选择图片，并设计了所有全新的问题。我们的图像-问题对涵盖了 COCO（Lin et al., 2014）中的 12 个常见物体元类别，包括：“accessory”, “animal”, “appliance”, “electronic”, “food”, “furniture”, “indoor”, “kitchen”, “outdoor”, “person”, “sports”, and “vehicle”。

在对 MMHAL-BENCH 上的 LMM 进行评估时，我们采用了功能强大的 GPT-4 模型（OpenAI，2023）来分析和评价回答。目前，公开的 GPT-4 API 仅支持文本输入，因此无法直接根据图像内容进行判断。因此，为了帮助 GPT-4 进行评估，除了问题和 LMM 响应对之外，我们还在提示中提供了图像内容的类别名称和人类生成的标准答案。因此，GPT-4 可以通过将 LMM 回答与图像内容和人工生成的完整答案进行比较，来确定 LMM 回答中是否存在幻觉。当从 MMHAL-BENCH 中获得足够的信息时，GPT-4 可以做出与人类判断一致的合理决定。例如，在判断 LLaVA-13BX336 和 IDEFICS80B 的回答是否存在幻觉时，GPT-4 与人类判断一致的比例高达 94%。有关我们用于 MMHAL-BENCH 评估的图像-问题对示例和 GPT-4 提示，请参阅附录。

3.3 RESULTS

我们使用 LLaVA-Bench（Liu et al., 2023a）和我们的 MMHAL-BENCH 作为主要评估指标，因为它们与人类偏好高度一致。此外，我们还在广泛认可的大型多模态模型基准上进行了测试。我们采用了 MMBench（Liu et al., 2023b），它是一个多模态基准，提供了一个客观的评估框架，包含 2,974 道多选题，横跨 20 个能力维度。该基准利用 ChatGPT 将模型预测与预期选择并列，确保对不同教学能力的 VLM 进行公平评估。此外，我们还采用了基于投票的查询技术 POPE（Li et al., 2023d），对大型多模态模型的物体感知倾向进行评估。

高质量的 SFT 数据对能力基准至关重要。通过深入研究能力基准（即 MMBench 和 POPE）的具体表现，我们在表 4 和表 7 中观察到高质量指令调优数据（LLaVA-SFT+）对能力的显著提升。其中，LLaVA-SFT+7B 模型在 MMBench 和 POPE 上分别取得了 52.1% 和 82.7% 的 F1 分数，与原始 LLaVA 相比分别提高了 13.4% 和 6.7%。不过，值得注意的是，LLaVA-SFT+ 确实落后于 Kosmos 和 Shikra 等型号。尽管如此，LLaVA-SFT+ 在采样效率方面仍有突出表现，它只使用了 280k 微调数据，仅为上述模型的 5%。此外，这种提升并不仅限于一种模型尺寸。当扩大规模时，LLaVA-SFT+13BX336 取得了值得称赞的结果，在 MMBench 上达到了 57.5%，在 POPE 上达到了 82.9%。相比之下，RLHF 对能力基准的影响则喜忧参半。LLaVA-RLHF 在 7b 级出现了微妙的退化，但 13b 级 LLaVA-RLHF 在 MMBench 上比 LLaVA-SFT+ 提高了 3%。这一现象类似于之前工作中观察到的对齐税（Bai et al., 2022a）。尽管如此，根据我们目前对 LLaVARLHF 的经验缩放规律，我们相信 RLHF 对齐不会损害 LMMs 对更大规模模型的一般能力。

RLHF 进一步提高了人类对齐基准。从另一个角度看，尽管高质量的指令数据在能力评估方面有很大的提高，但在人类对齐基准（包括 LLaVA-Bench 和 MMHAL-BENCH）方面并没有太大的改进，这在最近的 LLM 研究中也很明显（Wang et al., 2023）。LLaVA-RLHF 在与人类价值对齐方面有显著改进。它在 MMHAL-BENCH 上的得分分别为 2.05（7b）和 2.53（13b），在 LLaVA-Bench 上将 LLaVA-SFT+ 提高了 10%以上。我们还在表 1 中列出了定性示例，表明 LLaVA-RLHF 能产生更可靠、更有用的输出结果。

3.4 ABLATION ANALYSIS

我们对 LlaVA7B 进行消融研究，并在上述四个基准上进行评估。

3.5 ABLATION ON HIGH-QUALITY INSTRUCTION-TUNING DATA

在表 5 中，我们评估了各个教学调整数据集的影响。为简单起见，我们没有调整混合率，而是将其留待今后研究时考虑。我们的研究结果表明，A-OKVQA（Schwenk et al., 2022）对性能提升的贡献很大，在 MMBench 上提升了 9.8%，在 POPE 上提升了 3.8%。相比之下，VQA-v2（Goyal et al., 2017a）对 POPE 的影响尤为明显，它使 POPE 的性能提高了 6%，而对 MMBench 的影响则微乎其微。这种差异可能归因于 VQA 中重叠的 "是/否 "格式和 AOKVQA 的多选结构。Flickr30k 显著提高了 LLaVA-Bench 和 MMHAL-BENCH 的性能–这可能是任务固有的基础性质造成的。此外，将这三个数据集合并后，在各种能力基准中的性能都得到了复合提升。

3.6 ABLATION ON FACT-AUGMENTED RLHF

表 5 比较了事实增强 RLHF（Fact-RLHF）和标准 RLHF 的性能。我们的研究结果表明，虽然传统 RLHF 在 LLaVABench 上的表现有所改善，但在 MMHAL-BENCH 上的表现却不尽如人意。这可能是由于在 PPO 期间，模型倾向于操纵原始 RLHF 奖励模型，产生更长的反应，而不是更不容易产生幻觉的反应。另一方面，我们的 Fact-RLHF 在 LLaVA-Bench 和 MMHAL-BENCH 上都有增强。这表明，Fact-RLHF 不仅更符合人类的偏好，而且还能有效减少幻觉输出。

3.7 DATA FILTERING V.S. RLHF

在初步测试中，我们使用 Fact-RLHF 奖励模型分别过滤掉了 70%、50% 和 30% 的 LLaVA 数据。随后，我们在这些过滤后的数据上对 LLaVA 模型进行了微调，结果在 LLaVA-Bench 上的得分分别为 81.2、81.5 和 81.8。但是，在 MMHAL-BENCH、POPE 和 MMBench 上的性能基本保持不变。我们认为这种停滞可归因于两个因素：没有负反馈机制阻止模型在其输出中识别幻觉，以及我们的Fact-RLHF奖励模型的潜在局限性，尤其是与之前成功研究中的高容量Oracle模型相比（Touvronet al., 2023b）。

4 RELATED WORK

Large Multimodal Models

最近在大型语言模型（LLMs）方面取得了成功，如

GPTs（Brown et al., 2020；OpenAI，2023）
PaLM（Chowdhery et al., 2022；Anil et al., 2023）
BLOOM（Scao et al., 2022；Muennighoff et al., 2022）
LLaMA（Touvron et al., 2023a;b）
Alpaca（Taori et al., 2023）
Vicuna（Chiang et al., 2023）
Flamingo（Alayrac et al）率先将 LLMs 整合到视觉语言预训练中，利用门控交叉注意密集块来适应视觉特征；其开源变体是 OpenFlamingo（Awadalla et al., 2023）和 IDEFICS（Laurenc ̧on et al., 2023）。
PaLI（Chen et al., 2022；2023b）研究了各种任务中 V&L 组件的缩放因子。
PaLM-E（Driess et al., 2023）进一步将 LMM 扩展到具身领域。
BLIP-2（Liet al., 2023年c）引入了查询Transformer（Q-former），以弥补图像和语言编码器之间的差距，InstructBLIP（Daiet al., 2023年）对其进行了进一步改进。
Otter（Liet al., 2023b;a）主要致力于增强OpenFlamingo的指令跟随能力。
MiniGPT-4（Zhuet al., 2023年）认为GPT4的优势在于复杂的LLM，并建议使用单个项目层来微调视觉和语言模型。
mPLUG-Owl （Ye et al., 2023）提供了一种新方法：首先对齐视觉特征，然后使用 LoRA（Hu et al., 2021）对语言模型进行微调。
最近，QWen-VL（Bai et al., 2023）将 LMM 的预训练扩展到 1.4B 数据，并在各种基准测试中取得了令人印象深刻的结果。
其中，LLaVA（Liu et al., 2023a；Lu et al., 2023）通过利用 GPT4（OpenAI，2023）生成类似于文本指令的视觉语言调优数据集，开创了 LMM 工作（Wei et al、 2021；Chung et al., 2022；Longpre et al., 2023；Sanh et al., 2021；Mukherjee et al., 2023；Taori et al., 2023；K ̈opf et al., 2023）。
然而，由于这些生成数据集的句法性质，图像和文本模态之间的未对齐非常普遍。我们的研究首次通过 RLHF 解决了这种未对齐问题。

Hallucination

在 LLM 出现之前，NLP 界主要将 “幻觉” 定义为生成无意义的内容或偏离其来源的内容（Ji et al., 2023）。正如（Zhang et al., 2023）所概述的，多模态 LLM 的引入将这一定义扩展为

1）输入冲突幻觉，偏离用户提供的输入，例如机器翻译（Lee et al., 2018；Zhou et al., 2020）；
2）上下文冲突幻觉，输出与 LLM 之前生成的信息相矛盾（Shi et al., 2023）；
3）事实冲突幻觉，内容与既定知识不一致（Lin et al., 2021）。在 LMM 领域，“物体幻觉” 是有据可查的（Rohrbach et al., 2018；MacLeod et al., 2017；Li et al., 2023d；Biten et al., 2022），指的是模型产生的描述或说明包括与目标图像不匹配或缺少的物体。我们在此基础上进行了扩展，涵盖了任何 LMM 生成的不忠于图像方面的描述，包括关系、属性、环境等。因此，我们提出了 MMHAL-BENCH，旨在全面准确地识别和测量 LMM 中的幻觉。

5 DISCUSSIONS & LIMITATIONS

在大型语言模型（LLM）和大型多模态模型（LMM）中都能观察到幻觉现象。潜在的原因有两个方面。

首先，导致这一问题的一个突出因素是当前 LMM 的指令调优数据质量较低，因为它们通常是由 GPT-4 等更强大的 LLM 合成的。我们希望我们提出的高质量视觉指令调优数据以及未来手动整理高质量视觉指令调优数据的努力能够缓解这一问题。
其次，在指令调优的 LMM 中采用行为克隆训练是另一个根本原因（Schulman，2023）。由于指令数据标注者缺乏对 LMM 对图像的视觉感知的洞察力，这种训练无意中会使 LMM 对不确定的内容进行推测。为了规避这一缺陷，实施基于强化学习的训练提供了一条大有可为的途径，引导模型更有效地表达不确定性（Lin et al., 2022；Kadavath et al., 2022）。我们的工作展示了在这一方向上的开创性努力。图 3 展示了当前 LLM 行为克隆训练中幻觉的两个来源。

然而，虽然 LLaVA-RLHF 增强了人类对齐能力，减少了幻觉，鼓励了真实性和校准，但应用 RLHF 可能会无意中降低小型 LMM 的性能。

如何在不影响 LMM 和 LLM 性能的情况下平衡对齐和增强功能，仍然是一个尚未解决的难题。
此外，虽然我们已经在 LLaVA 中用顶级指令数据证明了线性投影的有效使用，但确定最佳混合并将其扩展到更大的模型仍然是一个复杂的问题。
我们的研究主要深入到 VLM 的微调阶段，其他模态和预训练期间的未对齐问题仍有待探索。

最后，虽然 MMHAL-BENCH 强调以减少幻觉为目的对 LMM 进行评估，但值得注意的是，简短或回避性的回答会无意中在 MMHAL-BENCH 上获得高分。这凸显了诚实与乐于助人之间的内在权衡（Bai et al., 2022a）。因此，为了更全面地评估与人类偏好的一致性，我们主张同时使用 MMHAL-BENCH 和 LLaVA-Bench 对未来的 LMM 进行评估。

6 CONCLUSION

我们提出了几种策略来解决多模态未对齐问题，尤其是视觉语言模型（VLM），因为这些模型生成的文本往往与相关图像不一致。

首先，我们利用现有人类撰写的图像-文本对，丰富了 LLaVA 生成的 GPT-4 视觉指令调优数据。
接下来，我们采用文本领域的人类反馈强化学习（RLHF）算法来弥合视觉与语言之间的差距，由人类评估者来辨别和标记更多的幻觉输出。我们对 VLM 进行训练，以根据模拟的人类偏好进行优化。
此外，我们还引入了事实增强 RLHF，利用额外的事实信息（如图片说明）来增强奖励模型，抵御 RLHF 中的奖励黑客行为，并提高模型性能。
为了切实评估对现实世界的影响，我们设计了 MMHAL-BENCH，这是一个针对幻觉惩罚的评估基准。
LLaVA-RLHF 作为首个使用 RLHF 训练的 VLM，在各种基准测试中都表现出了显著的性能提升。

你可能感兴趣的:(Learning）,人工智能,多模态,LLM,LMM,RLHF)

（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
Learning PostgresSQL读书笔记: 第8章 Triggers and Rules dingdingfish PostgresSQL postgresql database architecture tutorial
本章将讨论以下内容：•探索PostgreSQL中的规则•管理PostgreSQL中的触发器•事件触发器探索PostgreSQL中的规则文档中的这段话阐述了rule和trigger的区别：PostgreSQL规则系统允许定义在数据库表中插入、更新或删除时执行的替代操作。粗略地说，当对给定表执行给定命令时，规则会执行其他命令。或者，INSTEAD规则可以用另一个命令替换给定命令，或者导致命令根本不执行
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL gpt
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理1.MindSQL(库)MindSQL是一
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
RAG应用的评估（一） AI老炮 AIGC ai 机器学习人工智能语言模型
前言上篇文档主要是对Advanced-RAG的定义、策略和适用场景做了一个细致的分析，那么当我们准备将一个基于大模型的RAG应用投入生产时，如何去判断这个RAG是否合理呢？下面有一些问题是需要提前考并应付的：LLM输出的不确定性会带来一定的不可预知性。一个RAG应用在投入生产之前需要科学的测试以衡量这种不可预知性。在LLM应用上线后的持续维护中,需要科学、快速、可复用的手段来衡量其改进效果,比如回
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f