古-月

【大模型入门必看】LLM大语言模型导读

前言

在规模扩展定律（Scaling Laws）被证明对语言模型有效之后，研究者构建出了许多大语言模型。尤其是 2022 年底面向普通消费者的 ChatGPT 模型的出现，正式标志着自然语言处理进入大语言模型时代。

本章将简要梳理大语言模型的技术要点以及构建过程，并且列举了可用于预训练以及微调模型的常用数据集，介绍了目前开发大语言模型常用的代码库、预训练大语言模型的步骤以及涉及的关键技术，包括数据准备阶段、模型架构以及实际的预训练操作。

全文大概28000字，涵盖了大语言模型使用过程中涉及到的RLHF、DPO、指令微调、数据课程、DeepSpeed、提示学习、模型蒸馏、模型剪枝、LoRA/QLoRA、量化技术、FlashAttention、RAG等相关技术，由于篇幅所限，仅介绍了这些内容的大概原理，对于详细原理有机会的话会在后续一一叙述。

方便读者快速了解如何训练以及使用大语言模型。

大语言模型

大语言模型能够取的关键技术

规模扩展：只有规模达到一定程度模型才会展现出上下文学习、思维链推理等小规模模型不具备的能力。早期的研究主要关注参数规模，例如 OpenAI、Google 等公司提出了一系列分析参数、数据、算力等因素对性能影响的扩展定律（Scaling Laws），并且通过 GPT、PaLM 等模型进行了验证。考虑到使用超大规模数据（如 2T 或 3T 词元）训练十亿级别的模型（如 2B 或 7B）仍然无法达到模型的最大数据容量，最近的工作专注于加大对高质量数据的规模扩展。

数据工程：大语言模型的训练方式实际上非常简单，即通过在海量文本上进行下一个词预测的优化，使得模型学习到丰富的语义知识，进而通过文本补全的方式解决各种下游任务，因此模型能力本质上来源于所见过的训练数据。目前数据工程主要关注三个方面：（1）拓宽数据来源；（2）数据清洗；（3）设计有效的数据配比与数据课程，加强对于数据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型的性能水平。

高效预训练：由于参数规模巨大，大语言模型需要使用各种并行策略以及效率优化方法进行训练，包括 3D 并行（数据并行、流水线并行、张量并行）、ZeRO 内存冗余消除技术等，代表性的分布式训练软件包括 DeepSpeed [4] 和 Megatron-LM [5]，它们能够有效支持千卡甚至万卡的联合训练。此外，在正式训练前通常会开展基于小模型的沙盒测试实验以确定最终的训练策略，并且还需要关注优化技巧以提升训练稳定性和优化效率，如混合精度训练。

研究各种训练策略的效果并进行消融实验的成本非常高昂，学术界难以获得充分的算力来系统性研究大语言模型。虽然工业界不断推出开源大模型，但是对训练过程的开源程度还不够充分，无法了解到许多重要的训练细节。大语言模型非常依赖于工程方法的优化，但是这些技术的理论支撑还比较缺乏。

能力激发：为了提升模型的任务求解能力，需要设计合适的指令微调以及提示策略进行激发或诱导。在指令微调方面，可以使用自然语言表达的任务描述以及期望的任务输出对模型进行微调，从而增强模型的通用任务求解能力，提升在未见任务上的泛化能力。在提示学习方面，需要设计合适的提示策略去诱导大语言模型生成正确的问题答案，例如上下文学习、思维链推理等。

现有的研究大多认为指令微调无法向大语言模型注入新的知识，而是训练大语言模型学会利用自身所掌握的知识与信息进行任务的求解。

人类对齐：由于大语言模型可能会生成有偏见、泄露隐私甚至对有害的内容，在实践应用中需要保证大语言模型能够较好地符合人类的价值观。代表性的做法是 OpenAI 公司提出的基于人类反馈的强化学习算法 RLHF（Reinforcement Learning from Human Feedback），将人类偏好引入到大模型的对齐过程中。但是由于强化学习算法的优化过程较为复杂，最近提出了许多监督微调的对齐方式，例如 DPO 算法。最近，OpenAI 公司还发布了“超级对齐”（Super-alignment）项目，研究如何监管具有强人工智能的算法。

基于人类反馈的强化学习算法（RLHF）的具体做法是：首先训练能够区分模型输出质量好坏的奖励模型，进而使用强化学习算法来指导语言模型对输出行为进行调整，让大语言模型能够生成符合人类预期的输出。

工具使用：由于大语言模型在非自然语言形式任务上的能力较为有限，因此可以让模型学会使用各种工具的调用方式，利用合适的工具去实现特定的功能需求，例如可以利用计算器进行精确的数值计算、利用搜索引擎检索最新的时效信息等。在技术路径上，工具调用能力主要是通过指令微调以及提示学习两种途径实现。

大语言模型的构建过程

大语言模型的训练过程可以分为大规模预训练和指令微调与人类对齐两个阶段。

大规模预训练

在 BERT 等传统预训练模型中采用的模型架构以及训练任务还比较多样。随着 GPT 模型的成功，“解码器架构 + 预测下一个词”的有效性得到了充分验证，已经成为当前主要的技术路径。

预训练大语言模型需要准备大规模的文本数据，并且进行严格的清洗。由于大语言模型的能力基础主要来源于预训练数据，因此数据的收集（高质量、多源化）与清洗对于模型性能具有重要影响。目前的开源模型大多采用 2∼3T 规模的词元进行预训练，并且正在进一步扩大规模。

预训练过程对于算力的需求量极高，百亿规模的模型一般需要百卡规模的算力集群（如 A100-80G）联合训练数月时间，而千亿模型则需要千卡甚至万卡规模的算力集群。此外，实施过程中涉及到大量经验性技术，如数据如何配比、如何调整学习率、如何及早发现模型的异常行为等，这些细节很多并没有公开发表的经验可循，因此需要研发人员具有丰富的训练经验和异常处理能力。

指令微调与人类对齐

由于预训练任务形式所限，预训练后的大语言模型更擅长进行文本补全，并不适合直接解决具体的任务，因此通常还需要对大语言模型进行微调与对齐，使之具备更好的任务求解能力。

目前广泛使用的微调技术是指令微调（Instruction Tuning），又称监督微调（Supervised Fine-tuning, SFT），即通过使用任务输入与输出的配对数据进行训练，使得语言模型掌握通过问答形式进行任务求解的能力。一般来说，指令微调很难教会大语言模型预训练阶段没有学习到的知识与能力，它主要起到了对于模型能力的激发作用。

与预训练相比，指令微调需要的指令数据规模要小的多，通常数十万到百万规模的指令微调数据就能够有效地激发语言模型的通用任务求解能力，部分工作甚至认为数千条或者数万条高质量指令数据也能达到不错的微调效果。因此，若干台单机八卡（A100-80G）的服务器就能在一天或数天的时间内完成百亿模型的指令微调。这个过程还可以加入多轮次的对话数据来增强模型的人机对话能力。

除了提升任务的解决能力外，还需要将大语言模型与人类的期望、需求以及价值观对齐（Alignment）。代表性方法是 OpenAI 公司提出的基于人类反馈的强化学习对齐方法 RLHF，在指令微调后使用强化学习加强模型的对齐能力。RLHF 算法需要训练一个符合人类价值观的奖励模型（Reward Model），为此需要标注人员针对大语言模型所生成的多条输出进行偏好排序，然后使用偏好数据训练奖励模型。由于强化学习需要维护多个辅助模型进行训练，计算资源消耗通常会多于指令微调，但是也远小于预训练。目前还有很多工作试图简化对齐过程，通过去除奖励模型或其他使用 SFT 方式来达到与 RLHF 相似的效果。

常用的预训练数据集

常用的预训练语料库可以划分为网页、书籍、维基百科、代码以及混合型数据集。

网页：网页是大语言模型训练语料中最主要的数据来源，包含新闻报道、博客文章、论坛讨论等各种内容，这些广泛且多元的数据为大语言模型深入理解人类语言提供了重要资源。常用的网页语料库有：

Common Crawl：一个规模庞大、非结构化、多语言的网页数据集，从 2008 年至今一直在定期更新，总数据量达到 PB 级别。一般仅提取特定时间段或者符合特殊要求的子集进行使用。但是该数据集充斥着噪声和低质量数据，在使用前必须进行有效的数据清洗，常用的自动清洗工具有 CCNet 等。
C4：Google 构建，基于 2019 年 4 月的 Common Crawl 语料，包括超过 365M 个互联网域，超过 156B 词元，数据量约 800GB。使用该数据集的代表模型有 UL2 和 LLaMA。
RedPajama-Data：Together AI 构建，包含了来自 Common Crawl 的 100B 份文档，包含英语、法语、西班牙语、德语和意大利语，经过过滤和去重得到约 30T 词元。提供 40 余种预先标注好的数据注释，方便用户根据实际需求筛选数据集。
RefinedWeb：TII 构建，在 2008 年到 2023 年 6 月 Common Crawl 数据上通过筛选和去重构建，共约 5T 词元，开源部分有 600B 词元。是开源大语言模型 Falcon 的主要训练数据集。
OpenWebText：OpenAI WebText 数据集（GPT-2、GPT-3 和 InstructGPT 等均基于该数据集训练）的复现开源版本，首先从 Reddit 上提取网页链接，经过去重、过滤等处理，最终保留来自约 8M 份文档的 38GB 文本数据。

在上述网页数据集中，中文网页占比通常非常低，因此不足以训练中文大语言模型。下面介绍一些具有代表性的中文网页数据集。

ChineseWebText：中科院自动化所构建，从 Common Crawl 数据中精心筛选的中文数据集。汇集了 2021 年至 2023 年间的网页快照，总计 1.42TB 数据量。还特别发布了一个 600GB 大小的中文数据子集，并配套推出了一款名为 EvalWeb 的数据清洗工具

WanJuan：上海人工智能实验室构建，由网页、书籍等数据组成，约 500M 个文档，数据大小超过 1TB。将多种格式的数据进行了统一，并进行了细粒度的清洗和去重。

书籍：书籍是人类知识与文化的重要载体，并且内容主要是长文本，能够帮助语言模型学习语言的长程依赖关系，并深入理解语言的内在逻辑与表达习惯。书籍的语言表达通常更为严谨，整体上质量较高，并且能够覆盖多元化的知识体系。常用的书籍语料库有：

BookCorpusOpen：University of Toronto & MIT 构建的 BookCorpus 数据集（被 GPT、GPT-2、LLaMA 等模型使用）的镜像版本，包含了共计 17,868 本书籍。
arXiv Dataset：arXiv 官方发布的论文数据集，广泛涵盖了物理、数学和计算机科学等领域的论文，共包含约 1.7M 篇预印本文章，总数据量约为 1.1TB。
S2ORC：Allen Institute for AI 基于学术搜索引擎 Semantic Scholar 上的论文构建，论文经过了清洗、过滤并被处理成适合预训练的格式。该数据集还有一个衍生数据集 peS2o，v2 版本共计包含了约 42B 词元。

维基百科：维基百科（Wikipedia）是一个综合性的在线百科全书，提供了高质量的知识信息文章。维基百科数据具有以下几个特点：（1）专业性：维基百科条目通常具有良好的结构性和权威性，不仅对于各种专业术语和概念进行了阐释，还揭示了它们在不同领域的应用和联系；（2）多语性：维基百科支持英语、汉语、法语、德语等一共 300 多种语言，是一个宝贵的多语言平行语料库；（3）实时性：维基百科的内容在不断更新，对于知识信息的实时性维护较为及时，并且会定期发布其数据库的打包副本。

代码：代码具有高度结构化与专业性，引入包含代码的数据集可以增强模型的结构化推理能力与长程逻辑关系，能够提升模型理解和生成编程语言的能力。现有的工作主要从互联网上爬取具有开源许可的代码，两个主要来源是公共代码仓库（例如 GitHub）和代码相关的问答平台（例如 StackOverflow）。常用的代码语料库有：

BigQuery：谷歌构建的企业数据仓库，包含了众多领域的公共数据集，其中的代码类数据覆盖各种编程语言。CodeGen 即抽取了其中的公开代码数据子集进行训练。
The Stack：Hugging Face 构建，涵盖了 30 种编程语言，数据来源于 GHArchive 项目中的 GitHub 活跃仓库，经过数据筛选、过滤以及许可证检测等处理后，最终数据量约为 3TB。v1.2 版本已扩展到 358 种编程语言，数据量约为 6TB。
StarCoder：BigCode 基于 The Stack v1.2 进一步处理后的代码数据集，筛选出了 86 种语言，同时还进行了人工抽样审核以确认数据为人类编写的正常代码，最终数据总量约为 783GB。

混合型数据集：为了便于研发人员使用，很多研究机构对于多种来源的数据集合进行了混合，发布了一系列包括多来源的文本数据集合。这些混合数据集往往融合了新闻、社交媒体内容、维基百科条目等各种类型的文本，减少了重复清洗数据、选择数据的繁重工程。常用的混合语料库有：

The Pile：EleutherAI 构建，数据包括书籍、网站、代码、科学论文和社交媒体等。由 22 个多样化的高质量子集混合而成，包括OpenWebText、维基百科等，最终总数据量约为 825GB。GPT-J、CodeGen、Megatron-Turing NLG 等模型都用到该数据集。
ROOTS：BigScience 构建，约 62% 的数据来源于整理好的自然语言处理数据集及相关文档、利用 Common Crawl 收集的网页数据以及 GitHub 代码数据，约 38% 的数据来源于一个网页爬虫项目 OSCAR，并对其进行了过滤、去重和个人信息移除。包含 46 种自然语言（英语占比约为 30%）以及 13 种编程语言（Java、PHP 和 C++ 占比过半），总数据量约为 1.6TB。
Dolma：Allen Institute for AI 构建，包括来自 Common Crawl 的网页、Semantic Scholar 学术论文、GitHub 代码、书籍、Reddit 的社交媒体帖子以及维基百科数据，由来自大约 200TB 原始文本的 3T 个词元组成。v1.6 的版本文件大小约为 5.4TB。开源大语言模型 OLMo 即使用该数据训练。

常用微调数据集

微调主要涉及指令微调（有监督微调）和对齐微调，下面将列举一些可用于微调的数据集。

微调主要涉及指令微调（有监督微调）和对齐微调，下面将列举一些可用于微调的数据集。

指令微调数据集：按照指令实例的构建方法可以将指令微调数据集分为自然语言处理任务数据集、日常对话数据集和合成数据集。（1）自然语言处理任务数据集一般是在有监督的多任务训练数据集（包含多个自然语言处理任务实例）上通过人工编写任务描述来构建；（2）日常对话数据集则是基于真实用户对话构建，其中查询主要由真实用户提出、回复则由人类标注或者语言模型生成，对话类型通常包括开放式生成、问答、头脑风暴和聊天；（3）合成数据集则通常是使用大语言模型基于预定义的规则或方法进行构建。一些具有代表性的指令微调数据集如表 14-2 所示。常用的指令微调数据集有：

P3（Public Pool of Prompts）：BigScience 构建，由超过 270 个自然语言处理任务数据集和 2000 多种提示整合而成（每个任务可能不止一种提示），全面涵盖多选问答、提取式问答、情感分类、文本摘要、自然语言推断等任务。其子集被用来训练 T0 模型。
FLAN：Google 构建，v2 版本主要由 Muffin、NIV2、T0-SF 和 CoT 四个子集构成。其中 Muffin 由 v1 版本的 62 个任务和新加入的 26 个任务组成（包括对话数据和代码合成数据）；T0-SF 则是从 T0 模型的数据中抽取出来，同时确保与 Muffin 不重叠；NIV2 指的是数据集 Natural-Instructions v2；CoT 则是为了增强模型的推理能力而加入的九种不同推理任务的组合。FLAN-v2 对每项任务都设置了最大上限，防止某些任务在采样中占主导地位。FLAN 论文显示使用 52% Muffin、15% T0-SF、3% CoT 以及 30% NIV2 这一混合比例通常能够使得模型具有较好表现。
ShareGPT：TechCrunch 发布的对话数据集，数据来源于开源平台 ShareGPT，语种主要为英语和其他西方语言，其中查询来自于用户的真实提问或指令，回复则是 ChatGPT 对此生成的回答。
OpenAssistant：LAION-AI 人工构建的多语言对话语料库，共有 91,829 条用户提示，69,614 条回复，包含 35 种语言并且附有人工标注的质量评级（例如回复的有用性、无害性等）。
Dolly：Databricks 构建的对话数据集，包含 15000 个人类生成的数据实例，主题涉及 InstructGPT 论文中提到的 7 个领域，包括头脑风暴、分类、封闭/开放式质量保证、生成、信息提取等。
Self-Instruct-52K：University of Washington 使用 Self-Instruct 方法生成的英语指令数据集，包含 52K 条指令以及 82K 个实例输入和输出。最初由人工收集创建了 175 个种子任务，每个任务包括 1 个指令和 1 个包含输入输出的实例。然后，每次随机抽取 8 个指令作为示例，引导 GPT-3 模型生成新的指令以及对应的输入和输出，经过滤后添加到数据集中。迭代上述过程，最终获得了 52K 条指令和 82K 个实例数据。
Alpaca-52K：同样基于 Self-Instruct 方法进行构建的，在 Self-Instruct-52K 的 175 个种子任务上利用 OpenAI 的 text-davinci-003 模型获得了 52K 个不重复的指令，并根据指令和输入生成输出，每条指令仅对应于一个输入输出实例（输入可选，最终数据中只有 40% 具有输入）。

如果你不了解 Self-Instruct 方法不用着急，本文的后面会对其进行讲解。

人类对齐数据集：对齐目标一般聚焦于有用性、诚实性和无害性三个方面，下面将介绍几个代表性的对齐微调数据集，它们各自针对上述对齐目标进行了标注。

HH-RLHF：Anthropic 构建，关注大语言模型的有用性和无害性。包含约 169K 个开放式对话，涉及人类向智能助手寻求帮助、建议或请求完成任务等情景。信息助手将为每个查询提供两个回复，一个回复被选择而另一个被拒绝。有用性相关数据中，被认为更有用的回复将被选择；而无害性相关数据中，被认为更有害的回复将被选择。
SHP：Standfordnlp 构建，关注模型的有用性。包含 385K 个数据实例，对从烹饪到法律建议等 18 个不同主题领域中问题/指令的人类偏好进行标注，每个实例都基于寻求帮助的 Reddit 帖子构建的，包含问题以及帖子下两个排名较高的评论，其中一个被 Reddit 用户认为更有用，另一个被认为不太有帮助。
Stack Exchange Preferences：HuggingFace 构建，关注模型的有用性。涵盖来自编程问答社区 Stack Overflow 的约 10M 个问题和答案，每个实例均包含一个问题以及不少于两个候选答案，每个答案都附有一个根据投票数计算出的分数并附带是否被选中的标签。
Sandbox Alignment Data：Google 构建，致力于运用模型自身的反馈机制标注数据，关注模型的有用性、诚实性、无害性。数据源自模拟人类社交互动场景的 SANDBOX 虚拟环境，在该环境中，多个大语言模型根据问题给出回复然后互相“交流”，并根据彼此的反馈来不断修正和完善自己的回复。该数据集涵盖 169K 个实例，每个实例均包含一个查询、多个回复选项以及由其他模型给出的相应评分。

开发大语言模型

开发大语言模型是一项复杂的工程，涉及到包括并行策略以及效率优化方法在内的各种工程技巧，因此一些公司以及研究机构推出了专用于开发大语言模型的代码库以推动该领域的发展。下面将介绍具有代表性的两个代码库。

DeepSpeed 库

DeepSpeed 由微软公司开发，是一个旨在加速模型训练的高性能库，被广泛用于大语言模型的分布式训练。

DeepSpeed 为分布式训练提供了各种优化技术支持，如内存优化（ZeRO 技术、梯度检查点）、数据并行、混合精度训练等，使得整个训练过程变得更加高效和稳定。为了更适配用户需求，DeepSpeed 针对模型生成和强化学习分别开发了特制的优化框架：DeepSpeed-MII 和 DeepSpeed-Chat。

DeepSpeed-MII：通过提高吞吐量、降低延迟等方式来降低大模型解码生成的运行成本。DeepSpeed-MII 首先实现了块状键值缓存和连续批处理技术加速文本生成过程，然后又提出了 SplitFuse 技术将提示和生成结果进行动态分解以进一步改善连续批处理和系统吞吐量。目前已支持包括 LLaMA 、Mistral 、Falcon、 Mixtral 和 Qwen 在内的多个模型。

DeepSpeed-Chat：用于训练类 ChatGPT 模型的开发工具，完整集成了包括基于人类反馈的强化学习（RLHF）算法在内的训练过程。它具有三个主要功能：（1）简化了类 ChatGPT 模型的训练和生成过程，用户可以用简单的脚本实现多个训练步骤，并且提供了用于测试对话式交互的 API；（2）复现了 InstructGPT 的训练过程，包括有监督微调、奖励模型训练和基于人类反馈的强化学习，还提供了数据抽象和混合功能；（3）将训练和生成集成到了统一框架中，实现了在 RLHF 中训练和生成模式之间的无缝切换。

Megatron-LM 库

Megatron-LM 是由 NVIDIA 公司开发的一款专门为训练大语言模型而设计的代码库，旨在解决大型模型训练过程中所遇到的一系列技术挑战，包括显存限制、计算效率以及不同的并行策略带来的通信问题。

Megatron-LM 引入了一系列分布式训练的优化技巧，支持多种并行策略，包括（1）数据并行，通过在每个工作节点复制模型，并将输入数据切分多份分配给多个节点，定期同步所有梯度来提升 GPU 的使用效率；（2）模型并行，包括张量并行和流水线并行，通过在多个工作节点上分配模型和计算来克服单个 GPU 容量限制的问题。此外，Megatron-LM 还支持混合精度训练和 FlashAttention 功能。这些优化技术可以在很大程度上提高训练效率和速度，实现跨 GPU 的高效分布式训练。

预训练大语言模型

大语言模型的构建过程可以分为预训练和微调两个阶段。通过在大规模语料上进行预训练，大语言模型可以获得通用的语言理解与生成能力，并且学习到较为广泛的世界知识。

本章将按顺序依次介绍预训练中的各个步骤，包含原始数据的收集、数据预处理、分词、以及预训练过程中的数据调度方法。

数据准备

现有的大语言模型主要将各种公开的文本数据进行混合作为预训练语料。预训练数据可以分为通用文本数据和专用文本数据，其中通用文本数据规模较大，涵盖了网页、书籍和对话等内容，用以增强模型的语言建模能力；专用文本数据则是为了进一步提升大语言模型在特定任务上的表现，如多语数据、科学数据和代码数据等。

常用的专用文本数据分为三种：

多语文本：多语文本数据可以帮助模型更好地建立多语言间的语义关联，增强模型的多语理解与生成能力，为跨语言理解与对话任务提供支持。此外，多语言数据还能有效增加数据的多样性，从而有助于提升模型的综合性能。
科学文本：科学文本数据可以增强大语言模型对科学知识的理解，从而提高科学问答与推理等任务的性能。常用方法是收集 arXiv 论文、科学教材、数学网页等。但是由于科学文本数据中包含数学公式、蛋白质序列等特殊符号，通常需要采用特定的分词和预处理技术将数据转化为大语言模型能够处理的统一格式。
代码：代码语料可以提高其模型生成的程序质量，其来源主要是 Stack Exchange 等编程问答社区的数据以及 GitHub 等开源项目仓库。由于代码主要以结构化的编程语言形式呈现，在代码数据上训练能够提升模型的结构化语义理解与逻辑推理能力。同时，代码中的函数调用关系还有助于增强模型的工具使用与学习能力。将推理任务格式化为代码通常可以得到更准确的结果。

数据预处理

在收集了丰富的文本数据之后，就需要对数据进行预处理，消除低质量、冗余、无关甚可能有害的数据。一般来说，需要构建并使用系统化的数据处理框架，例如开源库 Data-Juicer。典型的数据预处理流程如图所示，包括质量过滤、敏感内容过滤、数据去重等步骤。

步骤一：质量过滤

在质量过滤方面，目前主要使用以下两种数据清洗方法：

基于启发式规则的方法：通过精心设计的规则有针对性地识别和剔除低质量数据。例如（1）为了训练特定目标语言的模型可以过滤掉其他语言的文本。（2）使用单词比率等统计特征来衡量文本质量。还可以利用困惑度（Perplexity）等文本生成评估指标来检测和删除表达不自然的句子，以及训练 FastText 分类器来检测有毒或仇恨言论。（3）制定精准的清洗规则，结合关键词集合进行过滤。

延伸

常用的统计指标过滤规则有：对于网页数据，过滤任何具有超过 100 个重复单词或句子的文档，以及过滤符号和词元比大于 0.1 的文档；对于论坛数据，过滤掉任何点赞数少于 3 的用户评论。

常用的关键词过滤规则有：对于维基百科数据，过滤掉任何拥有少于 25 个 UTF-8 单词的页面；对于网页数据，过滤掉 HTML 标签，以及过滤掉任何不含有 the, be, to, of, and, that, have, with 词汇的文档；对于所有数据，过滤掉电话号码，邮箱地址、IP 地址等隐私信息。
基于分类器的方法：训练判别数据质量的文本分类器进行数据清洗。具体来说，可以选取部分代表性的数据进行质量标注以训练分类器，例如将维基百科等高质量数据作为正样本、将筛选出含有不良内容或低质量数据的样本作为负样本。文本过滤的粒度可以是文档级别也可以是句子级别。为了减少误筛，可以使用多个分类器进行联合过滤或召回，还可以针对不同的评估维度训练不同的分类器。

目前常用方法包括轻量级模型（如 FastText）、可微调的预训练模型（如 BERT）以及闭源大语言模型 API（如 GPT-4）。轻量级模型效率较高，但是分类的准确率和精度受限于模型能力；预训练模型可以针对性微调，但是通用性和泛化性具有限制；闭源大语言模型的能力较强，但是无法灵活针对任务进行适配而且成本较高。

延伸

过滤效率也是预处理需要考虑的核心要素。基于启发式的方法效率较高，能够迅速过滤 10M 乃至 100M 级别的庞大文档集，而基于分类器的方法虽然精度更高，但是效率较低。因此可以结合多种策略平衡效率与准确性，例如首先利用启发式规则进行初步筛选，然后再采用分类器方法进行精细过滤。此外，还可以同时应用多种分类器，例如使用更为有效但是资源消耗更高的分类器在轻量级分类器粗滤后的数据上再次进行选择。

步骤二：敏感内容过滤

在敏感内容过滤方面，目前主要关注对有毒内容和隐私信息的过滤方法。为了精确过滤含有有毒内容的文本，通常采用基于分类器的过滤方法，例如基于 Jigsaw 评论数据集训练分类器。而过滤隐私内容则主要使用启发式方法（如关键字识别），例如 Dolma 采用规则方法来过滤邮箱地址、IP 地址以及电话号码，如果文档中的隐私信息少于五条则使用使用特定的词元进行替换（如“[EMAIL_ADDRESS]”），如果隐私信息达到六条则直接删除整个文档。

步骤三：数据去重

数据去重同样是一个重要步骤。由于大语言模型具有较强的数据拟合与记忆能力，很容易习得训练数据中的重复模式，可能导致对这些模式的过度学习。研究发现，预训练语料中出现的重复低质量数据可能诱导模型在生成时频繁输出类似数据。此外，这些数据也可能导致训练过程不稳定（训练损失震荡）甚至导致训练崩溃。目前数据去重主要关注计算粒度以及匹配方法两个方面：

点击【大模型入门必看】LLM大语言模型导读查看全文。

你可能感兴趣的:(LLM,大语言模型)

当x趋于零时，零乘以无穷的极限等于多少蓝桉802 考研
当x趋于零时，零乘以无穷的极限是未定义。‌在数学中，0乘以无穷大（0×∞）是一个未定义的表达式，因为它涉及到两个相互矛盾的概念：0乘以任何有限数都等于0，而无穷大乘以任何非零数都应该是无穷大。因此，我们不能确定0乘以无穷大应该是0还是无穷大，所以它被认为是未定义的‌。为了更好地理解这个问题，我们可以考虑一个极限的例子。假设我们有两个函数f(x)和g(x)，其中f(x)趋于0，而g(x)趋于无穷大。
通过vLLM部署LLM模型到生产环境中 MichaelIp 人工智能实验室大语言模型人工智能 python AIGC 自然语言处理语言模型 prompt llama
文章目录1使用vLLM部署模型2部署过程2.1准备GPU环境2.2安装vLLM依赖项3使用vLLM部署模型并启动服务3.1部署开源模型3.2部署微调模型4测试服务是否正常运行5评估服务性能1使用vLLM部署模型本地部署模型主要包含下载模型、编写模型加载代码和发布为支持API访问的应用服务这三个步骤。这个过程通常伴随较高的人工部署成本，vLLM可以用来简化这一流程。它是一个专为大模型推理设计的开源框
国内三大云数据库测试对比 m0_63984008 数据库腾讯云阿里云
导读腾讯云数据库提供了可视化的运维操作页面和自动备份的能力，降低了数据库运维的门槛。同时云数据库还支持高可用架构，对数据的安全性和服务的可靠性更有保障。另外有的云数据库厂商还提供了诸如数据库审计、慢查询分析、数据回档等能力，大大减轻了数据库运维和DBA的工作量。我司CTO和技术总监都是腾讯系的，所以我们一开始就选用腾讯云的服务。他们家的云数据库提供了可视化的运维操作页面和自动备份的能力，降低了数据
UnionLLM——通过统一接口调用国内外所有LLM的Python开源工具包 everfly python github
最近忙里偷闲和公司前端小伙伴一起撸了一个Python开源项目——UnionLLM。这是一个通过与OpenAI兼容的统一方式调用各种国内外各种大语言模型和Agent编排工具的轻量级开源工具包。我们开发它的起因是因为在实际项目中，经常需要调用多个大语言模型的API，但是国内每个大语言模型的接口和参数都不一样，这给我们的工作带来了很大的困扰和额外的成本。UnionLLM的目标是通过统一且容易扩展的方式连
【Java 面试八股文】Spring Cloud 篇落啦啦 java java 面试 spring cloud
SpringCloud篇1.SpringCloud5大组件有哪些？2.服务注册和发现是什么意思？SpringCloud如何实现服务注册发现？3.我看你之前也用过nacos，你能说下nacos与eureka的区别？4.你们项目负载均衡如何实现的？5.Ribbon负载均衡策略有哪些？6.如果想自定义负载均衡策略如何实现？7.什么是服务雪崩，怎么解决这个问题？8.你们的微服务是怎么监控的？9.你们项目中
案例分析：大对象复用的目标和注意点15 是小旭啊 mybatis nio dubbo
对于“大对象”的优化。这里的“大对象”，是一个泛化概念，它可能存放在JVM中，也可能正在网络上传输，也可能存在于数据库中。那么为什么大对象会影响我们的应用性能呢？第一，大对象占用的资源多，垃圾回收器要花一部分精力去对它进行回收；第二，大对象在不同的设备之间交换，会耗费网络流量，以及昂贵的I/O；第三，对大对象的解析和处理操作是耗时的，对象职责不聚焦，就会承担额外的性能开销。结合我们前面提到的缓存，
ASFF算法神笔馬良 Python入门知识深度学习人工智能
1.特征金字塔的缺点：对于单发检测器，在不同尺度上的不一致。2.采用启发式引导的特征选择:大实例通常与上层特征映射相关联，小实例与下层特征映射相关联。3.解决的问题：如果一幅图像同时包含大小目标，则不同层次特征之间的冲突往往占据特征金字塔的主要部分。这种不一致性干扰了训练过程中的梯度计算，降低了特征金字塔的有效性。4.这个问题存在的原因：当一个对象在某一层特征图中被赋值并被视为正值时，其他层特征图
【Linux基础】Linux下的C编程指南 Nebula嵌入式 #Linux基础 linux 嵌入式
目录一、前言二、Vim的使用2.1普通模式2.2插入模式2.3命令行模式2.4可视模式三、GCC编译器3.1预处理阶段3.2编译阶段3.3汇编阶段3.4链接阶段3.5静态库和动态库四、Gdb调试器五、总结一、前言在Linux环境下使用C语言进行编程是一项基础且重要的技能。本文将详细介绍在Linux下使用C语言编程的完整流程，包括代码编辑（使用vim）、编译（使用gcc）、调试（使用gdb）。对于大
在 Ubuntu 22.04 上搭建 Dify 应用的完整指南 jdfklaakjsdf AIGC ubuntu linux 运维
Dify是一款开源的AI应用开发平台，支持快速构建基于大语言模型（如GPT-3、ChatGLM等）的应用。本教程将详细演示如何在Ubuntu22.04系统上部署Dify。一、环境准备1.系统要求Ubuntu22.04LTS最低配置：2核CPU/4GB内存/20GB硬盘推荐配置：4核CPU/8GB内存/40GB硬盘2.更新系统sudoaptupdate&&sudoaptupgrade-ysudoap
字节的豆包和Kimi 的优劣势对比 eso1983 java python 算法
字节豆包、Kimi（月之暗面）和深度求索（DeepSeek）三款AI助手的对比分析，涵盖核心技术、功能特性、优劣势及适用场景.1.核心能力对比维度豆包（字节跳动）Kimi（月之暗面）DeepSeek（深度求索）技术基础基于字节自研云雀大模型，多模态能力突出，依托抖音/头条数据生态。Moonshot自研长文本大模型，专注超长上下文理解。自研模型聚焦复杂逻辑推理与代码生成，垂直领域优化。长文本处理支持
手把手教你用Docker部署Dify平台，打造可视化LLM应用环境脱泥不tony 自然语言处理 AI大模型 LLM 人工智能大语言模型语言模型 Dify
“Dify是一款开源的大语言模型(LLM)应用开发平台。它融合了后端即服务（BackendasService）和LLMOps的理念，使开发者可以快速搭建生产级的生成式AI应用。即使你是非技术人员，也能参与到AI应用的定义和数据运营过程中。Dify内置了构建LLM应用所需的关键技术栈，包括对数百个模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的流程编排，并同时
在Ubuntu系统上部署Dify（开源大语言模型应用开发平台） [shenhonglei] deepseek ubuntu 开源语言模型人工智能
在Ubuntu系统上部署Dify（开源大语言模型应用开发平台）环境准备Dify部署接入本地模型（如Ollama）安装Ollama运行模型并接入Dify环境准备系统要求Ubuntu20.04/22.04，建议CPU≥2核，内存≥4GB。安装Docker及DockerCompose：#安装Dockersudoaptupdatesudoaptinstallapt-transport-httpsca-ce
31.C++多态4（静态多态，动态多态，虚函数表的存储位置）橘子真甜～ c++开发语言
⭐上篇文章：30.C++多态3(多态的原理，虚指针，虚函数表，抽象类)-CSDN博客⭐本篇代码：c++学习/17.C++三大特性-多态·橘子真甜/c++-learning-of-yzc-码云-开源中国(gitee.com)⭐标⭐是比较重要的部分目录一.静态多态与动态多态二.派生类的虚表的内存分布2.1单继承派生类虚表的分布2.2多继承下派生类虚表的分布一.静态多态与动态多态静态多态是在编译的时候就
AI笔记——浅谈发展历程 Bqiuer AI AI笔记人工智能 ai
2023年，要说最让人震惊的热点，无疑就是AI技术的大爆发！从1950年的“图灵测试”标志着人工智能雏形的诞生，一些最顶尖的技术团队、技术学科进行研究，到如今几十年的时间。一、AI的历史进程人工智能（ArtificialIntelligence，AI）的历史进程可以追溯到上世纪50年代。1950年代-1960年代：起步阶段1950年，英国数学家艾伦·图灵提出了“图灵测试”，这是第一个旨在检验机器智
总结：记一次内存溢出导致的tomcat频繁挂掉问题小魏的博客 java jvm tomcat linux 内存泄漏
一、问题背景今天中午开始，几台线上服务器差不多在同个时间段相继挂掉，于是急忙排查故障原因。二、原因分析首先使用visualVM看资源使用情况，发现线程有2万多，甚至有的实例超过3万，于是通过jstack命令查看线程堆栈信息，看哪里代码生成太多的线程。失望的是，只看到线程池名称，但是看不到具体是哪个代码类引起的问题。于是另一种方式，换个角度，能否看到哪些对象占用空间大。使用jmap-dump命令，结
AI产品怎样才能打造出像人类一样聪明和有情商？ AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介随着人工智能技术的飞速发展、算法能力的不断增强、数据集的积累、计算设备的普及，人工智能已经成为各个行业、各个领域的重要突破性技术。然而，面对这一技术带来的巨大变革，如何为用户提供更加人性化的服务，并让人工智能模型对用户输入做出智能回应，则成为了一个长期且艰难的挑战。今天，我们将讨论一些常见的人机交互相关的问题，如语言模型、对话系统、生成模型等，并从中可以窥视到人
临床技能操作大赛实施流程方案天纵软件知识竞赛承办知识竞赛执行知识竞赛活动公司知识竞赛活动策划高端知识竞赛
各科室：根据我院医疗质量和医疗安全管理的有关文件要求，为提高我院临床医师“三基”水平，特别是临床技能操作水平，营造医务人员之间比学术、比技能的氛围，从而更进一步地提高我院的整体业务水平和医疗质量，经院技术委员会讨论，院委会批准，在全院范围内开展临床技能操作大赛，现将大赛方案印发给你们，请各科室积极准备并按要求参赛。一、临床技能操作大赛工作领导组及专家组：组长:刘爱民副组长：成员：二、临床技能操作大
ELMo ，LM：一串词序列的概率分布probability distribution over sequences of words 强化学习曾小健 NLP自然语言处理 #预训练语言模型
语言模型（LanguageModel），语言模型简单来说就是一串词序列的概率分布。Languagemodelisaprobabilitydistributionoversequencesofwords.GPT与ELMo当成特征的做法不同，OpenAIGPT不需要再重新对任务构建新的模型结构，而是直接在transformer这个语言模型上的最后一层接上softmax作为任务输出层，然后再对这整个模型
Python人工智能学习路线，来自阿里巴巴佛系Python程序员的指南阿里P6+ 2024年程序员学习 python 人工智能学习
其实，这两方面都是存在的，但都很片面，这里不加赘述。客观地说，数字化、智能化是人类社会发展的趋势，而当下人工智能无疑是一大热门，那是蓝海还是火海？我们回到老道理——水的深度，只有你自己去试试水才知道。当你对上面情况有了初步的了解并想试试水，需要面对的问题是：AI入门容易吗？答案其实是否定的，难！AI领域需要钻研算法原理、大量复杂的公式及符号、无所适从的项目都是劝退一时热度初学者的原因。但对于一个初
如何用对提示词？快速解锁大模型的隐藏能力人工智能
你是否留意到，有人借助AI高效完成工作甚至实现盈利，然而大部分人却仅用AI获取一些无关紧要的内容。为何会出现这种差异呢？究其原因，主要在于与AI沟通技巧的不同。无论使用何种模型，提示词的编写技巧都具有通用性。接下来，本文将详细介绍如何编写prompt（提示词），从而与大模型实现更有效的沟通。一、提示词的构成首先，我们来剖析一个prompt所应包含的关键信息：任务（指令）：明确需要完成的任务以及期望
聊聊当今IT行业的乱象 it程序员程序员发展技术
当今IT行业的“乱象”确实是一个值得探讨的复杂话题。当下互联网，大的背景是行业寒冬，工作岗位的数量和质量都远远不如之前，造成了打工人卷的飞起的现象，但是从企业端去看，却是面临高端人才不足，低端人才过剩以及招的人数很多但是却满足不了业务需求的问题。一、资本驱动下的“技术表演”PPT造神运动元宇宙、区块链、Web3.0等概念被过度包装，企业用“未来叙事”圈钱，实际落地场景寥寥。案例：某公司宣称开发“元
DeepSeek应用领域全景解析：驱动产业智能化升级的六大核心方向量子纠缠BUG DeepSeek部署 AI DeepSeek 人工智能 AI编程深度学习
一、引言：DeepSeek为何成为产业智能化首选？作为国产大模型的标杆产品，DeepSeek凭借其万亿级参数规模、MoE混合专家架构和多模态交互能力，正在重构产业智能化升级的技术路径。本文基于官方技术文档与行业实践案例，深入剖析DeepSeek在六大核心领域的应用突破与商业价值实现二、技术底座：支撑多领域落地的三大创新架构1.Transformer-XL增强架构通过引入Multi-HeadLate
微调 LLM （RLHF + DPO）人工智能
微调LLM（RLHF+DPO）使用强化学习（RL）根据人类反馈微调大语言模型（即RLHF）的方法，以及一种更有效的改进方法（即DPO）。一、GPT-3与InstructGPT2020年，OpenAI发布了GPT-3，这是一种大型语言模型（LLM），只需查看几个示例即可执行任意自然语言处理（NLP）任务。这包括为模型编写巧妙的输入（即提示），使其执行所需的任务（例如翻译、问答和完形填空任务）。尽管G
大模型安全 | “创造未来，安全同行” 北京站·第九期「度安讲」技术沙龙开放报名大模型
「创造未来，安全同行」第九期“度安讲”技术沙龙即将同大家见面。本期「度安讲」技术沙龙将于12月20日在北京召开。在大模型技术快速迭代的今天，如何构建安全可靠的应用环境已成为业界关注的焦点。本次沙龙将由行业领军专家，深入探讨多模态、终端大模型等前沿领域的安全议题，从防护机制、评测体系、落地实践等维度展开分享，旨在通过专业对话与经验分享，共同描绘大模型安全发展蓝图。
状态模式烟沙九洲设计模式状态模式 java
状态（State）模式属于行为型模式的一种。状态模式允许对象在其内部状态改变时改变其行为，使其看上去就像改变了自身所属的类一样。状态模式是为了把一大串if...else...的逻辑给分拆到不同的状态类中，使得将来增加状态比较容易。状态模式的关键设计思想在于状态切换。简单的状态转换可以直接由调用方指定，复杂的状态转换可以在内部根据条件触发完成。状态模式建议为对象的所有可能状态新建一个类，然后将所有状
让 LLM 来评判 | 设计你自己的评估 prompt 人工智能llmprompt
设计你自己的评估prompt这是让LLM来评判系列文章的第三篇，敬请关注系列文章:基础概念选择LLM评估模型设计你自己的评估prompt评估你的评估结果奖励模型相关内容技巧与提示通用prompt设计建议我总结的互联网上通用prompt的通用设计原则如下:任务描述清晰:YourtaskistodoX(你的任务是X).YouwillbeprovidedwithY(你拿到的信息是Y).评估标准精细，评分
阿里AI通义千问api python开发文档淘小白_TXB2196 人工智能 javascript 前端
本文中含有需要您注意的重要提示信息，忽略该信息可能对您的业务造成影响，请务必仔细阅读。您可以使用SDK或API调用通义千问模型，根据您的需求实现灵活的定制和开发。通义千问说明支持的领域/任务：aigc通义千问大语言模型以用户文本形式的指令（prompt）以及不定轮次的对话消息作为输入，并基于这些信息生成回复作为输出。在这一过程中，文本将被转换为语言模型可以处理的token序列。Token是模型用来
MySQL面试学习 hxung 面试学习使用 mysql 面试学习
MySQL1.事务事务的4大特性事务4大特性：原子性、一致性、隔离性、持久性原⼦性：事务是最⼩的执⾏单位，不允许分割。事务的原⼦性确保动作要么全部完成，要么全不执行一致性：执⾏事务前后，数据保持⼀致，多个事务对同⼀个数据读取的结果是相同的；隔离性：并发访问数据库时，⼀个⽤户的事务不被其他事务所⼲扰，各并发事务之间数据库是独⽴的；持久性：⼀个事务被提交之后。它对数据库中数据的改变是持久的，即使数据库
大语言模型：数据分析报告自动化的未来趋势 theskylife 个人随笔数据分析语言模型数据分析自动化人工智能大语言模型
目录写在开头1.数据分析报告的传统挑战时间消耗技术壁垒错误风险可扩展性问题更新频率限制用户交互和定制化不足整合新技术的挑战2.大语言模型在报告生成中的作用自动化文本生成增强准确性和丰富性实时数据处理能力提高可访问性和用户交互3.一种实现的思路3.1.明确目标与设定任务3.2.数据准备3.3.使用大语言模型生成初步内容3.4.内容整合与优化3.5.数据可视化3.6.报告完善与发布3.7实际应用中的关
脑洞大开！用DeepSeek辅助AI绘图！二哥不像程序员人工智能 DeepSeek AI作画
DeepSeek应用（AI绘图篇）DeepSeek作为当前最好的AI大模型之一，其强大的文本生成能力被广泛的应用于各个领域，本文我们来聊聊用DeepSeek来辅助AI绘图。（文末附多款可以免费使用的AI绘图工具）一、DeepSeek&AI绘图作为语言模型，DeepSeek本身没有直接绘图的能力，换个思路，让DeepSeek按照我们的想法去创造绘图提示词，我们再讲提示词提供给AI绘图工具就可以了。操
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>