zenRRan

ACL2023 | 大模型如何快速构建指令遵循数据集？Self-Instruct：只需175条种子数据追上InstructGPT...

来自：NLP PaperWeekly

进NLP群—>加入NLP交流群

一、概述

title：SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions

论文地址：https://arxiv.org/abs/2212.10560

代码：https://github.com/yizhongw/self-instruct

1 Motivation

构造instruction data非常耗时耗力，常受限于质量，多样性，创造性，阻碍了instruction-tuned模型的发展。
背景：instruction-tuned方法是指利用非常多的指令数据【人类instructions指令和respond回答数据】去finetuned LLM模型，让模型能够理解人类指令，训练后使其对新的任务有非常强的zero-shot能力。

2 Methods

方法概述：本文提出self-instruct框架，通过bootstrapping off方法让原始的LM模型直接生成instruction数据，通过过滤和筛选后，产生大量的insturction指令数据（多样性和效果都不错），进而可以极大降低instruction数据的构建成本。
方法步骤总结：通过少量种子数据 + LM模型本身（未经过tuned模型）=> 生成instruction（指令）+ input（指令提到的输入，可以为空）+ output（响应输出）=> 然后filters过滤无效和相似的样本 => 来构造非常多的instruction指令遵循数据，详细步骤如下：

2.1 Defining Instruction Data

Instruction：指令
X：根据instruction，X可能为空或者不为空。例如：输入X为空的Instruction：write an essay about school safety，输入不为空的Instruction：write an essay about the following topic
Y：答案，只根据X或者Instruction理想的response回答

2.2 Automatic Instruction Data Generation

Instruction Generation：使用175个种子数据来生成新的Instruction，每一步采用8-few-shot的策略，其中6个是人类写的，2个是机器生成的。

Classification Task Identification：利用LM采用few-shot的方式来预测1中生成的instructions是否为分类任务，采用12个分类任务，19个非分类任务作为few-shot的例子。

2.3 Instance Generation：采用两种方法来生成实例X和Y

输入优先方法（Input-first Approach），首先根据说明提出输入字段X，然后产生相应的输出Y，这里task就是input X，output就是输出Y，也是通过in-context learning来做的，主要处理非分类的实例生成。

分类任务的输出优先方法（Output-first Approach），先生成可能的类标签，然后生成对应句子【这么做是为了控制正负样本比例】

2.4 Filtering and Postprocessing

过滤相似度比较高的，和已有的样本ROUGE-L小于0.7的才要
过滤image，picture，graph通常LLM无法处理的词
过滤instruction相同但是answer不同的
过滤太长或者太短

2.5 FineTuning

采用多个templates模版，来encode instruction和instance进行训练，提升不同格式的鲁棒性。

3 Conclusion

比原始的GPT-3模型，绝对提升了33%，并且达到了差不多追上InstructGPT001的效果。就算利用公开的instruct数据，也有不错的提升。

总结：

- 就用了175个原始种子数据，利用GPT3接口finetuned模型，比原始的GPT3高了33个点，并且居然和InstructGPT001效果差不太多了。
- 有了充分的训练数据，在SUPERNI数据集（其更偏向于研究领域任务，与人类的Instruction的分布还是有差异，后续也针对真实的人类Instruction分布做了实验）上训练，用了本文提出的self-instruct还是有2个点的提升。

self-instruct提供了一个不用大量标注就能让原始的LM（未经过指令学习的模型）学习理解人类指令的解决方案，极大地降低指令数据的生成和标注成本。
本文发布了大规模的synthetic数据集，方便后续大家进行instruction tuning的研究。

4 limitation

长尾效应还比较严重：self-instruct依赖于LMs生成数据，会继承LM的缺陷，偏向于出现频率高的词。在常见的指令上效果可能不错，在长尾样本上可能效果比较差。
依赖大模型：依赖大模型的归纳偏差（inductive biases），可能只在大模型上效果比较好，由于大模型资源要求比较大，这也限制了小模型的使用。
可能会增强LM的偏见：可能会放大social bias，例如模型可能无法产生比较balanced的label。

二、详细内容

1 评估本文self-instruct在用户实际需求的Instructions上是否有效果

背景：SUPERNI数据更偏向于研究任务，这里通过头脑风暴构造了一些更偏向用户实际需求的Instructions，来检验self-instruct的效果，还是和InstructGPT系列来比较

结论：效果也基本接近InstructGPT001，说明了其有效性，这里只使用了252个种子数据，也可以极大地降低Instruction构建的成本。

2 评估使用本文self-instruct方法扩充的Instruction是否真的有用

方法：从Instruction数量、回复response质量两个角度来进行试验，其中response质量对比是通过蒸馏更好模型的response来做的实验。

实验1：评估扩充的训练数据量级对效果的影响

- 方法：从最开始的175个种子数据，逐步增加数据量，评估效果。
- 结论：大概训练数据在16K左右，效果就比较平了，带来的提升没那么大了。

实验2：评估生成的response的质量对效果的影响（从更好的模型InstructGPT蒸馏得到更好的response）

- 结论：44.4%提升到54.4%，说明更好的回复质量对模型的提升也是巨大的。

3 生成的数据量级

训练GPT3的数据量级：52k个Instruction数据，82k个实例。

4 生成的数据的多样性

评估方法1：挑选top20最常见的动词，然后画出其top4的直接noun object分布，衡量整体的数据分布。
评估方法2：画出与种子数据中，最相近文本的Rouge-L的分布，衡量与种子数据的分布差异。
结论：发现多样性还不错，这也是生成的数据能让模型学会通用的指令遵循的原因之一。

5 生成数据的质量

统计指标：随机挑选200个指令，每个指令随机挑选一个实例来标注

- 指令有效率：92%
- input与指令一致：79%
- output正确（能很好地响应Instruction和input的要求）：58%
- 各个场景都有效：54%

总结：尽管生成的数据还是包含误差，但是大多数还是正确的，可以提供有用的指导，让模型能学会遵循人类指令。

三、个人总结

相当于验证了少量种子数据 + 原始预训练模型 => 生成大批量多样性 + 质量还不错的指令数据的可行性 => 好处是可以极大降低指令遵循数据集构建的成本。
这篇文章解释了为什么大模型能听懂人类指令的困惑，可以看出，原始的GPT-3模型学习了非常多的知识，但是人类指令遵循的能力非常非常差，通过self-instruct构造大量的多样、高质量的指令数据和答案，模型就开始能听懂指令，理解这个指令的具体含义，并给出人类期望的respond响应。其中指令的【多样性】和回复的【质量】是非常关键的两个因素。

对于如何对齐人类的价值观：可以参考复旦moss模型【参考资源1】，也是构造了非常多的对人类无害的种子数据，然后利用模型生成非常多的指令遵循数据，让模型尽可能的生成无害的结果，从另一个角度看，如果不法分子诱导模型去生成暴力倾向等不符合人类期望的答案，那么可能会训练出毒性非常大的模型，这也是非常恐怖的，难怪微软的文章说原始的gpt-3.5系列可能具备更强的能力，说明OpenAI在这方面做了非常强的约束。也难怪OpenAI强烈建议对大模型进行监管。
最近的OpenAI state of GPT的分享【参考资源2】，也提到原始next word predict训练的预训练模型LM擅长构建类似的问题，而不善于遵循人类指令生成回复，这个预训练阶段的任务也是Match的，同时本文利用其擅长构建类似问题的特点来构建更多的指令数据，也比较符合常理。

四、参考资源

复旦团队大模型 MOSS 开源了，有哪些技术亮点值得关注？- 孙天祥的回答 - 知乎 https://www.zhihu.com/question/596908242/answer/2994534005
https://karpathy.ai/stateofgpt.pdf

如果您喜欢本文的内容，希望与更多人分享这份知识，我诚挚地邀请您给予我点赞和转发。您的每一个动作，都将为我的努力加油鼓劲，激励我创作更多优质的文章。

进NLP群—>加入NLP交流群

你可能感兴趣的:(ACL2023 | 大模型如何快速构建指令遵循数据集？Self-Instruct：只需175条种子数据追上InstructGPT...)

油价猛涨突破110美元？加油更贵了该咋办？慕容随风
据证券时报3月2日的报道，在石油股暴涨的背后，是油价的再度飙涨。布伦特油价时隔多年再次突破110美元。而国内和石油相关的期货上午亦集体飙涨，多个相关期货品种涨停。行情数据显示，截至收盘，沪指跌0.13%，深成指跌1.05%，创业板指跌1.77%。行业板块方面，石油、有色金属、煤炭等资源类板块领涨。据彭博资讯，2021年俄罗斯向欧洲输送的管道天然气占欧洲总进口量的35%，俄罗斯原油出口占据欧洲进口总
Oracle分区表插入数据库时间时报ORA-14400 Indestructible
使用springdatajpa插入数据时，需要表中的createtime保存为数据库时间，而不是应用服务器时间，实现这个功能只需要在实体类上面加@DynamicInsert就可以了。代码如下：@Entity@Table(name="ENTITY")@DynamicInsertpublicclassEntity{@Column(nullable=false)privateDatecreatetime
2021-03-18 Linux进阶-from Biotrainee 乔帮主_d2ac
vim编辑器Vim编辑器：大多数Linux都会自带的文本编辑器。功能强大：代码补全、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛使用。功能强大到其官方现在对自己的定位是“程序开发工具”Vim编辑器：三种模式image.png命令模式方向键或者hjkl^和$：快速到所在行的开头和末尾（用0也可以到开头）30j：向下移动30行（数字+方向进行快速移动）ctrl+f或b:上下翻页（forwa
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
鬼谷子：人有四种，你是哪种？永泉说鬼谷
鬼谷子原文：粤若稽古，圣人之在天地间也，为众生之先。观阴阳之开阖以名命物，知存亡之门户，筹策万类之终始，达人心之理，见变化之朕焉，而守司其门户。译文：从古至今，生活在天地之间的圣人，就是要成为众人的先导。通过观察阴阳开阖的变化来对事物作出判断，并进一步了解事物生存和死亡的关键。策划事情发展的开头与结尾，通晓其中的人性的之理，通过事物发展过程中的微小变化，而守住事物发展的关键要害。（1）如何做圣人人
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
2021-01-09 做个会思考的老师
写给我的小“猪”娃们亲爱的小猪娃们，新年好！之所以想到要给你们写这封信，源于这段时间来你们带给我的惊喜和改变。不知从什么时候开始，我们的课堂有了灵气，我们的互动也有了默契。每一节课，你们都在用自己的思考，自己的表达向我展示你们的进步。课堂上，最喜欢看到你们认真倾听其他同学的想法时那专注的神情，最喜欢听到你们说：“老师，我还有不同的想法！”你们现在所表现出来的学习状态，和开学时简直是有了180°的大
大前端开发者如何应对 AI 浪潮：技能提升与职业发展规划欧阳天羲大前端与 AI 的深度融合 #AI 大前端行业应用与趋势篇人工智能前端
AI技术的爆发正深刻重塑大前端领域的技术栈与职业边界——从代码生成到智能交互，从自动化测试到自主化应用，AI不再是“可选技能”，而是“生存必备”。对于前端开发者而言，这既是挑战（传统技能贬值加速），更是机遇（新职业赛道涌现）。本文将系统梳理AI时代前端开发者的技能升级路线图，解析三大核心职业方向的能力要求，并提供可落地的学习路径与实践方案，帮助开发者在技术变革中实现竞争力跃迁。一、AI时代对大前端
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
视频号如何购买粉丝在哪个渠道购买？赶紧收藏起来！桃朵app
随着视频号的快速发展，越来越多的人在玩视频号。你可能会注意到，你的朋友圈里到处都是分享视频号和购买视频号粉丝的人。今天，我想向你解释一下，为什么越来越多的人想买视频号粉丝。首先，你要知道的是，视频号有很多渠道可以购买粉丝。你可以直接在微信上购买视频号粉丝，也可以通过第三方平台购买。不管是哪种方式，都不会有什么问题。专业团队投票微信205956123(长按微信号可复制粘贴)纯人工快速涨票那么，接下来
（黄碧林）石城第二届传统文化论坛黄碧林
风华日下，炎炎夏日我们迎来了石城县第二届传统文化交流。同时也迎来了各地的志愿者们前来参加交流，大家都为了一个目标希望把此次石城传统文化的精髓传承到祖国各地发扬光大。尹子文老师用自己的亲身经历以及博大的文化精神精彩给我们传经送道。一个中心，二种精神，三大法宝，四项能力，五颗良心。告诉我们做人的道理。书中自有黄金屋，教我们大量的圣贤教育，吸取其中的精华用于生活，用于改善自己，用于提高自己。感恩老师。张
从服务实例的元数据中获取配置值 vs 从本地配置文件中获取配置值
在微服务架构中，配置管理是保障系统灵活运行的核心环节。开发者常面临选择困境：该从服务实例元数据（如instance.getMetadata().get("weight")）还是本地配置文件（如@Value("${weight}")）获取配置？两者有何本质区别？能否随意互换？本文将整合两种配置获取方式的核心特性，从技术原理到实际应用进行全面解析。一、两种配置获取方式的核心原理与示例1.服务实例元数据
掌阅小说推文怎么做？掌阅APP拉新一个多少钱附玩法攻略清风导师
掌阅小说APP推广拉新赚钱怎么做?掌阅APP小说推文CPA拉新一个多少钱?掌阅小说是一个知名的电子小说阅读平台，众所周知现在大量用户喜欢查阅电子小说，所以也是有许多的知名大品牌在争夺这一块市场，特别是近年来的小说推文项目也是借助短视频火爆起来的一种热门的赚钱副业，比如掌阅APP小说推文CPA拉新项目!（原创内容抄袭必究）所谓的CPA跟CPS相对，就是用户计件拉新获得佣金，而不是根据销售金额来计算，
在二分类任务中如何处理包含中文的类别特征 Dush32 分类数据挖掘人工智能机器学习数据分析
在机器学习中，处理类别特征（CategoricalFeatures）是常见的任务，特别是在中文数据中，很多类别特征如省份、城市等都是字符串类型。如何将这些类别变量转换为模型可以理解的数值格式，是每个数据科学家都必须面对的挑战。在这篇文章中，我们将探讨两种常见的类别特征编码方法：astype('category')和LabelEncoder，并比较它们在二分类任务中的效果。我们以“省份”这一类别特征
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
日更5:《财务自由之路》：你对金钱的信仰才能将你引向财务自由。 JIN1_Try
摘录：身体大多数行为和变化都是自发进行的，我们根本意识不到。就好像我们也根本不会去考虑何时、如何吸气或呼气一样，深深根植在内心的信念会控制我们的潜意识。你思考过这是否也适用于你与金钱打交道时的情况吗？思考：你对金钱的信仰是什么？1:金钱给人力量，金钱能够链接美好的事物。2:富有的人能够更加健康。摘录2:“这些年，我一直保持78千克的体重，健康有活力。现在的我，理解不了怎么会有人不跑步。跑步使人充满
从 C# 转 Python 第三天：文件操作、异常处理与错误日志实践 AI、少年郎 java 前端数据库 c#文件操作异常处理
在软件开发的广阔领域中，Python和C#作为两种备受瞩目的编程语言，各自凭借独特的特性和强大的功能，在不同的应用场景中展现出卓越的性能。对于开发者而言，深入理解并熟练掌握这两门语言的核心技能，如文件操作与异常处理，不仅是提升个人编程能力的关键，更是在复杂多变的项目开发中应对各种挑战、确保程序稳定运行的必备条件。在日常的编程工作中，文件操作是实现数据持久化存储、读取配置信息以及处理各种数据文件的基
MC0463四大名著-水浒签到 qystca 算法
码蹄集OJ-四大名著-水浒签到一、题目背景本问题以《水浒传》为故事经纬，讲述史进对数列数字奥秘的探索。小码妹向其讲解特殊数列求和规则，我们需依据规则，对给定长度n的数列，按奇偶分组方式计算奇数组和与偶数组和的运算结果（奇数组求和、偶数组作差，交替进行），完成这场时空探险中的数字挑战。二、问题规则（一）分组方式现有长度为n的数列a1,a2,⋯,an，分组规则如下：若n为偶数，将数列分成2n组，依次为
python爬虫入门（小白五分钟从入门到精通）一百天成为python专家 python 爬虫开发语言网络爬虫 python3.11 ipython
网络爬虫的介绍本节主要介绍Pytbon语言中支持网络爬虫的库,此外还将介绍如何获取网站的爬取规则，读者在学习和践过程中一定要严格遵守网站提供的爬取规则。网络爬虫网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网中的关键信息，例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库，下面将具urHIib库:是Python自带的标准库，无须下
那树，那鱼，和拴马桩相见乎离
那树是否象我，有时记不清日期进而开始怀疑自己的年龄也许，这是人到中年的通病尽管你已经八千岁了那鱼，如何分清自己的眼泪和水？水，是否也会在眼睛见不到处，长出年轮？鱼儿离开水，意味着死亡而我耗尽平生之力最终，把岁月捅破一个窟窿老屋前，古老的拴马桩可曾被马缰绳勒痛？它在接受老石匠的雕琢时，一声未吭我看见，它静默着在岁月的摩挲下酥软成沙或许，有些痛只能用无声来表达夜，是白天的影子吗？我在影子里沉沉睡去谁在
行情解读与机构论市鸿运_97d7
隔夜外盘欧美股市上涨，A50涨0.14%。外盘比我们想象要强，而A股比我们想象要弱。周四，A股三大指数开盘涨跌各异，早盘受“三桶油”冲高提振，沪指于盘初冲高，不过随后便出现回落并震荡翻绿，创业板指则小幅高开呈现窄幅横盘的走势；午后沪指、深成指相继翻红，三大指数集体收涨，其中沪指终结四连跌。沪指涨0.65%，报3261.25点，深成指涨0.62%，报11651.83点，创业板指涨0.5%，报2383
广州仿大牌包包在哪买？试试十个购买渠道腕表鞋屋
广州仿大牌包包在哪买？试试十个购买渠道广州是中国的主要服装和配饰生产基地之一，其中包括各种仿品大牌包包。在广州购买高质量的仿品包包，以下有十个可能的购买渠道供您参考。微信:1441634880(下单赠送精美礼品)1.广州站仿包市场：这是一个非常大的批发市场，集合了众多的服饰品牌，包括各种仿大牌包包。价格相对便宜，只是需要一定的讨价还价技巧。2.广州流花仿包商场：靠近广州火车站，有着众多的小店和露天
Python 虚拟环境管理工具 UV：从安装到高级用法的详细教程 Dush32 python uv 开发语言人工智能机器学习分类
前言在Python开发中，管理不同项目的依赖包和Python版本是开发者常常遇到的问题。不同项目可能依赖不同版本的库，甚至同一个库在不同版本下的行为可能不同。为了避免这些问题，使用虚拟环境成为了解决方案。虚拟环境通过隔离每个项目的依赖，避免了版本冲突问题。在Python中，常用的虚拟环境管理工具有virtualenv、venv和一些第三方工具，如UV。本文将详细介绍如何使用UV虚拟环境管理工具，从
戴尔R750XS服务器Windows Server 2012 R2 管理员密码忘记，如何解决？ bug菌¹ 全栈Bug调优(实战版)服务器 windows 运维
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！备注：部分问题/疑难杂症搜集于互联网。全文目录：问题描述解决方案（请知悉：如下方案不保证一定适配你的问题）1.**通过“安全模式”重置管理员密码**2.**使用Windo
第三章数据链路层 becoolguy
一、数据链路层的功能数据链路层在物理层提供服务的基础上向网络层提供服务，主要作用是加强物理层传输层原始比特流的功能，将物理层提供的可能出错的物理连接改造成为逻辑上无差错的数据链路，使之对网络层表现为一条无差错的链路。二、介质访问控制CSMA/CD：先听后发、边听边发、冲突停发、随机重发CSMA/CA：在发送数据时先广播告知其他结点，让其他结点在某段时间内不要发送数据，以免出现碰撞三、局域网PPP协
淋雨 Leo的防丢绳
晚上十点多冰箱里的西瓜再不吃就坏了细小的飞虫在吃剩的瓜皮上不顾死活贪婪果然是世间万物的本色穿上人字拖那袋污秽的垃圾再不扔就满了远处的路灯借着秋风把树影吹的斑驳悲凉也许只是因为穿的单薄侧耳听萧瑟楼宇门旁的电梯再不回就关了沙沙作响的天空突然有豆大的雨点坠落忍不住抬头想感受那瞬间的瓢泼听说把文字分成段落写就有诗的感觉了。有感于昨天出门扔垃圾正赶一场暴雨，那大雨点子砸在头上跟有人弹脑瓜崩一样。
前端面试专栏-工程化：27.工程化实践（CI/CD、代码规范）爱分享的程序员前端面试通关指南前端面试 ci/cd
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情项目实战与工程化模块-工程化实践（CI/CD、代码规范）在团队协作的项目实战中，工程化实践是保障开发效率与代码质量的核心支柱。当项目规模从几人协作扩展到数十人团队时，单纯依赖人工沟通和经验规范会导致效率低下、bug频发。本文聚焦工程化的两大核
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他