javastart

大模型训练数据集介绍

原文：大模型训练数据集介绍 - 知乎

1、斯坦福开源数据集

数据集名称：alpaca_data.json

https://github.com/tatsu-lab/stanford_alpaca

alpaca_data.json包含了我们用于微调Alpaca模型的52K条指令跟随数据。这个JSON文件是一个字典列表，每个字典包含以下字段： instruction: str，描述模型应执行的任务。

这52K条指令中的每一条都是独特的。

input: str，任务的可选上下文或输入。例如，当指令为“总结以下文章”时，输入为文章。大约40%的示例有输入。

output: str，由text-davinci-003生成的指令答案

2、Belle开源数据集

2-1、个性化角色对话

数据集名称：BelleGroup/generated_chat_0.4M

https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M

instruction: 指令
input: 输入（本数据集均为空）
output: 输出

2-2、中文数据题数据

数据集名称：BelleGroup/school_math_0.25M

https://huggingface.co/datasets/BelleGroup/school_math_0.25M 字段同上

2-3、中文指令数据

数据集名称：BelleGroup/train_2M_CN

https://huggingface.co/datasets/BelleGroup/train_2M_CN

3、Guanaco数据集

Guanaco是一个基于Meta的LLaMA 7B模型训练的指令跟随语言模型。在Alpaca模型的原始52K数据的基础上，我们添加了额外的534,530个条目，涵盖英语、简体中文、繁体中文（台湾）、繁体中文（香港）、日语、德语以及各种语言和语法任务。通过使用这些丰富的数据重新训练和优化模型，Guanaco在多语言环境中展现出了出色的性能和潜力数据集名称：Guanaco https://guanaco-model.github.io/

4、Fifefly 数据集

我们收集了23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万。数据分布如下图所示

数据分布

每条数据的格式如下，包含任务类型、输入、目标输出：

{
  "kind": "ClassicalChinese", 
  "input": "将下面句子翻译成现代文：\n石中央又生一树，高百余尺，条干偃阴为五色，翠叶如盘，花径尺余，色深碧，蕊深红，异香成烟，著物霏霏。",
  "target": "大石的中央长着一棵树，一百多尺高，枝干是彩色的，树叶有盘子那样大，花的直径有一尺宽，花瓣深蓝色，花中飘出奇异的香气笼罩着周围，如烟似雾。"
}

数据集名称：YeungNLP/firefly-train-1.1M https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M 训练数据集的token长度分布如下图所示，绝大部分数据的长度都小于600：

数据长度统计

5、alpaca_chinese_dataset

在alpaca_dataset的基础上，进行了翻译，并补充了相关中文数据

https://github.com/hikariming/alpaca_chinese_dataset

6、Chinese Open Instruction Generalist

智源开源的数据集我们提出了“中国开放指令通用项目（COIG）”，以维护一组无害、有用和多样化的中文指令语料库。主要包括

翻译通用指令语料库
考试指令语料库
人类价值对齐指令语料库
一个多轮反事实修正聊天语料库
一个leetcode指令语料库

https://huggingface.co/datasets/BAAI/COIG

7、Alpaca_GPT4

https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

亮点是利用 GPT-4 生成的 Alpaca 数据，并做了中文的翻译

8、Alpaca-CoT

对现在的开源数据集做了相关的整理和汇总，并且加上了自己开源的CoT数据集。懒人必备

https://huggingface.co/datasets/QingyiSi/Alpaca-CoT

9、其他数据

OpenDataLab 为国产大模型提供高质量的开放数据集
- https://opendatalab.com/
千言数据集
- https://www.luge.ai/#

你可能感兴趣的:(大模型,自然语言,gpt-3,chatgpt)

人一晃就老，别自寻烦恼我是小荣
人总是习惯为过去没做或者做错的事后悔，似乎机会再来一次，自己一定会表现得尽善尽美。这与其说是责怪过去的自己，不如说是接受不了现在的失败。其实，就算回到过去，大部分人还是会做出相同的选择。人生是个不可控的变量，在这一局摔倒，就有可能在下一局重新站起来，前提是自己不过分沉溺过去。有个人和朋友一起创业，在看到成果之前他由于个人原因中途退出了。后来公司做出了一定的成绩，被大企业收购，几个创始人都身价倍增，
6首神韵叫绝的叠字古诗词，常人穷极一生都写不出九煜小神丐
“庭院深深深几许”、“晴川历历汉阳树，芳草萋萋鹦鹉洲”、“纷纷雨竹翠森森，点点风花落绿阴”等叠字古诗词，读起来无不朗朗上口，又凝结着万千情感。由于经典的叠字古诗词浩若云烟，故以三大标准精选6首重言词、叠字诗，与大家一同分享。三大标准：（1）韵美；（2）意境佳；（3）叠字频率高。01天净沙·即事[元·乔吉]莺莺燕燕春春，花花柳柳真真。事事风风韵韵。娇娇嫩嫩，停停当当人人。（整首小令，全用叠词，音韵优
计算机毕业设计——springboot的准妈妈孕期交流平台
**欢迎来到琛哥的技术世界！**博主小档案：琛哥，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：琛哥在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，琛哥更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。博客亮点：琛哥坚信“授人以渔胜于授人以鱼”，因此我的博客中，你不仅可以找到关于技术的深入解
集成灶哪个牌子好？哪个品牌性价比高质量好? 日常购物小技巧
大家好，我是花桃APP商品推荐官：美美，今天给各位朋友们说说集成灶哪个牌子好？哪个品牌性价比高质量好?集成灶十大品牌有亿田、帅丰、板川、火星人等品牌。这些品牌目前市场销售情况都非常不错。如果大家要选购一台质量好，性价比高的集成灶，不妨可以去线下专卖店看一下这几个品牌。我们知道集成灶最大的优势是可以缩短吸油烟距离，影响集成灶效果最重要的就是吸烟和排烟，既要避免油烟四散，又要防止油烟倒灌，说具体技术大
231篇觉察日志语宝妈
今晚到家后，孩子说自己做了泡面吃，那我就自己解决晚餐了。满足的吃完晚餐后，我习惯靠墙站五分钟。靠墙站其实挺累，斋站着等时间会觉得很漫长，所以打开英语听演讲，这样时间就过得快多了。远远叫我，妈妈，我需要你的帮助。我走过去，看到远远又拼出一个新的乐高模型，现在需要穿绳子，我帮远远穿绳子，一起找零件，我真欣赏儿子这种专注和投入，特别让我佩服，陪儿子做他热爱的，我感觉也很好。以前远远让我陪伴他做的“游戏”
日更教会我的那些事：慢慢写，深深爱。青子入戏
网图就是一个大舞台，充满了无限的惊喜。这个世界阻挡不了你的光芒，你也覆盖不了别人的光辉。在，人人都是平等的，人人都是自由的，你可以自由的闪耀你的光芒。首先很感谢，创造了一个优质的写作平台。创作你的创作，这句话就代表了一切，就是这么简单干脆直接。让我们这些文字爱好者，有了可以展示自己的机会，可以袒露心声。我有好多话想对你说，感谢平台的包容，也感谢自己明智的选择。一：日更教会我热爱一件事，就全力以赴。
乐买买好乐买盈利模式，抖音乐买买乐好乐买为什么关闭古楼
乐买买抖音商业模式的优势是什么，抖音乐买买是什么意思查看更多关于乐买买抖音商业模式的优势是什么，抖音乐买买是什么意思的文章如今流量乐买买乐买买抖音大的风口是短视频，越来越多的人跟上了乐买买抖音的步伐，但是大部分都是盲从，没有实现盈利。在此基础上，总结出乐买买抖音赚钱的六种方法，门槛低，操作性强，普通人也能学到会。我为什么从乐买买转到高省APP呢？因为乐买买有的功能高省APP都有，高省APP的佣金还
浮梦手游怎么当托? 浮梦内部福利号如何才能申请？会飞滴鱼儿
导读：浮梦手游怎么当托?浮梦内部福利号如何才能申请？谈及手游内部号和“托”号，以及返利号，折扣号，很多人都只是听闻它们的存在，并不了解它真正的作用，“托”号以及返利，折扣号其实都是内部号的一种说法，内部号主要好处就是可以得到游戏运营商扶持，上线就有5000充值福利，vip会员的等级和高级道具礼包福利，每天还有500-2000的充值福利，拥有内部福利的加持，你才能在游戏内称王称霸。每个人的钱都不是大
VideoPrism模型论文速读：一种用于视频理解的基础视觉编码器
1.引言论文介绍了VideoPrism，这是一个通用视频编码器，能够在多种视频理解任务中实现最先进的性能。VideoPrism的目标是通过单一冻结模型处理不同的视频理解任务，包括分类、定位、检索、字幕生成和问答。VideoPrism在预训练过程中使用了大规模的视频-文本对数据和带有噪声平行文本的视频片段。预训练方法在掩码自动编码基础上进行了改进，通过全局-局部蒸馏语义视频嵌入和令牌洗牌方案，使Vi
不可思议的一小步 Smile微笑笑
小到不可能失败，正是因为这样，使我们不会有任何思想负担。千里之行，始于足下。从点滴小事做起，逐步进行，在不知不觉中培养。001.什么是微习惯微习惯是种非常微小的积极行为，每天绝对可以完成，不会有丝毫负担。002.如何建立微习惯从一个小小的行为开始。例如：每天做一个俯卧撑或仰卧起坐。将自己想培养的习惯经大幅度的缩减，使之成为小到不可能失败的事。003.大脑两大核心角色愚蠢重复者-基底神经节，毅力坚定
RedisJSON 的 JSON.STRAPPEND字符串追加的正确姿势
1·写在前面在数据模型中，“追加”是个高频需求：日志拼接、状态堆栈、消息跟踪……如果把这些信息存在RedisJSON文档里，与其整段读出再写回，不如直接用JSON.STRAPPEND就地完成。本文将带你从语法、返回值到性能陷阱，全方位掌握JSON.STRAPPEND的使用，并配套一段Go-Redis代码示例，随取随用。2·指令总览指令功能复杂度JSON.STRAPPENDkey[path]valu
金壶落水民间小故事汇
潭州知府高桂生可谓年轻有为，还不到三十岁就坐上州府的位子。但他刚到任几个月，家里就出了一件怪事情。这天夫人打算重新购置几件家具，她交待管家后，就进屋去取银子，可刚打开柜子，就发出一声惊叫。高桂生正在和几位同僚高谈阔论呢，听到管家说家里出了怪事，连忙跑回家问。夫人只是指着柜里说：“你前两天交给我的三百两银子全都变了。”只见柜里整整齐齐摆着的是一大堆银锭模样的土块，高桂生细数了一下，正是三百两，而柜子
思维模式与抑郁症一束蓝光
今天看到了终身成长第44页，里面写了思维模式与抑郁症之间的联系，因为固定型思维在遇到了挫折的时候会一直责骂自己，而且会觉得努力是不能突破问题的，更会觉得自己突破不了完成不了，久而久之就非常可能得抑郁症，所以固定型思维得抑郁症的概率相对来说更大，因为固定型思维，思想更保守，更想要得到稳定的东西，还不想太努力，所以这是固定性思维逻辑得抑郁症的概率为什么这么大的原因。加油，与君共勉之～
从 Ollama 转向 vLLM：寻求高通量 LLM 服务的稳定性知识大胖 NVIDIA GPU和大语言模型开发教程 ai
简介在过去的一年里，我一直在大量使用GraphRAG（微软版本和我自己开发的版本），我总是惊讶于文档复杂性的微小增加会造成多大的预算浪费。当我使用gpt-4.1-miniOpenAI时——仅一套文档就花费了我200多美元（！！）。即使使用gpt-4.1-nano（目前最便宜的前沿模型），我的预算也是荒谬的。为几份（确实很大的）文件花费2.15亿个代币是荒谬的，而且需要几天的时间来处理，这太过分了。
【限时免费】 Claude Code WebUI v0.1.13版本发布：增强交互控制与权限管理
ClaudeCodeWebUIv0.1.13版本发布：增强交互控制与权限管理ClaudeCodeWebUI是一个基于ClaudeAI模型的代码辅助工具，提供了直观的Web界面让开发者能够更方便地与AI进行编程相关的交互。该项目通过简洁的用户界面，让开发者可以快速获取代码建议、调试帮助和编程知识。流式响应中断功能在v0.1.13版本中，项目团队引入了一个重要的新特性：流式响应中断功能。这项改进解决了
claude-code-router：智能请求路由管理工具
claude-code-router：智能请求路由管理工具项目介绍在软件开发领域，高效管理请求并确保它们正确地被路由到对应的服务或模型是至关重要的。ClaudeCodeRouter就是这样一款工具，它专为ClaudeCode请求的路由管理而设计。通过这个工具，开发者可以自定义任何请求，将它们路由到不同的模型上，从而提高系统整体的工作效率和响应速度。项目技术分析ClaudeCodeRouter基于J
淄博为何能凭借烧烤火出圈七彩世界
一夜之间，中国淄博市成为了游客们打卡的热门城市，令人惊讶的是，在3月份，这座仅有470万人口的三线小城市接待了500万游客，而“淄博烧烤”关键词全平台搜索量同比增长超过770%。目前，无论是名气大还是小的烧烤店，都挤满了排队吃烧烤的人群。很多人想知道，中国各地都有数不尽的烧烤，为何偏偏淄博的烧烤能够成为这次的爆款？有一些人在网上指出，淄博的烧烤之所以能够成为爆款，其背后有一场双向奔赴的故事。这场故
信而泰×DeepSeek：AI推理引擎驱动网络智能诊断迈向 “自愈”时代
DeepSeek-R1：强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力，融合了自然语言处理（NLP）、深度学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析（文本/图像/语音）和实时交互能力，能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多模态
高仿手表哪里可以买到：精选最新10个购买渠道金源皮具
在时尚潮流中，手表不仅是时间的记录者，更是个人品味与身份的象征。然而，正品手表的高昂价格往往让人望而却步。因此，高仿手表成为了许多人的选择。本文将为您精选最新的10个购买渠道，助您轻松找到心仪的高仿手表。1.淘宝网作为中国最大的电商平台，淘宝网汇聚了众多高仿手表卖家。您可以通过搜索关键词“高仿手表”找到大量商品，并通过评价和销量筛选出信誉良好的卖家。2.京东京东作为另一大电商平台，同样提供了丰富的
NLP论文速读|chameleon：一个即插即用的组合推理模块Plug-and-Play Compositional Reasoning with Large Language Models Power2024666 NLP论文速读自然语言处理人工智能机器学习深度学习 nlp 语言模型
论文速读|Chameleon:Plug-and-PlayCompositionalReasoningwithLargeLanguageModels论文信息：简介:该论文介绍了一个名为Chameleon的人工智能系统，旨在解决大型语言模型（LLMs）在处理复杂推理任务时存在的固有限制，例如无法访问最新信息、使用外部工具以及执行精确的数学和逻辑推理。Chameleon通过插入即用模块增强LLMs，使其
玉枕残梦馨--56.小试牛刀（一）素手宁心
“瑾儿，你怎么来了，山寨正在讨论迎敌打仗的大事，都是男人的活计，你就先回去吧，”欧阳琛看见梅莹瑾走进一帮男人中间，还大谈打仗之事，汗都下来了，心想你一个女孩家来聚虎堂捣什么乱啊，兄弟们都看着呢，忙走过来小心提醒。“哎，等一下，老六，”金虎制止住了欧阳琛，笑着看着梅莹瑾说道：“瑾儿，听你的话好像刚开了个头，来，别怕，把你的想法详细给大伙说一说。”梅莹瑾被让到了椅子上坐下，刹那间忠义厅要炸了锅，虽然大
2024年10大返利App排行榜，全网佣金超高的返利平台推荐直返APP京东优惠券
在数字化时代，返利平台成为了消费者省钱购物的好帮手。本文为您推荐2024年10大返利App，让您在享受购物乐趣的同时，还能获得丰厚的佣金回报。一、直返直返的口号是“返利就用直返”，它强调没有上级赚差价，直接为用户提供商家和消费者之间的综合优惠券返利平台。用户可以在直返上获取自己感兴趣的商品，购买后可以获得一定比例的返利。直返的返利速度快、金额高，深受用户喜爱。通过直返APP买没有上级赚差价，领券还
redis秒杀之lua脚本 stand_forever redis redis lua 数据库
Lua脚本核心原理：1.单线程模型：Redis使用单线程处理命令，所有命令按顺序执行。Lua脚本会被视为一个整体任务，执行期间不会被其他命令中断。2.原子性保证：将库存检查、扣减、订单记录等多个操作放在一个脚本中，会连续执行，中间不会有其他客户端操作插入。保证了脚本的原子性。3.无需锁机制：由于Redis的单线程特性，Lua脚本天然避免了并发冲突，无需额外加锁。实现流程：1.首先库存预热：活动开始
服务器被攻击IP地址是哪里的？如何预防攻击？
总所周知，现在国内的大进犯大多都来自海外，由于国外的进犯成本比国内会低许多，一旦发起了进犯，并不容易找到进犯的源头。国外的家用带宽能到达千M口，咱们国内的百M口，相当于一只外国肉鸡能顶我们国内好几台肉鸡，那这个量是不得了的，并且国内的网站简直很少有国外用户访问，现在封海外是国内的一大趋势。UDP进犯是什么:UDP进犯全称：UDP吞没进犯（UDPFloodAttack）。UDP吞没进犯是导致主机拒绝
家庭教育指导能力第四天今日复盘104/365 张明杰
家庭教育指导能力第四天今日复盘104/365今天上午上完课后，下午考试，中午把资料看了看，顺便把今天考试的最后一题，如何看待中国家长教育焦虑？先从心理学角度来看这两个概念，对焦虑和家庭焦虑有了新的认识，这是概念性的问题，先定义，再看社会现象，家长的表现形式等。答题思路。结束后，又听义工的分享，吸收大能量。晚上回临沂的火车，买的硬座，明早到达临沂上班。课程上介绍的书还要整理一下，回头好好学习一下。感
岁月流淌的洋峪河（五）关中文苑
王东海五箩圈腿的哥哥嘿嘿嘿一笑，‘这有啥呢！说就说嘛。’他一拍自己的胸脯再一拍身边的弟弟继续说道，‘我叫吴连喜，我弟弟叫吴连福，我俩是双胞胎，我比他只大了半天；我的家在商州东城青石桥街，是当地有名的猎户，十六岁那年冬天，我跟爷爷出猎五峰山时，突然的一场暴风雪耽搁了行程，歇在黑风崖一户周姓人家，认识了比我大两岁的彩凤姑娘，我俩一见倾心，彼此爱慕，她的父母更是欢心满意，放开让我们谈心相处，几天下来我们
热门小说兄弟的新娘是我女朋友周淮川乔艺_兄弟的新娘是我女朋友(周淮川乔艺)阅读免费小说 d036fb3b3d05
《兄弟的新娘是我女朋友》主角：周淮川乔艺简介：兄弟结婚请我去当伴郎，我答应了，却发现新娘是我前女友。他说娇小姐脾气大，不好伺候，他来替我受这个气。他把老婆的嫁妆全花了，跟她说是我用她的裸照勒索他。把老婆的房卖了，说我得了癌要用钱。跟有夫之妇偷情被人打断腿，也赖到我头上。对我用尽手段，百般折磨。我不堪受辱跳楼自杀。再睁眼，我回到了兄弟偷情被人打断腿这天。关注微信公众号【无极推文】去回复个书号【102
时序数据库 Apache-IoTDB 源码解析之系统架构（二） zhoumouren88 技术
上一章聊到时序数据是什么样，物联网行业中的时序数据的特点：存量数据大、新增数据多（采集频率高、设备量多）。详情请见：时序数据库Apache-IoTDB源码解析之前言（一）打一波广告，欢迎大家访问IoTDB仓库，求一波Star。这一章主要想聊一聊：物联网行业的基本系统架构，及使用数据库遇到的需求与挑战IoTDB的功能特点及系统架构车联网因为本人是在做车联网行业，所以对这个行业的信息了解更深入一些，能
晚间黄金分析青色信物
2021年2月4日（周四）黄金TD行情分析：黄金TD方面，日内黄金整体是震荡行情，最高测试381附近，最低测试377.15附近，止损上方黄金多单小幅度获利；日线方面收取一根实体大阴柱，布林呈现向下运行发展，MACD死叉持续放量，上方关注承压点385附近，下方支撑377；4小时线方面收取一根实体阳柱，布林向下开口发展，MACD死叉形成并递增放量，上方关注384附近；下方支撑位378；小时线方面收取一
快速排序Java代码简洁实现 SKY技术修炼指南算法
学习过数据结构的同学们都知道，快速排序算法是一种时间复杂度为O(nlogn)的排序算法，在各种排序算法中算是较为高效的方法，企业面试中也经常有手撕快排的环节。本文将阐述算法的基本思想，并用Java代码的形式实现快速排序代码。算法思想快速排序主要采用分治的基本思想，每次将一个位置上的数据归位，此时该数左边的所有数据都比该数小，右边所有的数据都比该数大，然后递归将已归位的数据左右两边再次进行快排，从而
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他