v_JULY_v

医疗金融法律大模型：从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh

第一部分各种医疗类ChatGPT：或中英文数据微调LLaMA、或中文数据微调ChatGLM

1.1 基于LLaMA微调的国内外医疗问答模型

1.1.1 ChatDoctor：通过self-instruct技术提示API的数据和医患对话数据集微调LLaMA

Github上有一个基于LLaMA模型的医疗微调模型：ChatDoctor『对应的论文为：ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge』，该模型有2个主要亮点：

由于通用语言模型尚未适应医疗领域，导致响应的准确性差，无法就医疗诊断、药物等提供合理的建议
为解决这个问题，作者团队根据在线医疗咨询网站的10万真实世界的患者-医生对话，对LLaMA模型进行了微调，使得最终得到的ChatDoctor在了解患者需求和提供明智的建议方面有了显著改善
其次，ChatDoctor通过使用Wikipedia和medical-domain databases构建了一个外部知识库，扩展了模型的知识边界，使得ChatDoctor模型可以访问最新的和权威信息，并根据这些信息回答患者的问题，显著提高了模型响应的准确性
具体而言，通过维基百科或构建的涵盖700多种疾病的医疗数据库，ChatDoctor可以检索相应的知识和可靠来源，以更准确地回答患者的询问。在具体检索上，这通常可以通过构建适当的提示在大型语言模型中实现
$\rightarrow$ 首先，为了使这个过程自动化，为ChatDoctor设计了关键字挖掘提示，以提取相关知识寻求的关键术语
$\rightarrow$ 然后，使用术语匹配检索系统从知识大脑中检索排名靠前的相关段落。至于疾病数据库，由于模型无法同时读取所有数据，首先让模型批量读取数据，并为自己选择可能有助于回答患者问题的数据条目
$\rightarrow$ 最后，模型选择的所有数据条目都提供给模型以获得最终答案，更好地确保患者获得由可信参考资料支持的知情且准确的响应

实际微调时包括以下4个步骤

首先使用 Stanford Alpaca 提供的 52K instruction-following 数据训练了一个通用的对话模型
对于数据集构建这块，用的instruction, input, output的结构
instruction 可以是类似 '你现在的身份是医生，请以这个身份跟我对话'
input,output 就是问答对

————————————————
至于斯坦福团队微调LLaMA 7B所用的52K指令数据咋来的呢，
说来也有趣，它是通过Self-Instruct『Self-Instruct是来自华盛顿大学Yizhong Wang等22年12月通过这篇论文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》提出的』提示GPT3的API拿到的
具体可以看下此文的2.1.1节：类ChatGPT模型LLaMA的解读与其微调：Alpaca-LoRA/Vicuna/BELLE

在已有的疾病数据库 (包含大约 700 种疾病及其相关症状、医学检查和推荐药物 ) 的基础上，通过self-instruct的方式提示ChatGPT API生成的患者和医生之间的5K对话数据集GenMedGPT-5k (将疾病数据库中的每条消息提示 ChatGPT API 以自动生成指令数据，且对ChatGPT API的提示包含了疾病和症状、药物的标准)，再次微调模型

数据格式继续用的instruction, input, output的结构，比如

      {
            "instruction": "If you are a doctor, please answer the medical questions based on the patient's description.",
            "input": "Doctor, I have been experiencing sudden and frequent panic attacks. I don't know what to do.",
            "output": "Well, based on what you're telling me, it sounds like you may be suffering from panic disorder. The best course of action is to start with psychotherapy and mental health counseling. Additionally, we should conduct an electrocardiogram to make sure that there are no physical issues causing your panic attacks. We will also need to perform a depression screen and a toxicology screen to rule out any other underlying causes. Finally, I would recommend a comprehensive psychological and psychiatric evaluation and therapy to help manage your symptoms."
      }

通过HealthCareMagic-100k (来自在线问答的医疗咨询服务网站HealthCareMagic.com)的患者和医生之间的真实对话进行第三轮微调
本轮微调使用的 6 个 A*100 GPU 进行，持续时间为3小时 (The fine-tuning process on HealthCareMagic-100kwas conducted using 6 * A100 GPUs for a duration of 3 hours)

训练过程中使用的超参数如下：
总的batch size 192
学习率(learning rate)设为2e-5
总共3个epoch
最大序列长度512个token
warmup ratio 0.03
无权重衰减
通过icliniq-15k的患者和医生之间的真实对话进行第四轮微调
且为了定量评估ChatDoctor的性能，作者团队使用了iCliniq中的问题作为ChatDoctor的输入，然后使用iCliniq中对应的真实医生的答案作为ground truth，并将相同的输入给基于GPT3.5的ChatGPT并记录其响应
最终分别计算ChatDoctor和ChatGPT的后期精度、召回率和F1分数，经过结果对比，发现经过微调的ChatDoctor模型在Precision、召回率和F1方面优于ChatGPT (Comparing the results in Fig. 11, we find that the fine-tuned ChatDoctor modeloutperforms ChatGPT in Precision, Recall and F1, and some dialogue examplesare shown in the Fig)

当然，也有业内研究者基于BART-base，且利用他们自己公司的数据，微调出他们版本的ChatDoctor (截取自邓老师朋友圈)

1.1.2 哈工大华驼/本草：通过中文医学数据指令微调LLaMA

华驼模型仓库，是经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型(Llama-7B tuned with Chinese medical knowledge)，这是其GitHub地址

该项目通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集，并在此基础上对LLaMA进行了指令微调，提高了LLaMA在医疗领域的问答效果，且基于相同的数据，还训练了医疗版本的ChatGLM模型: ChatGLM-6B-Med(具体见下节)
此外，该团队还尝试利用GPT3.5 API将医学文献中的“结论”作为外部信息融入多轮对话中，在此基础上对LLaMA进行了指令微调
目前，只开放针对"肝癌"单个疾病训练的模型参数。在未来，该团队计划发布融入文献结论的医学对话数据集，并且会针对“肝胆胰”相关16种疾病训练模型

在数据集的构建上，

该团队采用了公开和自建的中文医学知识库，主要参考了cMeKG
医学知识库围绕疾病、药物、检查指标等构建，字段包括并发症，高危因素，组织学检查，临床症状，药物治疗，辅助治疗等

知识库示例如下：
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
我们利用GPT3.5接口围绕医学知识库构建问答数据，设置了多种Prompt形式来充分利用知识
指令微调的训练集数据示例如下：

"问题：一位年轻男性长期使用可卡因，突然出现胸痛、呕吐、出汗等症状，经检查发现心电图反映心肌急性损伤，请问可能患的是什么疾病？治疗方式是什么？"
回答: 可能患的是心肌梗塞，需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗，并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物，以防止病情加重。"

我们提供了模型的训练数据集，共计8000余条，需要注意的是，虽然训练集的构建融入了知识，但是仍存在错误和不完善的地方，后续我们会利用更好的策略迭代更新数据集
当然，指令微调数据集质量仍有限，后续将进行不断迭代，同时医学知识库和数据集构建代码还在整理中，整理完成将会发布
此外，我们收集了2023年关于肝癌疾病的中文医学文献，利用GPT3.5接口围绕医学文献多轮问答数据。在 ./data_literature/liver_cancer.json 我们提供了其中的1k条训练样例。当然，训练样本的质量仍然有限，据称后续会进一步迭代数据，会以公开数据集的形式对外进行发布。训练样本的示例如下:

最后，我司杜老师写了一份微调部署的教程，见：基于ChatGLM-Med与HuaTuo的微调部署_dzysunshine的博客-CSDN博客

1.1.3 上海交大PMC-LLaMA：用480万篇生物医学论文微调LLaMA模型

上海交大用480万篇生物医学论文微调LLaMA模型(论文地址、代码地址)，在QA上取得了很好的效果

其训练数据采用S2ORC数据集，从S2ORC[Lo et al., 2020]数据集的8110万篇英文学术论文开始 (S2ORC数据集地址：https://github.com/allenai/s2orc)，用PubMed Central (PMC)-id进行过滤。结果，剩下大约490万篇论文，这些论文与医学知识高度相关，总计超过750亿token。

样例如下

{"paper_id": "77490025", "title": "State of external ocular muscles in strabismus of different duration", "authors": [{"first": "Pen'kov", "middle": [], "last": "Ma", "suffix": ""}, {"first": "Konstantinovskaia", "middle": [], "last": "Ke", "suffix": ""}, {"first": "Zhukova", "middle": [], "last": "Sv", "suffix": ""}], "abstract": null, "year": 1975, "arxiv_id": null, "acl_id": null, "pmc_id": null, "pubmed_id": null, "doi": null, "venue": null, "journal": "Oftalmologicheskii\u0306 zhurnal", "mag_id": "2426173123", "mag_field_of_study": ["Medicine"], "outbound_citations": [], "inbound_citations": [], "has_outbound_citations": false, "has_inbound_citations": false, "has_pdf_parse": false, "s2_url": "https://api.semanticscholar.org/CorpusID:77490025"}

{"paper_id": "77490084", "title": "Management of uterine fibromyoma", "authors": [{"first": "Landau", "middle": [], "last": "IaM", "suffix": ""}, {"first": "Karpushin", "middle": [], "last": "Vp", "suffix": ""}], "abstract": null, "year": 1972, "arxiv_id": null, "acl_id": null, "pmc_id": null, "pubmed_id": null, "doi": null, "venue": null, "journal": null, "mag_id": "2425602342", "mag_field_of_study": ["Medicine"], "outbound_citations": [], "inbound_citations": [], "has_outbound_citations": false, "has_inbound_citations": false, "has_pdf_parse": false, "s2_url": "https://api.semanticscholar.org/CorpusID:77490084"}

以下是该项目的几点结论

PMC-LaMA-7B PEFT表现出比LLaMA-7B PEFT更好的性能，特别是在领域内数据集上，在USMLE上提高了1.22%，在MedMCQA上提高了1.96%，在PubMedQA上提高了2.42%。这些结果表明，原始的LLaMA只为医学质量保证提供了次优的嵌入空间，在生物医学语料库上进一步微调有利于模型领域的适应
无论训练设置是 "完全微调 "还是 "PEFT"，PMC-LaMA-7B都能在USMLE ID测试中取得更好的结果
具体来说，在完全微调下，我们将ACC分数从35.66%提高到40.61%，在PEFT下，ACC分数从27.34%提高到28.52%。相当于无论是全量微调，还是lora微调，加了领域数据就是更好
InstructGPT和ChatGPT即使在zeroshot评估中也取得了很好的结果，但由于它们没有开源，也没有透露任何训练细节，因此无法保证评估数据是否被用于训练它们的模型，因此它们的结果在这里只能作为参考，而不应该被用来进行公平的比较

1.2 基于中文医学数据微调ChatGLM-6B

1.2.1 哈工大ChatGLM-Med: 基于中文医学知识的微调ChatGLM-6B

各项准备：数据集、环境、项目和模型文件

项目地址：GitHub - SCIR-HI/Med-ChatGLM: Repo for Chinese Medical ChatGLM 基于中文医学知识的ChatGLM指令微调

所用微调数据集：医学知识图谱和GPT3.5 API构建的中文医学指令数据集（参考自CMeKG数据集）
环境准备：因为该项目使用的是ChatGLM-6B模型，因此环境也与ChatGLM-6B模型的环境一致

文件准备：将项目和模型文件下载下来

git clone https://github.com/SCIR-HI/Med-ChatGLM.git

模型文件下载：
该项目已经提供了训练微调好的模型参数，直接通过百度云盘链接或Google云盘链接下载即可

我这里将模型文件下载到 /data/sim_chatgpt/ChatGLM-Med/ 下
修改 infer.py 文件中的文件加载路径，如下：

import torch
from transformers import AutoTokenizer, AutoModel
from modeling_chatglm import ChatGLMForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained(
    "/data/sim_chatgpt/ChatGLM-Med/", trust_remote_code=True)
model = ChatGLMForConditionalGeneration.from_pretrained(
    "/data/sim_chatgpt/ChatGLM-Med").half().cuda()
while True:
    a = input("请输入您的问题：（输入q以退出）")
    if a.strip() == 'q':
        exit()
    response, history = model.chat(tokenizer, "问题：" + a.strip() + '\n答案：', max_length=256, history=[])
    print("回答：", response)

推理过程

python infer.py

如果运行出错

修改 modeling_chatglm.py 文件的831行，975行，如下：
MASK, gMASK = 150000, 150001

修改后即可成功运行

微调过程

安装evaluate包

pip install evaluate
pip install wandb

修改要运行文件中的model_name_or_path，修改为 /data/sim_chatgpt/chatglm-6b，如下：

vi scripts/sft_medchat.sh

wandb online
exp_tag="chatglm_tuning"

python run_clm.py \
    --model_name_or_path /data/sim_chatgpt/chatglm-6b \
    --per_device_train_batch_size 8 \
    --per_device_eval_batch_size 8 \
    --train_file ./data/train.txt \
    --max_seq_length 256 \
    --output_dir ./output/ \
    --do_train \
    --logging_steps 30 \
    --log_file ./log/$exp_tag \
    --gradient_accumulation_steps 2 \
    --learning_rate 5e-5 \
    --group_by_length False \
    --num_train_epochs 3 \
    --lr_scheduler_type linear \
    --warmup_ratio 0.1 \
    --logging_dir ./log \
    --logging_steps 10 \
    --save_strategy epoch \
    --seed 2023 \
    --remove_unused_columns False \
    --torch_dtype auto \
    --adam_epsilon 1e-3 \
    --report_to wandb \
    --run_name $exp_tag

执行命令

sh scripts/sft_medchat.sh

尝试调小batch_size，将per_device_train_batch_size改为1试下，仍然cuda of memory，后面再想下别的办法

官方是在一张A100-SXM-80GB显卡上进行了微调训练，根据经验，训练显存建议选择32G及以上

1.2.2 DoctorGLM：基于 ChatGLM-6B的中文问诊模型

项目地址：https://github.com/xionghonglin/DoctorGLM

1、训练数据

训练数据使用CMD、MedDialog、ChatDoctor、以及HearlthcareMagic

Dataset	Department	Language	Q&A	Chat	Number	Syn.	Size	Weight
CMD	Surgical	CN	✔	×	116K	×	52MB
	Obstetrics and Gynecology	CN	✔	×	229K	×	78MB
	Pediatrics	CN	✔	×	117K	×	47MB
	Internal Medicine	CN	✔	×	307K	×	102MB
	Andriatria	CN	✔	×	113K	×	44MB
	Merged	CN	✔	×	1.9M	×		Doctor_GLM/ckpt
MedDialog	Multiple	CN&EN	✔	✔	3.4M	×	1.5GB	ptuning_weight
ChatDoctor	Multiple	EN	✔	×	5.4K	✔	2.9MB	Coming soon
HearlthcareMagic	Multiple	EN	✔	×	200K	×	216MB	Coming soon

其中，Chinese medical dialogue data 中文医疗对话数据集：https://github.com/Toyhom/Chinese-medical-dialogue-data

数据包括：

94596个问答对
220606个问答对
183751个问答对
75553个问答对
101602个问答对
115991个问答对

总计 792099个问答对

2、模型效果

1）chatglm效果

  "0": {
        "question": "近一个多月来，本人两肋、前胸包括胸口及两旁、后背两边、脊椎骨上段、包括扇子骨等处，就是上半身，发生不适隐痛，上半身很纠结，好像里面有手揪住一样，不舒展爽朗，十分难受，一会儿前胸和两肋不适难受，一会儿后背两边不适难受，同时发生隐痛。扭动身体，做做伸展活动，或者用拳头抵住揉搓不适隐痛处，身体就会舒展一些好受一些。总的来说就是上半身有肋骨的地方和上半段脊椎骨范围内发生不适和隐痛，一般同时两三个隐痛点，就是肋骨最下段的骨梢也发生不适隐痛。没有肋骨地方不痛，如肚子处就不隐痛。本人于2011年11月做了胆囊摘除和胆总管结石手术。不是腹腔镜，是开了一条约18公分的大口子和两个导流小洞。此种不适难受隐痛情况2012年春天发生过一次，时间不长自动好了。但这次严重时间又长，不适和隐痛感觉有时呈块状，有时呈条状，一般同时有两三处不适隐痛，让人很难受，还有越来越重的感觉。",
        "response": "所述症状可能是由多种原因引起的，包括身体、心理和情绪等方面。根据所述症状，建议进行以下检查和测试：\n\n1. 医生体检：进行全面的身体检查，包括心肺听诊、血压测试、视力、听力、皮肤测试等，以确定任何潜在的健康问题。\n\n2. 心电图(EKG)：测试心脏健康，评估是否有潜在的心脏问题。\n\n3. 核磁共振(MRI)：测试骨骼和肌肉系统的健康，以及评估是否有潜在的神经问题。\n\n4. 血液检查：测试贫血、感染、肿瘤等问题。\n\n5. 心理健康测试：测试情绪和心理健康，例如压力测试、焦虑测试等。\n\n如果症状持续存在或变得更加严重，请尽快咨询医生以获取专业建议和治疗。"
    },
    "1": {
        "question": "有糖尿病需要节制性生活吗",
        "response": "有糖尿病的人需要节制性生活，因为糖尿病是一种代谢性疾病，会影响身体对葡萄糖的吸收和利用。如果性生活过于频繁或过于剧烈，可能会加重身体的糖分负担，导致血糖升高，甚至可能对心脏、肾脏等重要器官造成伤害。\n\n所以有糖尿病的人需要适度地控制自己的性生活。建议每周的性生活次数在1-2次之间，并且尽量选择在空腹或血糖控制较好的状态下进行。此外，糖尿病患者还应该注意保护自己的生殖健康，避免使用药物或酒精等因素对血糖的影响，并定期进行生殖系统的体检和清洁。\n\n如果有糖尿病，需要根据医生的建议来节制性生活，并遵循医生的建议来管理自己的血糖水平。"
    },
    "2": {
        "question": "我爷爷高血压可以喝咖啡吗",
        "response": "高血压和喝咖啡之间关系不确定。高血压可能是由多种因素引起的，包括遗传、生活方式、饮食、药物等。喝咖啡本身也可能对血压产生影响，但具体情况取决于个体。\n\n建议咨询医生或心血管专家，了解爷爷的高血压是否与喝咖啡有关，并听从专业建议。同时，可以尝试控制高血压的生活方式，如减少钠的摄入、保持足够的运动和睡眠、避免吸烟和饮酒等。"
    },

2）DoctorGLM效果

"0": {
        "question": "近一个多月来，本人两肋、前胸包括胸口及两旁、后背两边、脊椎骨上段、包括扇子骨等处，就是上半身，发生不适隐痛，上半身很纠结，好像里面有手揪住一样，不舒展爽朗，十分难受，一会儿前胸和两肋不适难受，一会儿后背两边不适难受，同时发生隐痛。扭动身体，做做伸展活动，或者用拳头抵住揉搓不适隐痛处，身体就会舒展一些好受一些。总的来说就是上半身有肋骨的地方和上半段脊椎骨范围内发生不适和隐痛，一般同时两三个隐痛点，就是肋骨最下段的骨梢也发生不适隐痛。没有肋骨地方不痛，如肚子处就不隐痛。本人于2011年11月做了胆囊摘除和胆总管结石手术。不是腹腔镜，是开了一条约18公分的大口子和两个导流小洞。此种不适难受隐痛情况2012年春天发生过一次，时间不长自动好了。但这次严重时间又长，不适和隐痛感觉有时呈块状，有时呈条状，一般同时有两三处不适隐痛，让人很难受，还有越来越重的感觉。",
        "response": "病情分析：您好，这种情况考虑是肋间神经炎引起的疼痛\n指导意见：建议口服消炎药，止痛药，维生素B族，按疗程治疗，疼痛缓解后，练习抬胸运动，可缓解疼痛，除了正规治疗胆石症外，患者需要多咨询专家建议，和医生保持沟通，患者还需要重视护理方面，例如合理饮食，保持心情愉快与此同时患者还要注意选择一家专业医院诊治，这样才能得到良好的治疗效果"
    },
    "1": {
        "question": "有糖尿病需要节制性生活吗",
        "response": "糖尿病对性生活没有影响的，但是需要控制饮食和注意运动，饮食要均衡，可以多吃蔬菜，水果，低糖水果如香蕉，葡萄，西瓜等，戒烟酒，生活规律，注意休息，避免劳累和熬夜，避免剧烈运动，定期复查血糖，如果有血糖控制不好的情况建议去医院查查血糖。"
    },
    "2": {
        "question": "我爷爷高血压可以喝咖啡吗",
        "response": "高血压可以喝咖啡，但不宜喝太多，最好每天不超过3杯\n高血压是常见的心血管疾病，如果高血压长期得不到控制，会诱发其他并发症，如心脏衰竭，脑水肿，脑血管疾病等\n建议平时保持合理的饮食习惯，适当锻炼身体，避免过度劳累，保持心态平和，定期监测血压，如果血压控制不好，可以服用药物治疗"
    },

1.2.3 MedicalGPT-zh：基于ChatGLM-6B LoRA 16-bit指令微调

本项目开源了基于ChatGLM-6B LoRA 16-bit指令微调的中文医疗通用模型 (本项目训练代码采用模型并行算法，可以在最少4张3090显卡上完成)。基于共计28科室的中文医疗共识与临床指南文本，我们生成医疗知识覆盖面更全，回答内容更加精准的高质量指令数据集，以此提高模型在医疗领域的知识与对话能力

本项目数据主要分为两个部分：情景对话与知识问答

数据类型	描述	数量	占比（%）
情景对话	在具体场景下的医患诊疗对话	52k	28.57
知识问答	医学知识问题的解释性回答	130k	71.43
总计	-	182k	100

情景对话

主要参考BELLE的指令数据集生成方式，我们将医学指令按照诊疗情景的不同主要分为16种大类，通过100条情景对话种子任务生成的52k条情景对话数据

情景对话种子任务详见 ./data/dialogue_seed_task.json，以下是两个数据示例

    {
        "instruction": "治疗方案", 
        "input": "右肺中叶中央型肺癌并肺不张，右侧胸膜，右肺门及纵隔淋巴结肿瘤多发转移，身体体差，不能接受化疗", 
        "output": "尊敬的患者，非常抱歉，您现在的情况不能接受化疗治疗。然而，仍可以尽可能提高您的生活质量，积极抗击病症，使您更好地面对疾病。建议您可以根据您自身情况进行中医治疗，了解自身病情，制定中医治疗和保健方案，调养机能、增强自身抵抗力，减少药物的依赖性，尽可能地延长、稳定患者的生活质量。同时，正确地食补疗法和有氧运动也很重要。此外，您还可以进行综合护理，及时应对必要的辅助治疗，以及定期的体检和体液调养，在病情控制中发挥作用，从而延长患者的生活质量。"
    },
    {
        "instruction": "病因分析", 
        "input": "公公肺癌晚期今天鼻子出了好多血怎么回事？", 
        "output": "您好，您公公流鼻血可能是由于肺癌侵犯裂而引起的，为了确保您公公的安全，请积极接受治疗，且考虑到患者年纪的问题，建议选择保守的治疗，温和的生物治疗可能更符合实际情况。在肿瘤得到控制的情况下，希望您公公注意补充营养，均衡饮食，多吃含有高营养的清淡食物，减少摄取烧烤和油腻的食物，千万不要太快下手动手手术。如果确定要进行手术治疗，术后一定要重视自身的护理工作，加强抗病营养，以能补充您公公的体力为主。"
    },

此外，我们还提供了生成情景对话数据的pipeline ./data/dialogue_generation.py，其中的核心也在于基于种子的问题生成，对应的prompt为：

    prompt = f"你被要求提供7个多样化的任务指令。这些任务指令将被提供给GPT模型，我们将评估GPT模型完成指令的能力。\n \
    以下是你提供指令需要满足的要求：\n \
    1.指令用中文书写，指令应该是一个医疗任务。\n \
    2.指令类型应该是多样化的，包括各种类型的任务，类别种类例如：病情诊断，病因分析，病理诊断，治疗方案，就医建议，指标解读，药物剂量，用药建议，医疗建议，医学知识，疾病描述，后果表述，注意事项，功效作用，医疗费用，预防措施，预后评估，其他\n \
    3.你应该给指令生成适当的输入，输入字段应包含为指令提供的具体示例，它应该是一个医疗问题，含有有用的医学信息，例如病灶描述，体检指标数值，药物剂量等，不应包含简单的占位符。输入应提供充实的内容，使指令具有挑战性。\n \
    4.输出应该是针对指令和输入的恰当回答，如果输入的信息不足以进行判断需要进一步询问。\n \
    5.输入输出相关的疾病应该是多样化的，包含各种类型的疾病和药品信息。\
    下面是7个任务指令的列表： \n"

最终生成的52k情景对话数据医学指令类型及其分布如下图所示

知识问答

医学知识来源于作者团队自建的医学数据库，通过提供具体的医疗共识与临床指南文本，先让ChatGPT生成与该段医学知识内容与逻辑关系相关的若干问题，再通过“文本段-问题”对的方式让ChatGPT回答问题，从而使ChatGPT能够生成含有医学指南信息的回答，保证回答的准确性

知识问答与医疗指南的例子，详见 ./data/book_data.json
依据医疗指南生成的知识问答样例，详见 ./data/book_based_qa.json

此外，我们还提供了知识问答数据生成的pipeline，详见 ./data/book_based_question_generation.py

from transformers import AutoTokenizer, AutoModel
from langchain.text_splitter import RecursiveCharacterTextSplitter, TextSplitter
from langchain.document_loaders import TextLoader   
import os
import json
# loader = TextLoader("内科学.txt", encoding='utf-8')
# doc = loader.load()[0]
# QA_generation(doc.page_content)

model_path = '6b/'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda()
model = model.eval()


idx = 0
data_path = 'zh_sentence/'
qa_dict = {}
for file_name in os.listdir(data_path):
    file_path = data_path + file_name
    print(file_name)
    loader = TextLoader(file_path, encoding='utf-8')
    doc = loader.load()[0]
    inputs = {"text": doc.page_content}
    text_splitter = TextSplitter
    docs = text_splitter.create_documents(RecursiveCharacterTextSplitter(chunk_size = 2000, chunk_overlap=200), [inputs["text"]])
    # print([{"text": d.page_content} for d in docs])
    for d in docs:
        idx += 1
        text = d.page_content
        
        templ = f"""你是一个聪明的助理。
        
        给你一段医学相关的文本，你必须依据文本想出一个问题和一个对应的答案。
        
        你想出的问题可以被用来测试医生的专业能力。
        
        你想出的问题和答案必须和所给文本相关。
        
        当你想出问题和答案后，你必须用以下格式回复：

        ```
        [
            "问题": "$你想出的问题放在这",
            "答案": "$你想出的答案放在这"
        ]
        ```

        所有在 ``` 中间的内容就是你要回答的格式。

        请想出一个问题与一个答案，用以上指定的列表回复，对于以下文本：
        ----------------
        {text}"""
        
        response, history = model.chat(tokenizer, templ, history=[],max_length=2048)
        
        while_count = 0
        if_good = True
        while ('以下哪' in response) or ('语言模型' in response) or ('文本' in response) or ('以下是' in response):
            response, history = model.chat(tokenizer, templ, history=[],max_length=2048)
            while_count += 1
            if while_count > 10:
                if_good = False
                break
        print(response)
        
        try:
            if if_good:
                question = response.split('答案：')[0][3:]
                answer = response.split('答案：')[1]
                qa = {}
                qa['问题'] = question
                qa['答案'] = answer
                qa_dict[idx] = qa
            else:
                pass
        except:
            pass
        json.dump(qa_dict, open('qa_dict.json', 'w', encoding='utf-8'), indent=4, ensure_ascii=False)

其中，医疗共识与临床指南中文本段涵盖28个科室共计32k个文本段。各科室及其分布如下

1.3 医联MedGPT(未开源)：国内首款商业化达到一定规模的医疗LLM应用

医联MedGPT基于transformer架构(参数规模为100B)，并在模型微调训练阶段采⽤⼤量真实医⽣参与的RLHF（Reinforcement Learning from Human Feedback) 监督微调

此外，据说其预训练阶段使⽤了超过20亿的医学文本数据，微调训练阶段使⽤了800万条的高质量结构化临床诊疗数据，并投⼊超过100名医⽣参与⼈⼯反馈监督微调训练

更多解读参见：医疗版ChatGPT直播评测！治疗方案与真人医生96%一致

第二部分金融领域大模型：从BloombergGPT到FinBERT、FinGPT

2.1 BloombergGPT(未开源)：基于BLOOM模型的首个金融LLM

2.1.1 数据集：金融数据集 + 通用数据集

BloombergGPT是一个有500亿参数、基于BLOOM模型的LLM，过程中采用了一种兼具通用能力和特定领域的方法。

作者首先构建了FinPile——一个包含了新闻、档案、网络爬取的新闻稿件、英文财经文档等英文金融文档的金融领域数据集，同时也采用了通用的数据集。

金融领域数据集
共包含了3630亿个token，占总数据集token量的54.2%，具体由以下几个部分构成：
金融领域相关网页，2980亿token，占比42.01%
金融领域知名新闻源，380亿token，占比5.31%
公司财报，140亿token，占比2.04%
金融相关公司的出版物，90亿token，占比1.21%
bloomberg，50亿token，占比0.7%
因为包含一部分收费和私有数据，所以这份数据集不会被公开，但是文章中公开了模型训练方法
通用数据集
共包含了3450亿个token，占总数据集token量的48.73%，具体分为如下几个部分：
The Pile数据集，1840亿token，占比25.9%
C4数据集，1380亿token，占比19.48%
Wikipedia数据集，240亿token，占比3.35%

数据集使用Unigram tokenizer对原始文本进行tokenize。具体处理时，作者这了两点改进（具体内容可参考原论文《2.3Tokenization》）：

在pretokenization这一步，将数字视为单个token，并且允许词组的存在，以提高信息密度减少句子长度
使用分治的思想优化Unigram tokenizer在大数据集上的实现，并对最终词表大小控制在13万这个数量级上

2.1.2 模型结构与模型尺度

模型结构

模型基于BLOOM模型的自回归结构，具体包含了70层transformer decoder。

另外一些细节如下（详见原论文的《3.1 Architecture》）：

前馈层（FFN）中的非线性函数采用GELU
位置编码采用ALiBi编码
模型在第一层多了一个layer normalization

模型尺度

这一部分，作者先有了算力预算（40G内存A100共130万GPU小时），并且给中间checkpoint存储留出了约25%的时间预算

根据Chinchilla scaling laws，计算出模型的参数和需要的数据量大小——模型参数为500亿，token数据量为11000+亿

考虑到金融领域token数量要占总token数量的50%以上，而且目前的数据暂时无法再进行扩充，最终模型参数量选择为500亿，token数据量为7000+亿。

另一方面，隐藏层维度D也可以根据decoder的层数计算出来，这里经过计算隐藏层维度为7680，多头的头数为40。下图为BloombergGPT各超参数的设置

2.1.3 训练配置

这一部分原始论文写的比较详细，具体见《3.3 Training Configuration》，这里简单摘要如下：

作者在每篇文档的最后添加了特殊标记<|endoftext|>，模型训练时选取的句子长度为2048token
训练时采用的优化方法是AdamW，beta1、beta2、weight decay取值分别为0.9、0.95、0.1，初始学习率为6e-5，采用cosine衰减、线性warmup方式
模型参数随机初始化为均值0、标准差0.006588的正态分布，并对MLP的第二层和注意力层输出进行缩放
关于训练的不稳定性，文章中没有描述训练BloombergGPT时采用的方法，只是介绍了相关进展
关于计算使用到的硬件，使用了64个AWS的p4d.24xlarge实例，每个p4d.24xlarge实例包含了8块40GB的A100GPU

大规模优化采用的方法

这一部分中，作者描述了具体优化时采用的方法：ZeRO优化、MiCS、Activation Checkpointing、混合精度训练（Mixed Precision Training）、内核融合（fused kernels）。

具体见《3.4 Large-scale Optimization》

经过上述优化，上述硬件的平均算力水平达到了102TFLOPs，训练一步需要32.5秒。

训练过程

损失函数随训练步数变化曲线如下图所示：

另，文章中记录模型共训练了139,200步，进行了约0.8个epoch，训练了53天。至于一个epoch都没有训练完的原因是这时验证集上的损失函数已经不再继续下降了。

其具体训练过程如下：

初始训练的batch size大小为1024，warm-up过程持续了7200步，随后作者将batch size修改为2048。
115,500步之后，验证集上的损失不再下降，然后作者将学习率缩小为原始的2/3；
129,900步之后，学习率缩小为之前的1/2，同时增加dropout
137,100步之后，学习率再次缩小为之前的1/2
最终，训练在146,000步结束。作者选取139,200这一步的模型最为最终使用的模型

这里推荐阅读原论文3.3节与3.4节中关于训练方法的描述，对于大模型训练有一定的参考意义

2.2 哥大FinGPT：对标BloombergGPT，可预测股价

继Bloomberg提出了500亿参数的BloombergGPT (下节之后会介绍)，GPT在金融领域的应用受到了广泛关注，但BloombergGPT是一个非开源的模型，而且用到了Bloomberg自身独有的数据储备，并不利于金融大模型的广泛普及。

FinGPT: Open-Source Financial Large Language Models(论文地址、GitHub地址)，是由哥伦比亚大学和纽约大学(上海)的研究人员开发的金融大型语言模型(FinLLMs)的端到端开源框架

完全开源：开源的训练数据、开源的模型
数据中心化：尽管没有Bloomberg用到的独有数据，但FinGPT所用的所有数据都被集中、严格地清洗，保证了数据的质量，并向大众开放
端到端的设计：包括输入层、数据加工层、大语言模型微调层和应用层
BloombergGPT中缺少人类反馈强化学习，但这是GPT模型成功的关键，而FinGPT应用了这项技术
轻量级的部署和微调，为了普及金融大模型，降低应用成本，应用了the Low-Rank Adaptation (LoRA) of LLMs技术，将可训练参数从61.7亿减少为367万

FinGPT运用了各种各样的金融训练数据，包括金融新闻、公司公告、社交媒体、金融专业网站、学术资料等，多种多样的数据保证了FinGPT可以理解金融市场和做出金融决策

值得注意的是，FInGPT提供了一套完善的机制应对实时数据，做出实时决策；使用者也可以很轻松地对下游任务进行微调

还可以微调FinGPT来预测股价，由于股价预测任务微调时可以简单利用股价变动作为反馈，因此微调成本相对其它需要人类反馈的任务低得多

2.3 FinBERT：与BERT相同的结构 + 三类金融语料 + 两大预训练方式

熵简FinBERT在网络结构上采用与 Google 发布的原生BERT 相同的架构 (代码地址：GitHub - valuesimplex/FinBERT)，其包含了两个不同规模的版本，一个是FinBERT-Base，采用了 12 层 Transformer 结构，一个是FinBERT-Large，采用了 24 层 Transformer 结构

相对于Google发布的原生中文BERT、哈工大讯飞实验室开源的BERT-wwm 以及 RoBERTa-wwm-ext 等模型，本次开源的 FinBERT 1.0 预训练模型在多个金融领域的下游任务中，比如

金融短讯类型分类任务
金融短讯行业分类
金融情绪分类
金融命名实体识别任务 (其核心任务是对金融类文本中出现的实体(公司或人名)进行实体识别和提取，主要用在知识图谱的实体提取和实体链接环节)

获得了显著的性能提升，在不加任何额外调整的情况下，F1-score 直接提升至少 2~5.7 个百分点

2.3.1 训练语料

FinBERT 1.0 所采用的预训练语料主要包含三大类金融领域的语料，分别如下：

金融财经类新闻：从公开渠道采集的最近十年的金融财经类新闻资讯，约 100 万篇
研报/上市公司公告：从公开渠道收集的各类研报和公司公告，来自 500 多家境内外研究机构，涉及 9000 家上市公司，包含 150 多种不同类型的研报，共约 200 万篇
金融类百科词条：从 Wiki 等渠道收集的金融类中文百科词条，约 100 万条

对于上述三类语料，在金融业务专家的指导下，对各类语料的重要部分进行筛选、预处理之后得到最终用于模型训练的语料，共包含 30亿 Tokens，这一数量超过了原生中文BERT的训练规模

2.3.2 预训练方式

FinBERT 采用了两大类预训练任务，分别是字词级别的预训练和任务级别的预训练

在字词级别的预训练上
字词级别的预训练首先包含两类子任务，分别是
Finnacial Whole Word MASK（FWWM）
简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask
而在全词Mask中，如果一个完整的词的部分WordPiece子词被 Mask，则同属该词的其他部分也会被 Mask，即全词Mask

Next Sentence Prediction（NSP）
简言之，即是为了训练一个理解句子间关系的模型，引入一个下一句预测任务

同时，在训练中，为了节省资源，我们采用了与 Google 类似的两阶段预训练方式，第一阶段预训练最大句子长度为128，第二阶段预训练最大句子长度为 512
在任务级别的预训练上
为了让模型更好地学习到语义层的金融领域知识，更全面地学习到金融领域词句的特征分布，同时引入了两类有监督学习任务，分别是研报行业分类和财经新闻的金融实体识别任务
1）研报行业分类
对于公司点评、行业点评类的研报，天然具有很好的行业属性，因此我们利用这类研报自动生成了大量带有行业标签的语料。并据此构建了行业分类的文档级有监督任务，各行业类别语料在 5k~20k 之间，共计约40万条文档级语料

2）财经新闻的金融实体识别
与研报行业分类任务类似，我们利用已有的企业工商信息库以及公开可查的上市公司董监高信息，基于金融财经新闻构建了命名实体识别类的任务语料，共包含有 50 万条的有监督语料

整体而言，为使 FinBERT 1.0 模型可以更充分学习到金融领域内的语义知识，我们在原生 BERT 模型预训练基础上做了如下改进：

训练时间更长，训练过程更充分。为了取得更好的模型学习效果，我们延长模型第二阶段预训练时间至与第一阶段的tokens总量一致
融合金融领域内知识。引入词组和语义级别任务，并提取领域内的专有名词或词组，采用全词 Mask的掩盖方式以及两类有监督任务进行预训练
为了更充分的利用预训练语料，采用类似Roberta模型的动态掩盖mask机制，将dupe-factor参数设置为10

第三部分法律模型：从ChatLaw到LawGPT_zh

3.1 ChatLaw：基于LLaMA微调的法律大模型

3.1.1 ChatLaw-13B：基于姜子牙Ziya-LLaMA-13B-v1训练而来

ChatLaw法律大模型(其GitHub地址)目前开源的仅供学术参考的版本底座为姜子牙-13B「关于该模型的介绍，可参见此文最后：《类ChatGPT模型LLaMA的解读与其微调：Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙》」、Anima-33B，我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据

基于姜子牙-13B的模型是第一版模型，得益于姜子牙的优秀中文能力和我们对数据清洗、数据增强过程的严格要求，我们在逻辑简单的法律任务上表现优异，但涉及到复杂逻辑的法律推理任务时往往表现不佳
随后基于Anima-33B，我们增加了训练数据，做成了ChatLaw-33B，发现逻辑推理能力大幅提升，由此可见，大参数的中文LLM是至关重要的

至于数据则主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成，随后经过清洗、数据增强等来构造对话数据

3.1.2 模型效果：微调之后的ChatLaw可以胜过GPT-4

收集了十余年的国家司法考试题目，整理出了一个包含2000个问题及其标准答案的测试数据集，用以衡量模型处理法律选择题的能力: 评测数据demo

然而，我们发现各个模型的准确率普遍偏低。在这种情况下，仅对准确率进行比较并无多大意义。因此，我们借鉴英雄联盟的ELO匹配机制，做了一个模型对抗的ELO机制，以便更有效地评估各模型处理法律选择题的能力。以下分别是ELO分数和胜率图

有以下结论：（1）引入法律相关的问答和法规条文的数据，能在一定程度上提升模型在选择题上的表现；（2）加入特定类型任务的数据进行训练，模型在该类任务上的表现会明显提升。例如，ChatLaw模型之所以能胜过GPT-4，是因为我们使用了大量选择题作为训练数据；（3）法律选择题需要进行复杂的逻辑推理，因此，参数量更大的模型通常表现更优

3.2 LawGPT_zh：基于ChatGLM-6B LoRA 16-bit指令微调得到的中文法律大模型

本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答，提高了通用语言大模型在法律领域的表现，提高了模型回答的可靠性和专业程度。

3.2.1 数据集构建

本项目数据主要分为两个部分：1.律师和用户之间的情景对话 2.对特定法律知识的问答

数据类型	描述	数量	占比（%）
情景对话	真实的律师用户问答	200k	100
知识问答	法律知识问题的解释性回答	coming soon	0
总计	-	200k	100

情景对话

真实的中文律师用户问答数据，来自CrimeKgAssitant收集的200k条情景对话数据。

利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答

下载(提取码：MYTT)

利用ChatGPT根据CrimeKgAssitant的问答重新生成，使得生成的回答比原回答更详细，语言组织更规范。

带有法律依据的情景问答92k

下载(提取码：MYTT)

我们根据中华人民共和国法律手册上最核心的9k法律条文，利用ChatGPT联想生成具体的情景问答，从而使得生成的数据集有具体的法律依据。数据格式如下

"question": "在某家公司中，一名员工对女同事实施了性骚扰行为，女同事向公司进行举报，但公司却没有采取必要的措施来制止这种行为。\n\n公司未采取必要措施预防和制止性骚扰，导致女同事的权益受到侵害，该公司是否需要承担责任？"
"answer": "根据《社会法-妇女权益保障法》第八十条规定，“学校、用人单位违反本法规定，未采取必要措施预防和制止性骚扰，造成妇女权益受到侵害或者社会影响恶劣的，由上级机关或者主管部门责令改正；拒不改正或者情节严重的，依法对直接负责的主管人员和其他直接责任人员给予处分。”因此，该公司因为未采取必要措施预防和制止性骚扰行为，应该承担责任，并依法接受相关的处分。女同事可以向上级机关或主管部门进行申诉，要求该公司被责令改正，并对相关负责人员给予处分。"
"reference": [
            "社会法-妇女权益保障法2022-10-30:    \"第七十九条 违反本法第二十二条第二款规定，未履行报告义务的，依法对直接负责的主管人员和其他直接责任人员给予处分。\",\n",
            "社会法-妇女权益保障法2022-10-30:    \"第八十条 违反本法规定，对妇女实施性骚扰的，由公安机关给予批评教育或者出具告诫书，并由所在单位依法给予处分。\",\n",
            "社会法-妇女权益保障法2022-10-30:    \"学校、用人单位违反本法规定，未采取必要措施预防和制止性骚扰，造成妇女权益受到侵害或者社会影响恶劣的，由上级机关或者主管部门责令改正；拒不改正或者情节严重的，依法对直接负责的主管人员和其他直接责任人员给予处分。\",\n",
            "社会法-妇女权益保障法2022-10-30:    \"第八十一条 违反本法第二十六条规定，未履行报告等义务的，依法给予警告、责令停业整顿或者吊销营业执照、吊销相关许可证，并处一万元以上五万元以下罚款。\",\n"
        ]

3.2.2 知识问答

作者团队计划收集法律领域的教科书，经典案例等数据，自建一个法律专业知识数据库。

针对Self-Instruct的可靠性和安全性漏洞，他们使用了基于特定知识的Reliable-Self-Instruction：通过提供具体的法律知识文本，先让ChatGPT生成与该段法律知识内容与逻辑关系相关的若干问题，再通过“文本段-问题”对的方式让ChatGPT回答问题，从而使ChatGPT能够生成含有法律信息的回答，保证回答的准确性

其中，计划法律知识数据包含民法商法、行政法、经济法、社会法、刑法等各个细分法律的条例，分析和题库

第四部分可商用的数据集与可商用的模型

有的朋友可能已经注意到了，我们已经部署/微调了不少模型，包括且不限于LLaMA、以及基于LLaMA做各种微调的Alpaca、Vicuna、BELLE、Chinese-LLaMA/Chinese-Alpaca，以及LLaMA的RLHF版：ChatLLaMA(英文版)、ColossalChat，甚至包括国内的ChatGLM等模型
但感到遗憾的是，目前这些模型都不能商用，当然对于其中有些模型不允许商用也能理解，比如Alpaca扩展数据集的方式毕竟是通过self-instruct技术提示OpenAI的API生成数据，如果去商用，则和OpenAI本身产生不可避免的直接商业冲突

很多模型不允许商用还只是一方面，另一方面，数据集也是很大的一个问题，既然通过self-instruct技术提示OpenAI的API生成数据没法商用，那什么样的数据集允许商用呢，本部分便为大家探讨可以商用的数据集和可以商用的模型

4.1 4.12发布的Dolly 2.0：数据集由数千名 Databricks 员工生成的超过 1.5 万条记录的语料库

2023年4 月 12 日，Databricks 发布了Dolly 2.0 ，表示这是业内第一个开源、遵循指令的 LLM，它在透明且免费提供的数据集上进行了微调，该数据集也是开源的，可用于商业目的。这意味着 Dolly 2.0 可用于构建商业应用程序，无需支付 API 访问费用或与第三方共享数据。

项目链接：https://huggingface.co/databricks/dolly-v2-12b
数据集：https://github.com/databrickslabs/dolly/tree/master/data

以下是它的一些特点

Dolly 2.0 是一个 120 亿参数的语言模型，它基于开源 EleutherAI pythia 模型系列
Databricks 还发布了 Dolly 2.0 在其上进行微调的数据集，称为 databricks-dolly-15k。这是由数千名 Databricks 员工生成的超过 1.5 万条记录的语料库。
数据集包含7 项非常具体的任务：
1 公开问答：例如「为什么人们喜欢喜剧电影？」或「法国的首都是什么？」在某些情况下，没有一个正确的答案，而在其他情况下，需要借助于整个世界的知识；
2 封闭式问答：这些问题只用一段参考文献中的信息就可以回答。例如，给定维基百科中关于原子的一段，人们可能会问：「原子核中质子和中子的比例是多少？」；
3 从维基百科中提取信息：在这里，标注者会从维基百科上复制一个段落，并从该段落中提取实体或其他事实信息，如重量或测量；
4 总结维基百科上的信息：对于这一点，注释者从维基百科上提供了一段话，并被要求将其提炼为一个简短的摘要；
5 集思广益：这项任务要求进行开放式的构思，并列出相关的可能选项。例如「这个周末我可以和我的朋友做哪些有趣的活动？」；
6 分类：在这项任务中，标注者被要求对类别成员进行判断（例如，列表中的项目是动物、矿物还是蔬菜），或者判断一段短文的属性，例如电影评论的情绪；
7 创意写作：这项任务将包括写一首诗或一封情书等内容。
模型权重及微调数据集均可下载，要下载 Dolly 2.0 模型的权重，只需访问 Databricks Hugging Face 页面，并访问 databricks-labs 的 Dolly repo，下载 databricks-dolly-15k 数据集。

4.2 4.17发布的RedPajama开源数据集：1.2万亿token 容量5个T

2023年4月17日，RedPajama开源1.2万亿token数据集，帮助开发者训练类ChatGPT大语言模型。这也是目前类ChatGPT领域，全球最大的开源训练数据集(地址：https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T）
RedPajama完美复制了LLaMA模型上的1.2万亿训练数据集，由维基百科、GitHub、普通抓取、C4、图书、ArXiv（知名论文网站）、Stack Exchange七部分组成。完整数据集容量约5T，根据数据使用条例已经允许商业化

4.3 4.17发布的COIG：首个大规模、可商用的中文开源指令数据

https://hub.baai.ac.cn/view/25750

2023年4月17日，北京智源人工智能研究院第一期总共发布了 5 个子数据集，包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令，总计 191k 数据，聚焦中文语料、数据类型多样、经过了人工质检与修正、数据质量可靠，而且可以商用。

对应的论文：Chinese Open Instruction Generalist: a Preliminary Release
https://arxiv.org/pdf/2304.07987.pdf
对应的数据链接：
https://huggingface.co/datasets/BAAI/COIG
包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令，总计 191k 数据，聚焦中文语料、数据类型多样、经过了人工质检与修正、数据质量可靠，而且可以商用

4.4 4.19 发布的StableLM

2023年4月19日，Stability AI发布了一款名为StableLM的开源语言模型，旨在让基础AI技术更加透明、易于访问和支持。该模型可以生成文本和代码，并将支持一系列下游应用。它们展示了如何通过适当的训练，小型且高效的模型可以实现高性能
github链接：https://github.com/Stability-AI/StableLM
huggingface链接：https://huggingface.co/stabilityai/stablelm-base-alpha-7b

参数规模上
StableLM 模型的alpha版本有3B和7B参数，接着会推出14B和65B的模型。在CC BY-SA-4.0许可条款的约束下，开发者可以自由查看、使用并调整我们的StableLM基础模型，用于商业或研究目的。
数据集上
StableLM是在一个基于The Pile的新实验数据集上进行训练的，但其规模是The Pile的三倍，包含1.5万亿个内容标记。The Pile这个数据集包含的数据来源就有维基百科、Stack Exchange 和 PubMed。不过，Stability AI 在 the Pile 的基础上进行了扩展，所使用的数据集大小是标准 the Pile 的 3 倍。
模型架构上
StableLM使用了一些常用的模型架构，比如LSTM、Transformer等，还使用了一些先进的技术，比如自注意力机制、残差连接等，以提高模型的效果和精度
应用上
StableLM已经被广泛应用于自然语言处理任务，比如机器翻译、情感分析、文本分类和问答系统等，但StableLM 会说中文，但只会一点点（回复内容对应不上，语句也不通顺）。

4.5 其他可商用的模型

部分可商用模型的汇总链接

github.com/eugeneyan/open-llms

你可能感兴趣的:(论文,代码,实战,垂直领域大模型,医疗大模型ChatDoctor,金融BloombergGPT,ChatLaw,LawGPT_zh)

手撕spring核心源码，彻底搞懂spring流程 Java烟雨后端 java SPRING spring java spring boot kafka 后端
引子十几年前，刚工作不久的程序员还能过着很轻松的日子。记得那时候公司里有些开发和测试的女孩子，经常有问题解决不了的，不管什么领域的问题找到我，我都能帮她们解决。但是那时候我没有主动学习技术的意识，只是满足于解决问题，错过了能力提升最好的阶段。老公是个截然相反的类型，我就看他天天在宿舍里学习。学来学去也就那样了。他不陪我玩，我虽然心里不乐意，但是还好那时候未卜先知：知道自己能生一个长的帅、和我兴趣相
“空中的士”上架淘宝工业品后,要登录交个朋友淘宝直播间? 氧惠爱高省
3月20日消息，交个朋友官微发文宣布，20日晚上七点，全球首个获得适航认证的“飞行的士”将亮相交个朋友淘宝直播间。据悉，这款无人驾驶载人航空器可搭载两人，长6.05米，宽5.73米，高1.93米，由16个螺旋桨组成，为全智能无人驾驶航空器，能够垂直起降，主要在低空空域飞行。通过【氧恵】APP，可以免费领取淘宝及各大电商隐藏优惠券及返利，还能分享赚钱，与朋友一起享受购物乐趣！【氧恵邀请码：00088
C++-linux 7.文件IO（二）文件描述符、阻塞与非阻塞 HHRL-yx C++-linux系统编程 linux c++服务器
文件IO进阶：文件描述符、阻塞与非阻塞在前文我们介绍了文件IO的核心系统调用，本章将深入探讨Linux文件IO的底层机制，包括文件描述符的本质、阻塞与非阻塞IO模型、文件偏移量控制（lseek）以及系统调用中的参数传递规则，帮助你构建更完整的系统编程知识体系。一、文件描述符：进程与文件的桥梁在Linux系统中，当我们打开或创建一个文件（或套接字）时，操作系统会提供一个文件描述符（FileDescr
2023-09-08（day214）一小虫二
监考改卷，已经是高三的常态！生活已经被安排的满满当当！如果能有个安静的工作环境，提高工作效率就更好了！可是我静不下来。前天文琴指点了我一个好地方，就是前三年她呆过的办公室，就是高一教学楼的五楼，那里原来是职高班的办公室，今年职高班没有再招，那个办公室本来是废弃了，后来有两个男老师坐在那里，因为这两个男老师是烟枪，在集体办公室大家都不喜欢。在这么大的办公室里他们能自由畅快的抽烟。昨天我去那个办公室，
慢跑打卡第11天：5.8公里深圳飞儿
正常打卡。明天五一，幸福的人们今天已经开始放假，我们医疗行业的就没这么爽啦，想想就好！今天办公室的领导过来培训手机打卡，说是从明天开始正式打卡，而且还在提前10分钟打卡，迟到一次扣50元，引起全体工作人员强烈反对。打卡大家没意见，但提前10分钟就有点过分了，迟到一次扣50元就更过分了，大家七嘴八舌的提意见，年龄大点的同事比较好说，把大家的心里话全说出来了，同事们跟着附和，把领导吵得焦头烂额，赶紧叫
A*算法详解
A*算法详解一、A*算法基础概念1.1算法定位1.2核心评估函数1.3关键数据结构二、A*算法的核心步骤三、启发函数设计3.1网格地图中的启发函数3.2启发函数的选择原则三、Java代码实现四、启发函数的设计与优化4.1启发函数的可采纳性4.2启发函数的效率影响4.3常见启发函数对比五、A*算法的应用场景与拓展5.1典型应用5.2算法拓展六、A*算法的优缺点优点缺点从游戏中的角色寻路到机器人导航，
分层图最短路径算法详解 GG不是gg 数据结构与算法分析 #算法分析与设计图搜索算法
分层图最短路径算法详解一、分层图算法的核心思想1.1问题引入：带约束的最短路径1.2分层图的核心思路二、分层图的构建方法2.1分层图的结构定义2.2构建步骤（以“最多k次边权改为0”为例）三、分层图最短路径的求解3.1算法步骤3.2Java代码实现（以Dijkstra为例）四、分层图算法的关键细节4.1状态表示与空间优化4.2边的处理4.3复杂度分析五、典型应用场景5.1带次数约束的路径优化5.2
SmartX 用户建云实践｜明日控股：构建基于超融合架构的企业云平台，逐步推进数字化转型
作为全国塑化分销领域的领先企业，明日控股近年来在数字化转型上持续加码。面对业务扩张与产业协同的双重挑战，明日控股自2018年全面启动“数字化、金融化、国际化”三化战略，并将“数字化”置于最核心的位置。在IT基础架构层面，明日控股通过引入SmartX榫卯企业云平台*，完成了从传统ERP管理系统到云原生微服务架构平台的演进，推动单一平台向统一企业级私有云的基础设施转型。通过三期云平台建设，明日控股以榫
发放优惠券的平台有哪些？哪个平台的优惠券力度大？氧惠好项目
当今社会，互联网发展日新月异，人们的生活节奏加快，生活需求逐步增多，生活品质要求也越来越高。网购是现代社会每一个人可能都会经历过的事情，人们都想让自已的生活能够过得更好更方便，这样就会有很多人把需要买的东西放在网络上面，因为在网上购物不仅方便快捷，而且还能领取优惠券打折，能省很多钱。推荐新出的“氧惠”app，使用靓号邀请码211985，可享直邀1：1福利和新人v8体验，返利更高，省得越多，赚的越多
MySQL 索引详解：从原理到实战的全方位指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言索引是MySQL高性能查询的核心驱动力，合理设计索引能将查询性能提升几个数量级，而不当使用则可能导致严重的性能瓶颈。本文从索引的基础概念出发，深入解析数据结构、分类特性、设计原则及实战优化，帮助开发者掌握索引的核心原理与最佳实践。一、索引基础概念1.索引定义与本质索引是存储引擎用于快速查找数据的一种数据结构，本质是「数据项→数据地址」的映射表类比：相当于书籍的目录，通过目录（索引）快速定位章节
MySQL 锁详解：从原理到实战的并发控制指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言在高并发场景下，锁是MySQL保证数据一致性的核心机制。正确理解锁的类型、行为及适用场景，能有效避免数据竞争、死锁等问题，是构建可靠数据库应用的关键。本文从锁的分类、存储引擎差异到实战优化，结合代码示例，系统解析MySQL锁机制的核心原理与最佳实践。一、锁分类：按粒度与功能划分1.按锁粒度划分（1）全局锁（GlobalLock）作用范围：锁定整个数据库实例典型场景：全库逻辑备份（FLUSHTA
Firefox浏览器Flash及音乐播放插件使用指南酷毙的我啊
本文还有配套的精品资源，点击获取简介：随着Firefox逐步淘汰原生FlashPlayer支持，依赖于Flash的内容和某些网页音乐的播放需求催生了特定插件的开发。尽管HTML5已取代Flash成为网页多媒体的核心，教育和娱乐领域的某些旧内容仍然需要使用Flash。用户可以通过安装类似Ruffle这样的Flash模拟器来播放Flash内容，同时，专为Firefox设计的音乐插件如Enhancerf
力扣 496. 下一个更大元素 I 清水乐园华为OD机考 java 算法前端
题目描述nums1中数字x的下一个更大元素是指x在nums2中对应位置右侧的第一个比x大的元素。给你两个没有重复元素的数组nums1和nums2，下标从0开始计数，其中nums1是nums2的子集。对于每个0<=i
德国杯：德累斯顿-斯图加特；进攻至上，斯图加特有模有样 66a0584eb3bb
昨天两场圣保罗没问题，福塔雷萨这场终究还是没能捕捉主任的心理。今天周五算是一个小比赛日，从作战节奏上来说，可以偃旗息鼓，搭灶做饭，屯田备粮，因为周末赛事很多，特别是早场。所以今天只整了两场德国杯的票，先聊聊思路。德累斯顿的实力相对一般，上赛季还身处德乙联赛，可无奈最终降级。来到熟悉的丙级联赛，他们也是冲级大热门。休赛期俱乐部保留了原本的框架的同时，先后引入了史塔克、魏劳赫、贝克等人，实力大大提升。
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
AI-Compass宝藏资源库
AI-Compass宝藏资源库：构建最全面的AI学习与实践生态，服务AI全群体AI-Compass致力于构建最全面、最实用、最前沿的AI技术学习和实践生态，通过六大核心模块的系统化组织，为不同层次的学习者和开发者提供从完整学习路径。github地址：AI-Compass：https://github.com/tingaicompass/AI-Compassgitee地址：AI-Compass：ht
容器中敏感信息泄露路径排查与修复机制：构建、运行与发布全链条实战指南观熵 Docker Docker 安全
容器中敏感信息泄露路径排查与修复机制：构建、运行与发布全链条实战指南关键词：容器安全、敏感信息泄露、环境变量、构建路径排查、Dockerfile安全、CI/CD安全、镜像扫描、密钥管理摘要：在容器化构建与交付流程中，敏感信息泄露问题屡见不鲜，覆盖了硬编码密钥、构建残留、环境变量注入、配置文件外泄等多个维度。本文将基于真实的工程实践，梳理容器生命周期中潜在的敏感信息泄露路径，结合Trivy、Dock
【第三十二天】STM32 平台全景解析与型号选择实战指南观熵每日一练：嵌入式 C++开发 365 天 stm32 嵌入式硬件单片机学习 C++
STM32平台全景解析与型号选择实战指南关键词：STM32、MCU选型、STM32F1、STM32G4、STM32H7、Flash/RAM、外设资源、封装选型、低功耗方案、嵌入式平台摘要：STM32系列是目前嵌入式开发中应用最广泛的ARMCortex-M微控制器平台之一，覆盖从入门级控制器到高性能边缘处理器的多种应用场景。本文从STM32的平台分类、架构演进、性能指标、外设组合、功耗管理等角度展开
Java使用Langchai4j接入AI大模型的简单使用(四)--整合Springboot moxiaoran5753 java spring boot spring
一、在Maven中引入依赖核心配置如下，这里使用的是Springboog3,jdk17，注意版本，如果启动不起来很有可能是版本冲突：17UTF-8UTF-83.4.31.0.0-beta1dev.langchain4jlangchain4j-community-dashscope-spring-boot-starterorg.springframework.bootspring-boot-star
要有一点大格局朱黎亮
芦北听课后的反思，2019年1月16日重新输入从这两天（2018年11.27-28日）的督学活动中（芦北一次听刘老师听、评课以及壶山学区督学活动）发现自己的视野过多的关注在小问题和小细节、或者是具体的问题上，而缺乏一定的眼界，缺乏一定的高度。不是说细节不好，而是关注点小了后，觉得格局也小了。打球也是如此，感觉自己太“小”，总希望用一些“小范围”的倒腾来突破局面，而忘记了打破僵局靠的还是正面强硬的手
gin数据解析和绑定 rit8432499 gin iphone ios
go代码packagemainimport("net/http""github.com/gin-gonic/gin")//定义接收JSON数据的结构体typeLoginstruct{Usernamestring`form:"username"json:"username"uri:"username"xml:"username"binding:"required"`Passwordstring`fo
互联网大厂Java求职面试：基于Spring AI与云原生架构的RAG系统设计与实现在未来等你 Java场景面试宝典 Java SpringAi RAG系统云原生
互联网大厂Java求职面试：基于SpringAI与云原生架构的RAG系统设计与实现场景背景郑薪苦，一位自称“代码界的段子手”的程序员，正在参加某互联网大厂的技术总监面试。面试官是技术总监李总，拥有丰富的架构设计经验，尤其擅长AI与大模型技术、云原生架构等领域。今天的面试主题围绕企业知识库与AI大模型的深度融合架构展开，重点探讨如何设计一个高性能、可扩展的RAG（Retrieval-Augmente
零基础英语学习之旅-语法篇（一）万能的小黑学长
入坑，从今天开始持续更新英语学习方法，剥丝抽茧，去除繁琐的语法概念，让大家，快速入门。花最少的时间，学最重要的东西。欢迎大家批评指正、多提意见。话不多说，直接进入正题。。。英语句子的基本五大结构主语：谓语动词之前的成分。Toseeistobelieve.Theflowersmellsgreat.谓语：谓语就是动词动词主要类型：1.实义动词2.系动词be动词等同于be动词3.助动词帮助动词实现时态和
【剽悍一只猫的剽悍行动营】22天，和孩子一起成长财务自由的社群运营人苏宝
文/Janice2018年春节后，是我人生最黑暗的时候。大娃数学老师投诉她没有完成家庭作业、不交作业，接着是英语老师、语文老师的电话投诉。而我需要花大部分时间在新项目上，没有时间管娃，又与新来的领导在项目管理上有较大分歧，导致关系紧张，心情极度低落。工作上不如意，娃又不消停。每天下班累得半死，还得盯着她学习；好好学习的道理讲了几箩筐，孩子就是说不听，那时的我就像一个炸药桶，只要给我一点火花就能燃爆
脏读、不可重复读、幻读？一文扫盲数据库三大“读“问题
想象一下：你在银行查看账户余额时，数字在你眼前变来变去；或者明明没有记录的操作，却突然冒出新数据。这不是系统故障，而是数据库事务隔离的三大经典问题！今天我们就来揭开这些神秘现象的面纱。一、事务隔离的"三座大山"️在数据库世界中，多个事务同时操作数据时会产生三种典型问题：问题类型出现场景危害程度类比场景脏读读取未提交的数据⚠️⚠️⚠️高危看到别人未提交的草稿不可重复读同一事务内读取结果不一致⚠️⚠️
Agent架构解析及分布式Agent协作方案
来源：AI大模型应用实践AIAgent（智能体）系统发展迅猛，且关注点已经不再局限在Agent的规划推理等基本能力，智能体系统在扩展性、互操作、安全性等工程化方面的挑战也越来越引起重视，比如最近的MCP和A2A。上一篇我们介绍了A2A，今天接着再聊聊分布式Agent系统的话题。Agent模式架构解析Agent有效减少人类工作总量，人与AI协作才是最终形态。人类与AI交互可大致分为三种模式。Embe
销售劣药、屡遭处罚，这样的药易购是怎样骗上市的？基本面解码
本文系富凯IPO财经解读公司第212期，本期关注四川合纵药易购医药股份有限公司(以下简称:合纵药易购)。富凯IPO财经（ID:ipofinance）作者|宋旭光编辑|李浩楠四川合纵药易购医药股份有限公司是一家做“院外市场”的医药流通综合服务商，简单的讲药易购是从医药生产商运来药物，然后送向社区医药中心、基层医疗机构等地方。本次合纵药易购拟公开发行新股不超过2391.67万股(占发行后公司股份总数的
读《我们仨》有感露娜2005
最近终于把杨绛的《我们仨》这本书读完。这本书是杨绛在她女儿和先生钱钟书先后去世之后，为了回顾她们仨在一起的将近60年的时光而整理的。《我们仨》的初稿是她女儿钱媛在病床上手写了一部份，因为她们出自书香门第，而且在各自的领域也是独树一帜的学界巨擘，热爱读书，一直都有用书写记录生活的习惯。因此也就有了这本朴实无华的著作，记录了她们仨十分有爱的日常生活片段。用杨绛先生自己的话说就是：“现在我们仨个失散了。
奇妙的动物世界吴卓逸
奇妙的动物世界里有聪明的猴子，可爱的小兔子，会唱歌的小鸟……但是我最喜欢的是我们老家的一条小狗。它是一只小母狗，它叫豆豆，这个名字是爷爷给它取的，它又贪吃又调皮，但它总也长不高。每次我们回老家，我都能发现它又长肥了。有一次，我们回老家踢足球，踢足球的队伍里有我、哥哥、爸爸还有爷爷。爷爷把球踢给我的时候，力气有点大，豆豆当时正在旁边观看，它正好跑到球移动的位置那，它看到求向他飞了过来。它吓得躲到了一
重学Java并发编程(LockSupport的使用) 豌豆日记 Java多线程 JAVA 多线程并发编程
前言:本文中的代码基于JDK1.8LockSupport是什么?LockSupport定义了一组公共的静态方法，这些方法提供了最基本的线程阻塞和唤醒功能，LockSupport是成为构建同步工具的基础工具。LockSupport定义了一组以park开头的方法来阻塞当前线程，以及unpark(Threadthread)方法来唤醒一个被阻塞的线程。Park有停车的意思，假设线程为车辆，那么park方法
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro