2301_79306982

Qwen 模型自动构建知识图谱，生成病例 + 评价指标优化策略

关于数据库和检索方式的选择
- AI Medical Consultant for Visual Question Answering (VQA) 系统：更适合在前端使用向量数据库（如FAISS）结合关系型数据库来实现图像和文本的检索与存储。因为在 VQA 场景中，你需要对患者上传的图像或文本症状进行语义向量化，以便快速查找相似病例或相关医学图像内容；同时用关系型数据库维护患者基础信息和简单的交互记录即可。
- AI-Powered Semi-Automated Medical Report Editor：更适合结合命名实体识别（NER）、关系识别以及 Neo4j 知识图谱来进行结构化的医学信息管理。由于该任务需要在医生输入的病例信息和历史数据库之间匹配、推断并自动填充下文，涉及大量的医学实体（疾病、症状、药物）以及它们之间的复杂关系，使用知识图谱有助于对这些实体和关系进行精准的管理与查询。
评估指标与数据集
- AI Medical Consultant for VQA
  - 如果你的输出是问答形式，可用 BLEU、ROUGE、METEOR 等文本评估指标来评价回答质量；也可以针对医学问答场景额外引入 医生人工评审 或 医学准确度（Medical Accuracy） 指标，确保给出的建议在医学上是可行的。
  - 如果需要分类（例如对图片做病症分类），则使用 Precision、Recall、F1-score 等常规分类指标。
  - 数据集方面，对于图文结合的医学场景，可参考公开的医学影像问答数据集（如 VQA-RAD 或 PathVQA）或根据你的实际需求构建带注释的自定义数据集。
- AI-Powered Semi-Automated Medical Report Editor
  - 在文本自动生成和填充任务上，一般使用 BLEU、ROUGE、BERTScore 等指标来评价生成质量；同时也需关注 医学上下文正确性（例如处方、诊断信息是否正确匹配）。
  - 用到 NER 和关系抽取时，需要关注 Precision、Recall、F1-score 尤其是 实体级和关系级别的 F1-score。
  - 可使用的医学文本数据集有 MIMIC-III 或 MIMIC-IV，或其他包含病历、诊断、药物信息的大规模数据。对于中文语料，可以使用官方或社区整理的中文医疗实体识别数据集，或基于 MIMIC 等英文语料自行构建翻译后的版本。
结合示例项目的可行性分析
- 该示例项目采用了 RAG（Retrieval-Augmented Generation） 与大模型，结合知识图谱在医疗问答上实现了高精度检索与问答生成。这种思路对于**第一个任务（VQA 医疗咨询）**同样可行，但需要注意你们公司资源有限，图像处理和大模型的推理成本较高，可能需要在模型大小上做取舍，或考虑离线/量化部署。
- 对于第二个任务（自动病例报告编辑器），示例中的 NER、关系识别和大模型意图识别正是你可以使用 Neo4j 等知识图谱的核心理由。通过知识图谱来管理病症、药物及疗法之间的关联，再结合大模型来做自动文本补全，可以有效减少医生手动输入的负担，也能更准确地填充关键信息。
- 需要评估的数据标注和维护成本。示例项目中通过 Prompt 工具减少人工标注量，你也可以借鉴类似思路，利用大语言模型的“少样本”或“零样本”能力快速生成 NER 训练样本。同时也要考虑知识库的更新维护问题，尤其是医疗领域知识更新较快。

Task One: AI Medical Consultant for VQA (using MiniCPM)

1. 训练和微调步骤

✅ 优化点

数据集
- 继续使用 VQA-RAD、PathVQA 以及医学问诊文本数据
- 额外补充 MedICaT（医学图文数据），提高多模态理解能力
- 使用 FAISS 进行医学文献检索，增强模型背景知识
图像特征提取
- 使用 ViT 或 Swin Transformer 提取医学图像特征，而不是 ResNet
- 使用 Cross-Attention 机制 让 MiniCPM 充分利用图像信息，而不是简单的 MLP 融合
文本处理
- 引入医学词汇表（如 UMLS、SNOMED）来优化 MiniCPM 的 tokenizer
- 继续使用 MiniCPM 作为主模型，在医学 QA 任务上进行微调
图文特征融合
- 使用 Cross-Attention（如 TransformerEncoder 层）替代 simple feed-forward 层
- 设计方式：
  1. 图像输入经过 ViT/Swin Transformer
  2. 文本输入经过 MiniCPM
  3. 在 MiniCPM 解码层 使用 Cross-Attention 连接图像特征和文本特征
  4. 目标：生成更具医学专业性的回答
训练目标
- 采用 多任务学习：
  - 医学 QA 生成（seq2seq loss）
  - 推荐科室分类（cross-entropy loss）
- 通过 知识检索增强（FAISS 检索相关医学文献）提高医学合理性

2. 工具使用

✅ 优化点

继续使用 PyTorch 进行训练
使用 FAISS 进行知识增强
MiniCPM + ViT/Swin + Cross-Attention 进行多模态融合

任务1

3 模型测试和优化预测

3.1 主要评测指标

任务	评估指标	作用
医学问答质量	BLEU, ROUGE, METEOR	评估答案的流畅性和文本质量
医学合理性	医学专家审核评分	衡量回答的医学正确性
推荐科室准确率	Precision, Recall, F1-score	评估推荐结果是否准确

3.2 关键优化

BLEU/ROUGE/METEOR 提升策略
- 方法：
  1. 使用 Cross-Attention 让 MiniCPM 更好利用图像特征（增强答案信息）
  2. 通过 FAISS 引入外部医学知识，减少胡乱生成的情况
  3. 增强医学特定词汇的 tokenization 质量（避免医学术语被错误拆分）
- 预计提升幅度：
  - BLEU 提升 3-6 分（Baseline 约 20 → 提升到 23-26）
  - ROUGE 提升 5-8 分（Baseline 约 30 → 提升到 35-38）
医学合理性
- 方法：
  1. 使用 FAISS 检索医学知识，增强生成答案的可靠性
  2. 训练时加入人工医学问答数据（few-shot learning）
  3. 在测试阶段由医生评分，优化 QA 逻辑
- 预计提升幅度：
  - 医学准确率从 60% 提升到 78%-82%
  - 医学错误率降低 30%
推荐科室 F1-score
- 方法：
  1. 增强 MiniCPM 训练数据（带更多分类示例）
  2. 采用 Cross-Attention 提高图像理解能力
- 预计提升幅度：
  - F1-score 提升 5-7%（Baseline 约 70% → 提升到 75-77%）

任务2

仅使用 Qwen 模型实现命名实体识别、知识图谱构建及文本生成。

1.1 训练微调过程中每一个步骤

步骤 1：数据预处理

收集和整理医疗领域文本数据，包括电子病历、医学文献和病历模板。
对数据进行清洗和标注，将每条文本转换为带有命名实体标签的训练样本，格式例如：“输入：文本内容；输出：实体列表（如‘疾病：高血压，部位：心脏’）”。
构造生成式任务格式，即设计 Prompt 模板，如“请从以下文本中抽取所有医疗实体：”，使输入与输出均为自然语言形式。

步骤 2：模型初始化

使用 Hugging Face Transformers 库，通过函数 AutoModelForCausalLM.from_pretrained("Qwen-model") 加载预训练的 Qwen 模型。
同时加载对应的分词器，调用 AutoTokenizer.from_pretrained("Qwen-model") 来处理文本输入。

步骤 3：微调设置

设置超参数：例如学习率设为 2e-5、batch size 设为 16、训练轮数设为 3～5 个 epoch、最大序列长度根据任务需求（如 512）。
配置优化器，使用 torch.optim.AdamW 并设定合适的权重衰减和梯度裁剪参数。

步骤 4：训练策略

采用自回归生成模式，将问题构造为输入 Prompt（例如“请识别以下文本中的医疗实体：”加上原始文本），输出为对应的实体标注文本。
使用 Cross-Entropy Loss 作为训练目标，通过计算生成文本与目标文本之间的差异来更新模型。
利用 Transformers 提供的 Trainer 类和 TrainingArguments 进行训练管理，定期在验证集上评估并保存最佳模型。

步骤 5：检查点保存与调参

每个 epoch 结束后保存模型检查点，并使用验证集监控模型性能，以便及时调整超参数避免过拟合或欠拟合。

1.2 应用的工具

PyTorch：用于定义模型、优化器和损失函数；例如使用 torch.optim.AdamW 进行参数更新。
Transformers 库：
- 使用 AutoModelForCausalLM 加载 Qwen 模型。
- 使用 AutoTokenizer 处理文本输入。
- 通过 Trainer 和 TrainingArguments 管理训练过程。
数据处理工具：利用 Python 的 pandas 进行数据清洗和格式转换，使用 datasets 库加载和管理数据集。

1.3 模型测试与评价方法

指标：
- 使用精度（Precision）、召回率（Recall）和 F1 分数评估命名实体识别的准确性和完整性。
- 采用 ROUGE 分数评估生成文本的质量和覆盖程度。
- 选择这些指标是因为它们能全面反映模型在信息抽取和生成任务中的性能。
测试方法：
- 采用未参与训练和验证的独立测试集进行模型评估。
- 对于命名实体识别任务，将模型输出的实体列表与人工标注的标准答案比对，计算上述指标。
- 对于文本生成任务，结合自动评估（如 ROUGE）和人工评估来判断生成内容的连贯性和准确性。
- 使用 Trainer.evaluate() 方法在验证集上定期测试模型，确保训练过程稳定。

1.4 预测模型指标优化及其实现方法

预测优化数值：
- 预计在命名实体识别任务中，F1 分数将提升 5%～7%（例如从 83% 提升到 88%～90%）。
- 在文本生成任务中，ROUGE 分数有望提升 4～6 分。
实现优化的方法：
- 数据增强：通过同义词替换、数据扩充和回译技术增加训练数据多样性。
- 模型正则化：采用 dropout、权重衰减等技术防止模型过拟合。
- 超参数调整：使用网格搜索或贝叶斯优化方法调节学习率、batch size 等关键参数。
- Prompt 工程：优化输入 Prompt 模板，确保生成格式的一致性和准确性。
- 多任务学习：在微调过程中尝试联合学习命名实体识别和文本生成任务，以提升模型的整体性能。

2.1 数据集使用及数据库搜索时机

数据集使用：
- 训练数据集：选用经过标注的中文医疗文本数据集，例如公开的医疗命名实体识别数据集，同时可辅以医院内部匿名化数据以丰富样本。
- 选择理由：这些数据集具有高质量标注和丰富的领域知识，有助于训练模型准确识别多样化的医疗实体。
数据库搜索时机：
- 在模型推理阶段，首先利用微调后的 Qwen 模型对用户输入的文本进行命名实体识别，提取出医疗实体。
- 随后，根据提取出的实体查询预先构建的知识图谱数据库（例如 Neo4j），检索相关的节点和关系信息。
- 最后，将检索结果作为辅助上下文传入 Qwen 模型，实现文本生成或补全功能。

2.2 知识图谱构建与检索方法

构建流程：
- 使用经过微调的 Qwen 模型对医疗文本进行命名实体识别，抽取出疾病、药物、症状等核心实体。
- 对抽取出的实体进行标准化处理，消除同义词差异，并依据共现统计和医学知识确定实体之间的关系。
- 将标准化的实体和关系存入图数据库（例如 Neo4j），构建成以节点（实体）和边（关系）为基本结构的知识图谱。
与模型结合：
- 在文本生成前，利用 Qwen 模型对输入文本进行命名实体识别，并以此为查询条件，从知识图谱中检索相关信息。
- 检索结果通过预定义模板整合为上下文信息，传入 Qwen 模型以生成更具联想性和连贯性的文本。
- 该流程实现了从实体识别、知识图谱查询到文本生成的完整闭环。

2.3 优化效果论证与对比基准

优化结果论证：
- 通过对比微调前后在独立测试集上模型的指标（如命名实体识别的 F1 分数及生成文本的 ROUGE 分数），验证优化效果。
- 设计 A/B 测试，在实际应用中收集用户反馈和错误案例，以进一步评估生成文本的准确性和连贯性。
- 利用统计数据和实验结果，形成详细的优化报告，作为模型改进的依据。
对比基准：
- 基准模型：将原始未微调的 Qwen 模型作为基准进行比较。
- 数据集基准：参照公开医疗 NER 数据集及标准文本生成任务的评估结果。
- 对比对象：与现有文献中其他生成模型在类似任务上的表现进行比对，确保优化后的结果具备竞争力。

下面提供一个详细、可执行的方案，从需求分析到数据预处理、模型微调开发、系统集成，再到测试评估主要模块：前端输入接口、数据预处理、Qwen模型服务、后端数据存储（Neo4j & 关系型数据库）、后处理规则引擎。

操作1.2.2：知识图谱结构

\Neo4j知识图谱：

任务： 定义医学实体节点（Disease、Symptom、Medication 等）及其关系。

示例Cypher语句：

CREATE CONSTRAINT ON (d:Disease) ASSERT d.name IS UNIQUE;
CREATE (:Disease {name: '高血压'});
CREATE (:Symptom {name: '头痛'});
MATCH (d:Disease {name: '高血压'}), (s:Symptom {name: '头痛'})
CREATE (d)-[:HAS_SYMPTOM]->(s);

操作1.2.3：制定接口与安全策略
- 任务： 明确定义REST API接口（输入格式、返回格式、错误码）、身份验证（OAuth2或JWT）和数据加密要求。
- 产出： 接口文档（Swagger格式）和安全设计说明。

阶段2：数据准备与预处理

2.1 数据收集与整理

操作2.1.1：收集医疗文本数据

来源： 医院病例库、公开数据集（如MIMIC-III）、内部报告数据。
任务： 导出数据到CSV或JSON格式，并确保数据脱敏。

脚本示例（Python）：

import pandas as pd

# 从CSV读取数据，并简单脱敏处理（如移除姓名、身份证号）
data = pd.read_csv('raw_medical_reports.csv')
data.drop(columns=['name', 'id_number'], inplace=True)
data.to_csv('clean_medical_reports.csv', index=False)

2.2 数据清洗与格式转换

操作2.2.1：清洗数据

任务： 去除空值、异常符号、统一编码。
工具： Pandas、正则表达式

脚本示例（Python）：

import re

def clean_text(text):
    text = re.sub(r'\s+', ' ', text)  # 多余空格
    text = text.strip()
    return text

data['report_text'] = data['report_text'].apply(clean_text)
data.to_csv('cleaned_medical_reports.csv', index=False)

操作2.2.2：文本分句与分词
- 任务： 使用现有NLP库对文本进行分句、分词，为后续实体标注做准备。
- 工具： spaCy（支持中文）、jieba
- 脚本示例（Python，使用jieba）：
```
import jieba

data['tokens'] = data['report_text'].apply(lambda x: list(jieba.cut(x)))
data.to_csv('tokenized_medical_reports.csv', index=False)
```

2.3 数据标注（实体与关系）

操作2.3.1：准备标注工具
- 工具： Doccano 或 Label Studio
- 步骤：
  1. 将清洗后的数据导入Doccano。
  2. 配置标注项目，定义实体类型（如疾病、症状、药物等）及关系（如“has_symptom”、“treats”等）。

操作2.3.2：执行标注任务

任务： 分配任务给领域专家进行实体和关系标注。

产出： 标注文件（JSON格式），如：

{
  "text": "患者患有高血压，伴随头痛症状。",
  "entities": [[3, 5, "Disease"], [8, 10, "Symptom"]],
  "relations": [[[3,5], [8,10], "HAS_SYMPTOM"]]
}

2.4 构建Neo4j知识图谱

操作2.4.1：数据转换与导入

任务： 将标注好的实体和关系数据转化为适合Neo4j导入的CSV文件。
步骤：
1. 编写Python脚本，解析JSON标注文件，生成两类CSV文件：一份用于节点（entity_id, label, properties），另一份用于关系（start_entity, end_entity, relation_type）。

脚本示例：

import json
import csv

with open('annotations.json', 'r', encoding='utf-8') as f:
    annotations = json.load(f)

with open('nodes.csv', 'w', newline='', encoding='utf-8') as node_file, \
     open('relations.csv', 'w', newline='', encoding='utf-8') as rel_file:
    node_writer = csv.writer(node_file)
    rel_writer = csv.writer(rel_file)
    node_writer.writerow(['entity_id', 'label', 'name'])
    rel_writer.writerow(['start_entity', 'end_entity', 'relation_type'])
    entity_id = 1
    entity_map = {}
    for ann in annotations:
        for entity in ann['entities']:
            entity_text = ann['text'][entity[0]:entity[1]]
            label = entity[2]
            if entity_text not in entity_map:
                entity_map[entity_text] = entity_id
                node_writer.writerow([entity_id, label, entity_text])
                entity_id += 1
        for rel in ann['relations']:
            e1_text = ann['text'][rel[0][0]:rel[0][1]]
            e2_text = ann['text'][rel[1][0]:rel[1][1]]
            rel_writer.writerow([entity_map[e1_text], entity_map[e2_text], rel[2]])

操作2.4.2：使用Neo4j导入CSV

步骤：

在Neo4j Browser中执行LOAD CSV命令，将节点和关系数据导入。

示例Cypher：

// 导入节点
LOAD CSV WITH HEADERS FROM 'file:///nodes.csv' AS row
CREATE (n:Entity {id: toInteger(row.entity_id), label: row.label, name: row.name});

// 导入关系
LOAD CSV WITH HEADERS FROM 'file:///relations.csv' AS row
MATCH (a:Entity {id: toInteger(row.start_entity)}),
      (b:Entity {id: toInteger(row.end_entity)})
CREATE (a)-[:RELATION {type: row.relation_type}]->(b);

阶段3：模型训练、微调与模块开发

3.1 数据预处理与分割

操作3.1.1：加载并分割数据集

任务： 利用清洗和标注后的数据，将数据分为训练集、验证集和测试集（例如8:1:1比例）。

脚本示例（Python）：

from sklearn.model_selection import train_test_split
import pandas as pd

df = pd.read_csv('cleaned_medical_reports.csv')
train, temp = train_test_split(df, test_size=0.2, random_state=42)
val, test = train_test_split(temp, test_size=0.5, random_state=42)
train.to_csv('train.csv', index=False)
val.to_csv('val.csv', index=False)
test.to_csv('test.csv', index=False)

操作3.1.2：文本Tokenization

任务： 使用HuggingFace提供的Tokenizer对文本进行编码。

脚本示例（Python）：

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("qwen-base")
def tokenize_text(text):
    return tokenizer.encode_plus(text, max_length=512, truncation=True, padding="max_length")

# 示例：处理训练集
train_data = pd.read_csv('train.csv')
train_data['tokens'] = train_data['report_text'].apply(lambda x: tokenize_text(x)['input_ids'])
train_data.to_csv('train_tokenized.csv', index=False)

3.2 Qwen模型的微调

操作3.2.1：加载预训练Qwen模型

工具： HuggingFace Transformers、PyTorch

脚本示例（Python）：

from transformers import AutoModelForSeq2SeqLM, Trainer, TrainingArguments
model = AutoModelForSeq2SeqLM.from_pretrained("qwen-base")

操作3.2.2：构建微调数据集

任务： 利用训练数据构建输入（医生初始文本）与目标（标准医疗报告）的配对数据集。

步骤： 定义自定义Dataset类，示例如下：

import torch
from torch.utils.data import Dataset

class MedicalReportDataset(Dataset):
    def __init__(self, csv_file, tokenizer, max_length=512):
        self.data = pd.read_csv(csv_file)
        self.tokenizer = tokenizer
        self.max_length = max_length
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        row = self.data.iloc[idx]
        input_enc = self.tokenizer(row['input_text'], max_length=self.max_length, truncation=True, padding="max_length", return_tensors="pt")
        target_enc = self.tokenizer(row['target_report'], max_length=self.max_length, truncation=True, padding="max_length", return_tensors="pt")
        return {
            "input_ids": input_enc.input_ids.squeeze(),
            "attention_mask": input_enc.attention_mask.squeeze(),
            "labels": target_enc.input_ids.squeeze()
        }

操作3.2.3：设置训练参数并启动微调

工具： Trainer API

脚本示例：

training_args = TrainingArguments(
    output_dir='./qwen_medical_report',
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    evaluation_strategy="steps",
    eval_steps=500,
    save_steps=1000,
    logging_steps=100,
    learning_rate=5e-5,
    weight_decay=0.01,
    save_total_limit=2,
    fp16=True
)
train_dataset = MedicalReportDataset('train.csv', tokenizer)
eval_dataset = MedicalReportDataset('val.csv', tokenizer)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset
)
trainer.train()

操作3.2.4：保存和验证模型

步骤： 模型训练完成后保存权重，并在验证集上运行推理，检查输出质量。

trainer.save_model('./qwen_medical_report_final')
sample_input = "患者主诉头痛，既往有高血压病史。"
inputs = tokenizer.encode(sample_input, return_tensors="pt")
outputs = model.generate(inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

3.3 开发实体抽取与关系识别模块

操作3.3.1：实体抽取
- 任务： 在医生输入文本中利用微调后的模型或专门的NER模型（如BERT-CRF）抽取医学实体。
- 步骤：
  1. 集成现有NER模型，或利用Qwen模型在特定提示下进行实体抽取。
  2. 编写接口，将抽取结果转换为统一格式（例如：{"entity": "高血压", "type": "Disease", "start": 10, "end": 14}）。
- 示例伪代码：
```
def extract_entities(text):
    # 调用NER模型API或内部方法
    entities = ner_model.predict(text)
    return entities
```

操作3.3.2：关系识别与知识图谱校验

任务： 利用Neo4j对抽取的实体进行校验和关系补全
步骤：
1. 根据抽取的实体，构造查询Neo4j的Cypher语句，检查实体间的关系是否存在。
2. 若缺少关键关系，调用补全逻辑进行提示或自动添加建议。

示例（Python调用Neo4j）：

from neo4j import GraphDatabase

uri = "bolt://localhost:7687"
driver = GraphDatabase.driver(uri, auth=("neo4j", "password"))

def check_relation(entity1, entity2, relation_type):
    query = (
        "MATCH (a:Entity {name:$name1})-[r:RELATION {type:$rel}]->(b:Entity {name:$name2}) "
        "RETURN r"
    )
    with driver.session() as session:
        result = session.run(query, name1=entity1, name2=entity2, rel=relation_type)
        return result.single() is not None

3.4 开发文本生成与后处理模块

操作3.4.1：文本生成接口封装

任务： 将微调后的Qwen模型封装为一个服务接口，接收输入后返回生成的报告草稿。

步骤： 使用Flask创建简单API服务：

from flask import Flask, request, jsonify
app = Flask(__name__)

@app.route('/generate_report', methods=['POST'])
def generate_report():
    data = request.json
    input_text = data.get("input_text")
    inputs = tokenizer.encode(input_text, return_tensors="pt")
    outputs = model.generate(inputs, max_length=200)
    report = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return jsonify({"report": report})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

操作3.4.2：后处理与规则校验
- 任务： 结合基于规则的引擎（Java实现）和Neo4j校验对生成文本进行格式化、逻辑检查。
- 步骤：
  1. 开发Java模块，接收生成的报告文本；
  2. 解析文本，调用Neo4j接口检查各医学实体的逻辑关系；
  3. 若发现异常，自动标记或反馈给医生进行确认。

阶段4：系统集成与接口对接

4.1 构建API服务与微服务封装

操作4.1.1：部署生成模型服务

任务： 将上述Flask服务打包为Docker容器。

Dockerfile示例：

FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
EXPOSE 5000
CMD ["python", "app.py"]

操作4.1.2：构建Java后端服务

任务： 利用Spring Boot构建REST API，调用生成服务和数据库接口。

步骤：

使用Spring Initializr生成项目，添加依赖（Spring Web、JPA、Neo4j Driver）。
编写Service类，通过HTTP Client（如RestTemplate）调用Flask生成服务。

示例代码：

@Service
public class ReportService {
    @Autowired
    private RestTemplate restTemplate;
    
    public String generateReport(String inputText) {
        String url = "http://qwen-service:5000/generate_report";
        Map request = new HashMap<>();
        request.put("input_text", inputText);
        ResponseEntity response = restTemplate.postForEntity(url, request, Map.class);
        return (String) response.getBody().get("report");
    }
}

4.2 数据库和知识图谱接口对接

操作4.2.1：配置关系型数据库连接
- 任务： 在Spring Boot中配置DataSource、JPA实体及Repository，管理患者数据和生成报告存储。
- 步骤：
  - 在application.properties中配置数据库连接信息；
  - 编写实体类（Patient、MedicalReport）和Repository接口。

操作4.2.2：集成Neo4j接口

任务： 利用Neo4j Java Driver在Spring Boot中封装服务，提供知识图谱查询接口。

示例代码：

@Service
public class Neo4jService {
    private final Driver driver;

    @Autowired
    public Neo4jService(@Value("${neo4j.uri}") String uri,
                        @Value("${neo4j.username}") String username,
                        @Value("${neo4j.password}") String password) {
        this.driver = GraphDatabase.driver(uri, AuthTokens.basic(username, password));
    }

    public boolean checkRelation(String entity1, String entity2, String relation) {
        try (Session session = driver.session()) {
            String cypher = "MATCH (a:Entity {name: $entity1})-[r:RELATION {type: $relation}]->(b:Entity {name: $entity2}) RETURN r";
            return session.run(cypher, parameters("entity1", entity1, "entity2", entity2, "relation", relation))
                          .hasNext();
        }
    }
}

4.3 容器化与部署

操作4.3.1：Docker Compose编排

任务： 编写docker-compose.yml文件，将Java后端、Qwen生成服务、Neo4j及MySQL/PostgreSQL容器化并互联。

示例docker-compose.yml：

version: '3.8'
services:
  qwen-service:
    build: ./qwen_service
    ports:
      - "5000:5000"
  backend-service:
    build: ./backend_service
    ports:
      - "8080:8080"
    depends_on:
      - mysql
      - neo4j
  mysql:
    image: mysql:8.0
    environment:
      MYSQL_ROOT_PASSWORD: rootpassword
      MYSQL_DATABASE: medical_db
    ports:
      - "3306:3306"
  neo4j:
    image: neo4j:4.4
    environment:
      NEO4J_AUTH: neo4j/neo4jpassword
    ports:
      - "7687:7687"
      - "7474:7474"

操作4.3.2：CI/CD部署
- 任务： 使用Jenkins或GitHub Actions自动构建、测试和部署各模块。

阶段5：测试与性能评估

5.1 单元测试

操作5.1.1：后端服务单元测试

工具： JUnit
任务： 为每个Service和Controller编写单元测试，验证输入输出和异常处理。

示例（Java JUnit）：

@SpringBootTest
public class ReportServiceTest {
    @Autowired
    private ReportService reportService;
  
    @Test
    public void testGenerateReport() {
        String input = "患者主诉胸痛...";
        String report = reportService.generateReport(input);
        assertNotNull(report);
        assertTrue(report.contains("胸痛"));
    }
}

操作5.1.2：Python模块单元测试
- 工具： pytest
- 任务： 为数据预处理、模型生成等模块编写测试脚本，确保数据格式正确、模型调用正常。

5.2 集成测试与接口测试

操作5.2.1：接口测试
- 工具： Postman
- 任务： 编写Postman集合，模拟医生输入、调用生成报告接口，验证返回格式及错误处理。
操作5.2.2：集成测试
- 任务： 编写自动化脚本（如Selenium或RestAssured），测试前端到后端完整流程，确保各模块数据交互正确。

5.3 性能和负载测试

操作5.3.1：使用JMeter进行负载测试
- 任务： 模拟高并发医生请求，检测系统响应时间、吞吐量和资源占用。
- 步骤：
  1. 配置JMeter测试计划，设置HTTP请求目标为后端服务接口。
  2. 记录响应时间、错误率，并根据需要调整系统配置。

5.4 模型评估

操作5.4.1：自动评测指标计算
- 任务： 编写Python脚本，利用测试集计算生成文本的BLEU、ROUGE得分；利用标注数据计算NER抽取的Precision、Recall、F1值。
- 示例（Python调用NLTK计算BLEU）：
```
from nltk.translate.bleu_score import sentence_bleu

reference = [['高血压', '患者', '症状']]
candidate = ['患者', '高血压', '症状']
score = sentence_bleu(reference, candidate)
print("BLEU score:", score)
```

阶段1： 从需求研讨、编写规格文档、绘制系统架构、数据库与安全接口设计。
阶段2： 数据收集、清洗、分词、标注、构建Neo4j知识图谱，提供了具体的代码示例和操作步骤。
阶段3： 数据预处理、Tokenization、基于HuggingFace的Qwen模型微调、实体抽取和关系校验模块开发、生成接口与后处理流程。
阶段4： 将生成模块封装为REST API，通过Spring Boot构建Java后端，整合关系型数据库和Neo4j，利用Docker Compose进行容器编排。
阶段5： 单元、集成、性能和负载测试，自动化评测脚本、人工评估反馈，并搭建CI/CD流水线实现持续优化。

通过以上每一步明确的操作说明与代码示例，该方案不仅具备理论指导，还能直接转化为具体的开发任务，确保在实际系统开发中具备可执行性。

评价指标解析

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

ROUGE 是什么？
- ROUGE 是一个用来衡量自动文本生成（如摘要、机器翻译、问答系统）质量的指标。
- 它主要是计算模型生成的文本与标准答案（ground truth）之间的 n-gram（词的组合）重叠率。
- 常见的 ROUGE 版本：
  - ROUGE-N: 计算 n-gram（如 ROUGE-1、ROUGE-2，分别表示一元词、二元词的匹配情况）。
  - ROUGE-L: 计算最长公共子序列（Longest Common Subsequence, LCS），衡量文本连贯度。
  - ROUGE-W: 计算带权重的 LCS，适用于更长的文本。
  - ROUGE-S: 计算跳跃二元词（Skip-gram）。
在这个任务中怎么衡量？
- 任务 1（医疗问答 VQA）:
  - 在 MiniCPM 生成的回答和标准答案之间计算 ROUGE-1 和 ROUGE-L，看它生成的句子是否包含关键医学术语。
  - 例如标准答案是：“建议前往皮肤科。”
    - 如果模型生成：“你应该去皮肤科。”
    - ROUGE-1: 高（因为“皮肤科”匹配了）
    - ROUGE-L: 也高（因为最长公共子序列是“去皮肤科”）。
- 任务 2（病例自动填充）:
  - 在医生输入部分病历时，让 BERT 生成后续内容，并用 ROUGE-L 计算它的连贯性。
为什么 ROUGE 适合这个任务？可行范围是多少？
- 在 医学问答任务，ROUGE 不能完全衡量答案是否正确（因为医学可能有多个正确答案），但它可以衡量句子表述的相似度。
- 在 病例补全文本生成，ROUGE 更加重要，因为病历的书写有格式化要求，ROUGE-L 能评估生成内容的连贯性。
- 合理范围:
  - 普通 NLP 任务：ROUGE-1 通常 4060 之间，ROUGE-L 在 3050 之间。
  - 在医学领域，由于答案可能更短，ROUGE-1 可能在 50~80 之间，而 ROUGE-L 可能在 40~60 之间。

1.2 序列标注层（CRF vs. token-level 分类）

我们先解释 什么是序列标注任务，然后再对比 CRF 和 token-level 分类。

什么是序列标注任务？

序列标注（Sequence Labeling）是一种 NLP 任务，用于给文本中的每个词或子词打标签。
在医学领域，我们需要识别 疾病（Disease）、药物（Drug）、症状（Symptom） 等医学实体（Named Entity Recognition, NER）。
例如：
```
患者出现 高血压 和 头痛 。
```
- 高血压 → 疾病
- 头痛 → 症状
这时，我们就需要一种 序列标注模型 来自动标注这些医学实体。

CRF（条件随机场，Conditional Random Field）

CRF 是什么？
- CRF 是一种用于 序列标注任务 的统计模型，专门用来优化相邻词的标注结果。
- 在 NER 任务中，我们要确保：
  - “高” 被标注为 “B-Disease”（疾病的开始）
  - “血压” 被标注为 “I-Disease”（疾病的内部）
  - “和” 被标注为 “O”（无关词）
- CRF 可以学习到 相邻词的关联性，避免 “血压” 被错误标注为 O。
- PyTorch 里可以使用 torchcrf 库或者 transformers 结合 CRF 层。
在这个任务中怎么衡量？
- 在任务 2（自动病例编辑器），NER 是关键任务之一。
- 我们使用 CRF 训练 BERT，输入医疗文本，让模型输出一个带标签的序列。
- 衡量标准：F1-score，看 CRF 预测的标签和人工标注的标签有多少匹配。
为什么 CRF 适合？可行范围是多少？
- 在医学实体识别中，CRF 比单独的 BERT 更擅长处理 上下文关系（比如“高血压”要连在一起）。
- CRF 训练好的 NER，F1-score 一般可以达到 85%~95%。

Token-level 分类

什么是 token-level 分类？
- 这是 BERT 默认的序列标注方法，它不考虑词与词之间的关系，而是 单独对每个 token 进行分类。
- 例如：
```
"患者 出现 高 血 压 和 头 痛 。"
```
  - 每个字或者词都被单独送入 BERT，然后由 BERT 的分类层直接预测这个 token 是 O、B-Disease 还是 I-Disease。
- 缺点：BERT 本身不考虑 token 之间的相互关系，可能会让“血压”被错误标注。
在这个任务中怎么衡量？
- 仍然使用 F1-score 计算预测标签的准确率。
为什么 token-level 分类有时不够好？
- 对于独立词分类可以用（比如“癌症”明显是疾病）。
- 但对于组合词，CRF 可能更好。
- 在 任务 2 的 NER 任务，CRF 一般比 token-level 分类 F1-score 高 2~5 个点。

指标	作用	适用任务	典型范围
ROUGE	评估文本生成质量	医疗问答、病历补全	ROUGE-1: 50-80, ROUGE-L: 40-60
F1-score	评估 NER、分类任务	任务 2 的医学实体识别	85%~95%
BLEU	评估文本翻译	任务 1 医疗问答	30-60

你可能感兴趣的:(ai,千问,语言模型,人工智能)

C#用递归的方法复制指定文件夹下所有文件(包括子文件夹)到指定位置未来无限 C#语言 c#递归的方法复制文件到另一个路径包含子文件覆盖
publicpartialclassForm1:Form{publicForm1(){InitializeComponent();}//////实现复制整个文件夹到另一个路径，如果存在此文件夹，便覆盖/////////publicstaticvoidCopyDir(stringsrcPath,stringaimPath){try{//检查目标目录是否以目录分割字符结束如果不是则添加if(aimPa
DDD 分层架构实战指南：从项目结构到落地挑战
一、项目结构详解（以电商订单系统为例）src/main/java├──com.example│├──common#通用工具类、基础异常、常量│├──order#订单限界上下文（模块示例）││├──interfaces#用户接口层│││├──controller#HTTP/RESTAPI│││├──rpc#Dubbo/gRPC接口│││└──consumer#消息队列消费者（如Kafka监听）││├
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
003-128 最长连续序列 Ernest_NEU 算法 leetcode
题目我的思考+word题解题解题解思路classSolution{publicintlongestConsecutive(int[]nums){SetnumSet=newHashSet<>();for(intnum:nums){numSet.add(num);}intmaxLength=0;for(intnum:numSet){if(!numSet.contains(num-1)){intcurN
Android之提示Failed to load WebView provider: No WebView installed 码莎拉蒂 . Andriod 积累 Android Failed to load WebView No WebView installed
1问题FatalException:android.util.AndroidRuntimeException:android.webkit.WebViewFactory$MissingWebViewPackageException:FailedtoloadWebViewprovider:NoWebViewinstalledatandroid.webkit.WebViewFactory.getPro
数字IC后端流程简述 roc-ever 芯片数字ic
1.设计输入目标：接收前端设计（如RTL代码和约束文件）的输出。工具：前端设计工具（如SynopsysDesignCompiler或CadenceGenus）。步骤：确保前端设计的RTL代码经过综合并生成了门级网表（Netlist）。收集约束文件（Constraints），如时序约束（SDC文件）、功率约束等。2.综合（Synthesis）目标：将高层次的RTL代码转化为门级网表。工具：Synop
【Power Compiler手册】6.反标翻转活动 QRBQ94 数字IC低功耗设计数字IC 低功耗设计 Power Compiler saif
5.反标翻转活动可以对设计中的切换活动进行反标，以生成准确的功耗计算。有关不同类型切换活动信息以及如何在门级设计上进行反标的信息，请参阅以下主题：反标切换活动的类型使用RTLSAIF文件反标切换活动使用门级SAIF文件反标切换活动
【软件工程】Waitress + Nginx 部署 Python Web 服务 meisongqing nginx python WEB
下面是完整的Windows系统部署方案，使用Waitress作为WSGI服务器运行Python后端，Nginx作为反向代理同时提供前端服务：项目结构text复制下载myapp/├──backend/#Python后端│├──app.py#Flask应用入口│├──requirements.txt#Python依赖│└──api/#API模块├──frontend/#前端文件│├──index.ht
2025年 Java 面试八股文（20w字）持续学习多模态大模型 java
目录第一章-Java基础篇1、你是怎样理解OOP面向对象???难度系数：?2、重载与重写区别???难度系数：?3、接口与抽象类的区别???难度系数：?4、深拷贝与浅拷贝的理解???难度系数：?5、sleep和wait区别???难度系数：?6、什么是自动拆装箱?int和Integer有什么区别???难度系数：?7、==和equals区别???难度系数：?8、String能被继承吗为什么用final修
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
Java 程序员必备的 26 个 Linux 命令，常用 + 面试两手抓库库林_沙琪马 Linux linux 面试运维
有人问我：日常开发中最常用的Linux命令有哪些？我不假思索地就列出了26个，涵盖开发、调试、运维场景，每一个都值得收藏+实战。内容速览26个高频Linux命令详解面试官常问的重点命令实操建议&学习指引一、开发者高频使用的26个Linux命令1️⃣cd-切换目录cd/usr/local/bincd..cd~Tips：~表示当前用户主目录，..表示上级目录。2️⃣mkdir-创建目录mkdirmyd
HarmonyOS 创建 createAudioCapturer 时候报错误码 6800301 chenbin___ harmonyos
一、错误码6800301的信息错误码6800301，表示包含参数校验异常、权限校验异常、系统处理异常（具体错误查看系统日志）。本人遇到的问题是，申请了麦克风权限，但是未弹出提示用户授权，所以权限校验失败了。二、配置权限src/main/module.json5文件中配置如下内容"requestPermissions":[{"name":"ohos.permission.MICROPHONE","r
数字后端中的PDC check是什么？ Reese_Reese 后端概念梳理数字后端 ICC2
在数字后端设计（PhysicalDesignClosure）中，PDC（PhysicalDesignConstraints）check是确保芯片物理实现符合设计约束的关键验证步骤，主要针对布局布线后的物理设计规则和约束一致性进行检查。以下是其核心要点：1.PDCcheck的定义与目的作用：验证物理设计（如布局、时钟树、布线）是否满足用户定义的约束文件（如SDC、UPF）以及工艺厂提供的物理规则（如
25年银行行业java后端常问高频面试题小凡敲代码 java java后端 java面试 Java面试题互联网大厂 Java八股文后端开发
一、技术八股文高频题（银行侧重点）1.Java基础&并发编程HashMap在JDK1.8中的优化？ConcurrentHashMap如何保证线程安全？银行系统对线程安全要求极高，需深入理解CAS+synchronized的实现细节。synchronized和ReentrantLock的区别？银行系统更推荐哪种？银行系统倾向ReentrantLock（可中断、公平锁），需解释AQS原理。Thread
Web性能测试常用指标（转自百度AI） chenbin___ typescript html5 javascript
Web性能测试常用指标Web性能测试涉及多个维度的指标，主要分为前端页面性能指标和后端服务性能指标两大类，以下为关键指标详解：一、前端页面性能指标通过浏览器开发者工具（如ChromeDevTools）或专用工具（如Lighthouse）监测：首次内容绘制（FirstContentfulPaint,FCP）浏览器首次渲染文本/图像的时间，反映初始加载速度。目标值：≤1.8秒1最大内容绘制（Large
免费AI助手工具深度测评：Claude4本地化部署与实战应用指南 yangshuo1281 人工智能
免费AI助手工具深度测评：Claude4本地化部署与实战应用指南AI无限对话免费Rovo工具Claude4碾压cursor和augment前言在AI工具日益普及的今天，大多数高质量的AI助手都需要付费订阅或有使用限制。然而，最近发现了一款基于Claude4的免费AI助手工具，仅69MB大小却功能强大，支持本地文件的增删改查操作。本文将通过实际测试，详细分析这款工具的功能特性、使用方法以及在实际开发
风车OVF 1.2：AI开发环境完全指南 - 打造Linux下的Augment与Cursor一站式解决方案 yangshuo1281 augment cursor linux 人工智能 linux 运维
风车OVF1.2：AI开发环境完全指南-打造Linux下的Augment与Cursor一站式解决方案一站式AI续杯|cursor|augment|linux|OVF|虚拟机前言在AI辅助编程工具快速发展的今天，Augment和Cursor已成为开发者不可或缺的编程助手。然而，Windows环境下的限制和复杂配置往往让用户望而却步。本文将详细介绍风车OVF1.2虚拟机系统，这是一个专为AI开发优化的
苹果端Cursor免费额度与模型受限终极解决方案 yangshuo1281 mac 服务器运维
苹果端Cursor免费额度与模型受限终极解决方案作者：https://xoxome.online苹果端cursor终极免费版限制解决方案|白嫖|续杯|免费|ForMac前言在AI辅助开发领域，Cursor因其强大的AI对话与代码生成能力受到苹果用户青睐。但不少开发者在使用免费账号时，会遇到如下技术难题：免费额度用尽，无法继续体验高级模型（如cloud3.5、gemini2.5pro）新账号/新环境
mac安装linux时触控板不能用,苹果笔记本安装Win10触摸板右键无法使用的处理方法... 旁间拓式
一位用户反馈自己在苹果笔记本MacBookair上安装了Windows10系统，可是后面发现触摸板右键根本无法使用，这是怎么回事呢？其实，这个是和苹果笔记本安装win7时的设置一样的，我们需要在BootCamp中进行设置。接下来，就随小编一起看看具体方法吧！方法如下：1、首先你确定已经安装过BootCamp,如果没有去苹果官方下载相应版本BootCamp下载(注意按机型下载)。如果已经安装过，那么
python里面的全局变量和局部变量的区别（很好的一篇文章，找不到出处，原作者看到请联系，我会署上名字） scuter_yu 全局变量与局部变量的区别 python
python中，对于变量作用域的规定有些不一样。在诸如C/C++、java等编程语言中，默认在函数的内部是可以直接访问在函数外定义的全局变量的，但是这一点在python中就会有问题，下面是一个例子。[plain]viewplaincopy在CODE上查看代码片派生到我的代码片test.py:#!/usr/bin/pythonCOUNT=1deffunc():COUNT=COUNT+1func()P
解决Ubuntu18.04触摸板右键不能用的问题 AmelieXiao ubuntu
参考：https://blog.csdn.net/qq_45807032/article/details/112795223Ubuntu18.04中关于触摸板的操作是和mac中的一样的，即双指单击为右键操作。而并不是机器失灵的缘故。触摸板模式共有4种，分别为’default’、‘none’、‘areas’、‘fingers’。可用如下方式查看：gsettingsrangeorg.gnome.des
Augment-VIP项目在MacOS系统上的兼容性问题分析与解决方案余俏荟Janet
Augment-VIP项目在MacOS系统上的兼容性问题分析与解决方案augment-vipRemoveaugmentcodefreetrialaccountlimit.SupportsallOSesandallIDEs(IntelliJ,VSCode,allJetbrainsIDEs,allVSCodeforkslikeCursor,etc!)项目地址:https://gitcode.com/g
访问http请求， webservice接口报错证书问题 chang3247 http java ssl
javax.net.ssl.SSLHandshakeException:sun.security.validator.ValidatorException:PKIXpathbuildingfailed:sun.security.provider.certpath.SunCertPathBuilderException:unabletofindvalidcertificationpathtorequ
大模型及agent开发5 OpenAI Assistant API 进阶应用
核心功能：外部工具的应用和流式功能工具：1.内置热门工具。由OpenAI团队实现，通过接口的方式直接提供给用户，方便快速集成。2.构建自定义外部函数流程和开发接口，允许用户通过函数调用扩展自身工具的功能。一.AssistantAPI的FileSearch功能：文件搜索通过来自其模型之外的知识来增强助手，例如专有产品信息或用户提供的文档。也就是RAGRAG流程为：索引（Indexing）索引过程是离
页面弹窗≠有效漏洞：揭秘 XSS 中的沙箱与子域名隔离 vortex5 web安全 xss 安全前端
前言跨站脚本攻击（Cross-SiteScripting，简称XSS）是一种常见的安全漏洞，攻击者通过将恶意脚本注入到看似安全可靠的网站中，影响其他用户的正常使用。假设你使用了一个简单的XSS有效载荷，比如alert(1)，它会在执行时弹出一个窗口。虽然这个弹窗能直观地告诉你代码被触发，但它无法准确揭示一个关键信息：有效载荷究竟是在哪里执行的？相比之下，使用alert(document.domai
Linux基础命令集合牛岚风 linux 运维服务器
目录文件目录相关命令lscdcpfindmkdirmvrmtouchfiletreechattrlsattrmd5sum查看文件以及内容处理相关命令vimcatmore和headtailcutsortuniqwcgreptr文件压缩以及解压缩相关命令tarunzipgzipzip软件包管理相关命令rpmyumapt-get信息显示相关命令unamehostnameuptimestatdudftop
基于OpenCv的运动物体检测算法 Liu_LongPo 计算机视觉 OpenCv 运动物体检测
基于一个实现的基于OpenCv的运动物体检测算法，可以用于检测行人或者其他运动物体。#include#include#include#includeintmain(intargc,char**argv){//声明IplImage指针IplImage*pFrame=NULL;IplImage*pFrImg=NULL;IplImage*pBkImg=NULL;CvMat*pFrameMat=NULL;
AI离全社会普及，只差一个计算中心？ a13163944010 人工智能
过去十年，人工智能（AI）大爆炸，并第一次走进普通人的生活。但蓬勃发展的AI却碰到一个空前棘手的问题：自2012年以来，AI算力需求6年增长30万倍，远超摩尔定律！人类现有的基础设施，已跟不上AI算力需求的增长。未来，该怎么办？【1】一百多年前，人类也曾面临同样的难题。1866年，德国西门子发明自激发电机，开启了人类的电力时代。此后十几年，虽然很多企业纷纷采用电能这种新的动力，但一台电机只能供应一
首次使用“非英伟达”芯片！OpenAI租用谷歌TPU，降低推理计算成本加百力科技知识财经研究人工智能 chatgpt
OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。英伟达的芯片主导地位正被侵蚀，OpenAI租用谷歌TPU，为首次大规模使用“非英伟达”芯片。周六，据媒体报道，作为全球最大的人工智能芯片客户之一，OpenAI近期开始租用谷歌的TPU芯片为ChatGPT等产品
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep