老胖闲聊

Python Transformers库【NLP处理库】全面讲解

以下是一份关于 transformers 库的全面讲解，包含基础知识、高级用法、案例代码及学习路径。内容经过组织，适合不同阶段的学习者。

一、基础知识

1. Transformers 库简介

作用：提供预训练模型（如 BERT、GPT、RoBERTa）和工具，用于 NLP 任务（文本分类、翻译、生成等）。
核心组件：
- Tokenizer：文本分词与编码
- Model：神经网络模型架构
- Pipeline：快速推理的封装接口

2. 安装与环境配置

pip install transformers torch datasets

3. 快速上手示例

from transformers import pipeline

# 使用情感分析流水线
classifier = pipeline("sentiment-analysis")
result = classifier("I love programming with Transformers!")
print(result)  # [{'label': 'POSITIVE', 'score': 0.9998}]

二、核心模块详解

1. Tokenizer（分词器）

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

text = "Hello, world!"
encoded = tokenizer(text, 
                    padding=True, 
                    truncation=True, 
                    return_tensors="pt")  # 返回PyTorch张量

print(encoded)
# {'input_ids': tensor([[101, 7592, 1010, 2088, 999, 102]]), 
#  'attention_mask': tensor([[1, 1, 1, 1, 1, 1]])}

2. Model（模型加载）

from transformers import AutoModel

model = AutoModel.from_pretrained("bert-base-uncased")
outputs = model(**encoded)  # 前向传播
last_hidden_states = outputs.last_hidden_state

三、高级用法

1. 自定义模型训练（PyTorch示例）

from transformers import BertForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset

# 加载数据集
dataset = load_dataset("imdb")
tokenized_datasets = dataset.map(
    lambda x: tokenizer(x["text"], padding=True, truncation=True),
    batched=True
)

# 定义模型
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

# 训练参数配置
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    evaluation_strategy="epoch"
)

# 训练器配置
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"]
)

# 开始训练
trainer.train()

2. 模型保存与加载

model.save_pretrained("./my_model")
tokenizer.save_pretrained("./my_model")

# 加载自定义模型
new_model = AutoModel.from_pretrained("./my_model")

四、深入进阶

1. 注意力机制可视化

from transformers import BertModel, BertTokenizer
import torch

model = BertModel.from_pretrained("bert-base-uncased", output_attentions=True)
inputs = tokenizer("The cat sat on the mat", return_tensors="pt")
outputs = model(**inputs)

# 提取第0层的注意力权重
attention = outputs.attentions[0][0]
print(attention.shape)  # [num_heads, seq_len, seq_len]

2. 混合精度训练

from transformers import TrainingArguments

training_args = TrainingArguments(
    fp16=True,  # 启用混合精度
    ...
)

五、完整案例：命名实体识别（NER）

from transformers import pipeline

# 加载NER流水线
ner_pipeline = pipeline("ner", model="dslim/bert-base-NER")

text = "Apple was founded by Steve Jobs in Cupertino."
results = ner_pipeline(text)

# 结果可视化
for entity in results:
    print(f"{entity['word']} -> {entity['entity']} (confidence: {entity['score']:.2f})")

六、学习路径建议

入门阶段：
- 官方文档：huggingface.co/docs/transformers
- 学习 pipeline 和基础模型使用
中级阶段：
- 掌握自定义训练流程
- 理解模型架构（Transformer、BERT原理）
高级阶段：
- 模型蒸馏与量化
- 自定义模型架构开发
- 大模型微调技巧

七、资源推荐

必读论文：
- 《Attention Is All You Need》（Transformer 原始论文）
- 《BERT: Pre-training of Deep Bidirectional Transformers》
实践项目：
- 文本摘要生成
- 多语言翻译系统
- 对话机器人开发
社区资源：
- Hugging Face Model Hub
- Kaggle NLP 竞赛案例

八、高级训练技巧

1. 学习率调度与梯度裁剪

在训练过程中动态调整学习率，防止梯度爆炸：

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    learning_rate=2e-5,
    weight_decay=0.01,
    warmup_steps=500,          # 学习率预热步数
    gradient_accumulation_steps=2,  # 梯度累积（节省显存）
    gradient_clipping=1.0,     # 梯度裁剪阈值
    ...
)

2. 自定义损失函数（PyTorch示例）

import torch
from transformers import BertForSequenceClassification

class CustomModel(BertForSequenceClassification):
    def __init__(self, config):
        super().__init__(config)
    
    def forward(self, input_ids, attention_mask, labels=None):
        outputs = super().forward(input_ids, attention_mask)
        logits = outputs.logits
        
        if labels is not None:
            loss_fct = torch.nn.CrossEntropyLoss(weight=torch.tensor([1.0, 2.0]))  # 类别权重
            loss = loss_fct(logits.view(-1, 2), labels.view(-1))
            return {"loss": loss, "logits": logits}
        return outputs

九、复杂任务实战

1. 文本生成（GPT-2示例）

from transformers import GPT2LMHeadModel, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")

prompt = "In a world where AI dominates,"
input_ids = tokenizer.encode(prompt, return_tensors="pt")

# 生成文本（配置生成参数）
output = model.generate(
    input_ids, 
    max_length=100, 
    temperature=0.7,        # 控制随机性（低值更确定）
    top_k=50,               # 限制候选词数量
    num_return_sequences=3  # 生成3个不同结果
)

for seq in output:
    print(tokenizer.decode(seq, skip_special_tokens=True))

2. 问答系统（BERT-based）

from transformers import pipeline

qa_pipeline = pipeline("question-answering", model="deepset/roberta-base-squad2")

context = """
Hugging Face is a company based in New York City. 
Its Transformers library is widely used in NLP.
"""
question = "Where is Hugging Face located?"

result = qa_pipeline(question=question, context=context)
print(f"Answer: {result['answer']} (score: {result['score']:.2f})")
# Answer: New York City (score: 0.92)

十、模型优化与部署

1. 模型量化（减小推理延迟）

from transformers import BertModel, AutoTokenizer
import torch

model = BertModel.from_pretrained("bert-base-uncased")
quantized_model = torch.quantization.quantize_dynamic(
    model, 
    {torch.nn.Linear},   # 量化所有线性层
    dtype=torch.qint8
)

# 量化后推理速度提升2-4倍，模型体积减少约75%

2. ONNX 格式导出（生产部署）

from transformers import BertTokenizer, BertForSequenceClassification
from torch.onnx import export

model = BertForSequenceClassification.from_pretrained("bert-base-uncased")
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 示例输入
dummy_input = tokenizer("This is a test", return_tensors="pt")

# 导出为ONNX
export(
    model,
    (dummy_input["input_ids"], dummy_input["attention_mask"]),
    "model.onnx",
    opset_version=13,
    input_names=["input_ids", "attention_mask"],
    output_names=["logits"],
    dynamic_axes={"input_ids": {0: "batch"}, "attention_mask": {0: "batch"}}
)

十一、调试与性能分析

1. 检查显存占用

import torch

# 在训练循环中插入显存监控
print(f"Allocated: {torch.cuda.memory_allocated() / 1e9:.2f} GB")
print(f"Cached: {torch.cuda.memory_reserved() / 1e9:.2f} GB")

2. 使用 PyTorch Profiler

from torch.profiler import profile, record_function, ProfilerActivity

with profile(activities=[ProfilerActivity.CUDA], record_shapes=True) as prof:
    outputs = model(**inputs)

print(prof.key_averages().table(sort_by="cuda_time_total", row_limit=10))

十二、多语言与跨模态

1. 多语言翻译（mBART）

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

# 中文转英文
tokenizer.src_lang = "zh_CN"
text = "欢迎使用Transformers库"
encoded = tokenizer(text, return_tensors="pt")
generated_tokens = model.generate(**encoded, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"])
print(tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))
# ['Welcome to the Transformers library']

2. 图文多模态（CLIP）

from PIL import Image
from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

image = Image.open("cat.jpg")
text = ["a photo of a cat", "a photo of a dog"]

inputs = processor(text=text, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)

# 计算图文相似度
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)  # 概率分布

十三、学习路径补充

1. 深入理解 Transformer 架构

实现一个简化版 Transformer：

import torch.nn as nn

class TransformerBlock(nn.Module):
    def __init__(self, d_model=512, nhead=8):
        super().__init__()
        self.attention = nn.MultiheadAttention(d_model, nhead)
        self.linear = nn.Linear(d_model, d_model)
        self.norm = nn.LayerNorm(d_model)
    
    def forward(self, x):
        attn_output, _ = self.attention(x, x, x)
        x = x + attn_output
        x = self.norm(x)
        x = x + self.linear(x)
        return x

2. 参与开源项目

贡献 Hugging Face 代码库
复现最新论文模型（如 LLaMA、BLOOM）

十四、常见问题解答

1. OOM（显存不足）错误处理

解决方案：
- 减小 batch_size
- 启用梯度累积 (gradient_accumulation_steps)
- 使用混合精度 (fp16=True)
- 清理缓存：torch.cuda.empty_cache()

2. 中文分词特殊处理

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
# 手动添加特殊词汇
tokenizer.add_tokens(["【特殊词】"])

# 调整模型嵌入层
model.resize_token_embeddings(len(tokenizer))

以下继续扩展关于 transformers 库的深度应用内容，涵盖更多实际场景、前沿技术及工业级实践方案。

十五、前沿技术实践

1. 大语言模型（LLM）微调（以 LLaMA 为例）

from transformers import LlamaForCausalLM, LlamaTokenizer, TrainingArguments

# 加载模型和分词器（需申请权限）
model = LlamaForCausalLM.from_pretrained("decapoda-research/llama-7b-hf")
tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")

# 低秩适配（LoRA）微调
from peft import get_peft_model, LoraConfig

lora_config = LoraConfig(
    r=8,  # 低秩维度
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],  # 仅微调部分模块
    lora_dropout=0.05,
    bias="none"
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()  # 显示可训练参数占比（通常 <1%）

# 继续配置训练参数...

2. 强化学习与人类反馈（RLHF）

# 使用 TRL 库进行 RLHF 训练
from trl import PPOTrainer, AutoModelForCausalLMWithValueHead

model = AutoModelForCausalLMWithValueHead.from_pretrained("gpt2")
ppo_trainer = PPOTrainer(
    model=model,
    config=training_args,
    dataset=dataset,
    tokenizer=tokenizer
)

# 定义奖励模型
for epoch in range(3):
    for batch in ppo_trainer.dataloader:
        # 生成响应
        response_tensors = model.generate(batch["input_ids"])
        
        # 计算奖励（需自定义奖励函数）
        rewards = calculate_rewards(response_tensors, batch)
        
        # PPO 优化步骤
        ppo_trainer.step(
            response_tensors,
            rewards,
            batch["attention_mask"]
        )

十六、工业级应用方案

1. 分布式训练（多GPU/TPU）

from transformers import TrainingArguments

# 配置分布式训练
training_args = TrainingArguments(
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,
    fp16=True,
    tpu_num_cores=8,  # 使用TPU时指定核心数
    dataloader_num_workers=4,
    deepspeed="./configs/deepspeed_config.json"  # 使用DeepSpeed优化
)

# DeepSpeed 配置文件示例（ds_config.json）：
{
  "fp16": {
    "enabled": true
  },
  "optimizer": {
    "type": "AdamW",
    "params": {
      "lr": 3e-5
    }
  },
  "zero_optimization": {
    "stage": 3  # 启用ZeRO-3优化
  }
}

2. 流式推理服务（FastAPI + Transformers）

from fastapi import FastAPI
from pydantic import BaseModel
from transformers import pipeline

app = FastAPI()
generator = pipeline("text-generation", model="gpt2")

class Request(BaseModel):
    text: str
    max_length: int = 100

@app.post("/generate")
async def generate_text(request: Request):
    result = generator(request.text, max_length=request.max_length)
    return {"generated_text": result[0]["generated_text"]}

# 启动服务：uvicorn main:app --port 8000

十七、特殊场景处理

1. 长文本处理（滑动窗口）

from transformers import AutoTokenizer, AutoModelForQuestionAnswering

tokenizer = AutoTokenizer.from_pretrained("bert-large-uncased-whole-word-masking-finetuned-squad")
model = AutoModelForQuestionAnswering.from_pretrained("bert-large-uncased-whole-word-masking-finetuned-squad")

def process_long_text(context, question, max_length=384, stride=128):
    # 分块处理长文本
    inputs = tokenizer(
        question,
        context,
        max_length=max_length,
        truncation="only_second",
        stride=stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True
    )
    
    # 对各块推理并合并结果
    best_score = 0
    best_answer = ""
    for i in range(len(inputs["input_ids"])):
        outputs = model(**{k: torch.tensor([v[i]]) for k, v in inputs.items()})
        answer_start = torch.argmax(outputs.start_logits)
        answer_end = torch.argmax(outputs.end_logits) + 1
        score = (outputs.start_logits[answer_start] + outputs.end_logits[answer_end-1]).item()
        
        if score > best_score:
            best_score = score
            best_answer = tokenizer.decode(inputs["input_ids"][i][answer_start:answer_end])
    
    return best_answer

2. 低资源语言处理

# 使用 XLM-RoBERTa 进行跨语言迁移
from transformers import XLMRobertaTokenizer, XLMRobertaForSequenceClassification

tokenizer = XLMRobertaTokenizer.from_pretrained("xlm-roberta-base")
model = XLMRobertaForSequenceClassification.from_pretrained("xlm-roberta-base")

# 通过少量样本微调（代码与BERT训练类似）

十八、模型解释性

1. 特征重要性分析（使用 Captum）

from captum.attr import LayerIntegratedGradients
from transformers import BertForSequenceClassification

model = BertForSequenceClassification.from_pretrained("bert-base-uncased")

def forward_func(input_ids, attention_mask):
    return model(input_ids, attention_mask).logits

lig = LayerIntegratedGradients(forward_func, model.bert.embeddings)

# 计算输入词重要性
attributions, delta = lig.attribute(
    inputs=input_ids,
    baselines=tokenizer.pad_token_id * torch.ones_like(input_ids),
    additional_forward_args=attention_mask,
    return_convergence_delta=True
)

# 可视化结果
import matplotlib.pyplot as plt
plt.bar(range(len(attributions[0])), attributions[0].detach().numpy())
plt.xticks(ticks=range(len(tokens)), labels=tokens, rotation=90)
plt.show()

十九、生态系统整合

1. 与 spaCy 集成

import spacy
from spacy_transformers import TransformersLanguage, TransformersWordPiecer

# 创建spacy管道
nlp = TransformersLanguage(trf_name="bert-base-uncased")

# 自定义组件
@spacy.registry.architectures("CustomClassifier.v1")
def create_classifier(transformer, tok2vec, n_classes):
    return TransformersTextCategorizer(transformer, tok2vec, n_classes)

# 在spacy中直接使用Transformer模型
doc = nlp("This is a text to analyze.")
print(doc._.trf_last_hidden_state.shape)  # [seq_len, hidden_dim]

2. 使用 Gradio 快速构建演示界面

import gradio as gr
from transformers import pipeline

ner_pipeline = pipeline("ner")

def extract_entities(text):
    results = ner_pipeline(text)
    return {"text": text, "entities": [
        {"entity": res["entity"], "start": res["start"], "end": res["end"]}
        for res in results
    ]}

gr.Interface(
    fn=extract_entities,
    inputs=gr.Textbox(lines=5),
    outputs=gr.HighlightedText()
).launch()

二十、持续学习建议

跟踪最新进展：
- 关注 Hugging Face 博客和论文（如 T5、BLOOM、Stable Diffusion）
- 参与社区活动（Hugging Face 的 Discord 和论坛）
实战项目进阶：
- 构建端到端 NLP 系统（数据清洗 → 模型训练 → 部署监控）
- 参加 Kaggle 比赛（如 CommonLit Readability Prize）
系统优化方向：
- 模型量化与剪枝
- 服务端优化（TensorRT 加速、模型并行）
- 边缘设备部署（ONNX Runtime、Core ML）

以下继续扩展关于 transformers 库的终极实践指南，涵盖生产级优化、前沿模型架构、领域专用方案及伦理考量。

二十一、生产级模型优化

1. 模型剪枝与知识蒸馏

# 使用 nn_pruning 进行结构化剪枝
from transformers import BertForSequenceClassification
from nn_pruning import ModelPruning

model = BertForSequenceClassification.from_pretrained("bert-base-uncased")
pruner = ModelPruning(
    model,
    target_sparsity=0.5,  # 剪枝50%的注意力头
    pattern="block_sparse"  # 结构化剪枝模式
)

# 执行剪枝并微调
pruned_model = pruner.prune()
pruned_model.save_pretrained("./pruned_bert")

# 知识蒸馏（教师→学生模型）
from transformers import DistilBertForSequenceClassification, DistilBertTokenizer

teacher = BertForSequenceClassification.from_pretrained("bert-base-uncased")
student = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased")

# 使用蒸馏训练器
from transformers import DistillationTrainingArguments, DistillationTrainer

training_args = DistillationTrainingArguments(
    output_dir="./distilled",
    temperature=2.0,  # 软化概率分布
    alpha_ce=0.5,     # 交叉熵损失权重
    alpha_mse=0.5     # 隐藏层MSE损失权重
)

trainer = DistillationTrainer(
    teacher=teacher,
    student=student,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    tokenizer=tokenizer
)
trainer.train()

2. TensorRT 加速推理

# 转换模型为TensorRT引擎
trtexec --onnx=model.onnx --saveEngine=model.trt --fp16

# Python 调用TensorRT引擎
import tensorrt as trt
import pycuda.driver as cuda

runtime = trt.Runtime(trt.Logger(trt.Logger.WARNING))
with open("model.trt", "rb") as f:
    engine = runtime.deserialize_cuda_engine(f.read())

context = engine.create_execution_context()
# 绑定输入输出缓冲区进行推理

二十二、领域专用模型

1. 生物医学NLP（BioBERT）

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("dmis-lab/biobert-v1.1")
model = AutoModelForTokenClassification.from_pretrained("dmis-lab/biobert-v1.1")

text = "The patient exhibited EGFR mutations and responded to osimertinib."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs).logits

# 提取基因实体
predictions = torch.argmax(outputs, dim=2)
print([tokenizer.decode([token]) for token in inputs.input_ids[0]])
print(predictions.tolist())  # BIO标注结果

2. 法律文书解析（Legal-BERT）

# 合同条款分类
from transformers import BertTokenizer, BertForSequenceClassification

tokenizer = BertTokenizer.from_pretrained("nlpaueb/legal-bert-base-uncased")
model = BertForSequenceClassification.from_pretrained("nlpaueb/legal-bert-base-uncased")

clause = "The Parties hereby agree to arbitrate all disputes in accordance with ICC rules."
inputs = tokenizer(clause, return_tensors="pt", truncation=True, padding=True)
outputs = model(**inputs)
predicted_class = torch.argmax(outputs.logits).item()  # 0: 仲裁条款, 1: 保密条款等

二十三、边缘设备部署

1. Core ML 转换（iOS部署）

from transformers import BertForSequenceClassification
import coremltools as ct

model = BertForSequenceClassification.from_pretrained("bert-base-uncased")
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 转换模型
traced_model = torch.jit.trace(model, (input_ids, attention_mask))
mlmodel = ct.convert(
    traced_model,
    inputs=[
        ct.TensorType(name="input_ids", shape=input_ids.shape),
        ct.TensorType(name="attention_mask", shape=attention_mask.shape)
    ]
)
mlmodel.save("BertSenti.mlmodel")

2. TensorFlow Lite 量化（Android部署）

from transformers import TFBertForSequenceClassification
import tensorflow as tf

model = TFBertForSequenceClassification.from_pretrained("bert-base-uncased")

# 转换为TFLite
converter = tf.lite.TFLiteConverter.from_keras_model(model)
converter.optimizations = [tf.lite.Optimize.DEFAULT]  # 动态范围量化
tflite_model = converter.convert()

with open("model_quant.tflite", "wb") as f:
    f.write(tflite_model)

二十四、伦理与安全

1. 偏见检测与缓解

from transformers import pipeline
from fairness_metrics import demographic_parity

# 检测模型偏见
classifier = pipeline("text-classification", model="bert-base-uncased")

protected_groups = {
    "gender": ["she", "he"],
    "race": ["African", "European"]
}

bias_scores = {}
for category, terms in protected_groups.items():
    texts = [f"{term} is qualified for this position" for term in terms]
    results = classifier(texts)
    bias_scores[category] = demographic_parity(results)

2. 对抗样本防御

from textattack import AttackRecipe
from textattack.models.wrappers import HuggingFaceModelWrapper

model_wrapper = HuggingFaceModelWrapper(model, tokenizer)
attack = AttackRecipe.build("bae")  # BAE攻击方法

# 生成对抗样本
attack_args = textattack.AttackArgs(num_examples=5)
attacker = textattack.Attacker(attack, model_wrapper, attack_args)
attack_results = attacker.attack_dataset(dataset)

二十五、前沿架构探索

1. Sparse Transformer（处理超长序列）

from transformers import LongformerModel

model = LongformerModel.from_pretrained("allenai/longformer-base-4096")
inputs = tokenizer("This is a very long document..."*1000, return_tensors="pt")
outputs = model(**inputs)  # 支持最长4096 tokens

2. 混合专家模型（MoE）

# 使用Switch Transformers
from transformers import SwitchTransformersForConditionalGeneration

model = SwitchTransformersForConditionalGeneration.from_pretrained("google/switch-base-8")
outputs = model.generate(
    input_ids,
    expert_choice_mask=True,  # 追踪专家路由
)
print(outputs.expert_choices)  # 显示每个token使用的专家

二十六、全链路项目模板

"""
端到端文本分类系统架构：
1. 数据采集 → 2. 清洗 → 3. 标注 → 4. 模型训练 → 5. 评估 → 6. 部署 → 7. 监控
"""

# 步骤4的增强训练流程
from transformers import TrainerCallback

class CustomCallback(TrainerCallback):
    def on_log(self, args, state, control, logs=None, **kwargs):
        # 实时记录指标到Prometheus
        prometheus_logger.log_metrics(logs)

# 步骤7的漂移检测
from alibi_detect.cd import MMDDrift

detector = MMDDrift(
    X_train, 
    backend="tensorflow", 
    p_val=0.05
)
drift_preds = detector.predict(X_prod)

二十七、终身学习建议

技术跟踪：
- 订阅 arXiv 的 cs.CL 分类
- 参与 Hugging Face 社区周会
技能扩展：
- 学习模型量化理论（《Efficient Machine Learning》）
- 掌握 CUDA 编程基础
跨界融合：
- 探索 LLM 与知识图谱结合
- 研究多模态大模型（如 Flamingo、DALL·E 3）
伦理实践：
- 定期进行模型公平性审计
- 参与 AI for Social Good 项目

你可能感兴趣的:(Python库大全,python,自然语言处理,开发语言)

Python网安-zip文件暴力破解（仅供学习） Whoisshutiao python网安 python 开发语言网络安全
目录源码在这里需要的模块准备一个密码本和需要破解的ZIP文件一行一行地从密码文件中读取每个密码。核心部分注意，需要修改上段代码注释里的这段具有编码问题的代码：源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要的模块fromtqdmimporttqdmimportzipfileimportpyzipper准备一个密码本和需要破解的ZIP文
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
python 爬虫 selenium作用_详解python爬虫利器Selenium使用方法 weixin_39585974 python 爬虫 selenium作用
简介：用pyhon爬取动态页面时普通的urllib2无法实现，例如下面的京东首页，随着滚动条的下拉会加载新的内容，而urllib2就无法抓取这些内容，此时就需要今天的主角selenium。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、MozillaSuite等。使用它爬取页面
矩阵（二维数组）局部极大/小值-python实现银河系渐入佳境编程指南算法 python 算法矩阵
题目来源：某为面试/算法第四版：Algs4-1.4.19矩阵的局部最小元素参考思路：传送CODE：importnumpyasnp'''deffindMin():arr=np.random.rand(10,10)index_arr=np.zeros((10,10))foriinrange(arr.shape[0]):forjinrange(arr.shape[1]):ifi>0andi0andj
Python网安-ftp服务暴力破解（仅供学习） Whoisshutiao python 网络安全开发语言
目录源码在这里需要导入的模块连接ftp，并设置密码本和线程核心代码设置线程源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要导入的模块importftplibfromthreadingimportThreadimportqueue连接ftp，并设置密码本和线程host="192.168.6.6"user="student"port=21
Python爬虫网安-request+示例 Whoisshutiao python爬虫网安 python 爬虫开发语言网络安全
目录get&post自定义请求头文件上传添加cookie获取网页使用cookiejarsessionssl证书校验超时身份认证（httpbasicAuth）代理配置get&post#！/usr/bin/envpythonimportrequests#get#r=requests.get('http://httpbin.org/get')#print(r.text)#添加参数的get请求data={
多个 Job 并发运行时共享配置文件导致上下文污染，固化 Jenkins Job 上下文要站在顶端 Jenkins jenkins servlet 运维
基于context.py固化JenkinsJob上下文的完整方案，适用于你当前的工作流（Python+JenkinsPipeline），解决：多个Job并发运行时共享配置文件导致上下文污染；读取环境变量或JSON文件时被其他Job修改的问题；后续阶段（如发送通知）读取错误上下文的问题；✅目标在每个JenkinsJob开始时，将关键变量一次性固化到内存中，并在整个Job生命周期内始终使用这些值。整体
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
Ubuntu基础（上传文件和部署Python） aaiier ubuntu linux 运维
首先打开[email protected]然后写yes，在输入密码然后就是输入ls/查看根目录ls/结果是ubuntu@x0-x-xx-xx:~$ls/binbootdevhomelib.usr-is-mergedlost+foundmntprocrunsbin.usr-is-mergedsrvtmpvarbin.usr-is-mergeddataetclibli
print(str(3+5))的结果是什么？为什么？ Lauren_Lu python
✅语句：print(str(3+5))✅执行顺序与含义：括号优先：先计算3+5+是加法运算符3+5是一个表达式，结果为整数8使用str()函数将结果转换为字符串str(8)返回字符串'8'使用print()打印这个字符串print('8')的输出就是：8✅为什么要运算？因为：Python遇到表达式3+5时，必须先计算出结果；str()需要一个值作为参数，而不是一个没计算的表达式；这是Python表
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
Flutter开发环境配置指南 harmonyos
环境相关问题flutter开发环境配置参考建议使用的开发工具版本flutter3.22.0-ohos版本python3.8-python3.11java17node18ohpm1.6+HamonyOSSDKapi11Xcode14.3断网环境flutterpubget执行失败解决方案：加上--offline参数，完整命令flutterpubget--offline。mac环境release版本的应
python编译Edge-tts： Edge tts Player 浩读语音朗读 edge-tts python 自然语言处理 edge 前端
Edge-TTS是Python库，通过微软AzureCognitiveServices转化文本为自然语音，Edge-TTS支持40多种语言和300种声音，提供优质的语音输出，这给学习外语的学生和老师很大的福利。下面，尝试着用python来编写一个简单的TTS转MP3。EdgeTTSfromtkinterimport*fromtkinterimportttkfromtkinter.filedialo
【Python】PyRoboPath：Python机器人路径规划的终极指南宅男很神经 python 开发语言
PyRoboPath：Python机器人路径规划的终极指南第1部分：PyRoboPath与路径规划基础第1章：PyRoboPath概览与核心理念1.1什么是PyRoboPath？PyRoboPath是一个先进的、开源的Python库，致力于为学术研究人员、行业工程师以及机器人爱好者提供一套完整、高效、易用且可扩展的机器人路径规划解决方案。它不仅仅是一个算法的集合，更是一个集成了机器人建模、环境表示
Edge-TTS的使用
Edge-TTS的使用Edge-TTS是一个的文本转语音（TTS）Python库。它利用了微软AzureCognitiveServices的强大功能，能够将文本信息转换成流畅自然的语音输出。这个库特别适合需要在应用程序中加入语音功能的开发者使用。edge-tts在github上已开源，有3的kstar！替代国内收费的TTS服务完全没问题。它支持40多种语言，300多种声音，效果很不错~github
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
如何修改Python安装路径壹只小小码农 python 学习开发语言
在安装软件时，很多人都会发现默认的安装路径不是他们想要的，于是就想要修改安装路径。那么如何修改安装路径呢？本文将从多个角度为大家进行分析。一、在安装向导中更改一般情况下，我们在安装软件时会看到安装向导，其中会有一个“安装路径”选项，我们可以在这里手动更改安装路径。不同软件的安装向导可能略有不同，但是一般都会有这个选项。二、使用修改器有些软件虽然没有提供修改安装路径的选项，但是我们可以使用一些修改器
Python中类基础知识详解和应用点云SLAM Python python 开发语言深度学习人工智能计算机视觉 python中的类学习
Python类知识详解类的定义语法class类名:#类体（属性、方法）示例：classPerson:pass创建类的实例（对象）p=Person()#创建一个类的对象（实例）类的构造方法（__init__）__init__是类的构造函数，在实例化对象时自动调用，用于初始化属性。classPerson:def__init__(self,name,age):self.name=nameself.age
python+requests+excel 接口测试鱼鱼说测试 postman python 开发语言
1、EXCEL文件接口保存方式，如图。2、然后就是读取EXCEL文件中的数据方法，如下：1importxlrd234classreadExcel(object):5def__init__(self,path):6self.path=path78@property9defgetSheet(self):10#获取索引11xl=xlrd.open_workbook(self.path)12sheet=x
Flask(二) 路由routes @昵称不存在 Flask flask
文章目录基本路由定义路由参数路由规则设置请求方法（GET/POST）路由函数返回静态文件和模板Blueprint（模块化路由）显示当前所有路由Flask路由是Web应用程序中将URL映射到Python函数的机制。定义路由：使用@app.route(‘/path’)装饰器定义URL和视图函数的映射。路由参数：通过动态部分在URL中传递参数。路由规则：使用类型转换器指定URL参数的类型。请求方法：指定
python中random中uniform怎么用_Python中的random.uniform()函数教程与实例解析 weixin_39763640
random.uniform()函数教程与实例解析1.uniform()函数说明random.uniform(x,y)方法将随机生成一个实数，它在[x,y]范围内。2.uniform()的语法与参数2.1语法#_*_coding:utf-8_*_importrandomrandom.uniform(x,y)或#_*_coding:utf-8_*_fromrandomimportuniformuni
Python实例题：基于 KNN 算法的手写数字识别
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于KNN算法的手写数字识别要求：实现一个基于K-NearestNeighbors(KNN)算法的手写数字识别系统。支持以下功能：使用MNIST数据集训练和测试模型实现KNN分类算法可视化手写数字样本评估模型性能（准确率、混淆矩阵等）添加用户交互界面，允许用户绘制数字并进行识别。解题思路：使用sklearn加载MNIST数据
Python实例题：基于遗传算法的旅行商问题求解狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于遗传算法的旅行商问题求解要求：使用遗传算法解决旅行商问题（TSP）。支持以下功能：随机生成城市坐标或导入预定义城市实现遗传算法的基本操作（选择、交叉、变异）可视化进化过程和最终路径统计进化过程中的适应度变化允许用户调整遗传算法参数（种群大小、迭代次数、交叉率、变异率等）。解题思路：用列表表示城市访问顺序作为染色体。使用欧
Python Flask Web教程004：Flask 变量规则若北辰 flask python 前端
FlaskWeb教程004：Flask变量规则1.Flask变量规则2.实例3.转换器构建规则4.规范的URL5.路由尾部有无斜杠的区别路由尾部斜杠的影响推荐使用带尾斜杠的路由结论1.Flask变量规则通过向规则参数添加变量部分，可以动态构建URL。此变量部分标记为。它作为关键字参数传递给与规则相关联的函数。2.实例在以下示例中，route()装饰器的规则参数包含附加到URL'/hello’的。因
Club_IntelliMatch_Development_Guide Joseit python python pygame django flask
ClubIntelliMatch系统-全栈开发流程文档概述ClubIntelliMatch系统是一个现代化的社团活动智能匹配平台，采用前后端分离架构。系统基于PythonFlask构建RESTfulAPI后端，Vue.js3+Vite构建现代化前端，MySQL作为持久化数据存储。本文档深入分析了整个开发流程的技术架构、设计原则和实现细节。系统架构流程图后端API架构前端组件架构app.pyFlas
Python实例题：基于 Flask 的博客系统狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：1.base.html2.index.html3.post.html4.create_post.html5.login.html6.register.htmlPython实例题题目基于Flask的博客系统要求：使用Flask框架构建一个简单的博客系统。实现用户认证（注册、登录、注销）。支持博客文章的创建、编辑、删除和查看。使用SQLite数据库存
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源