绿豆棉花糖

Pytorch T5模型对数据集进行文本摘要生成

首先加载数据集

因为用到了Pytorch Lightning，所以不仅要调用Pytorch类型的数据集，也要调用Pytorch Lightning

PyTorch Lightning是一个轻量级的PyTorch扩展和生产级训练框架，旨在简化和标准化深度学习模型的训练过程。并且提供了许多实用工具，如日志记录、模型检查点等，以便于实现更高效、可靠的深度学习训练。主要特点包括：

1. 模块化设计：PyTorch Lightning将训练过程划分为多个阶段（如训练、验证、测试），每个阶段都有相应的函数（如`training_step`、`validation_step`）来定义相关逻辑。这种模块化的设计使得代码更易于维护和扩展。

2. 自动化：PyTorch Lightning自动处理了训练过程中的许多繁琐任务，如设备管理、优化器设置、学习率调度器等。这样，用户只需关注模型本身的逻辑。

3. 分布式训练支持：PyTorch Lightning提供了内置的分布式训练功能，可以在多个GPU或多台机器上进行分布式训练，无需额外编写复杂的代码。

4. 加速器支持：PyTorch Lightning对混合精度训练（Mixed Precision Training）和自动选择最佳设备（CPU、GPU）进行了优化，以提高训练速度。

5. 可扩展性：PyTorch Lightning支持模型的可扩展性，可以轻松地进行模型的切换、替换和封装。

#-*- coding:utf-8 -*-
from abc import ABC
import pandas as pd
from sklearn.model_selection import train_test_split
from torch.utils.data import Dataset, DataLoader
import pytorch_lightning as pl
from torch.optim import AdamW
import numpy as np
import torch
from pytorch_lightning.callbacks.progress import TQDMProgressBar
from pytorch_lightning.callbacks.early_stopping import EarlyStopping
from rouge import Rouge
from transformers import (
    T5ForConditionalGeneration,
    PreTrainedTokenizer,
    T5TokenizerFast as T5Tokenizer,
)
import argparse #解析命令行参数

def load_data(path):
    data = pd.read_csv(path, encoding='utf-8',sep='|')
    #data = data.content
    data = pd.DataFrame(data)
    return data


class myDataModule(Dataset):
    """ Pytorch 类型的数据集类 """
    def __init__(
            self,
            data: pd.DataFrame,
            tokenizer: PreTrainedTokenizer,
            source_max_token_len: int = 512,
            target_max_token_len: int = 512,
    ):
        """
        为输入数据初始化 PyTorch 数据集模块
        参数:
            data (pd.DataFrame): 输入为 pandas dataframe 形式. Dataframe 必须有 2 列 --> "source_text" 和 "target_text"
            tokenizer (PreTrainedTokenizer): 一个预训练好的分词器
            source_max_token_len (int, optional): 源文本的最大 token 长度. 默认值为 512.
            target_max_token_len (int, optional): 目标文本的最大 token 长度. 默认值为 512.
        """
        self.tokenizer = tokenizer
        self.data = data
        self.source_max_token_len = source_max_token_len
        self.target_max_token_len = target_max_token_len

    def __len__(self):
        """ 返回数据的长度 """
        return len(self.data)

    def __getitem__(self, index: int):
        """ 返回一个 batch_size 的 input, 以便之后输入模型 """
        # 1. 获取数据集中第 index 批次的数据
        data_row = self.data.iloc[index]
        # 2. 获取源文档
        # source_text = data_row[sentences]
        source_text = data_row["source_text"]
        # 3. 对源文档进行分词编码
        source_text_encoding = self.tokenizer(
            source_text,
            max_length=self.source_max_token_len,
            padding="max_length",  # 文档的长度未达source_max_token_len, 用填充满
            truncation=True,  # 文档的长度超过source_max_token_len, 则截断后面的
            return_attention_mask=True,  # 要求返回 attention 的掩码张亮
            add_special_tokens=True,  # 要求增加特殊的 token, 比如加入  位
            return_tensors="pt",  # 以 pytorch 的 tensor 类型返回
        )
        # 4. 对目标文档(即摘要)进行分词编码
        target_text_encoding = self.tokenizer(
            data_row["target_text"],
            max_length=self.target_max_token_len,
            padding="max_length",
            truncation=True,
            return_attention_mask=True,
            add_special_tokens=True,
            return_tensors="pt",
        )
        # 5. 获取目标文本(即摘要)的 token ids
        labels = target_text_encoding["input_ids"]
        # 6. 将摘要中 token id 为 0(即位) 的转为 -100, 便于后期 "省略" 掉
        labels[labels == 0] = -100
        # 7. 以字典(dict)的形式返回这一批次的数据
        return dict(
            source_text_input_ids=source_text_encoding["input_ids"].flatten(),  # .flatten() 是为了
            source_text_attention_mask=source_text_encoding["attention_mask"].flatten(),
            labels=labels.flatten(),
            labels_attention_mask=target_text_encoding["attention_mask"].flatten(),
        )


class myLightningDataModule(pl.LightningDataModule, ABC):
    """ PyTorch Lightning 类型的数据集类, 它继承了 "PyTorch 类型的数据集类" 的所有东西, 并附加了其他功能 """

    def __init__(
            self,
            train_df: pd.DataFrame,
            test_df: pd.DataFrame,
            tokenizer: PreTrainedTokenizer,
            batch_size: int = 4,
            source_max_token_len: int = 512,
            target_max_token_len: int = 512,
            num_workers: int = 4,  # 要为数据使用多少子进程装载。'0'表示将在主进程中加载数据(默认值:'0')
    ):
        """
        初始化 PyTorch Lightning 类型的数据模块
        参数:
            train_df (pd.DataFrame)必须有 2 列 --> "source_text" 和 "target_text"
            test_df (pd.DataFrame)必须有 2 列 --> "source_text" 和 "target_text"
            tokenizer (PreTrainedTokenizer): 一个预训练好的分词器
            batch_size (int, optional): batch size. 默认为 4.
            source_max_token_len (int, optional): 源文本的最大 token 长度. 默认值为 512.
            target_max_token_len (int, optional): 目标文本的最大 token 长度. 默认值为 512.
        """
        super().__init__()
        self.train_df = train_df
        self.test_df = test_df
        self.batch_size = batch_size
        self.tokenizer = tokenizer
        self.source_max_token_len = source_max_token_len
        self.target_max_token_len = target_max_token_len
        self.num_workers = num_workers
        self.train_dataset = None
        self.test_dataset = None

    def setup(self, stage=None):
        self.train_dataset = myDataModule(
            self.train_df,
            self.tokenizer,
            self.source_max_token_len,
            self.target_max_token_len,
        )
        self.test_dataset = myDataModule(
            self.test_df,
            self.tokenizer,
            self.source_max_token_len,
            self.target_max_token_len,
        )

    def train_dataloader(self):
        """ 训练集 dataloader """
        return DataLoader(
            self.train_dataset,
            batch_size=self.batch_size,
            shuffle=True,  # 随机打乱训练集
            num_workers=self.num_workers,
        )

    def val_dataloader(self):
        """ 验证集 dataloader """
        return DataLoader(
            self.test_dataset,
            batch_size=self.batch_size,
            shuffle=False,
            num_workers=self.num_workers,
        )

    def test_dataloader(self):
        """ 测试集 dataloader """
        return DataLoader(
            self.test_dataset,
            batch_size=self.batch_size,
            shuffle=False,
            num_workers=self.num_workers,
        )


class myLightningModel(pl.LightningModule, ABC):
    """ PyTorch Lightning 模型类 """

    def __init__(
            self,
            tokenizer,
            model,
            output_dir: str = "outputs",
            save_only_last_epoch: bool = False,
    ):
        """
        初始化一个 PyTorch Lightning 模型
        Args:
            tokenizer分词器
            pretrained_model预训练模型
            output_dir (str, optional): 保存模型检查点的输出目录, 默认为 "outputs"
            save_only_last_epoch (bool, optional): 如果为 True, 则只保存最后一个 epoch, 否则将为每个 epoch 保存模型
        """
        super().__init__()
        self.model = model
        self.tokenizer = tokenizer
        self.output_dir = output_dir
        self.average_training_loss = None  # 训练时的平均 loss
        self.average_validation_loss = None  # 验证时的平均 loss
        self.save_only_last_epoch = save_only_last_epoch
        self.training_step_outputs = []

    def forward(self, input_ids, attention_mask, decoder_attention_mask, labels=None):
        """ forward step """
        output = self.model(
            input_ids,
            attention_mask=attention_mask,
            labels=labels,
            decoder_attention_mask=decoder_attention_mask,
        )
        return output.loss, output.logits  # loss 的计算为 = CrossEntropyLoss(ignore_index=-100)

    def training_step(self, batch, batch_size):  # 自动打开模型的 train() 模型
        """ 当用训练集训练模型时, 执行该代码 """
        input_ids = batch["source_text_input_ids"]
        attention_mask = batch["source_text_attention_mask"]
        labels = batch["labels"]
        labels_attention_mask = batch["labels_attention_mask"]

        loss, outputs = self(  # 直接调用 forward()  源代码只有 self
            input_ids=input_ids,
            attention_mask=attention_mask,
            decoder_attention_mask=labels_attention_mask,
            labels=labels,
        )

        self.log(  # 写入日志
            "train_loss", loss, prog_bar=True, logger=True, on_epoch=True, on_step=True
        )
        output = {"loss":loss}
        self.training_step_outputs.append(output)
        return loss

    def validation_step(self, batch, batch_size):  # 自动打开模型的 eval() 模型
        """ 当用验证集测试模型时, 执行该代码 """
        input_ids = batch["source_text_input_ids"]
        attention_mask = batch["source_text_attention_mask"]
        labels = batch["labels"]
        labels_attention_mask = batch["labels_attention_mask"]

        loss, outputs = self(
            input_ids=input_ids,
            attention_mask=attention_mask,
            decoder_attention_mask=labels_attention_mask,
            labels=labels,
        )

        self.log(
            "val_loss", loss, prog_bar=True, logger=True, on_epoch=True, on_step=True
        )
        # return {'loss': loss, 'input_ids': input_ids, 'labels': labels}  # 因为在验证集测试结束时什么都不做, 故不返回东西

    def test_step(self, batch, batch_size):  # 自动打开模型的 eval() 模型. 没有测试集所以不会执行该段代码
        """ 当用测试集测试模型时, 执行该代码 """
        input_ids = batch["source_text_input_ids"]
        attention_mask = batch["source_text_attention_mask"]
        labels = batch["labels"]
        labels_attention_mask = batch["labels_attention_mask"]

        loss, outputs = self(
            input_ids=input_ids,
            attention_mask=attention_mask,
            decoder_attention_mask=labels_attention_mask,
            labels=labels,
        )

        self.log("test_loss", loss, prog_bar=True, logger=True)
        return loss

    def configure_optimizers(self):  # 在该类初始化时即被调用
        """ 配置优化器(optimizers) """
        return AdamW(self.parameters(), lr=0.0001)

    def on_train_epoch_end(self):
        """ 在每一轮训练结束时保存训练了的分词器和模型 """
        self.average_training_loss = np.round(
            torch.mean(torch.stack([x["loss"] for x in self.training_step_outputs])).item(),
            4,  # 小数位数后保留 4 位
        )
        path = f"{self.output_dir}/simple_T5"
        if self.save_only_last_epoch:
            if self.current_epoch == self.trainer.max_epochs - 1:
                self.tokenizer.save_pretrained(path)  # 保存分词器到路径 path 底下
                self.model.save_pretrained(path)  # 保存模型到路径 path 底下
        else:
            self.tokenizer.save_pretrained(path)
            self.model.save_pretrained(path)

    def on_validation_epoch_end(self):
        """ 在每一轮验证集测试结束时做的内容 """
        pass


class myModel_for_Train:
    """ 自定义的 T5 模型类 """

    def __init__(self) -> None:
        """ 初始化自定义的模型类 """
        self.model = None
        self.T5_Model = None
        self.tokenizer = None
        self.device = None
        self.data_module = None

    def from_pretrained(self, model_name="t5-base") -> None:
        """ 加载预训练 T5 模型进行训练/微调 """
        self.tokenizer = T5Tokenizer.from_pretrained(f"{model_name}")
        self.model = T5ForConditionalGeneration.from_pretrained(
            f"{model_name}", return_dict=True  # 是否返回一个 ~utils.ModelOutput类 而不是普通的元组
        )

    def train(
            self,
            train_df: pd.DataFrame,
            eval_df: pd.DataFrame,
            source_max_token_len: int = 512,
            target_max_token_len: int = 512,
            batch_size: int = 8,
            max_epochs: int = 5,
            use_gpu: bool = True,
            output_dir: str = "outputs", #保存模型 checkpoints 的输出目录. 默认为 "outputs"
            early_stopping_patience_epochs: int = 2,  # 0 表示禁用提前停止功能
            precision=32,
            logger="default",
            dataloader_num_workers: int = 2,
            save_only_last_epoch: bool = False,  # 不设置只保留最后一轮, 而是保留在验证集上效果最好的一轮
    ):
        """
        在自定义数据集上训练 T5 模型
        参数:
            early_stopping_patience_epochs (int, optional): 在 epoch 结束时监视 val_loss, 如果 val_loss 在指定的 epoch 数之后没有改善(即下降),
            则停止训练. 若设置 0 表示禁用提前停止. 默认为 0(禁用)
            precision (int, optional): 设置精度训练-双精度(64), 全精度(32)或半精度(16). 默认值为 32.
            logger (pytorch_lightning.loggers) : PyTorch Lightning支持的任何记录器. 默认为 "default". 如果为 "default",
            则使用 pytorch lightning default logger, 用于记录训练过程.
            dataloader_num_workers (int, optional): 设置加载 train/test/val dataloader 的进程数量
            save_only_last_epoch (bool, optional): 如果为 True, 则仅保存最后一个 epoch, 否则将保存每个 epoch 的分词器和模型
        """
        self.data_module = myLightningDataModule(
            train_df=train_df,
            test_df=eval_df,
            tokenizer=self.tokenizer,
            batch_size=batch_size,
            source_max_token_len=source_max_token_len,
            target_max_token_len=target_max_token_len,
            num_workers=dataloader_num_workers,
        )

        self.T5_Model = myLightningModel(
            tokenizer=self.tokenizer,
            model=self.model,
            output_dir=output_dir,  # 保存 tokenizer 和 model 的路径
            #save_only_last_epoch=save_only_last_epoch,  # 只保存最后一轮的 checkpoint
        )

        # 添加回调方法, 用于显示模型训练的进度, 更新频率为 5
        callbacks = [TQDMProgressBar(refresh_rate=5)]

        if early_stopping_patience_epochs > 0:
            early_stop_callback = EarlyStopping(
                monitor="val_loss",
                min_delta=0.00,
                patience=early_stopping_patience_epochs,
                verbose=True,
                mode="min",
            )
            callbacks.append(early_stop_callback)

        # 如果有 gpu, 则添加
        gpus = 1 if use_gpu else 0

        # 添加 logger(日志器)
        loggers = True if logger == "default" else logger

        # prepare trainer(训练器)
        trainer = pl.Trainer(
            default_root_dir='./',  # 日志 和 checkpoint 的路径
            logger=loggers,
            enable_checkpointing=True,  # 不保存 checkpoint
            callbacks=callbacks,
            max_epochs=max_epochs,
            # gpus=gpus,
            precision=precision,
            log_every_n_steps=1,  # 每训练 1 步(step)就记录一下日志.
        )

        # fit trainer(训练器)
        trainer.fit(self.T5_Model, self.data_module)

    def load_model(
            self,
            model_dir: str = "outputs",
            use_gpu: bool = False
    ):
        """
        加载某一个 checkpoint, 即加载模型
        参数:
            model_type (str, optional): "t5" 或 "mt5". 默认为 "t5".
            model_dir (str, optional): 模型目录的路径. 默认为 "outputs".
            use_gpu (bool, optional): 如果为 True, 模型使用 gpu 进行推理/预测. 默认为 True.
        """

        self.model = T5ForConditionalGeneration.from_pretrained(f"{model_dir}")
        self.tokenizer = T5Tokenizer.from_pretrained(f"{model_dir}")


        if use_gpu:
           if torch.cuda.is_available():
               self.device = torch.device("cuda")
           else:
               raise "exception ---> no gpu found. set use_gpu=False, to use CPU"
        else:
            self.device = torch.device("cpu")

    def predict(
            self,
            source_text: str,
            max_length: int = 512,
            num_return_sequences: int = 1,
            num_beams: int = 4,  # 按照 t5 论文里写的来
            top_k: int = 50,
            top_p: float = 0.95,
            # do_sample: bool = True,
            repetition_penalty: float = 2.5,
            length_penalty: float = 0.6,  # 按照 t5 论文里写的来
            early_stopping: bool = True,
            skip_special_tokens: bool = True,
            clean_up_tokenization_spaces: bool = True,
    ):
        """
        生成 T5 模型的预测(文本)
        参数:
            num_return_sequences (int, optional): 要返回的预测数. 默认值为 1.
            num_beams (int, optional): beams 搜索的数量. 默认值为 2.
            top_k (int, optional): 用于 top-k 筛选的最高概率词汇表 tokens 的数量. 默认值为 50.
            top_p (float, optional): 如果设置为 float < 1, 那只有概率加起来等于 top_p 或更高的最可能 token 的最小集被保留用于生成. 默认值为 0.95.
            do_sample (bool, optional): 是否使用抽样; 否则使用贪婪解码.默认值为 True.
            repetition_penalty (float, optional): 重复惩罚的参数. 1.0 意味着没有惩罚. 更多细节请参见[本文]
            (https://arxiv.org/pdf/1909.05858.pdf)。默认值为 2.5.
            length_penalty (float, optional): 基于 beam 生成所使用的长度的指数惩罚. length_penalty > 0.0 表示促进更长的序列,
            而 length_penalty < 0.0 表示鼓励较短的序列. 默认值为 1.0.
            early_stopping (bool, optional): 是否在每批至少有 num_beams 条语句完成时停止 beam search. 默认值为 True.
            skip_special_tokens (bool, optional): 是否跳过特殊的 token, 例如 , 默认值为 True.
            clean_up_tokenization_spaces (bool, optional): 是否清理 tokens 的空间. 默认值为 True.
        返回:
            list[str]: 返回预测的文本, 即摘要
        """
        input_ids = self.tokenizer.encode(
            source_text,
            return_tensors="pt",
            add_special_tokens=True
        )
        if torch.cuda.is_available():
            self.device = torch.device("cuda")
            self.model = self.model.to(self.device)
            input_ids = input_ids.to(self.device)  # 放入 gpu
        generated_ids = self.model.generate(
            input_ids=input_ids,
            num_beams=num_beams,
            max_length=max_length,
            repetition_penalty=repetition_penalty,
            length_penalty=length_penalty,
            early_stopping=early_stopping,
            top_k=top_k,
            top_p=top_p,
            num_return_sequences=num_return_sequences,
        )

        predictions_text = [
            self.tokenizer.decode(
                every_ids,
                skip_special_tokens=skip_special_tokens,
                clean_up_tokenization_spaces=clean_up_tokenization_spaces,
            )
            for every_ids in generated_ids
        ]
        return predictions_text


if __name__ == '__main__':
    # 解析参数
    parser = argparse.ArgumentParser(description='train mnist')
    parser.add_argument('--data_url', type=str, default="train_dataset.csv", help='path where the dataset is saved')
    parser.add_argument('--train_url', type=str, default="./Model", help='path where the model is saved')
    args = parser.parse_args()
    torch.cuda.empty_cache()
    pl.seed_everything(42)  # 设置随机种子,确保实验的可重复性
    t5_train_df = pd.read_csv(args.data_url, encoding='utf-8', sep='|')
    
    # T5 模型要求数据帧(dataframe)有2列: "source_text" 和 "target_text"
    t5_train_df = t5_train_df.rename(columns={"content": "source_text", "abstract": "target_text"})

    # T5 模型需要一个与任务相关的前缀(prefix): 因为它是一个摘要任务, 因此需添加一个前缀 "summary:"
    t5_train_df['source_text'] = "summarize: " + t5_train_df['source_text']
    # print('显示新改造的所有(内容和摘要对)样例:\n', t5_train_df)

    t5_train_df, t5_valid_df = train_test_split(t5_train_df, test_size=0.1)
    print(t5_train_df.shape, t5_valid_df.shape)

    # ****************  训练 ****************
    t5_model = myModel_for_Train()
    t5_model.from_pretrained(model_name="t5-base")
    t5_model.train(
        train_df=t5_train_df,
        eval_df=t5_valid_df,
        source_max_token_len=1024,
        target_max_token_len=256,
        batch_size=4,
        max_epochs=10,
        use_gpu=True,
        dataloader_num_workers=128,
        output_dir=args.train_url
    )
    print('训练完成')

    # **************** 验证集的Rouge评测和生成测试  ****************
    test_t5_model = myModel_for_Train()
    test_t5_model.load_model(args.train_url+"/simple_T5", use_gpu=True)
    # 对验证集进行 ROUGE 分数计算
    my_rouge = Rouge()
    rouge_1, rouge_2, rouge_l_f1, rouge_l_p, rouge_l_r = 0, 0, 0, 0, 0
    for ind in range(len(t5_valid_df)):
        input_text = t5_valid_df.iloc[ind]['source_text']
        output_text = test_t5_model.predict(input_text)
        label_text = t5_valid_df.iloc[ind]['target_text']
        result = my_rouge.get_scores(output_text, [label_text], avg=True)  # 取一个 batch 的平均
        rouge_1 += result['rouge-1']['f']
        rouge_2 += result['rouge-2']['f']
        rouge_l_f1 += result['rouge-l']['f']
        rouge_l_p += result['rouge-l']['p']
        rouge_l_r += result['rouge-l']['r']
        # print(ind, rouge_1 / (ind + 1), rouge_2 / (ind + 1), rouge_l_f1 / (ind + 1), rouge_l_p / (ind + 1),
        #       rouge_l_r / (ind + 1))
    print('验证集平均的 Rouge_1: {}, Rouge_2: {}, Rouge_l_f1: {}, Rouge_l_p: {}, Rouge_l_r: {}'.format(
        rouge_1 / len(t5_valid_df), rouge_2 / len(t5_valid_df), rouge_l_f1 / len(t5_valid_df),
        rouge_l_p / len(t5_valid_df), rouge_l_r / len(t5_valid_df)))

    text_to_summarize = """【坐席】您好，实习话务员为您，
    【客户】服务，喂，你好，是这样的，我那个我的电话因为上次突然把给我停机了，我不知道啥意思，然后我就好长时间没有使用，我这次拿着10，怎么我欠费160多了？噢，我想问一下，我这机器现在是在停机状态吧，
    【坐席】嗯，对是的？【客户】对停机状态，你们怎么还收我费用啊，【坐席】嗯，您稍等这边看的话，先生，咱们这12月份的话是没有收您的费用的，这边是这个产生的费用是您11月份的女士先生，【客户】那我11月份我现在-160，那我想问一下，那我这个怎么能-160？我始终没超一个星期，他就你们就给我停机了，因为那我忙着在外地出差，我就没有，我就没有那个办这个找你们，
    【坐席】嗯，先生这边看的话，先生，您是一个就是11月份的话，有一个是，嗯，基本套餐费是88块钱，还有您上个月未结清的话费是76块钱，【客户】但是我刚才你们给我反馈那个是我欠160多，【坐席】嗯，对是的先生，就是您这160多，嗯，160多是产生的，是11月份的结转11月份的，总消费是88，还有您10月还有一个是10月份未结清的话，是76块钱？
    【客户】我没有结清的，我就想问你，你帮我查一下，我打几天电话，我哪来的那个？还有那么多没结清呢，我就不明白，我一个包月电话我都没有打出去多少电话，我这流我这是4000分钟，是两三千分钟啊，那那么多话费我根本都没有打几个，他怎么就我又欠那么多钱呢
    【坐席】嗯，先生，您这个是阿里大包，嗯，就是三角大大宝卡吗？先生每个月基本月租费是88块钱的，里面是给您包含500分钟通话工作，工作员是二百两千五百分钟，相当于3000分钟吗？先生，还有两个G的流量，
    【客户】对呀，【坐席】嗯，它这个是如果您，嗯没有超出的话，每个月是收您88块钱的先生，【客户】对呀，那我也没有超出啊，你怎么还有我查，我这还欠那么多费呢【坐席】这嗯，就每个月正常扣您的套餐费用，先生88块钱套餐费用，先生这个是，
    【客户】对，但是我这个你看一下，你看看你从我开始，我注册这号到停机，您看看我使这几天你你对你们，你查一下看我使了几天，我怎么的就是有这个还有欠费呢，我这还没，我还说实在我找你们，我这使那几天，我那88块钱你们都给我退我，
    【坐席】嗯这边看的话是在9月份给您给您停的机先生，【客户】对啊，9月份我是9月几号开通的这个卡呀【坐席】嗯，您这是9月1号给您开通的卡先生，
    【客户】对9月份9月1号开通卡，应该没超过，9月10号，你就把我这个停了应该，【坐席】嗯是的先生，【客户】对呀，那你说那那您您觉得我这个怎么弄，你，你说我该怎么弄？您觉得你们问问你们公司领导，我这个怎么能查算合理呀
    【坐席】嗯，您看这样好吧先生，就是您这个问题的话，咱们这边给您记录反馈一下，稍后有咱们的专员给您回电，然后到底是这个问题如何给您解决？您看这样吧，先生【客户】行你，【坐席】就联系，嗯好联系电话联系您，哪个手机号码呢先生，【客户】你就联系这个就行，【坐席】嗯，这边的话不是已经是给您暂停服务了，先生这边就怕咱们联系您的话，也是无法无法接听电话的，先生无法打通的，
    【客户】他给我打那个185，185，1951【坐席】********，嗯，就联系您这个号码了，先生，【客户】4089对
    【坐席】嗯，您看还有什么问题可以帮您的吗？先生，【客户】没有了，你再给我把这给我解决一下吧，好吧，【坐席】嗯，好，嗯，好的先生，
    【客户】嗯【坐席】感谢您的来电，请您稍后对服务评价中帮我按个十分满意，谢谢 """
    print('生成的摘要为:', test_t5_model.predict(text_to_summarize, max_length=1024))


model = myLightningModel(*args, **kwargs)
model.load_state_dict(torch.load(file_path))
#model.to(device)

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)度量分数是用于比较自动生成的文本摘要或机器翻译结果与参考摘要之间的相似性的一种常用指标。ROUGE指标包括ROUGE-N，ROUGE-L和ROUGE-S。

ROUGE-N：衡量生成摘要中N-gram在参考摘要中的匹配程度。N可以是1、2或其他大小的N-gram。
ROUGE-L：衡量最长公共子序列（LCS）的长度与参考摘要长度的比值。
ROUGE-S：衡量生成摘要与参考摘要之间共享连续词序列的长度。

这些指标都采用了召回率（recall）作为度量方式，即生成的摘要能够正确覆盖参考摘要中的内容。一般来说，ROUGE分数越高，生成的摘要越接近参考摘要。

参考文章：如何用pytorch做文本摘要生成任务(加载数据集、T5 模型参数、微调、保存和测试模型，以及ROUGE分数计算)_pytorch文本生成_一支王同学的博客-CSDN博客

Ubuntu20.04安装并配置Pycharm2020.2.5 搬砖的打工人!!! ubuntu pycharm python
一.下载pycharm社区版1.下载地址：PyCharm:thePythonIDEfordatascienceandwebdevelopmentThePythonIDEfordatascienceandwebdevelopmentwithintelligentcodecompletion,on-the-flyerrorchecking,quick-fixes,andmuchmore.https:/
使用python中you-get库实现下载网抑云瞎老弟 python python 音视频爬虫
WYY音乐下载前言代码实现使用说明前言前几天，我做了b站视频的下载，有好兄弟表示，只下载视频，不能够让人满足，我还希望能够下载网易云的音乐。上一次在我发布的b站视频下载中，使用了you-get库作为下载方式，但是实际上，这个库也可以下载网易云音乐，因此，我们只需要参考我们上次的b站视频下载，简单的进行一下修改，就可以完成音乐的下载了。为了能够更加方便的批量下载音乐，这里采用了“按艺术家“的下载方式
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
使用vscode远程连接linux运行项目报错解决方案大数据lsy 笔记 vscode linux python
报错：subprocess.CalledProcessError:Command'['/xxx/anaconda3/envs/graphinvent/bin/python','./graphinvent/main.py','--job-dir','/xxx/GraphINVENT/output_gdb13_1K/example/job_0/']'returnednon-zeroexitstatus
代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
使用提示词进行信息抽取的实用方法 scaFHIO windows python
在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。这种方法依赖于创建良好的提示词，并将LLM的输出解析为所需的Python对象。技术背景介绍大规模语言模型可以根据提示词生成特定格式的文本。例如，我们可以要求模型以JSON格式输出所需的信息。在信息抽取的场景中，设计良好的提示词
深入解析Python测试框架pytest 一休哥助手 python python pytest 开发语言
目录引言pytest简介安装与配置安装pytest配置pytest基础用法编写测试用例运行测试用例测试结果报告
怎么进入python 的venv文件夹_python虚拟环境模块venv使用及示例 weixin_39796140 怎么进入python 的venv文件夹
相信只要学习python的同学对于虚拟环境这个概念肯定不会太陌生，虚拟环境指的是一个个单独隔离的python开发环境。各个虚拟环境之间互不干扰，都有自己独立的开发包。就像是在电脑上装了很多个虚拟机，每个虚拟机里面你随便折腾，不会影响到物理机，也不会影响到其他虚拟机。既然这么有用，那么Python里面用来创建虚拟环境的模块virtualenv是怎么使用的呢？我们一起来看一下。virtualenv基本
python的离线安装包下载 Lake说科技 python 服务器 linux 开发语言运维
Python,安装相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python的离线安装包下载一、流程：步骤说明1确定需要下载的Python安装包版本2下载对应版本的离线安装包3将下载好的安装包传输至目标机器4在目标机器上进行安装二、具体步骤及代码：步骤1
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
python3+ffmpeg下载B站视频，附代码才华横溢吴道简爬虫 python windows
最近要去外面玩，旅途漫长，于是乎，就写了个代码，从B站上下载纪录片看，代码附后，请自取，如果觉得有用，麻烦点个赞，鼓励一下。感谢~~一、下载安装ffmpegFfmpeg是一款自由软件，用于视频和音频文件的处理，在本例中，我使用它进行视频文件和音频文件的合并。合并代码写在python脚本中，你只需下载好ffmpeg即可，而且因为合并代码中使用ffmpeg的绝对路径，所以也不用设置环境配置。Ffmpe
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
PyCharm如何有效地添加源与库？程序员总部 python pycharm ide python
在使用PyCharm进行Python开发的时候，很多时候我们需要添加库或者设置源。这些操作可以帮助我们更方便地管理项目依赖，提升开发效率。接下来我会详细介绍如何在PyCharm中添加源和库，让你的开发环境更加灵活！第一步：安装PyCharm在开始之前，你得确保自己已经安装了PyCharm！如果还没有，可以前往JetBrains官网进行下载和安装。有个小贴士，最好选择社区版或者专业版，根据自己的需要
如何使用 Python 和 FFmpeg 下载 B站视频木觞清 7天熟练Python python ffmpeg 音视频
在这篇文章中，我们将讨论如何使用Python脚本结合FFmpeg下载并合并B站视频的流，生成一个完整的视频文件。具体来说，我们将通过B站的API获取视频的音频和视频流，然后使用FFmpeg下载并将它们合并成一个.mp4文件。前提条件Python：你需要安装Python，推荐使用Python3.6或更高版本。FFmpeg：确保你已经安装并配置好了FFmpeg。如果尚未安装，可以参考FFmpeg官方网
使用Python下载抖音短视频：完整教程与代码解析 cnh6070 短视频 python 音视频开发语言
抖音作为全球领先的短视频平台，拥有海量的优质内容。然而，抖音官方并未提供直接下载视频的功能，这给一些用户带来了不便。幸运的是，通过Python编程，我们可以实现抖音视频的下载。本文将详细介绍如何使用Python下载抖音短视频，并解析一个完整的代码示例。一、准备工作在开始之前，你需要确保已经安装了Python环境，并且安装了以下必要的Python库：requests：用于发送网络请求，获取网页内容或
python构造函数 yimaoyingbi python学习 python 构造函数
classEmployee:def__init__(self,name,age):self.name=nameself.__age=ageprint("您好")def__work(self):print("疫情严重，在家学习")print("年龄：{0}".format(self.__age))e=Employee("gaoqi",18)e._Employee__work()构造函数和普通函数的区
chatgpt赋能python：Python构造函数详解 www_xuhss_com ChatGpt chatgpt 计算机
Python构造函数详解在Python中，构造函数是一种特殊的函数，用于创建类的实例并初始化其属性。Python构造函数的名称为__init__，它在创建类的实例时自动调用。本篇文章将全面介绍Python构造函数的重要性及其使用方法。为什么需要构造函数？当我们创建一个类的实例时，通常需要初始化它的一些属性。如果没有构造函数，我们必须手动初始化每一个属性变量，这显然会很麻烦，并且容易出现错误。所以，
python中的构造函数 weixin_30770495 python
python中构造函数可以这样写classclassname（）：def——init——（self）：#构造函数函数体转载于:https://www.cnblogs.com/begoogatprogram/p/4649076.html
python类重载构造函数_Python：重载构造方法炒锅电解氯化钠 python类重载构造函数
对于使用过C++的人来说，构造函数与析构函数不会陌生。构造函数在对象创建时被调用，析构函数在对象被销毁时被调用。而Python中也有类似的特殊函数：__new__，__init__，__del__。其中__new__与__init__共同构成了C++中的构造函数，__del__为析构函数。__new__在对象被创建时被调用，而__init__在对象被初始化时被调用。__new__的第一个参数是对象
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
FDTD：基于Python的电磁场模拟开源库教程邱进斌Olivia
FDTD：基于Python的电磁场模拟开源库教程项目地址:https://gitcode.com/gh_mirrors/fd/fdtd项目介绍FDTD（Finite-DifferenceTime-Domain）是一个致力于电磁场仿真的开源项目，由flaport维护。此项目基于Python语言，提供了一套灵活且强大的工具集，用于解决各种电磁学问题，包括但不限于光学、射频以及微波工程中的传播、散射等问
【Python进阶】Python字典添加元素的两种方法。{附带源码+案例} 「已注销」 python 开发语言
引言在Python中，字典（Dictionary）是一种可变的容器模型，且可存储任意类型对象。字典的每个元素都是一个键值对（key-valuepair），其中键（key）必须是唯一的，而值（value）则不必。向字典中添加元素可以通过几种方式实现，但最常用的是通过直接赋值或使用update()方法。直接赋值这是向字典中添加元素最简单直接的方法。如果键已存在，则更新其对应的值；如果键不存在，则添加新
【Python配置环境变量】2024最新版Python安装教程（附带详细步骤）！！！「已注销」 python 开发语言
一、Python安装1、访问官网打开浏览器，访问Python官网。2、下载Python安装包2.1、在官网首页，找到并点击“Downloads”按钮。2.2、根据您的操作系统（Windows、macOS、Linux等）选择合适的版本。对于Windows用户，通常会看到“Windowsx86-64executableinstaller”（64位）和“Windowsx86executableinsta
python：构造函数听海边涛声 python 开发语言
Python构造函数是类中的一个实例方法，每当创建该类的新对象时，它都会被自动调用。构造函数的作用是在对象被声明时立即为实例变量赋值。Python使用一个特殊的方法__init__()来初始化对象实例变量，该方法在对象被声明时立即调用。创建构造函数__init__()方法充当构造函数。它需要一个强制性的参数，名为self，这是对对象的引用，其格式为：def__init__(self,参数,参数,.
python 读取内存_python内存读写 weixin_39981360 python 读取内存
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！也就是说，所有的解释器可以同时读写数据，在一个解释器中对数据做出的修改会自动反映到其他解释器上。虽然还需要一些额外的步骤来处理同步问题，但是有时候可以使用这种方法作为通过管道或者socket传输数据的替代方案。以上这篇python内存映射文件读写方式就是小编分享给大家的全部内容了，希望
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

Pytorch T5模型 对数据集进行文本摘要生成

你可能感兴趣的:(pytorch,人工智能,python)

Pytorch T5模型对数据集进行文本摘要生成