chnyi6_ya

笔记：BLIP源码之（1）数据集预处理【仅考虑Image-Text Retrieval on COCO】

BLIP：Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generat 论文的两个贡献如下：

从模型的角度：提出了 Encoder-Decoder (MED) 的多模态混合

An MED can operate either as a unimodal encoder, or an image-grounded text encoder, or an image-grounded text decoder.

从数据的角度：提出了 Captioning and Filtering (CapFilt)

We finetune a pre-trained MED into two modules: a captioner to produce synthetic captions given web images, and a filter to remove noisy captions from both the original web texts and the synthetic texts.

Image-Text Retrieval 任务 on COCO：

1. 先看处理训练集的类

定义了一个处理训练集的类，继承PyTorch中用于处理数据集的基类Dataset，通常情况下，自定义的Dataset类需要实现两个方法：__ len__和__ getitem__：

__ len__方法返回数据集的大小，即数据集中样本的总数
__getitem__方法用于根据给定的索引返回数据集中对应位置的样本。

class coco_karpathy_train(Dataset):
    def __init__(self, transform, image_root, ann_root, max_words=30, prompt=''):        
        '''省略部分代码'''
        
        # 给每个图像进行编号，编号方式：
        # image_id：n
        self.img_ids = {}  
        n = 0
        for ann in self.annotation:
            img_id = ann['image_id']
            if img_id not in self.img_ids.keys():
                self.img_ids[img_id] = n
                n += 1    
                
    # 之前用函数加载了annotation文件：
    # self.annotation = json.load(open(os.path.join(ann_root,filename),'r'))
    # self.annotation是一个数组，数组中的每个元素是一个dict，如：
    # [{"caption": "A woman wearing a net on her head cutting a cake. ",
    # "image": "val2014/COCO_val2014_000000522418.jpg", "image_id": "coco_522418"}, 
    def __len__(self):
        return len(self.annotation)
    
    def __getitem__(self, index):    
        ann = self.annotation[index]
        image_path = os.path.join(self.image_root,ann['image'])   
        # Image是一个Python图像处理库，常用于图像的加载、处理和保存操作。     
        image = Image.open(image_path).convert('RGB')   
        # 对图像对变换
        image = self.transform(image)
        # prompt + 对caption进行预处理后 得到新的caption
        caption = self.prompt+pre_caption(ann['caption'], self.max_words) 
		# 返回transform后的图形、处理后的caption、图像对应的编号
        return image, caption, self.img_ids[ann['image_id']]

附上pre_caption函数代码：

def pre_caption(caption,max_words=50):
	# 把这些符号：.!\"()*#:;~ 替换为空格，并且将caption全部转换为小写字母
    caption = re.sub(
        r"([.!\"()*#:;~])",       
        ' ',
        caption.lower(),
    )
    # 将连续出现两个或更多空格的地方替换为单个空格
    caption = re.sub(
        r"\s{2,}",
        ' ',
        caption,
    )
    # 去掉caption末尾的换行符
    caption = caption.rstrip('\n') 
    # 去掉caption 两边的空格
    caption = caption.strip(' ')
    #truncate caption
    caption_words = caption.split(' ')
    if len(caption_words)>max_words: # 如果超过了max_words，就只取前max_words个单词
        caption = ' '.join(caption_words[:max_words])
            
    return caption

2. 对图像进行数据增强

# 定义 normalize
# transforms.Normalize()函数接受两个参数，分别是均值（mean）和标准差（std）
# 均值（mean）和标准差（std） 这些参数是根据训练数据集的特征计算得出的。
# 分别对应三个通道（R、G、B）
normalize = transforms.Normalize((0.48145466, 0.4578275, 0.40821073), (0.26862954, 0.26130258, 0.27577711))

# 对训练集进行的transform
transform_train = transforms.Compose([     
			# 根据给定的 image_size 进行scale，以及使用BICUBIC插值方法进行图像的插值填充     
            transforms.RandomResizedCrop(config['image_size'],scale=(min_scale, 1.0),interpolation=InterpolationMode.BICUBIC),
            # 随机水平翻转
            transforms.RandomHorizontalFlip(),
            # 自定义的 RandomAugment 函数，下面会做记录
            # Identity（无操作）、AutoContrast（自动对比度调整）、Brightness（亮度调整）、
            # Sharpness（锐度调整）、Equalize（直方图均衡化）、ShearX（X轴方向的错切变换）、
            # ShearY（Y轴方向的错切变换）、TranslateX（X轴方向的平移变换）、
            # TranslateY（Y轴方向的平移变换）、Rotate（旋转变换）
            RandomAugment(2,5,isPIL=True,augs=['Identity','AutoContrast','Brightness','Sharpness','Equalize',
                                              'ShearX', 'ShearY', 'TranslateX', 'TranslateY', 'Rotate']),    
            # 将图像数据转换为PyTorch张量的格式 
            transforms.ToTensor(),
            normalize,
        ])

当使用BICUBIC插值方法进行图像插值填充时，原始图像上的像素值被用于计算新图像上每个像素的值。通过计算原始图像中像素的加权平均值，BICUBIC插值可以提供更平滑和连续的图像结果。

额外自定义了数据增强的代码：

class RandomAugment(object):
    def __init__(self, N=2, M=10, isPIL=False, augs=[]):
        self.N = N
        self.M = M
        # 是否是PIL格式的图像
        self.isPIL = isPIL
        if augs:
            self.augs = augs       
        else:
            self.augs = list(arg_dict.keys())

    def get_random_ops(self):
    	# 从augs这个数组中随机选择N个存储在 sampled_ops 列表中
        sampled_ops = np.random.choice(self.augs, self.N)
        return [(op, 0.5, self.M) for op in sampled_ops]

    def __call__(self, img):
        if self.isPIL:
        # 将PIL图像对象转换为NumPy数组形式
            img = np.array(img)            
        ops = self.get_random_ops()
        for name, prob, level in ops:
        	# 根据概率判断是否应用当前的增强操作
            if np.random.random() > prob:
                continue
            args = arg_dict[name](level)
            # 这个 *args 包括 上一行代码得到的(level, replace_value)
            img = func_dict[name](img, *args) 
        return img

__call__函数是Python中的特殊方法（special method），用于使对象可以像函数一样被调用，当调用该实例时，会自动执行__call__方法，并按照其中的逻辑进行

有很多ops操作，只选择一个记录TranslateX：

translate_const = 10
MAX_LEVEL = 10
replace_value = (128, 128, 128)

func_dict = {
   '''省略部分代码'''
      'TranslateX': translate_x_func,
   '''省略部分代码'''
}

def translate_x_func(img, offset, fill=(0, 0, 0)):
 # offset：水平平移的偏移量，表示图像将向右平移的像素数。
 # fill：边界填充的颜色，默认为(0, 0, 0)，表示黑色填充
    '''
        same output as PIL.Image.transform
    '''
    # 这个img已经是numpy数组了
    H, W = img.shape[0], img.shape[1]
    # 平移矩阵M
    M = np.float32([[1, 0, -offset], [0, 1, 0]])
    # 对输入图像进行仿射变换，将平移矩阵M应用于图像
    out = cv2.warpAffine(img, M, (W, H), borderValue=fill, flags=cv2.INTER_LINEAR).astype(np.uint8)
    return out

arg_dict = {
   '''省略部分代码'''
      'TranslateX': translate_level_to_args(
        translate_const, MAX_LEVEL, replace_value
    ),
    '''省略部分代码'''
}

def translate_level_to_args(translate_const, MAX_LEVEL, replace_value):
    def level_to_args(level): # 将level转换为一组用于平移操作的参数
    	# 将传入的level除以MAX_LEVEL，然后乘以translate_const，得到一个平移的具体数值
        level = (level / MAX_LEVEL) * float(translate_const)
        # 以50%的概率将平移的数值取反，实现随机选择正向或负向平移
        if np.random.random() > 0.5: level = -level
        return (level, replace_value)
	# 返回 level_to_args 这个函数
    return level_to_args

2. 对于验证集和测试集

val和test的annotation也是list，list中每个元素都是dict，包含两个键值，一个image，一个caption，其中caption是list，如下：

{"image": "val2014/COCO_val2014_000000184613.jpg",
  "caption": ["A child holding a flowered umbrella and petting a yak.",
         "A young man holding an umbrella next to a herd of cattle.",
         "a young boy barefoot holding an umbrella touching the horn of a cow",
         "A young boy with an umbrella who is touching the horn of a cow.",
         "A boy holding an umbrella while standing next to livestock."]}

class coco_karpathy_retrieval_eval(Dataset):
    def __init__(self, transform, image_root, ann_root, split, max_words=30):  
       '''省略部分代码'''
        self.text = []
        # 保存每一张图片的路径的list
        self.image = []
        self.txt2img = {}
        self.img2txt = {}

        txt_id = 0
        # ann就是一个dict，包含"image"和 "caption"，img_id 就是索引 index
        for img_id, ann in enumerate(self.annotation):
            self.image.append(ann['image'])
            self.img2txt[img_id] = []
            # 一个图片对应多个caption
            for i, caption in enumerate(ann['caption']):
            	# 对caption做预处理之后，把新的caption 放入text数组中
                self.text.append(pre_caption(caption,max_words))
                # txt_id是每一张图片对应的多个caption的index，这些txt_id放在一个list中：
                # {0 : [0, 1, 2,3,4]}
                self.img2txt[img_id].append(txt_id)
                # {0:0} {1:0} {2:0} {3:0} 表示txt_id到img_id的映射，
                # 多个text可以映射到同一张图片
                self.txt2img[txt_id] = img_id
                txt_id += 1
    '''__len__和  __getitem__的代码省略，和训练集的类一样'''

test和val数据集的transform相对于train的简单很多：

transform_test = transforms.Compose([
        transforms.Resize((config['image_size'],config['image_size']),interpolation=InterpolationMode.BICUBIC),
        transforms.ToTensor(),
        normalize,
        ])

调用这两个实例就能得到三个数据集：

    elif dataset=='retrieval_coco':          
        train_dataset = coco_karpathy_train(transform_train, config['image_root'], config['ann_root'])
        val_dataset = coco_karpathy_retrieval_eval(transform_test, config['image_root'], config['ann_root'], 'val') 
        test_dataset = coco_karpathy_retrieval_eval(transform_test, config['image_root'], config['ann_root'], 'test')          
        return train_dataset, val_dataset, test_dataset

以上，完成了自定义数据集，接下来则需要做数据集的loader，也就是可迭代的数据加载器

3. 数据集的loader（先不考虑分布式训练）

torch.utils.data.DataLoader是PyTorch中用于数据加载的类。它提供了一种方便的方式来迭代和批量处理数据。

DataLoader的主要作用是将自定义的数据集包装成一个可迭代的数据加载器，以便于在训练或测试过程中以批量的方式加载和处理数据。

使用DataLoader可以实现以下功能：

数据批量加载：DataLoader可以指定批量大小（batch size），在每次迭代中返回一个批量大小的数据。
数据并行加载：DataLoader可以使用多个线程并行加载数据，提高数据加载的效率。
数据随机打乱：DataLoader可以对数据进行随机打乱，增加训练的随机性，避免模型对数据的顺序产生依赖。
数据预处理和转换：DataLoader可以通过transform参数传入的数据转换函数对数据进行预处理和转换。
数据加载器迭代：通过迭代DataLoader对象，可以逐批地获取数据，方便模型进行训练或测试。

使用DataLoader需要指定以下参数：

dataset：要加载的数据集，通常是自定义的Dataset对象。
batch_size：每个批次的样本数量。
shuffle：是否在每个时期（epoch）重新打乱数据。
num_workers：用于数据加载的线程数。
collate_fn：用于批量处理样本的函数。

除了上述的参数，还有：

pin_memory：通常情况下，在使用GPU进行训练时，如果主机内存足够，建议将pin_memory设置为True，以提高数据加载到GPU的速度。但如果遇到内存不足的情况，可以将pin_memory设置为False，以节省内存资源。
sampler：用于指定数据加载的顺序和采样方式。sampler参数可以接受以下几种类型的取值：
（1）SequentialSampler：顺序采样器，按照数据集的顺序依次采样数据，不进行随机打乱。
（2）RandomSampler：随机采样器，在每个时期（epoch）中随机打乱数据，并按照打乱后的顺序进行采样。
（3）SubsetRandomSampler：子集随机采样器，从给定的索引列表中随机采样数据，适用于对数据集的子集进行采样。
（4）WeightedRandomSampler：加权随机采样器，根据给定的样本权重进行采样，用于处理类别不平衡的数据集。
（5）自定义采样器：用户可以自定义采样器类，继承自Sampler，实现自己的数据采样逻辑。
drop_last：如果数据集的样本数量无法被批次大小整除，并且drop_last参数设置为True，则最后一个不完整的批次将被丢弃。这通常在训练过程中用于确保每个批次的大小保持一致，以提高训练的效率。

ps：本论文采用的是Pytorch提供的DistributedSampler作为分布式训练的采样器，而如果不是分布式训练，则把sampler设置成了None

    if args.distributed:
        num_tasks = utils.get_world_size()
        global_rank = utils.get_rank()            
        samplers = create_sampler([train_dataset], [True], num_tasks, global_rank) + [None, None]
    else:
        samplers = [None, None, None]

调用create_loader函数：

train_loader, val_loader, test_loader = 
create_loader([train_dataset, val_dataset, test_dataset],samplers,
               batch_size=[config['batch_size_train']]+[config['batch_size_test']]*2,
               # 工作线程数的列表
               num_workers=[4,4,4],
               is_trains=[True, False, False], 
               #数据集的collate函数列表，用于对每个批次的样本进行处理和组合。如果不需要特定的处理逻辑，可以设置为None
               collate_fns=[None,None,None])

create_loader函数：

def create_loader(datasets, samplers, batch_size, num_workers, is_trains, collate_fns):

	'''也许是我看的代码比较少的原因，看到这样做loader真的感觉很高效，代码简洁、清晰、好看，
	使用zip就可以依次把三个数据集的loader做好，灵活使用if来判断，可以共用代码，并且传入的参数
	也很特别，不是单独一个，而是包含3个元素的list，这样正好对应三个数据集'''
	
    loaders = [] # 用来保存三个数据集的loader
    for dataset,sampler,bs,n_worker,is_train,collate_fn in zip(datasets,samplers,batch_size,num_workers,is_trains,collate_fns):
        if is_train:
            # 如果sampler 是 None，也就是非分布式训练，则随机打乱
            # 否在，在分布式训练下，不需随机打乱
            shuffle = (sampler is None)
            # 训练集会把 最后一个不完整的批次丢掉
            drop_last = True
        else:
            # 在val 和 test 数据集，既不随机打乱数据，也不会丢弃最后一个不完整的批次
            shuffle = False
            drop_last = False
        loader = DataLoader(
            dataset,
            batch_size=bs,
            num_workers=n_worker,
            pin_memory=True,
            sampler=sampler,
            shuffle=shuffle,
            collate_fn=collate_fn,
            drop_last=drop_last,
        )          
        # 把做好的loader加到list中    
        loaders.append(loader)
    return loaders

4. 有关分布式训练中取样器的代码

create_sampler()函数用于创建分布式训练中的采样器（sampler）：

# num_tasks：总任务数，即分布式训练中的进程数
# global_rank：当前进程的全局排名
def create_sampler(datasets, shuffles, num_tasks, global_rank):
    samplers = []
    for dataset,shuffle in zip(datasets,shuffles):
     # 遍历datasets和shuffles列表，对每个数据集创建一个分布式采样器，
     # 并将其添加到samplers列表中
        sampler = torch.utils.data.DistributedSampler(dataset, num_replicas=num_tasks, rank=global_rank, shuffle=shuffle)
        samplers.append(sampler)
    return samplers

分布式采样器使用torch.utils.data.DistributedSampler类进行创建，需要指定数据集、总任务数、当前进程的全局排名和是否进行洗牌

如果是要进行分布式训练，则需要获得总进程数以及进程排名，最后调用create_sampler函数：

    if args.distributed:
    	# 获得分布式训练环境中的总进程数
        num_tasks = utils.get_world_size()
        # 获取当前进程在分布式训练环境中的排名
        # 这样可以了解当前进程在整个分布式训练中的位置和角色，以便进行相应的操作和通信。
        global_rank = utils.get_rank()  
        # 对训练集做sampler，验证集和测试集不需要    
        samplers = create_sampler([train_dataset], [True], num_tasks, global_rank) + [None, None]

检查环境以及获得进程数：

def is_dist_avail_and_initialized():
    # 检查当前环境是否支持分布式训练
    if not dist.is_available():
        return False
    # 检查是否已经初始化了分布式训练环境
    if not dist.is_initialized():
        return False
    return True


def get_world_size():
    if not is_dist_avail_and_initialized():
        # 如果环境不支持或者未初始化，则默认进程数为1
        # 表示当前环境中只有一个进程
        return 1
    # 获取分布式训练环境中的总进程数，并返回该值
    return dist.get_world_size()

力扣练习之递增的三元子序列飘去数星星力扣练习题 leetcode 算法数据结构
题目：给你一个整数数组nums，判断这个数组中是否存在长度为3的递增子序列。如果存在这样的三元组下标(i,j,k)且满足ires(len);vectorl(len),r(len);for(inti=0;inums[j])?nums[j]:l[i];}for(intj=i+1;j=0;i--){rightMax[i]=Math.max(rightMax[i+1],nums[i]);}for(inti
力扣练习之盛最多水的容器飘去数星星力扣练习题 leetcode 算法职场和发展
这道题其实最简单的方法是用双重循环，但它有一个坏处是时间复杂度非常高，O(n²）,所以会超时，为了改良时间复杂度，所以采用了双指针的办法来进行解决题目：给定一个长度为n的整数数组height。有n条垂线，第i条线的两个端点是(i,0)和(i,height[i])。找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。用双指针的话，分别用l
Linux（2） yi个名字 linux 运维服务器
Linux权限管理1.用户类型超级用户（root）：可以做任何事情，不受限制，命令提示符为“#”。普通用户：只能做有限的事情，命令提示符为“$”。2.文件访问权限文件访问者分类：所有者（u）、所有者所在组的用户（g）、其他用户（o）。文件类型：包括普通文件（-）、目录（d）、软链接（l）、块设备文件（b）、管道文件（p）、字符设备文件（c）、套接字文件（s）。基本权限：读（r）、写（w）、执行（x
类和对象（上） yi个名字 c++开发语言
1.类的定义在C++中，类（class）是面向对象编程的基本构建块。它用于定义一种数据类型，该数据类型可以包含数据成员（属性）和成员函数（方法）。下面是一个C++类的基本定义示例：#include#includeclassPerson{public://数据成员std::stringname;intage;//默认构造函数Person():name("Unknown"),age(0){}//带参数
类和对象（中） yi个名字开发语言 c++数据结构
1.类的默认成员函数在C++中，类的默认成员函数包括以下几种：默认构造函数（DefaultConstructor）：如果类中没有定义任何构造函数，编译器会自动提供一个默认构造函数，允许对象被创建而不需要提供任何参数。如果类定义了其他构造函数，编译器不会再提供这个默认构造函数。classMyClass{public:inta;//默认构造函数会被自动生成};MyClassobj;//使用默认构造函数
el-table 表格新增一行合计是小潘啊！ javascript 前端
el-table表格下面新增一行合计计算表格的数值前言：根据产品需求要求计算出当前页面的总合计金额和点击复选框显示复选框里的计算金额。1.自己搭建的页面结构合计应付款金额{{totalComputedMoney.toFixed(2).replace(/
哈希基础例题稠密的连通图算法复习之字符串字符串算法哈希数据结构 hash
文章目录例题一：子串查找例题二：字符串的删除操作例题三：字符串合并操作的应用哈希前置知识请戳这里->哈希绪论昨天我们对哈希的基础知识有了一定的了解，并已经知道了如何求子串、拼接子串的哈希值，今天我们就这两个操作分析一些基础例题，加深理解和掌握。例题一：子串查找LOJ#103.子串查找显然这是一道kmp算法的模板题朴素的做法是枚举文本串的每一个位置作为模式串开始比较的位置。设枚举到主串的位置是iii
element--el-table添加合计后固定列x轴滚动条无法滚动问题冯浩(grow up) element element-plus vue.js 前端 javascript
效果图改变固定列滚轮高度问题解决文章解决方案使用到的参数pointer-events属性用来控制一个元素能否响应鼠标操作，常用的关键字有auto和nonepointer-events:none;让一个元素忽略鼠标操作pointer-events:auto;还原浏览器设定的默认行为代码演示添加class添加css样式:deep.tableData{//滚动条高度调整::-webkit-scrollb
初学者瞎写的一个爬虫小程序一大块腹肌呀爬虫小程序 python
学习python三个月，渐渐的的也开始了爬虫之旅，根据某本书的指导，开始想写一个通用的爬虫小程序，希望有大神能指点一下。importdatetimeimporttimefromseleniumimportwebdriverimportreclassMyCommonSpider:def__init__(self):pass使用了selenium进行模拟鼠键操作，目标是爬取51job上的职位信息def
vue2+el-table 封装表格组件,基本够用了，带自动滚动 mokn javascript vue.js 前端
标题@[TOC](vue2+el-mentUI封装的多功能表格组件，带自动滚动)欢迎使用Markdown编辑器表格组件页面//添加选择表格功能//判断是否显示单元格按钮{{scope.row[scope.column.property]}}重置{{scope.row[scope.column.property]}}exportdefault{name:"CustomTable",props:{//
LeetCode 热题 100_字符串解码（71_394_中等_C++）（栈） Dream it possible！ LeetCode 热题 100 leetcode c++算法
LeetCode热题100_字符串解码（71_394）题目描述：输入输出样例：题解：解题思路：思路一（栈）：代码实现代码实现（栈）：以思路一为例进行调试题目描述：给定一个经过编码的字符串，返回它解码后的字符串。编码规则为:k[encoded_string]，表示其中方括号内部的encoded_string正好重复k次。注意k保证为正整数。你可以认为输入字符串总是有效的；输入字符串中没有额外的空格，
Python虚拟环境 hitlic python python 开发语言
虚拟环境是Python程序设计和开发中非常有用的工具。本文介绍Python虚拟环境的概念和作用，以及常用的虚拟环境管理工具的使用方法。什么是虚拟环境Python程序具有天然的开源特性，这使得各种包之间存在着较为复杂的依赖关系。在实际的开发中，可能会存在不同的项目会依赖相同的工具包，但是需要的版本不一致的情况。例如，A项目和B项目都要使用X包，但是A依赖X（v1.0）B依赖X（v2.0）。同一个Py
python 虚拟环境介绍 The One Neo python 开发语言
一、pippip介绍很简单，但是在学习深度学习的时候，虽然用过，但也仅仅是用过，对其了解不多，更多的是下载包，相对于pip，用的更多的反而是anaconda和miniconda这两个python包管理器。pip是Python的包管理工具，主要用于安装、更新、卸载Python软件包。它是Python官方推荐的工具，能够从PythonPackageIndex(PyPI)下载并安装符合指定依赖关系的包。
6G天地一体化信息网络内生安全技术罗思付之技术屋网络通信安全及科学技术专栏安全
摘要：6G天地一体化信息网络面临因网络高度暴露、节点高速运动、计算资源受限等特点带来的安全挑战，且新架构、新应用、新技术也将引入新的安全问题，亟须提出普适性安全理论，一体化解决其功能安全及网络安全问题。为此，首先阐述网络空间内生安全主要理论基础，提出6G天地一体化信息网络内生安全架构；然后，在网络空间内生安全理论的指导下，从星载系统、6G地面移动网、星地链路探讨相关安全理论与技术构想；最后，从安全
使用 spring-ai-openai-spring-boot-starter，SpringBoot无缝整合DeepSeek API实战指南添砖java@ spring boot java spring
前言：本人为完成利用spring-ai-openai-spring-boot-starterspring整合deepseek的任务（因为还可以用本地部署的方式），在博客和AI工具中来回跳动，然而最终还是在官网找到了答案，完成过程中犯错无数，因此挥毫书就本文，希望能给大家带来帮助。一：环境准备以下是本人的环境，或许不是最优，但确保无误1.jdk版本：17（最好是17+）2.maven：3.9.93.
安装CUDA12.1和torch2.2.1下的DKG 超级无敌大好人 python
1.创建python虚拟环境setNO_PROXY=*condadeactivatecondaenvremove-nfindkgcondacreate-nfindkgpython=3.11condaactivatefindkgcondainstallpackagingsetuptoolspipuninstallnumpycondainstallnumpy=1.24.3请注意，DKG需要python
IDEA中把git commit 处于中间位置的模态框转换为侧边栏标签 htclgb 错误与解决办法 git github
因误触一设置按键把本来位置处侧边栏的GitCommit提交窗口更改为中间位置发现不对劲马上去找修改按钮无果后查阅手册发现打开Settings->VersionControl->Commit恢复正常
Python——初学者轻松搞定19个经典的程序 bug鸭陆 python 开发语言
Python的经典程序展示了Python语言基本特性和功能的简单示例,这些程序在学习和理解Python编程语言的过程中起着至关重要的作用.一些常见的经典Python程序及其在学习Python时的功能：1.Hello,World!print("Hello,World!")解释:这是Python的基本输出语句,用于打印字符串。2.计算两个数的和defadd_numbers(a,b):returna+b
2025自动化采集豆瓣选电影20年代以来的推荐数据并进行结构化分析及数据缺失值处理方案 BigWiggins python 开发语言单元测试
今天在豆瓣数据中采集20年代以来的电影时遇到了取得电影标题/评分/年份等大量缺失值核心功能动态分页采集：通过API参数迭代获取全量数据反爬策略：请求头模拟、Cookies自动化、随机延迟数据清洗：缺失值填充、嵌套JSON解析持久化存储：JSON结构化存储与PandasDataFrame转换技术栈请求处理：requests库实现API调用数据解析：json模块处理结构化响应异常管理：try-exce
LLM大模型安全概述 LLM教程安全人工智能 chatgpt embedding langchain llama
引言2022年底以来，以ChatGPT为代表的大模型飞速发展，正在成为#驱动新质生产力发展#的新动能、人类探索未知的新工具.在显著提升人工智能(artificialintelligence,AI)模型通用理解和生成能力的同时，也带来了前所未有的安全风险.大模型的能力与风险生成式大模型因其强大的智能能力和巨大的应用潜力吸引了众多研究者和企业的关注.从智能能力的角度来看，研究人员观测到：当训练数据和参
C#控制台应用程序学习——3.8 宣宣猪的小花园. C#控制台应用程序 c#开发语言无人机
一、语言概述1、平台相关性C#主要运行在.NET平台上。.NET提供了一个庞大的类库，C#程序可以方便地调用这些类库来实现各种功能，如文件操作、数据库访问、网络通信等。2、语法风格C#的语法与C、C++和Java有一定的相似性。例如，它使用大括号{}来定义代码块，使用分号;结束语句。二、C#程序的基本结构1、命名空间（Namespace）命名空间用于组织代码，避免命名冲突。例如：usingSyst
Scala ：identity 函数 WZMeiei Scala scala 开发语言
在Scala中，identity函数是一个简单而有用的函数，主要用于返回其输入参数的值，而不进行任何修改。以下是关于identity函数的详细介绍：函数定义identity函数的定义非常简洁，它接受一个参数并返回该参数本身。在Scala的标准库中，identity函数的定义如下：defidentity[A](x:A):A=x这里的A是一个类型参数，表示identity函数可以接受任何类型的参数，并
mounted() 钩子函数码农小王 vue.js javascript 前端
‌在Vue中，mounted()钩子函数用于在组件挂载到DOM之后执行操作，此时所有的模板已经渲染完毕，可以安全地操作DOM元素。‌一.mounted()钩子的作用和用途mounted()钩子函数是在Vue实例被挂载到DOM之后调用的。这意味着在这个阶段，所有的模板已经渲染完毕，可以安全地操作DOM元素。它常用于以下场景：‌操作已经渲染的DOM元素‌：可以在这个阶段对DOM进行各种操作，如修改样式
2025最新Transformer模型及深度学习前沿技术应用 weixin_贾 Python MATLAB python 深度学习 MATLAB编程深度学习模型图神经网络自编码物理信息神经网络目标检测大语言模型
第一章、注意力（Attention）机制1、注意力机制的背景和动机（为什么需要注意力机制？注意力机制的起源和发展里程碑）。2、注意力机制的基本原理（什么是注意力机制？注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重？）3、注意力机制的主要类型：键值对注意力机制（Key-ValueAttention）、自注意力（Self-Attention）与多头注意
Releases（发布）和版本管理是两个紧密相关的概念 WwwwwH_PLUS #Software Engineering 运维
在软件开发和维护中，Releases（发布）和版本管理是两个紧密相关的概念，特别是在开源项目或企业软件开发中。1.Releases（发布）Release是指软件的一个正式发布版本，通常经过开发、测试、修复Bug，并被认为是足够稳定和可用于生产环境的版本。主要特点里程碑：通常对应一个开发周期的完成（如Alpha、Beta、正式版）。版本号：通常遵循语义化版本（SemanticVersioning,S
Zama TFHE-rs v1.0 发布 mutourend 全同态加密FHE FHE
1.引言2025年2月，Zama发布了TFHE-rsv1.0，这是TFHE-rs库的第一个稳定版本。这标志着一个重要的里程碑，稳定了x86CPU后端的高级API，同时确保了向后兼容性。——即，现在可以依赖TFHE-rsAPI，而不必担心未来更新中出现重大变化。此版本中最显著的改进是：关键参数的细化，这增强了密码学安全性，保留了性能并优化了它们以用于分布式协议。还引入了官方手册和简化的贡献流程。值得
哈希基础知识飘去数星星多元哈希算法学习算法
目录定义哈希表的基本操作初始化：增删查改：定义哈希是一种将任意长度的输入（如字符串、文件、数据）通过哈希函数转换为固定长度输出的过程，其输出通常称为哈希值获哈希码哈希表(HashTable)是一种基于哈希函数实现的数据结构，用于高效存储和查找键值对。哈希表的基本操作初始化：1.默认初始化（创建空哈希表）：std::unordered_maphashtable;2.直接填充哈希表：std::unor
Scala 中生成一个RDD的方法闯闯桑 scala 开发语言大数据
在Scala中，生成RDD（弹性分布式数据集）的主要方法是通过SparkContext（或SparkSession）提供的API。以下是生成RDD的常见方法：1.从本地集合创建RDD使用parallelize方法将本地集合（如Seq、List、Array等）转换为RDD。valspark=SparkSession.builder.appName("RDDExample").getOrCreate(
el-table（elementui）表格合计行使用以及滚动条默认样式修改白小水i elementui vue.js 前端
一、el-table新增合计行以及el-table展示数据出现的问题1.使用合计行el-table的属性show-summary设为true，即可在表格尾部展示合计行。默认情况下，第一列不展示数据，而显示合计二字，可以通过sum-text自己配置，其余列会显示本列所有数据的和。__自定义合计逻辑:__在el-table标签使用summary-method传入一个方法，该方法会返回一个数组，该数组的
信息安全与网络安全的区别_信息安全与网络安全之差异探析 Hacker_Oldv web安全网络安全
在当今数字化时代，信息安全与网络安全成为了人们关注的热点话题。尽管这两个概念经常被提及，但它们之间存在着明显的区别。本文旨在探讨信息安全与网络安全的定义、范畴及应对策略，以帮助读者更好地理解和应对相关挑战。一、定义与范畴的差异信息安全主要是指保护信息系统及其中的数据免受未经授权的访问、使用、泄露、破坏、修改或者销毁等威胁。它侧重于保护信息的机密性、完整性和可用性。信息安全不仅关注数据存储和传输过程
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S