Samuel'C

VIDHOP, viral host prediction with Deep Learning 论文阅读笔记

github : https://github.com/flomock/vidhop

摘要

Zoonosis即人类和动物都可相互传染致病，如寨卡病毒、埃博拉病毒和新冠病毒等，为了预防全球化带来的病毒传染加快的问题，本文提出一种基于病毒的基因组序列来推测病毒宿主的预测方法（input = 病毒基因碱基序列， Y = 宿主种类），并且定义了一种基于预测宿主数来计算的平均准确度的计算公式，本模型可以用于transfer到其他的病毒上面去，直接分类准确度起伏较大，基于作者定义的准确度比较平稳。

原理

模型总览

如上图所示，先从国家某些生物网站上下载数据——本文中从欧洲核苷酸档案 (ENA) 数据库收集了带有宿主标签的甲型流感病毒、狂犬病狂犬病病毒和轮状病毒 A 的所有核苷酸序列，再从德国生物技术信息中心 (NCBI) 提供的分类信息来管理宿主标签——然后将其按照6：2：2来划分成训练集、验证集和测试集，在将数据进行预处理输入模型得到预测结果并且进行分析，下文将对模型每一个步骤进行深入的介绍。

数据预处理

数据预处理的要点在于每一个病毒基因序列的长短都是不一样的，当数据集一旦变大，这个现象带来的影响就被放大。
所以就要用到上图所示的方法对数据集进行修剪，修剪的长度等于基因从小到大排序的95%分位的长度，这样就可以很好地把数据统一起来。

但是有个问题是，如果最短基因序列的长度过于短，这样修剪出来的数据放到模型里面训练就会欠拟合，所以本文针对这一问题提出了几种数据扩展方案：

简单重复：将原基因本体重复拼接在后面以达到规定长度
简单重复并填充占位符：在上一个方法的基础上在任意位置随机插入2-8个占位符
随机重复：随机抽取原基因的一部分重复拼接到原基因后面
随机重复并填充占位符：同上类比
填充占位符：在原基因的末尾全部填充占位符到规定长度
裁剪：将全部基因的长度修剪到最短基因的长度

处理好之后的数据集在输入到模型的时候为了加速训练的过程，将其拆分成小片分批依次输入到模型里面去。最后要对多批次的输出结果进行处理得到一个最终的预测结果。对碱基进行one-hot编码，如：A = [1, 0, 0, 0, 0], T = [0, 0, 0, 1, 0], N = [0, 0, 0, 0, 1]。

本文还提出了一种叫做在线学习(Online)的方法，这种方法并不需要在输入模型训练的时候对数据进行预处理，而是在训练的过程中用修改过的数据对模型施加一定的影响，具体操作方法见实际代码，文中并没有加以详细描述。

在训练的时候，可以划分好一定数量的验证集和测试集，基于剩下的数据，每一个训练epoch都抽取一定数量（小于剩下样本的总数）不同的样本进行训练，这叫做随机重复欠采样，可以避免因为某个类别的数据过多引起的训练“注意力偏移”。

DNN模型结构

本文着重提出了两种DNN模型，一种是纯LSTM模型，另一种是CNN+LSTM模型，他们的差别在于前者是由三层LSTM接两层Dense，后者是两层全连接层+两层LSTM+两层Dense，最后一层Dense用于分类。LSTM可以很好的应对复杂的数据集和处理任务，CNN则相对于LSTM来说计算速度是其四倍。对于类别种类很多的模型来说，数据量很大，所以就更加需要之前提到的输入切片。

预测结果处理

由于输入用的是切片输入，一个长的基因被切成好几段长分别输入到模型里面，每一段都会有相应的预测结果，所以要把全部结果整合到一起去才能代表整个一个基因的预测结果，所以本文提出了几种方法：

不处理：直接输出每个基因切片的预测结果
票选法：对所有子序列使用多数“投票”来确定预测结果，每个子序列的票就是其所属类别。这种方法得出的结果偏差较大比较“离散”，不具有一般连续性。
均值法：将所有子序列的概率按类取平均值，最后得出平均值大的那一类作为最终结果。
标准差：在上以种方法的基础上，用其标准差对每个子序列进行加权。具有更多不同预测类别的子序列获得更高的权重。
最后的结果要通过以上方法处理之后才能得到。

实验结果

概况

实验用了两种模型针对三个不同的数据集分别进行，最多训练了1500个epochs，当acc在300个epochs还没上升的情况下，模型停止训练。对于轮状病毒A数据集来说，数据集总共有40000个病毒基因序列，对应6个宿主类别。因为这几个宿主类别之间关联性比较强，实验测得6个不同的宿主导致预期的随机准确度约为 16.67%，导致两个模型直接测得的预测准确率都比较高，分别是85.28%和82.88%，而在甲流病毒数据集中宿主类别有36个，36个不同的宿主导致预期的随机准确度只有2.78%，所以直接测得的准确率只有50%左右。所以可以得出一个结论：宿主数量越多类型差别越大，随机准确率越低。

实验结果如下表所示

不难看出，在诸多预处理数据扩展方案中，最有效的是简单重复并填充占位符和随机重复并填充占位符，其他的方案效果不佳。

为了通过考虑类的数量获得更好的可比性，所以本文引入了一个新的准确率计算公式：
$\text{average accuracy} =\frac{2 \cdot \text { accuracy }+\mid \text { classes } \mid-2}{\mid \text { classes } \mid}$
通过这个公式就可以修正分类准确率，如下表示
与其他模型的对比请看原文

总结

本文提出了一种使用病毒碱基序列编码成数据用于训练的模型来预测分类宿主，并用了几个不同的数据集进行实验，结果表明当分类的类别增大的时候，想要准确预测宿主类别就变得比较困难，本文中使用的模型结构比较简单，并没有用上现在最新的模型。本文的主要贡献其一也就是本文花大量篇幅来讲解的数据处理部分，在对基因序列进行修剪之后怎么样对它们进行处理来让他们变成可用的数据；其二就是为我们引出了一个新的方向，关于使用NLP的方法来处理基因序列，从而可以训练模型来预测给定基因对应的宿主类型，在现在新冠流行的大环境下是一个比较有意义的事情。

2021.07.12更新

实验流程及对应代码解读

代码结构

vidhop
|-- DataParsing
|   `-- DataParsing_main.py
|-- cli.py
|-- training
|   |-- DataGenerator.py
|   |-- make_dataset_out
|   |   |-- X_test.csv
|   |   |-- X_train.csv
|   |   |-- X_val.csv
|   |   |-- Y_test.csv
|   |   |-- Y_train.csv
|   |   `-- Y_val.csv
|   |-- make_datasets.py
|   `-- train_new_model.py
|-- vidhop_main.py
`-- weights
    |-- influ_weights.best.acc.normal_repeat_spacer_run2.hdf5
    |-- rabies_weights.best.acc.random_repeat_run2_design_7.hdf5
    `-- rota_weights.best.acc.online_design_7.hdf5

整个项目的结构如上图所示，其中：

DataParsing 部分用于预处理数据
DataGenerator.py 用于提供训练模型的数据
make_dataset.py 用于从数据集中抽取并划分train、val和test的数据，并写入csv文件，生成用于预处理的数据
train_new_model.py 用于训练模型，里面包含了训练模型、处理数据等全部过程
vidhop_main.py 用于加载模型来进行测试
weights 文件夹内保存的是这个模型的预训练权重

数据预处理——DataParsing.py

class CircularList(list):       # 获取list
    def __getitem__(self, x):
        if isinstance(x, slice):
            return [self[x] for x in self._rangeify(x)]

        index = operator.index(x)
        try:
            return super().__getitem__(index % len(self))
        except ZeroDivisionError:
            raise IndexError('list index out of range')

    def _rangeify(self, slice):
        start, stop, step = slice.start, slice.stop, slice.step
        if start is None:
            start = 0
        if stop is None:
            stop = len(self)
        if step is None:
            step = 1
        return range(start, stop, step)

获取待处理的list

def encode_string(maxLen=None, x=[], y=[], y_encoder=None, repeat=True, use_spacer=False, online_Xtrain_set=False,
                  randomrepeat=False):
    """
    One hot encoding for classes
    to convert the "old" exported int data via OHE to binary matrix
    http://machinelearningmastery.com/multi-class-classification-tutorial-keras-deep-learning-library/

    for dna ony to int values
    """

    def pad_n_repeat_sequences(sequences, maxlen=None, dtype='int32',
                               padding='post', truncating='post', value=0.):
        """extended version of pad_sequences()"""
        if not hasattr(sequences, '__len__'):
            raise ValueError('`sequences` must be iterable.')
        lengths = []
        for x in sequences:
            if not hasattr(x, '__len__'):
                raise ValueError('`sequences` must be a list of iterables. '
                                 'Found non-iterable: ' + str(x))
            lengths.append(len(x))
        num_samples = len(sequences)
        if maxlen is None:
            maxlen = np.max(lengths)  # sequences是基因序列，x是每一个序列的长度，求出最大值maxLen得到填充值

        # take the sample shape from the first non empty sequence
        # checking for consistency in the main loop below.
        sample_shape = tuple()
        for s in sequences:
            if len(s) > 0:
                sample_shape = np.asarray(s).shape[1:]
                break

        # make new array and fill with input seqs
        x = (np.ones((num_samples, maxlen) + sample_shape) * value).astype(dtype)    # np.ones((2, 1) + (1, 2)) 的 shape(2, 1, 1, 2)？？   maybe 3维
        for idx, s in enumerate(sequences):
            if not len(s):
                continue  # empty list/array was found
            if truncating == 'pre':    # 加在序列的前面
                trunc = s[-maxlen:]
            elif truncating == 'post':  # 加在序列的后面
                trunc = s[:maxlen]
            else:
                raise ValueError('Truncating type "%s" not understood' % truncating)

            # check `trunc` has expected shape
            trunc = np.asarray(trunc, dtype=dtype)
            if trunc.shape[1:] != sample_shape:
                raise ValueError(
                    'Shape of sample %s of sequence at position %s is different from expected shape %s' %
                    (trunc.shape[1:], idx, sample_shape))

            if repeat:
                # repeat seq multiple times
                repeat_seq = np.array([], dtype=dtype)
                while len(repeat_seq) < maxLen:
                    if use_spacer:
                        spacer_length = random.randint(1, 50)
                        spacer = [value for i in range(spacer_length)]
                        repeat_seq = np.append(repeat_seq, spacer)
                        if randomrepeat:
                            random_start = random.randint(0, len(trunc))
                            repeat_seq = np.append(repeat_seq,
                                                   CircularList(trunc)[random_start:random_start + len(trunc)])  
                                                   ## 序列+间隔+序列
                            # 随机位置插入一段序列
                        else:
                            repeat_seq = np.append(repeat_seq, trunc)
                    else:
                        if randomrepeat:
                            random_start = random.randint(0, len(trunc))
                            repeat_seq = np.append(repeat_seq,
                                                   CircularList(trunc)[random_start:random_start + len(trunc)])
                        else:
                            repeat_seq = np.append(repeat_seq, trunc)
                x[idx, :] = repeat_seq[-maxLen:]

            else:
                if padding == 'post':
                    x[idx, :len(trunc)] = trunc
                elif padding == 'pre':
                    x[idx, -len(trunc):] = trunc
                else:
                    raise ValueError('Padding type "%s" not understood' % padding)

        return x
 #  ↑ 数据处理部分

    encoder = LabelEncoder()

    if len(x) > 0:
        a = "ATGCN-"

        encoder.fit(list(a))  # fit将a中的6个元素编码成0-5的数字
        out = []
        if type(x)==str:
            dnaSeq = re.sub(r"[^ACGTUacgtu]", 'N', x)
            encoded_X = encoder.transform(list(dnaSeq)) # transform将原始序列变成编码序列
            out.append(encoded_X)
        else:
            for i in x:
                dnaSeq = re.sub(r"[^ACGTUacgtu]", 'N', i)
                # dnaSeq = i[0]
                encoded_X = encoder.transform(list(dnaSeq))
                out.append(encoded_X)

        if online_Xtrain_set:
            X_train_categorial = []
            for seq in out:
                X_train_categorial.append(np.array(to_categorical(seq, num_classes=len(a)), dtype=np.bool))
            return X_train_categorial
        else:
            out = pad_n_repeat_sequences(out, maxlen=maxLen, dtype='int16', truncating='pre', value=0)

        return np.array(to_categorical(out, num_classes=len(a)), dtype=np.bool)
    else:
        if y_encoder != None:
            encoder.fit(y)
            if np.array(encoder.classes_ != y_encoder.classes_).all():
                warning(f"Warning not same classes in training and test set")
            useable_classes = set(encoder.classes_).intersection(y_encoder.classes_)    #  将X和Y放在一起
            try:
                assert np.array(encoder.classes_ == y_encoder.classes_).all()
            except AssertionError:
                warning(
                    f"not all test classes in training data, only {useable_classes} predictable "
                    f"from {len(encoder.classes_)} different classes\ntest set will be filtered so only predictable"
                    f" classes are included")

            try:
                assert len(useable_classes) == len(encoder.classes_)     # 判断X和Y的类别长度是否相等
            except AssertionError:
                print(f"not all test classes in training data, only " \
                      f"{useable_classes} predictable from {len(encoder.classes_)} different classes" \
                      f"\ntest set will be filtered so only predictable classes are included")

            if not len(useable_classes) == len(encoder.classes_):
                global X_test, Y_test
                arr = np.zeros(X_test.shape[0], dtype=int)
                for i in useable_classes:
                    arr[y == i] = 1

                X_test = X_test[arr == 1, :]
                y = y[arr == 1]
                encoded_Y = y_encoder.transform(y)
            else:
                encoded_Y = encoder.transform(y)

            return to_categorical(encoded_Y, num_classes=len(y_encoder.classes_))

        else:
            encoder.fit(y)
            # print(encoder.classes_)
            # print(encoder.transform(encoder.classes_))

            encoded_Y = encoder.transform(y)
            return to_categorical(encoded_Y), encoder

先求出数据集中最长的基因序列的长度，构造一个新的array来承载新的处理过后的数据（用np.ones()初始化），在根据选项决定是否repeat、use spacer、random repeat以及决定padding的位置。在处理好基因序列填充之后，再将这些序列由字母转换成数字，再转换成one-hot编码。
如果采用online training的话，就直接输出原始数据进行微调的数据，否则输出原始数据经过基因填充处理过后的数据（107-115行）
最后对host文件的数据也进行了处理

def calc_shrink_size(seqlength):
    subSeqlength = 100
    for i in range(100, 400):
        if (seqlength % i == 0):
            subSeqlength = i

    batch_size = int(seqlength / subSeqlength)
    return subSeqlength, batch_size

def shrink_timesteps(X, Y, input_subSeqlength=0):
    """
        needed for Truncated Backpropagation Through Time
    If you have long input sequences, such as thousands of timesteps,
    you may need to break the long input sequences into multiple contiguous subsequences.

    e.g. 100 subseq.
    Care would be needed to preserve state across each 100 subsequences and reset
    the internal state after each 100 samples either explicitly or by using a batch size of 100.
    :param input_subSeqlength: set for specific subsequence length
    :return:
    """
    # assert input_subSeqlength != 0, "must provide variable \"input_subSeqlength\" when using shrink_timesteps for specific subset"
    if len(X.shape) == 3:
        seqlength = X.shape[1]
        features = X.shape[-1]

        if input_subSeqlength == 0:
            subSeqlength, batch_size = calc_shrink_size(seqlength)
        else:
            subSeqlength = input_subSeqlength
            batch_size = int(seqlength / subSeqlength)

        newSeqlength = int(seqlength / subSeqlength) * subSeqlength

        bigarray = []
        for sample in X:
            sample = np.array(sample[0:newSeqlength], dtype=np.bool)
            subarray = sample.reshape((int(seqlength / subSeqlength), subSeqlength, features))
            bigarray.append(subarray)
        bigarray = np.array(bigarray)  # 把一个batch的数据拼接在一起
        X = bigarray.reshape((bigarray.shape[0] * bigarray.shape[1], bigarray.shape[2], bigarray.shape[3]))

    elif len(X.shape) == 2:
        seqlength = X.shape[0]
        features = X.shape[-1]

        if input_subSeqlength == 0:
            subSeqlength, batch_size = calc_shrink_size(seqlength)
        else:
            subSeqlength = input_subSeqlength
            batch_size = int(seqlength / subSeqlength)

        newSeqlength = int(seqlength / subSeqlength) * subSeqlength

        sample = np.array(X[0:newSeqlength], dtype=np.bool)
        subarray = sample.reshape((int(seqlength / subSeqlength), subSeqlength, features))
        X = np.array(subarray)

    else:
        assert len(X.shape) == 2 or len(
            X.shape) == 3, f"wrong shape of input X, expect len(shape) to be 2 or 3 but is instead {len(X.shape)}"
    y = []
    for i in Y:
        y.append(int(seqlength / subSeqlength) * [i])

    Y = np.array(y)
    if len(Y.shape) == 2:
        Y = np.array(y).flatten()
    elif len(Y.shape) == 3:
        Y = Y.reshape((Y.shape[0] * Y.shape[1], Y.shape[2]))

    return X, Y, batch_size

如果基因序列过长（大于400），就要将过长的序列分割成为小段（100，400），在将一个batch的数据拼接在一起作为输入的数据。

数据生成器——DataGenerator.py

首先使用make_dataset.py来将数据按照比例划分成为X_train/val/test.csv以及Y_train/val/test.csv，make_dataset.py 比较简单故不再进行分析，直接使用即可。

	def __data_generation(self, list_IDs_temp, indexes):
		pool = multiprocessing.pool.ThreadPool()
		'Generates data containing batch_size samples'  # X : (n_samples, *dim, n_channels)
		# Initialization
		# X = np.empty((self.batch_size, self.dim, self.n_channels),dtype='str')
		X = np.empty((self.number_samples_per_batch), dtype=object)
		Y = np.empty((self.number_samples_per_batch), dtype=int)

		sample_weight = np.array([])

		def load_csv(sample):
			X_i = pd.read_csv(os.path.join(self.directory, sample), delimiter='\t', dtype='str', header=None)[1].values[0]
			return X_i

		# Generate data
		samples = pool.map(load_csv,list_IDs_temp)
		X = np.array(samples)
		for i, ID in enumerate(list_IDs_temp):
			# Store sample
			# load tsv, parse to numpy array, get str and set as value in X[i]
			# X[i] = pd.read_csv(os.path.join(self.directory, ID), delimiter='\t', dtype='str', header=None)[1].values[0]
			# sample_weight = np.append(sample_weight, 1)
			# if len(X[i]) < self.dim:
			# 	X[i] = "-" * self.dim
			# 	sample_weight[i] = 0

			# Store class
			Y[i] = self.labels[indexes[i]]

		sample_weight = np.array([[i] * self.number_subsequences for i in sample_weight]).flatten()
		if self.maxLen == None:
			maxLen = self.number_subsequences * self.dim
		else:
			maxLen = self.maxLen

		# original_length = 50
		# start_float = (original_length - self.sequence_length) / 2
		# start = math.floor(start_float)
		# stop = original_length - math.ceil(start_float)

		# # amino = "GALMFWKQESPVICYHRNDTU"
		# amino = "GALMFWKQESPVICYHRNDTUOBZX"
		# encoder = LabelEncoder()
		# encoder.fit(list(amino))
		# X = parse_amino(x=[[i[start:stop]] for i in X], encoder=encoder)

		# X = self.elmo_embedder.elmo_embedding(X, start, stop)
		#
		# X = seqvec.embed_sentence([i[start:stop] for i in X])
		def encode_sample(sample):
			X_i = DataParsing_main.encode_string(maxLen=maxLen, x=str(sample), repeat=self.repeat, use_spacer=self.use_spacer)
			return X_i

		X_wrong_shape = np.array(pool.map(encode_sample,X))
		X = np.array(X_wrong_shape).reshape((X_wrong_shape.shape[0],-1,6))
		# X = DataParsing.encode_string(maxLen=maxLen, x=X, repeat=self.repeat, use_spacer=self.use_spacer)
		# assert self.shrink_timesteps != True or self.online_training != True, "online_training shrinks automatically " \
		#                                                                       "the files, please deactivate shrink_timesteps"

		if self.online_training:
			X, Y = DataParsing_main.manipulate_training_data(X=X, Y=Y, subSeqLength=self.dim,
															 number_subsequences=self.number_subsequences)
		elif self.shrink_timesteps:
			X, Y, batchsize = DataParsing_main.shrink_timesteps(input_subSeqlength=self.dim, X=X, Y=Y)

		pool.close()
		pool.join()
		return X, tf.keras.utils.to_categorical(Y, num_classes=self.n_classes), sample_weight

加载CSV文件读取数据，以及其对应的类序号（不同的host是不同的类），得到最长基因序列长度，再用dataparsing的方法来处理数据

def _count_valid_files_in_directory(directory, white_list_formats, split,
									follow_links):
	"""
	Copy from keras 2.1.5
	Count files with extension in `white_list_formats` contained in directory.

	Arguments:
		directory: absolute path to the directory
			containing files to be counted
		white_list_formats: set of strings containing allowed extensions for
			the files to be counted.
		split: tuple of floats (e.g. `(0.2, 0.6)`) to only take into
			account a certain fraction of files in each directory.
			E.g.: `segment=(0.6, 1.0)` would only account for last 40 percent
			of images in each directory.
		follow_links: boolean.

	Returns:
		the count of files with extension in `white_list_formats` contained in
		the directory.
	"""
	num_files = len(
		list(_iter_valid_files(directory, white_list_formats, follow_links)))
	if split:
		start, stop = int(split[0] * num_files), int(split[1] * num_files)
	else:
		start, stop = 0, num_files
	return stop - start


def parse_amino(x, encoder):
	out = []
	for i in x:
		# dnaSeq = i[1].upper()
		dnaSeq = i[0].upper()
		encoded_X = encoder.transform(list(dnaSeq))
		out.append(encoded_X)
	return np.array(out)


def _list_valid_filenames_in_directory(directory, white_list_formats, split,
									   class_indices, follow_links):
	"""Lists paths of files in `subdir` with extensions in `white_list_formats`.
	Copy from keras-preprocessing 1.0.9
	# Arguments
		directory: absolute path to a directory containing the files to list.
			The directory name is used as class label
			and must be a key of `class_indices`.
		white_list_formats: set of strings containing allowed extensions for
			the files to be counted.
		split: tuple of floats (e.g. `(0.2, 0.6)`) to only take into
			account a certain fraction of files in each directory.
			E.g.: `segment=(0.6, 1.0)` would only account for last 40 percent
			of images in each directory.
		class_indices: dictionary mapping a class name to its index.
		follow_links: boolean.

	# Returns
		 classes: a list of class indices
		 filenames: the path of valid files in `directory`, relative from
			 `directory`'s parent (e.g., if `directory` is "dataset/class1",
			the filenames will be
			`["class1/file1.jpg", "class1/file2.jpg", ...]`).
	"""
	dirname = os.path.basename(directory)
	if split:
		num_files = len(list(
			_iter_valid_files(directory, white_list_formats, follow_links)))
		start, stop = int(split[0] * num_files), int(split[1] * num_files)
		valid_files = list(
			_iter_valid_files(
				directory, white_list_formats, follow_links))[start: stop]
	else:
		valid_files = _iter_valid_files(
			directory, white_list_formats, follow_links)
	classes = []
	filenames = []
	for root, fname in valid_files:
		classes.append(class_indices[dirname])
		absolute_path = os.path.join(root, fname)
		relative_path = os.path.join(
			dirname, os.path.relpath(absolute_path, directory))
		filenames.append(relative_path)

	return classes, filenames
def _iter_valid_files(directory, white_list_formats, follow_links):
	"""Iterates on files with extension in `white_list_formats` contained in `directory`.

	# Arguments
		directory: Absolute path to the directory
			containing files to be counted
		white_list_formats: Set of strings containing allowed extensions for
			the files to be counted.
		follow_links: Boolean.

	# Yields
		Tuple of (root, filename) with extension in `white_list_formats`.
	"""

	def _recursive_list(subpath):
		return sorted(os.walk(subpath, followlinks=follow_links),
					  key=lambda x: x[0]) # os.walk 列出一个地址的根目录 中间目录和文件名

	for root, _, files in _recursive_list(directory):
		for fname in sorted(files):
			if fname.lower().endswith('.tiff'):
				warnings.warn('Using ".tiff" files with multiple bands '
							  'will cause distortion. Please verify your output.')
			if get_extension(fname) in white_list_formats:
				yield root, fname


def get_extension(filename):
	"""Get extension of the filename

	There are newer methods to achieve this but this method is backwards compatible.
	"""
	return os.path.splitext(filename)[1].strip('.').lower()

读取文件目录中的文件，用生成器iterator输出，并且按照划分的比例来保留那些有效的文件

class DataGenerator(tf.keras.utils.Sequence):
	'Generates data for Keras'

	def __init__(self, directory, classes=None, number_subsequences=32, dim=(32, 32, 32), n_channels=6,
				 n_classes=10, shuffle=True, n_samples=None, seed=None, faster=True, online_training=False, repeat=True,
				 use_spacer=False, randomrepeat=False, sequence_length=50, number_samples_per_batch=32 , **kwargs):
		'Initialization'
		self.directory = directory
		self.classes = classes
		self.dim = dim
		self.labels = None
		self.list_IDs = None
		self.n_channels = n_channels
		self.shuffle = shuffle
		self.seed = seed
		self.online_training = online_training
		self.repeat = repeat
		self.use_spacer = use_spacer
		self.randomrepeat = randomrepeat
		self.maxLen = kwargs.get("maxLen", None)
		self.sequence_length = sequence_length

		if number_subsequences == 1:
			self.shrink_timesteps = False  ## 分割
		else:
			self.shrink_timesteps = True

		self.number_subsequences = number_subsequences

		if faster == True:
			self.faster = 16
		elif type(faster) == int and faster > 0:
			self.faster = faster
		else:
			self.faster = 1

		self.number_samples_per_batch = number_samples_per_batch * self.faster

		self.number_samples_per_class_to_pick = n_samples

		if not classes:
			classes = []
			for subdir in sorted(os.listdir(directory)):
				if os.path.isdir(os.path.join(directory, subdir)):
					classes.append(subdir)
			self.classes = classes

		self.n_classes = len(classes)
		self.class_indices = dict(zip(classes, range(len(classes))))

		# want a dict which contains dirs and number usable files
		pool = multiprocessing.pool.ThreadPool()

		function_partial = partial(_count_valid_files_in_directory,
								   white_list_formats={'csv'},
								   follow_links=None,
								   split=None)   # partial 是用来冻结参数的，提供一个类似函数的方法
		self.samples = pool.map(function_partial, (os.path.join(directory, subdir) for subdir in classes))
		self.samples = dict(zip(classes, self.samples))

		results = []

		for dirpath in (os.path.join(directory, subdir) for subdir in classes):
			results.append(pool.apply_async(_list_valid_filenames_in_directory,
											(dirpath, {'csv'}, None, self.class_indices, None)))
		#  使用apply_async即开始并行处理
		self.filename_dict = {}
		for res in results:
			classes, filenames = res.get()
			for index, class_i in enumerate(classes):
				self.filename_dict.update({f"{class_i}_{index}": filenames[index]})

		pool.close()
		pool.join()

		if not n_samples:
			self.number_samples_per_class_to_pick = min(self.samples.values())

		# self.elmo_embedder = Elmo_embedder()
		self.elmo_embedder = None

		self.on_epoch_end()

	# in images wird ein groesses arr classes gemacht (fuer alle sampels) darin stehen OHE die Class
	# erstelle filename liste in der die zugehoerige file adresse steht
	# laesst sich mergen mit version die oben verlinked

	def __len__(self):
		'Denotes the number of batches per epoch'
		return int(np.floor(len(self.list_IDs) / self.number_samples_per_batch))

	def __getitem__(self, index):
		'Generate one batch of data'
		# Generate indexes of the batch
		indexes = self.indexes[index * self.number_samples_per_batch:(index + 1) * self.number_samples_per_batch]

		# Find list of IDs
		list_IDs_temp = [self.list_IDs[k] for k in indexes]

		# Generate data
		X, y, sample_weight = self.__data_generation(list_IDs_temp, indexes)

		return (X, y)

	def on_epoch_end(self):
		'make X-train sample list'
		"""
		1. go over each class
		2. select randomly #n_sample samples of each class
		3. add selection list to dict with class as key 
		"""

		self.class_selection_path = np.array([])
		self.labels = np.array([])
		for class_i in self.classes:
			samples_class_i = randsomsample(range(0, self.samples[class_i]), self.number_samples_per_class_to_pick)
			self.class_selection_path = np.append(self.class_selection_path,
												  [self.filename_dict[f"{self.class_indices[class_i]}_{i}"] for i in
												   samples_class_i])
			self.labels = np.append(self.labels, [self.class_indices[class_i] for i in samples_class_i])

		self.list_IDs = self.class_selection_path

		'Updates indexes after each epoch'
		self.indexes = np.arange(len(self.list_IDs))
		if self.shuffle == True:
			if self.seed:
				np.random.seed(self.seed)
			np.random.shuffle(self.indexes)

本py文件主要的内容，用来在训练的每一个epoch生成一定class的一定的数据用做training，在每一个epoch end的时候，随机挑选下一个epoch所需要用到的sample，对应了文中的“随机重复欠采样”

training new model

def training(inpath, outpath, name, epochs, architecture, extention_variant, early_stopping, repeated_undersampling):
    ''' Train a model on your training files generated with make_dataset

        \b
        Example:
        set input output and name of the model
        $ vidhop train_new_model -i /home/user/trainingdata/ -o /home/user/model/ --name test
        \b
        use the LSTM archtecture and the extention variant random repeat
        vidhop train_new_model -i /home/user/trainingdata/ --architecture 0 --extention_variant 2
        \b
        use repeated undersampling for training, note that for this the dataset must have been created with repeated undersampling enabled
        vidhop train_new_model -i /home/user/trainingdata/ -r
        \b
        train the model for 40 epochs, stop training if for 2 epochs the accuracy did not increase
        vidhop train_new_model -i /home/user/trainingdata/ --epochs 40 --early_stopping
        '''
    if extention_variant in (0, 1, 2, 3):
        repeat = True
    else:
        repeat = False

    if extention_variant in (2, 3):
        randomrepeat = True
    else:
        randomrepeat = False

    if extention_variant in (1, 3):
        use_repeat_spacer = True
    else:
        use_repeat_spacer = False

    if extention_variant == 5:
        kwargs = dict({"maxLen": -1, "input_subSeqlength": 0})
    else:
        kwargs = dict()

    if extention_variant == 6:
        online_training = True
    else:
        online_training = False

    if architecture == 0:
        design = 4
    else:
        design = 7

    files = os.listdir(inpath)
    assert "Y_train.csv" in files, f"{inpath} must contain Y_train.csv file, but no such file in {files}"

    test_and_plot(inpath=inpath, outpath=outpath, suffix=name, online_training=online_training, repeat=repeat,
                  randomrepeat=randomrepeat, early_stopping_bool=early_stopping, do_shrink_timesteps=True,
                  use_repeat_spacer=use_repeat_spacer, design=design, nodes=150, faster=True,
                  use_generator=repeated_undersampling, epochs=epochs, dropout=0.2, accuracy=True, **kwargs)

训练新的模型的主要方法，根据数据集调整的不同方法来输入相应的参数，从而可以修改模型输入数据集的构成。

class lrManipulator(tf.keras.callbacks.Callback):
    """
    Manipulate the lr for Adam Optimizer
    -> no big chances usefull
    """

    def __init__(self, nb_epochs, nb_snapshots):
        self.T = nb_epochs
        self.M = nb_snapshots

    def on_epoch_begin(self, epoch, logs={}):
        tf.keras.backend.set_value(self.model.optimizer.lr, 0.001)
        if ((epoch % (self.T // self.M)) == 0):
            tf.keras.backend.set_value(self.model.optimizer.iterations, 0)
            tf.keras.backend.set_value(self.model.optimizer.lr, 0.01)


class TimeHistory(tf.keras.callbacks.Callback):  # 计时
    """https://stackoverflow.com/questions/43178668/record-the-computation-time-for-each-epoch-in-keras-during-model-fit"""

    def on_train_begin(self, logs={}):
        if not hasattr(self, 'times'):
            self.times = []
            self.time_train_start = time.time()

    def on_epoch_end(self, batch, logs={}):
        logs = logs or {}
        self.times.append(int(time.time()) - int(self.time_train_start))


prediction_val = []


class accuracyHistory(tf.keras.callbacks.Callback):
    """to get the accuracy of my personal voting scores"""

    def on_train_begin(self, logs={}):
        if not hasattr(self, 'meanVote_val'):
            self.meanVote_val = []
            self.normalVote_val = []

    def on_epoch_begin(self, epoch, logs=None):
        global prediction_val
        prediction_val = []

    def on_epoch_end(self, batch, logs={}):
        """
        1. make prediction of train
        2. get the voting results
        3. calc and save accuracy
        4. do same for val set
        """
        logs = logs or {}
        global prediction_val

        if (len(prediction_val) == 0):
            prediction_val = (self.model.predict(X_val))

        self.prediction_val = prediction_val

        y_true_small, y_pred_mean_val, y_pred_voted_val, y_pred, y_pred_mean_exact = \
            calc_predictions(X_val, Y_val, do_print=False, y_pred=self.prediction_val)
        self.normalVote_val.append(metrics.accuracy_score(y_true_small, y_pred_voted_val))
        self.meanVote_val.append(metrics.accuracy_score(y_true_small, y_pred_mean_val))


class roc_History(tf.keras.callbacks.Callback):
    """to get the AUC of my personal voting scores"""

    # https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

    def __init__(self, name, path):
        self.name = name
        self.path = path

    def on_train_begin(self, logs={}):
        if not hasattr(self, 'roc_val'):
            # roc curve values for validation set
            self.roc_macro = []
            # roc curve values of the joined subsequences for the validation set
            self.roc_mean_val = []
            # roc curve values of the vote of the subsequences for the validation set
            self.roc_meanVote_val = []
            # thresholds per class
            self.thresholds = []
            # accuracy with general threshold tuning
            self.acc_val_threshold_tuned = []
            # accuracy with multi-threshold tuning
            self.acc_val_multi_thresholds_tuned = []

    def on_epoch_begin(self, epoch, logs=None):
        global prediction_val
        prediction_val = []

    def on_epoch_end(self, batch, logs={}):
        """
        1. make prediction of train
        2. get the voting results
        3. calc and save accuracy
        4. do same for val set
        """
        logs = logs or {}

        # check if allready calculated validation results, if no calc new
        global prediction_val
        if (len(prediction_val) == 0):
            prediction_val = (self.model.predict(X_val))
        self.prediction_val = prediction_val

        y_true_small, y_pred_mean_val, y_pred_voted_val, y_pred, y_pred_mean_val_exact = \
            calc_predictions(X_val, Y_val, do_print=False, y_pred=self.prediction_val)
        n_classes = Y_val.shape[-1]
        y_true_small_bin = tf.keras.utils.to_categorical(y_true_small, n_classes)
        y_pred_mean_val_bin = tf.keras.utils.to_categorical(y_pred_mean_val, n_classes)

调整学习率lr，记录、打印每个epoch所需要用到的时间、准确率以及AUC面积，AUC面积画图并输出（代码略）

class prediction_history(tf.keras.callbacks.Callback):
    """Callback subclass that prints each epoch prediction"""

    def on_epoch_end(self, epoch, logs={}):

        p = np.random.permutation(len(Y_val)) # 打乱顺序
        shuffled_X = X_val[p]
        shuffled_Y = Y_val[p]
        self.predhis = (self.model.predict(shuffled_X[0:10]))
        y_pred = np.argmax(self.predhis, axis=-1)
        y_true = np.argmax(shuffled_Y, axis=-1)[0:10]
        print(f"Predicted: {y_pred}")
        print(f"True:      {y_true}")
        table = pd.crosstab(
            pd.Series(y_true),
            pd.Series(y_pred),
            rownames=['True'],
            colnames=['Predicted'],
            margins=True)
        print(table)


class History(tf.keras.callbacks.Callback):
    """
    Callback that records events into a `History` object.

    This callback is automatically applied to
    every Keras model. The `History` object
    gets returned by the `fit` method of models.
    """

    def on_train_begin(self, logs=None):
        if not hasattr(self, 'epoch'):
            self.epoch = []
            self.history = {}

    def on_epoch_end(self, epoch, logs=None):
        logs = logs or {}
        self.epoch.append(epoch)
        for k, v in logs.items():
            self.history.setdefault(k, []).append(v)


class StopEarly(tf.keras.callbacks.Callback):
    """
    Callback that stops training after an epoch
    important for online training
    """

    def on_epoch_end(self, epoch, logs=None):
        self.model.stop_training = True

记录在val数据集上的predict准确率，记录历史数据，设置stopearly，即一定epoch内acc没有上升，则停止训练。

def model_for_plot(inpath, outpath, design=1, sampleSize=1, nodes=32, suffix="", epochs=100, dropout=0,
                   faster=False, voting=False, tensorboard=False, early_stopping_bool=True,
                   shuffleTraining=True, batch_norm=False, online_training=False,
                   number_subsequences=1, use_generator=True, repeat=True, use_spacer=False, randomrepeat=False,
                   **kwargs):
    """
    method to train a model with specified properties, saves training behavior in /$path/"history"+suffix+".csv"
    :param design: parameter for complexity of the NN, 0 == 2 layer GRU, 1 == 2 layer LSTM, 2 == 3 layer LSTM
    :param sampleSize: fraction of samples that will be used for training (1/samplesize). 1 == all samples, 2 == half of the samples
    :param nodes: number of nodes per layer
    :param suffix: suffix for output files
    :param epochs: number of epochs to train
    :param dropout: rate of dropout to use, 0 == no Dropout, 0.2 = 20% Dropout
    :param timesteps: size of "memory" of LSTM, don't change if not sure what you're doing
    :param faster: speedup due higher batch size, can reduce accuracy
    :param outpath: define the directory where the training history should be saved
    :param voting: if true than saves the history of the voting / mean-predict subsequences, reduces training speed
    :param tensorboard: for observing live changes to the network, more details see web
    :param cuda: use GPU for calc, not tested jet, not working
    :return: dict with loss and model
    """
    model = tf.keras.models.Sequential()
    global batch_size, X_train, X_test, Y_train

    # Y_train_noOHE = np.argmax(Y_train, axis=1)
    if use_generator:
        class_weight = None

    else:
        Y_train_noOHE = [y.argmax() for y in Y_train]
        class_weight = clw.compute_class_weight('balanced', np.unique(Y_train_noOHE), Y_train_noOHE)
        class_weight_dict = {i: class_weight[i] for i in range(len(class_weight))}
        class_weight = class_weight_dict
        print(f"class_weights: {class_weight}")

    timesteps = X_test.shape[1]

    if faster:
        batch = batch_size * 16
    else:
        batch = batch_size

    if design == 0:
        model.add(tf.keras.layers.GRU(nodes, input_shape=(timesteps, X_test.shape[-1]), return_sequences=True,
                                      dropout=dropout))
        model.add(tf.keras.layers.GRU(nodes, dropout=dropout))

    if design == 1:
        model.add(tf.keras.layers.LSTM(nodes, input_shape=(timesteps, X_test.shape[-1]), return_sequences=True,
                                       dropout=dropout))
        model.add(tf.keras.layers.LSTM(nodes, dropout=dropout))

    if design == 2:
        model.add(tf.keras.layers.LSTM(nodes, input_shape=(timesteps, X_test.shape[-1]), return_sequences=True,
                                       dropout=dropout))
        if batch_norm:
            model.add(tf.keras.layers.BatchNormalization())
        model.add(tf.keras.layers.LSTM(nodes, return_sequences=True, dropout=dropout))
        if batch_norm:
            model.add(tf.keras.layers.BatchNormalization())
        model.add(tf.keras.layers.LSTM(nodes, dropout=dropout))
        if batch_norm:
            model.add(tf.keras.layers.BatchNormalization())

    if design == 3:
        model.add(tf.keras.layers.LSTM(nodes, input_shape=(timesteps, X_test.shape[-1]), return_sequences=True,
                                       dropout=dropout))
        model.add(tf.keras.layers.LSTM(nodes, return_sequences=True, dropout=dropout))
        model.add(tf.keras.layers.LSTM(nodes, return_sequences=True, dropout=dropout))
        model.add(tf.keras.layers.LSTM(nodes, dropout=dropout))

...... 省略部分代码


model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['acc'], sample_weight_mode=None)
    # return model
    filepath = outpath + "/model_best_acc_" + suffix + ".hdf5"
    filepath2 = outpath + "/model_best_loss_" + suffix + ".hdf5"
    checkpoint = tf.keras.callbacks.ModelCheckpoint(filepath, monitor='val_acc', verbose=1, save_best_only=True,
                                                    mode='max')
    checkpoint2 = tf.keras.callbacks.ModelCheckpoint(filepath2, monitor='val_loss', verbose=1, save_best_only=True,
                                                     mode='min')
    predictions = prediction_history()
    time_callback = TimeHistory()

    if early_stopping_bool:
        early_stopping = tf.keras.callbacks.EarlyStopping('val_acc', min_delta=0, patience=epochs // 20,
                                                          restore_best_weights=True, verbose=2)
        # early_stopping2 = EarlyStopping('val_loss', min_delta=0, patience=epochs//20,restore_best_weights=True)

        callbacks_list = [checkpoint, checkpoint2, predictions, time_callback, early_stopping]
    else:
        callbacks_list = [checkpoint, checkpoint2, predictions, time_callback]
    # callbacks_list = [early_stopping2, early_stopping, predictions, time_callback]

    if voting:
        myAccuracy = accuracyHistory()
        myRoc = roc_History(name=suffix, path=outpath)
        callbacks_list.append(myAccuracy)
        callbacks_list.append(myRoc)

    if tensorboard:
        if not os.path.isdir(outpath + '/my_log_dir'):
            os.makedirs(outpath + '/my_log_dir')
        tensorboard = tf.keras.callbacks.TensorBoard(
            # Log files will be written at this location
            log_dir=outpath + '/my_log_dir',
            # We will record activation histograms every 1 epoch
            histogram_freq=1,
            # We will record embedding data every 1 epoch
            embeddings_freq=1,
        )
        tensorboard = tf.keras.callbacks.TensorBoard(log_dir=outpath + '/my_log_dir', histogram_freq=0, batch_size=32,
                                                     write_graph=True, write_grads=False, write_images=False,
                                                     embeddings_freq=0, embeddings_layer_names=None,
                                                     embeddings_metadata=None)
        callbacks_list.append(tensorboard)

    if use_generator:
        from vidhop.training.DataGenerator import DataGenerator
        params = {"number_subsequences": number_subsequences, "dim": timesteps, "n_channels": X_test.shape[-1],
                  "number_samples_per_batch": batch_size,
                  "n_classes": Y_test.shape[-1], "shuffle": shuffleTraining, "online_training": online_training,
                  "seed": 1, "repeat": repeat, "use_spacer": use_spacer, "randomrepeat": randomrepeat, "faster": faster}

        # global directory
        training_generator = DataGenerator(directory=inpath + "/train", **params, **kwargs)

        hist = model.fit(training_generator, epochs=epochs, callbacks=callbacks_list, validation_data=(X_val, Y_val),
                         class_weight=class_weight, shuffle=shuffleTraining)
    else:
        if online_training == True:
            print("use online training")

提供多种模型的组合来选择训练，从中可以对比出训练效果最好的模型，再对模型中的某些参数和选项进行调整，记录模型训练参数保存到文件里面去，

def calc_predictions(X, Y, y_pred, do_print=False):
    """
    plot predictions
    :param X: raw-data which should be predicted
    :param Y: true labels for X
    :param do_print: True == print the cross-tab of the prediction
    :param y_pred: array with predicted labels for X
    :return: y_true_small == True labels for complete sequences, yTrue == True labels for complete subsequences, y_pred_mean == with mean predicted labels for complete sequences, y_pred_voted == voted labels for complete sequences, y_pred == predicted labels for complete subsequences
    """

    def print_predictions(y_true, y_pred, y_true_small, y_pred_voted, y_pred_sum, y_pred_mean_weight_std,
                          y_pred_mean_weight_ent):

        table = pd.crosstab(
            pd.Series(y_encoder.inverse_transform(y_true)),
            pd.Series(y_encoder.inverse_transform(y_pred)),
            rownames=['True'],
            colnames=['Predicted'],
            margins=True)
        print("standard version")
        print(table.to_string())
        accuracy = metrics.accuracy_score(y_true, y_pred) * 100
        print("standard version")
        print("acc = " + str(accuracy))

        table = pd.crosstab(
            pd.Series(y_encoder.inverse_transform(y_true_small)),
            pd.Series(y_encoder.inverse_transform(y_pred_voted)),
            rownames=['True'],
            colnames=['Predicted'],
            margins=True)
        print("vote version")
        print(table.to_string())
        accuracy = metrics.accuracy_score(y_true_small, y_pred_voted) * 100
        print("vote version")
        print("acc = " + str(accuracy))

        table = pd.crosstab(
            pd.Series(y_encoder.inverse_transform(y_true_small)),
            pd.Series(y_encoder.inverse_transform(y_pred_sum)),
            rownames=['True'],
            colnames=['Predicted'],
            margins=True)

······

根据文中列出的各种计算准确率的方法（vote， standard， std-div等）来计算准确率并输出对应的crosstable

    model_path1 = f"{outpath}/model_best_loss_{suffix}.hdf5"
    model_path2 = f"{outpath}/model_best_acc_{suffix}.hdf5"
    for model_path in (model_path1, model_path2):
        print("load model:")
        print(model_path)
        model = tf.keras.models.load_model(model_path)
        pred = model.predict(X_test)
        y_true_small, y_pred_mean, y_pred_voted, y_pred, y_pred_mean_exact = calc_predictions(X_test, Y_test,
                                                                                              y_pred=pred,
                                                                                              do_print=True)
        print("make test")
        myRoc = roc_History(name="_".join(model_path[len(outpath):].split("_")[1:3]) + "_" + suffix, path=outpath)
        # myRoc = roc_History(name=suffix, path=outpath)
        myRoc.on_train_begin()
        global prediction_val
        prediction_val = model.predict(X_test)
        X_val = X_test
        Y_val = Y_test
        myRoc.on_epoch_end(0)

        # create and export .model file
        index_classes = dict()
        for i in zip(y_encoder.transform(y_encoder.classes_), y_encoder.classes_):
            index_classes.update({i[0]: i[1]})

        repeat = True
        use_spacer = False
        online = False
        random_repeat = True
        design = design
        multi_thresh = myRoc.thresholds[-1]
        hosts = Y_test.shape[-1]
        pickle.dump(
            (model.to_json(), model.get_weights(), index_classes, multi_thresh, maxLen, repeat, use_repeat_spacer,
             online_training, randomrepeat, design, hosts), open(f"{model_path.split('.hdf5')[0]}.model", "wb"))

从训练模型中获得的的最佳准确率对应的checkpoint还原模型，并且在text数据集上验证模型，得出 val acc 和 val loss。

你可能感兴趣的:(深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
探秘AI大模型：一键获取深度学习精华-PPT全面解读曹筱习Dwayne
探秘AI大模型：一键获取深度学习精华-PPT全面解读【下载地址】AI大模型PPT资源下载本仓库提供了一个名为“ai大模型ppt”的资源文件下载。该资源文件详细介绍了AI大模型的相关内容，包括但不限于AI大模型的定义、应用场景、技术架构、发展趋势等。通过这份PPT，您可以深入了解AI大模型的核心概念和实际应用，为您的学习和研究提供有力支持项目地址:https://gitcode.com/open-s
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key