Macropodus

TF-IDF计算比较compare（gensim、jieba、sklearn、手工的异同）

一.概述

TF-IDF（英文名: term frequency-inverse document frequency），引用百度百科的说法: TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。

TF意思是词频(Term Frequency)，用在句子构成的语料中，就是字或者词在文本中出现的频率。

一般计算是: TF = 字或词在句子中出现的次数 / 字或词在所有语料中出现的次数

IDF意思是逆文本频率指数(Inverse Document Frequency)，就是出现该字或者词的句子条数。

一般计算是: IDF = Log ( 语料中句子总数 / (包含该词或字的句子数+1) )

TF-IDF = TF * IDF

这是前文介绍TF-IDF时候的说法，正巧面试也手撸了一次这个算法，真实环境是不是这样呢? 我们一探究竟。

github地址:

https://github.com/yongzhuo/Tookit-Sihui/tree/master/tookit_sample/tf_idf_compare

本文主要介绍4中方案实现tf-idf，它们各有优点：

1.gensim
2.jieba
3.sklearn
4.by_hand(手动)

二.优缺点(推荐 sklearn)

a. gensim： corpora生成token，doc2bow生成词袋模型，tfidf_model计算tf-idf，idfs可给出。

未出现的词语idfs等不计算在内，中规中矩的一个模型,可输入list或者文件地址等。

b. jieba：有idf.txt，即计算好的idf，未出现的词语使用平均idf(但对于句子来说,尤其是对单个单词的句子很不友好)。

c. sklearn: CountVectorizer统计词频，TfidfTransformer计算tfidf，csr_matrix数据格式压缩，

可选择n-gram特征，可平滑处理，可选features，选择很多，还是推荐这个吧。

d. by_hand: 手工版可配置, 批量计算词频字典与合并，可在小内存下计算大样本，比如说wikicorpus。

三.实现与最后代码说明

2.1 gensim

# -*- coding: UTF-8 -*-
# !/usr/bin/python
# @time     :2019/7/31 21:20
# @author   :Mo
# @function :

from gensim import corpora, models
import jieba



def tfidf_from_questions(corpora_documents):
    """
        从文件读取并计算tf-idf
    :param sources_path: 
    :return: 
    """
    dictionary = corpora.Dictionary(corpora_documents)
    corpus = [dictionary.doc2bow(text) for text in corpora_documents]
    tfidf_model = models.TfidfModel(corpus)
    return dictionary, tfidf_model


def tfidf_from_corpora(sources_path):
    """
        从文件读取并计算tf-idf
    :param sources_path: 
    :return: 
    """
    from tookit_sihui.utils.file_utils import txt_read, txt_write
    questions = txt_read(sources_path)
    corpora_documents = []
    for item_text in questions:
        item_seg = list(jieba.cut(str(item_text).strip()))
        corpora_documents.append(item_seg)

    dictionary = corpora.Dictionary(corpora_documents)
    corpus = [dictionary.doc2bow(text) for text in corpora_documents]
    tfidf_model = models.TfidfModel(corpus)
    return dictionary, tfidf_model


if __name__ == '__main__':
    # test 1 from questions
    corpora_documents = [['大漠', '帝国'],['紫色', 'Angle'],['花落', '惊', '飞羽'],
                         ['我', 'm', 'o'], ['你', 'the', 'a', 'it', 'this']]
    dictionary, tfidf_model = tfidf_from_questions(corpora_documents)
    sentence = '大漠 大漠 大漠'
    seg = list(jieba.cut(sentence))
    bow = dictionary.doc2bow(seg)
    tfidf_vec = tfidf_model[bow]
    print(bow)
    print(tfidf_vec)
    bow = dictionary.doc2bow(['i', 'i', '大漠', '大漠', '大漠'])
    tfidf_vec = tfidf_model[bow]
    print(bow)
    print(tfidf_vec)

    # test 2 from file of text
    from tookit_sihui.conf.path_config import path_tf_idf_corpus
    dictionary, tfidf_model = tfidf_from_corpora(path_tf_idf_corpus)
    sentence = '大漠帝国'
    seg = list(jieba.cut(sentence))
    bow = dictionary.doc2bow(seg)
    tfidf_vec = tfidf_model[bow]
    print(bow)
    print(tfidf_vec)
    bow = dictionary.doc2bow(['sihui'])
    tfidf_vec = tfidf_model[bow]
    print(bow)
    print(tfidf_vec)
    gg = 0
    # 结果
    # [(12, 1)]
    # [(12, 1.0)]
    # []
    # []
    # [(172, 1), (173, 1)]
    # [(172, 0.7071067811865475), (173, 0.7071067811865475)]
    # []
    # []



# # 说明:
# 1.左边的是字典id,右边是词的tfidf,
# 2.中文版停用词(如the)、单个字母(如i)等，不会去掉
# 3.去除没有被训练到的词,如'sihui',没有出现就不会计算
# 4.计算细节
#   4.1 idf = add + log_{log\_base} \frac{totaldocs}{docfreq}, 如下:
    # eps = 1e-12, idf只取大于eps的数字
    def df2idf(docfreq, totaldocs, log_base=2.0, add=0.0):
        import numpy as np
        # np.log()什么都不写就以e为低, 由公式log(a)(b)=log(c)(b)/log(c)(a),
        # 可得函数中为log(2)(totaldocs / docfreq)
        # debug进去可以发现, 没有进行平滑处理, 即log(2)(文本数 / 词出现在文本中的个数),
        # 这也很好理解, 因为如果输入为[],则不会给出模型,出现的文本中的至少出现一次,也没有必要加1了
        return add + np.log(float(totaldocs) / docfreq) / np.log(log_base)
        # 注意self.initialize(corpus)函数
#   4.2 tf 从下面以及debug结果可以发现, gensim的tf取值是词频,
#          也就是说出现几次就取几次,如句子'大漠 大漠 大漠', '大漠'的tf就取3
#         termid_array, tf_array = [], []
#         for termid, tf in bow:
#             termid_array.append(termid)
#             tf_array.append(tf)
#
#         tf_array = self.wlocal(np.array(tf_array))
#
#         vector = [
#             (termid, tf * self.idfs.get(termid))
#             for termid, tf in zip(termid_array, tf_array)
#             if abs(self.idfs.get(termid, 0.0)) > self.eps
#         ]

2.2 jieba

# -*- coding: UTF-8 -*-
# !/usr/bin/python
# @time     :2019/7/31 21:21
# @author   :Mo
# @function :


import jieba.analyse
import jieba

sentence = '大漠 帝国 和 紫色 Angle'
seg = jieba.cut(sentence)
print(seg)
tf_idf = jieba.analyse.extract_tags(sentence, withWeight=True)
print(tf_idf)

# 结果
# [('Angle', 2.988691875725), ('大漠', 2.36158258893), ('紫色', 2.10190405216), ('帝国', 1.605909794915)]


# 说明,
# 1.1 idf  jieba中的idf来自默认文件idf.txt,
#          idf默认一段话来作为一个docunment,
#          没出现过的词语的idf默认为所有idf的平均值,即为11.多
#
# 1.2 tf   tf只统计当前句子出现的频率除以所有词语数,
#          例如'大漠 帝国 和 紫色 Angle'这句话, '大漠'的tf为1/5
#          tfidf的停用词"和"去掉了
#     tf计算代码
#         freq[w] = freq.get(w, 0.0) + 1.0
#         total = sum(freq.values())
#         for k in freq:
#             kw = k.word if allowPOS and withFlag else k
#             freq[k] *= self.idf_freq.get(kw, self.median_idf) / total

2.3 sklearn

# -*- coding: UTF-8 -*-
# !/usr/bin/python
# @time     :2019/7/31 21:21
# @author   :Mo
# @function :


from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer


def tfidf_from_ngram(questions):
    """
        使用TfidfVectorizer计算n-gram
    :param questions:list, like ['孩子气', '大漠帝国'] 
    :return: 
    """
    from sklearn.feature_extraction.text import TfidfVectorizer
    import jieba
    def jieba_cut(x):
        x = list(jieba.cut(x))
        return ' '.join(x)
    questions = [jieba_cut(''.join(ques)) for ques in questions]
    tfidf_model = TfidfVectorizer(ngram_range=(1, 2), # n-gram特征, 默认(1,1)
                                  max_features=10000,
                                  token_pattern=r"(?u)\b\w+\b", # 过滤停用词
                                  min_df=1,
                                  max_df=0.9,
                                  use_idf=1,
                                  smooth_idf=1,
                                  sublinear_tf=1)
    tfidf_model.fit(questions)
    print(tfidf_model.transform(['紫色 ANGEL 是 虾米 回事']))
    return tfidf_model


if __name__ == "__main__":
    # test 1
    corpora_documents = [['大漠', '帝国'], ['紫色', 'Angle'], ['花落', '惊', '飞羽'],
                         ['我', 'm', 'o'], ['你', 'the', 'a', 'it', 'this'], ['大漠', '大漠']]
    corpora_documents = [''.join(ques) for ques in corpora_documents]
    # 统计词频
    vectorizer = CountVectorizer()
    # 初始化,fit和transformer   tf-idf
    transformer = TfidfTransformer()
    # 第一个fit_transform是计算tf-idf, 第二个是将文本转为词频矩阵
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpora_documents))
    print(tfidf)
    # 模型所有词语
    word = vectorizer.get_feature_names()
    print(word)
    weight = tfidf.toarray()
    print(weight)
    
    
    # test 2 from file of text
    tf_idf_model = tfidf_from_ngram(corpora_documents)
    print(tf_idf_model.transform(['你 谁 呀, 小老弟']))


    #  sklearn的tfidf模型,可以采用TfidfVectorizer,提取n-gram特征,直接用于特征计算
    #  和gensim一样, 都有TfidfVectorizer, 继承的是CountVectorizer
    #             df += int(self.smooth_idf)        # 平滑处理
    #             n_samples += int(self.smooth_idf) # 平滑处理
    #             idf = np.log(n_samples / df) + 1  # 加了个1

2.4 byhand

# -*- coding: UTF-8 -*-
# !/usr/bin/python
# @time     :2019/6/19 21:32
# @author   :Mo
# @function :tf-idf


from tookit_sihui.utils.file_utils import save_json
from tookit_sihui.utils.file_utils import load_json
from tookit_sihui.utils.file_utils import txt_write
from tookit_sihui.utils.file_utils import txt_read
import jieba
import json
import math
import os


from tookit_sihui.conf.logger_config import get_logger_root
logger = get_logger_root()


def count_tf(questions):
    """
      统计字频,或者词频tf
    :param questions: list, 输入语料, 字级别的例子:[['我', '爱', '你'], ['爱', '护', '士']]
    :return: dict, 返回字频,或者词频, 形式:{'我':1, '爱':2} 
    """
    tf_char = {}
    for question in questions:
        for char in question:
            if char.strip():
                if char not in tf_char:
                    tf_char[str(char).encode('utf-8', 'ignore').decode('utf-8')] = 1
                else:
                    tf_char[str(char).encode('utf-8', 'ignore').decode('utf-8')] = tf_char[char] + 1
    tf_char['[LENS]'] = sum([v for k,v in tf_char.items()])
    return tf_char


def count_idf(questions):
    """
      统计逆文档频率idf
    :param questions: list, 输入语料, 字级别的例子:[['我', '爱', '你'], ['爱', '护', '士']]
    :return: dict, 返回逆文档频率, 形式:{'我':1, '爱':2}
    """
    idf_char = {}
    for question in questions:
        question_set = set(question) # 在句子中，重复的只计数一次
        for char in question_set:
            if char.strip(): # ''不统计
                if char not in idf_char: # 第一次计数为1
                    idf_char[char] = 1
                else:
                    idf_char[char] = idf_char[char] + 1
    idf_char['[LENS]'] = len(questions) # 保存一个所有的句子长度
    return idf_char


def count_tf_idf(freq_char, freq_document, ndigits=12, smooth =0):
    """
        统计tf-idf
    :param freq_char: dict, tf
    :param freq_document: dict, idf
    :return: dict, tf-idf
    """

    len_tf = freq_char['[LENS]']
    len_tf_mid = int(len(freq_char)/2)
    len_idf = freq_document['[LENS]']
    len_idf_mid = int(len(freq_document) / 2)
    # tf
    tf_char = {}
    for k2, v2 in freq_char.items():
        tf_char[k2] = round((v2 + smooth)/(len_tf + smooth), ndigits)
    # idf
    idf_char = {}
    for ki, vi in freq_document.items():
        idf_char[ki] = round(math.log((len_idf + smooth) / (vi + smooth), 2), ndigits)
    # tf-idf
    tf_idf_char = {}
    for kti, vti in freq_char.items():
        tf_idf_char[kti] = round(tf_char[kti] * idf_char[kti], ndigits)

    # 删去文档数统计
    tf_char.pop('[LENS]')
    idf_char.pop('[LENS]')
    tf_idf_char.pop('[LENS]')

    # 计算平均/最大/中位数
    tf_char_values = tf_char.values()
    idf_char_values = idf_char.values()
    tf_idf_char_values = tf_idf_char.values()

    tf_char['[AVG]'] = round(sum(tf_char_values) / len_tf, ndigits)
    idf_char['[AVG]'] = round(sum(idf_char_values) / len_idf, ndigits)
    tf_idf_char['[AVG]'] = round(sum(tf_idf_char_values) / len_idf, ndigits)
    tf_char['[MAX]'] = max(tf_char_values)
    idf_char['[MAX]'] = max(idf_char_values)
    tf_idf_char['[MAX]'] = max(tf_idf_char_values)
    tf_char['[MIN]'] = min(tf_char_values)
    idf_char['[MIN]'] = min(idf_char_values)
    tf_idf_char['[MIN]'] = min(tf_idf_char_values)
    tf_char['[MID]'] = sorted(tf_char_values)[len_tf_mid]
    idf_char['[MID]'] = sorted(idf_char_values)[len_idf_mid]
    tf_idf_char['[MID]'] = sorted(tf_idf_char_values)[len_idf_mid]

    return tf_char, idf_char, tf_idf_char


def save_tf_idf_dict(path_dir, tf_char, idf_char, tf_idf_char):
    """
        排序和保存
    :param path_dir:str, 保存文件目录 
    :param tf_char: dict, tf
    :param idf_char: dict, idf
    :param tf_idf_char: dict, tf-idf
    :return: None
    """
    if not os.path.exists(path_dir):
        os.mkdir(path_dir)
    # store and save
    tf_char_sorted = sorted(tf_char.items(), key=lambda d: d[1], reverse=True)
    tf_char_sorted = [tf[0] + '\t' + str(tf[1]) + '\n' for tf in tf_char_sorted]
    txt_write(tf_char_sorted, path_dir + 'tf.txt')

    idf_char_sorted = sorted(idf_char.items(), key=lambda d: d[1], reverse=True)
    idf_char_sorted = [idf[0] + '\t' + str(idf[1]) + '\n' for idf in idf_char_sorted]
    txt_write(idf_char_sorted, path_dir + 'idf.txt')

    tf_idf_char_sorted = sorted(tf_idf_char.items(), key=lambda d: d[1], reverse=True)
    tf_idf_char_sorted = [tf_idf[0] + '\t' + str(tf_idf[1]) + '\n' for tf_idf in tf_idf_char_sorted]
    txt_write(tf_idf_char_sorted, path_dir + 'tf_idf.txt')


def save_tf_idf_json(path_dir, tf_freq, idf_freq, tf_char, idf_char, tf_idf_char):
    """
        json排序和保存
    :param path_dir:str, 保存文件目录 
    :param tf_char: dict, tf
    :param idf_char: dict, idf
    :param tf_idf_char: dict, tf-idf
    :return: None
    """
    if not os.path.exists(path_dir):
        os.mkdir(path_dir)
    # freq
    save_json([tf_freq], path_dir + '/tf_freq.json')
    save_json([idf_freq], path_dir + '/idf_freq.json')
    # json_tf = json.dumps([tf_char])
    save_json([tf_char], path_dir + '/tf.json')
    # json_idf = json.dumps([idf_char])
    save_json([idf_char], path_dir + '/idf.json')
    # json_tf_idf = json.dumps([tf_idf_char])
    save_json([tf_idf_char], path_dir + '/tf_idf.json')


def load_tf_idf_json(path_tf_freq=None, path_idf_freq=None, path_tf=None, path_idf=None, path_tf_idf=None):
    """
        从json文件下载tf, idf, tf_idf
    :param path_tf: 
    :param path_idf: 
    :param path_tf_idf: 
    :return: 
    """
    json_tf_freq = load_json(path_tf_freq)
    json_idf_freq = load_json(path_idf_freq)
    json_tf = load_json(path_tf)
    json_idf = load_json(path_idf)
    json_tf_idf = load_json(path_tf_idf)
    return json_tf_freq[0], json_idf_freq[0], json_tf[0], json_idf[0], json_tf_idf[0]


def dict_add(dict1, dict2):
    """
      两个字典合并
    :param dict1: 
    :param dict2: 
    :return: 
    """
    for i,j in dict2.items():
        if i in dict1.keys():
            dict1[i] += j
        else:
            dict1.update({f'{i}' : dict2[i]})
    return dict1


class TFIDF:
    def __init__(self, questions=None, path_tf=None, 
                 path_idf=None, path_tf_idf=None, 
                 path_tf_freq=None, path_idf_freq=None,
                 ndigits=12, smooth=0):
        """
            统计字频,或者词频tf
        :param questions: list, 输入语料, 字级别的例子:[['我', '爱', '你'], ['爱', '护', '士']]
        """
        self.esplion = 1e-16
        self.questions = questions
        self.path_tf_freq = path_tf_freq
        self.path_idf_freq = path_idf_freq
        self.path_tf=path_tf
        self.path_idf=path_idf
        self.path_tf_idf=path_tf_idf
        self.ndigits=ndigits
        self.smooth=smooth
        self.create_tfidf()

    def create_tfidf(self):
        if self.questions != None: # 输入questions list, 即corpus语料
            self.tf_freq = count_tf(self.questions)
            self.idf_freq = count_idf(self.questions)
            self.tf, self.idf, self.tfidf = count_tf_idf(self.tf_freq, 
                                                         self.idf_freq, 
                                                         ndigits=self.ndigits, 
                                                         smooth =self.smooth)
        else: # 输入训练好的
            self.tf_freq, self.idf_freq, \
            self.tf, self.idf, self.tfidf = load_tf_idf_json(path_tf_freq = self.path_tf_freq,
                                                             path_idf_freq = self.path_idf_freq,
                                                             path_tf=self.path_tf,
                                                             path_idf=self.path_idf,
                                                             path_tf_idf=self.path_tf_idf)
        self.chars = [idf for idf in self.idf.keys()]

    def extract_tfidf_of_sentence(self, ques):
        """
            获取tf-idf
        :param ques: str
        :return: float
        """
        assert type(ques)==str
        if not ques.strip():
            return None
        ques_list = list(jieba.cut(ques.replace(' ', '').strip()))
        logger.info(ques_list)
        score = 0.0
        score_list = {}
        for char in ques_list:
            if char in self.chars:
                score = score + self.tfidf[char]
                score_list[char] = self.tfidf[char]
            else: #
                score = score + self.esplion
                score_list[char] = self.esplion
        score = score/len(ques_list)# 求平均避免句子长度不一的影响
        logger.info(score_list)
        logger.info({ques:score})
        return score

    def extract_tf_of_sentence(self, ques):
        """
            获取idf
        :param ques: str
        :return: float
        """
        assert type(ques)==str
        if not ques.strip():
            return None
        ques_list = list(jieba.cut(ques.replace(' ', '').strip()))
        logger.info(ques_list)
        score = 0.0
        score_list = {}
        for char in ques_list:
            if char in self.chars:
                score = score + self.tf[char]
                score_list[char] = self.tf[char]
            else: #
                score = score + self.esplion
                score_list[char] = self.esplion
        score = score/len(ques_list)# 求平均避免句子长度不一的影响
        logger.info(score_list)
        logger.info({ques:score})
        return score

    def extract_idf_of_sentence(self, ques):
        """
           获取idf
        :param ques: str
        :return: float
        """
        assert type(ques)==str
        if not ques.strip():
            return None
        ques_list = list(jieba.cut(ques.replace(' ', '').strip()))
        logger.info(ques_list)
        score = 0.0
        score_list = {}
        for char in ques_list:
            if char in self.chars:
                score = score + self.idf[char]
                score_list[char] = self.idf[char]
            else: #
                score = score + self.esplion
                score_list[char] = self.esplion
        score = score/len(ques_list) # 求平均避免句子长度不一的影响
        logger.info(score_list)
        logger.info({ques:score})
        return score


def create_TFIDF(path):
    # 测试1,根据corpus生成
    import time
    time_start = time.time()
    # 首先输入全部文本构建tf-idf,然后再拿去用
    from tookit_sihui.conf.path_config import path_tf_idf_corpus
    from tookit_sihui.utils.file_utils import txt_write, txt_read

    path_wiki = path if path else path_tf_idf_corpus
    #  测试1, tf-idf, 调用
    path_dir = 'tf_idf_freq/'
    # ques = ['大漠帝国最强', '花落惊飞羽最漂亮', '紫色Angle最有气质', '孩子气最活泼', '口袋巧克力和过路蜻蜓最好最可爱啦', '历历在目最烦恼']
    # questions = [list(q.strip()) for q in ques]
    # questions = [list(jieba.cut(que)) for que in ques]
    questions = txt_read(path_wiki)
    len_questions = len(questions)
    batch_size = 1000000
    size_trade = len_questions // batch_size
    print(size_trade)
    size_end = size_trade * batch_size
    # 计算tf-freq, idf-freq
    ques_tf_all, ques_idf_all = {}, {}
    for i, (start, end) in enumerate(zip(range(0, size_end, batch_size),
                        range(batch_size, size_end, batch_size))):
        print("第{}次".format(i))
        question = questions[start: end]
        questionss = [ques.strip().split(' ') for ques in question]
        ques_idf = count_idf(questionss)
        ques_tf = count_tf(questionss)
        print('tf_idf_{}: '.format(i) + str(time.time() - time_start))
        # 字典合并 values相加
        ques_tf_all = dict_add(ques_tf_all, ques_tf)
        ques_idf_all = dict_add(ques_idf_all, ques_idf)
        print('dict_add_{}: '.format(i) + str(time.time() - time_start))
        print('的tf:{}'.format(ques_tf_all['的']))
        print('的idf:{}'.format(ques_idf_all['的']))
    # 不足batch-size部分
    if len_questions - size_end >0:
        print("第{}次".format('last'))
        question = questions[size_end: len_questions]
        questionss = [ques.strip().split(' ') for ques in question]
        ques_tf = count_idf(questionss)
        ques_idf = count_tf(questionss)
        # tf_char, idf_char, tf_idf_char = count_tf_idf(ques_tf, ques_idf)
        ques_tf_all = dict_add(ques_tf_all, ques_tf)
        ques_idf_all = dict_add(ques_idf_all, ques_idf)
        print('{}: '.format('last') + str(time.time() - time_start))
        print('的tf:{}'.format(ques_tf_all['的']))
        print('的idf:{}'.format(ques_idf_all['的']))
    # 计算tf-idf
    tf_char, idf_char, tf_idf_char = count_tf_idf(ques_tf_all, ques_idf_all)
    print(len(tf_char))
    print('tf-idf ' + str(time.time()-time_start))
    print('tf-idf ok!')
    # 保存, tf,idf,tf-idf
    save_tf_idf_json(path_dir, ques_tf_all, ques_idf_all, tf_char, idf_char, tf_idf_char)
    gg=0


if __name__=="__main__":
    # 测试1
    path = None # 语料地址, 格式为切分后的句子, 例如'孩子 气 和 紫色 angle'
    create_TFIDF(path)

    # # 测试2, 调用class、json, input预测
    # path_dir = 'tf_idf_freq/'
    # path_tf = path_dir + '/tf.json'
    # path_idf = path_dir + '/idf.json'
    # path_tf_idf = path_dir + '/tf_idf.json'
    #
    # tfidf = TFIDF(path_tf=path_tf, path_idf=path_idf, path_tf_idf=path_tf_idf)
    # score1 = tfidf.extract_tf_of_sentence('大漠帝国')
    # score2 = tfidf.extract_idf_of_sentence('大漠帝国')
    # score3 = tfidf.extract_tfidf_of_sentence('大漠帝国')
    # print('tf: ' + str(score1))
    # print('idf: ' + str(score2))
    # print('tfidf: ' + str(score3))
    # while True:
    #     print("请输入: ")
    #     ques = input()
    #     tfidf_score = tfidf.extract_tfidf_of_sentence(ques)
    #     print('tfidf:' + str(tfidf_score))

希望对你有所帮助!

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
mysql 隐秘后门_【技术分享】CVE-2016-5483：利用mysqldump备份可生成后门 Toby Dai mysql 隐秘后门
预估稿费：100RMB投稿方式：发送邮件至linwei#360.cn，或登陆网页版在线投稿前言mysqldump是用来创建MySQL数据库逻辑备份的一个常用工具。它在默认配置下可以生成一个.sql文件，其中包含创建/删除表和插入数据等。在导入转储文件的时候，攻击者可以通过制造恶意表名来实现任意SQL语句查询和shell命令执行的目的。另一个与之相关的漏洞利用场景可以参考。攻击场景攻击者已经能够访问
【CTF】MISC常用工具集锦/使用方法简介不会代码的小徐 misc 网络安全测试工具
前言#MISC题型多变而且工具繁杂，因此自己花时间整理了一份工具列表，以便日后参考用流畅地阅读这篇博客，你可能需要：Python2.7.18+Python3.8+任何一个更高版本的Python，使用conda管理Linux虚拟机，kali即可流畅访问Google/GitHub等站点的网络通用工具#PuzzleSolver#专为misc手打造的瑞士军刀(?)，整合了多种脚本（base，字频分析，pn
CTF 竞赛密码学方向学习路径规划 David Max CTF 学习笔记密码学 ctf 信息安全
目录计算机科学基础计算机科学概念的引入、兴趣的引导开发环境的配置与常用工具的安装WattToolkit（Steam++）、机场代理Scoop（Windows用户可选）常用Python库SageMathLinux小工具yafuOpenSSLMarkdown编程基础Python其他编程语言、算法与数据结构（可选）数学基础离散数学与抽象代数复杂性分析密码学的正式学习兴趣的培养做题小技巧系统学习需要了解并
Linux系统管理及应用软件实施与运维无敌霸王龙运维 linux 服务器 centos 数据库 mysql
一、引言随着信息技术的迅猛发展，Linux操作系统在企业和个人用户中的应用越来越广泛。Linux以其开放源代码、稳定可靠、安全性高等特点成为许多用户的首选操作系统。而随着Linux应用范围的不断扩大，对于Linux系统管理及应用软件的实施与运维也越来越受到重视。本文将介绍Linux系统管理的基本概念、常用工具及技术，以及针对不同应用场景下的实施与运维策略。通过对Linux系统管理的深入理解，可以帮
Percona-toolkit工具详解小一_d28d
1.pt工具安装[root@master~]#yuminstall-ypercona-toolkit-3.1.0-2.el7.x86_64.rpm2.常用工具使用介绍2.1pt-archiver归档表#重要参数--limit100每次取100行数据用pt-archive处理--txn-size100设置100行为一个事务提交一次，--where'id>/root/db/checksum.logpt
第三章 Mybatis 常用工具 flying jiang MyBatis 3源码深度解析 mybatis
ScriptRunnerSqlRunnerScriptRunner和SqlRunner这两个术语通常不是特定于某个数据库或编程语言的内置工具或类，但它们描述了一类在软件开发中常用的工具或库的功能，这些工具或库用于执行SQL脚本或查询。这些工具可以大大简化数据库管理、数据迁移、测试以及自动化任务中的数据库交互。ScriptRunnerScriptRunner通常指的是一个能够执行SQL脚本文件的工具
python测试开发基础---multiprocessing.Pool 面包会有的，牛奶也会有的。 python 开发语言
1.基础概念多进程编程：Python中的multiprocessing模块允许你使用多个进程并行执行任务，这可以提高程序的性能，尤其是在需要大量计算的情况下。Pool类是一个常用工具，可以帮助你更轻松地管理多个进程。进程池：进程池是一个包含多个工作进程的池子，用来处理多个任务。你可以将任务分配给池中的进程，池会自动管理这些进程。2.使用方法以下是multiprocessing.Pool的几个关键方
BubbleUtils贝塞尔曲线常用工具类 Peakmain
publicclassBubbleUtils{/***dip转换成px**@paramdip*@paramcontext*@return*/publicstaticintdip2px(floatdip,Contextcontext){DisplayMetricsdisplayMetrics=context.getResources().getDisplayMetrics();return(int)
jenkins+docker实现可持续自动化部署springboot项目小码农叔叔 linux与容器实战持续集成微服务治理与实战 jenkins+docker jenkins实现可持续集成 jenkins集成docker
目录一、前言二、微服务带来的挑战2.1微服务有哪些问题2.2微服务给运维带来的挑战三、可持续集成与交付概述3.1可持续集成与交付概念3.1.1持续集成3.1.2持续交付3.1.3可持续集成与交付核心理念3.2可持续集成优点3.3微服务为什么需要可持续集成四、可持续集成方案4.1可持续集成常用工具4.2常用可持续集成方案4.3jenkins介绍五、环境准备5.1部署架构与流程5.2服务器准备5.3搭
JS常用工具函数 qq_41068783 javascript 开发语言 ecmascript
日期格式化formatAllDate(param1,DateType,param2){//当formatDateType=1时候，将数据库得到的时间字符串改为date类型MonFeb26201800:00:00GMT+0800(中国标准时间)(20180215125959|formatAllDate(1))if(!param1){return'';}if(param1==='0'){return'
Linux网络性能常用工具指标安顾里 linux 网络性能优化
性能指标：带宽，表示链路的最大传输速率，单位通常为b/s（比特/秒）。吞吐量，表示单位时间内成功传输的数据量，单位通常为b/s（比特/秒）或者B/s（字节/秒）。吞吐量受带宽限制，而吞吐量/带宽，也就是该网络的使用率。延时，表示从网络请求发出后，一直到收到远端响应，所需要的时间延迟。在不同场景中，这一指标可能会有不同含义。比如，它可以表示，建立连接需要的时间（比如TCP握手延时），或一个数据包往返
JVM性能调优监控工具jps、jstack、jmap、jhat、jstat使用详解 web718 Java
JDK本身提供了很多方便的JVM性能调优监控工具，除了集成式的VisualVM和jConsole外，还有jps、jstack、jmap、jhat、jstat等小巧的工具，本博客希望能起抛砖引玉之用，让大家能开始对JVM性能调优的常用工具有所了解。现实企业级Java开发中，有时候我们会碰到下面这些问题：OutOfMemoryError，内存不足内存泄露线程死锁锁争用（LockContention）J
五维突破Twenty-Eight|学生创造策略单墨香雪Silvia
这是我参与勇气读书会打卡第116天阅读书目:《五维突破:互联网＋教育》阅读章节:第五维度:学生创造【学生创造策略单】读书笔记分享:杨晓哲博士在本小节为我们介绍了几个学生在学习过程中使用的软件、网站和工具的典型类别，我们可以看到学生正在开启一种不一样的学习方式。(1)常用工具类1.Wiki百科或百度百科这两个平台涵盖了各个领域的信息，可以说无所不能、无所不包。百科强调用户的参与和奉献精神，调动了互联
java篇常用工具类 0x03：Iterator 与 Iterable 接口 Kevin骑熊猫打老虎 java java
文章目录Iterator接口Iterable接口手动实现Iterable接口示例Iterator接口Iterator接口在java.util包中。实现了Iterator接口的类就可以支持遍历操作。publicinterfaceIterator{//只需要关注到这两个抽象方法booleanhasNext();//还有没有下一个元素Enext();//返回下一个元素}Iterable接口Iterabl
机器学习先导课《数值分析》（1）——绪论及误差分析 WarrenRyan
数值分析——绪论及误差分析数值分析——绪论及误差分析全文目录数值分析的作用及其学习工具使用数值分析常用工具数值分析的具体实例（多项式简化求值）计算机数值误差产生机理计算机的数值存储方式计算机误差产生原因误差误差限与精度模型误差观测误差截断误差舍入误差有效数字缺失误差的产生和避免误差的传播算法设计的稳定性与病态条件病态问题计算的稳定性练习题ReferenceAboutMe联系方式全文目录（博客园）机
#每天一本书+一页笔记# 907《画笔记》 May终身阅读者
#一生一万本计划#10000/907【阅读日期】20200909【书名】画笔记【作者】一休【关键词】视觉笔记学习指南【分类】思维，视觉笔记【简评】作者是认证视觉引导师，原迅雷资深设计师，曾为多家民企定制视觉类课程。本书系统介绍视觉笔记从0开始的方法、步骤，以及日常应用、常用工具、常见问题等。全书图例丰富，逻辑清晰，易读易学，是一本全面又有深度的视觉笔记学习指南，排版美观，阅读体验较好。推荐阅读。【
20个必不可少的Python第三方库（存干货分享）！ Python派小星 Python python 编程语言
读者您好。今天我将介绍20个属于我常用工具的Python库，我相信你看完之后也会觉得离不开它们。他们是：Requests.KennethReitz写的最富盛名的http库。每个Python程序员都应该有它。Scrapy.如果你从事爬虫相关的工作，那么这个库也是必不可少的。用过它之后你就不会再想用别的同类库了。wxPython.Python的一个GUI（图形用户界面）工具。我主要用它替代tkinte
链路追踪及其常用工具沉墨的夜链路追踪 java 分布式微服务
简介链路追踪（distributedtracing）是指通过记录分布式系统中各个组件之间的调用和传输信息的过程，来跟踪和分析请求在系统中的运行情况和性能问题的技术。在分布式系统中，一次请求可能涉及多个微服务的协同工作，链路追踪能够帮助我们更好地了解整个请求的流程，诊断问题、优化性能。链路追踪的核心思想是将请求的跟踪信息在整个请求链路中传递，这样可以将请求的调用过程串联起来，形成一个完整的请求链路，
为何Java抽象类是代码架构的基石？良月柒 Java java 架构开发语言
效率工具推荐一个程序员的常用工具网站，效率加倍嘎嘎好用：程序员常用工具云服务器云服务器限时免费领：轻量服务器2核4G腾讯云：2核2G4M云服务器新老同享99元/年，续费同价阿里云：2核2G3M的ECS服务器只需99元/年，续费同价为何Java抽象类是代码架构的基石？Java抽象类是面向对象编程中的重要概念，对于构建灵活、可维护的代码架构至关重要。在现代软件开发中，抽象类被广泛应用于设计模式、框架开
Java常用工具方法及工具类 tansci Java util
在平时开发中遇到的各种格式化工具类，整理还在继续中......目录二、数值类型保留小数点三、List去重方式四、使用AES加解密五、数字的加、减、乘、除操作六、Map转实体类七、获取周或月的开始&结束日期八、Java8日期时间类（LocalDate）九、判断是否是数字字符串一、时间工具类字符串时间格式后返回字符串返回某个时间段内的时分整点时间段packagecom.example.demo.dat
在Linux/Ubuntu/Debian中测试USB驱动器(U盘)的速度理工男老K linux ubuntu debian
如果你想测试USB驱动器的速度，可以使用各种工具和命令来测量读写速度。用于此目的的一个常用工具是“dd”。以下是如何使用“dd”执行简单的速度测试：测试写入速度：打开终端。使用以下命令将测试文件写入USB驱动器：ddif=/dev/zeroof=/media/su/SharedDisk/testfilebs=1Mcount=100if=/dev/zero：输入文件是零流（虚拟零填充文件）。of=/
微服务架构 | 服务稳定性治理问仙长何方蓬莱微服务
INDEX§1目的§2常见手段§3熔断&降级§4限流&舱闭§1目的§2常见手段熔断降级隔离（限流/舱闭）热点鉴权动态开关§3熔断&降级§4限流&舱闭常用工具hystrixsentinelresilience4j常用限流算法令牌桶漏桶固定窗口滑动窗口
pytorch 介绍以及常用工具包展示 R0ot pytorch 人工智能 python
1.引言1.1背景：神经网络和深度学习的崛起介绍神经网络和深度学习在计算机科学和人工智能中的重要性。1.2PyTorch简介：张量计算框架的演进回顾PyTorch作为张量计算框架的发展历程。强调其灵活性、动态计算图和深度学习社区的支持。2.PyTorch基础2.1张量：PyTorch的核心数据结构创建和操作张量的基本操作，如加法、乘法等。张量的自动微分功能，介绍autograd模块。2.2动态计算
办公记事常用工具：桌面记事本助你高效记事 lee54621 记事本电脑软件智能手机
在繁忙的办公环境中，我常常感到自己的大脑像是一个不停旋转的陀螺，各种待办事项、会议安排和灵感想法在脑海中交织，仿佛随时都要迸发出来。然而，只靠人脑记忆，不仅辛苦，而且容易出错。在这样的背景下，高效记事显得尤为重要。想象一下，如果记事软件能像贴心的助手一样，随时记录你的所思所想，提醒你即将到来的重要事务，那该是多么美妙的事情！而敬业签就是这样一款桌面记事本，它以其独特的功能和便捷性，成为了我办公记事
前端新手Vue3+Vite+Ts+Pinia+Sass项目指北系列文章 —— 第十二章常用工具函数 (Utils配置) SmallTeddy 前端新手项目指北系列文章前端 sass rust
前言在项目开发中，我们经常会使用一些工具函数，也经常会用到例如loadsh等工具库，但是这些工具库的体积往往比较大，如果项目本身已经引入了这些工具库，那么我们就没有必要再引入一次，所以我们需要自己封装一些工具函数，来简化我们的开发。一、通用类工具函数在src/utils目录下创建tools文件夹，用于存放通用类工具函数文件。在tools文件下创建index.ts文件import{ElMessage
QGIS004:【10栅格地形分析工具箱】-坡度、坡向、山体阴影 qq_31762031 004-QGIS软件入门教程 QGIS坡度分析 QGIS坡向分析 QGIS山体阴影分析
摘要：QGIS栅格地形分析工具箱常用工具有坡度、坡向、山体阴影等选项，本文介绍各选项的基本操作。实验数据：链接：https://pan.baidu.com/s/1gYZ_om4AlSdal0bts2mt-A?pwd=4rrn提取码：4rrn一、坡度工具功能：该算法从输入栅格图层计算地形的倾斜角度，坡度以度为单位表示。操作步骤：展开栅格地形分析工具箱，双击坡度工具，选择高程图层和结果图层输出路径，点
QGIS004:【09网络分析工具箱】-点到点、点到图层、图层到点 qq_31762031 004-QGIS软件入门教程 QGIS点到点工具 QGIS点到图层工具 QGIS图层到点工具 QGIS路径分析
摘要：QGIS网络分析工具箱常用工具有点到点、点到图层、图层到点等选项，本文介绍各选项的基本操作。实验数据：链接：https://pan.baidu.com/s/1EkmqaSuwir8-5DsQrhTEtQ?pwd=paak提取码：paak一、点到点工具功能：该算法计算给定起点和终点之间的最佳（最短或最快）路径。操作步骤：展开网络分析工具箱，双击最短路径（点到点）工具，输入路径图层，选择计算路径
蓝队应急响应工具箱v2024.1 知攻善防实验室网络安全信息安全渗透测试应急响应网络空间安全黑客攻击安全
1蓝队工具箱v2024.12简介蓝队工具箱是为打造一款专业级应急响应的集成多种工具的工具集，由真实应急响应环境所用到的工具进行总结打包而来，由ChinaRan404,W啥都学,清辉等开发者编写.把项目现场中所用到的工具连同环境一同打包，并实现“可移植性”“兼容性”“使用便捷”等优点。集成模块：“常用工具”,“流量分析”,“应急响应”,“日志分析”,“逆向分析”,“检测规则”,“上传应急”,“蓝队思
CentOS7常用工具包安装落_caec
CentOS7常用工具包安装环境：CentOS7.9工具：Xshell71.wget下载工具yum-yinstallwget2.gcc(nginx之类由c语言开发的，编译的时候需要用到)yum-yinstallgccgcc-c++3.PCRE(Perl库，包括perl兼容的正则表达式库)yum-yinstallpcrepcre-devel4.zlib(zlib库提供了很多种压缩和解压缩的方式)yu
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

TF-IDF计算比较compare（gensim、jieba、sklearn、手工的异同）

你可能感兴趣的:(常用工具toolikt)