唐僧爱吃唐僧肉

python extract_convert.py对应代码解读抽取式提取+生成式提取摘要代码解读------摘要代码解读1

pytorch动态调整学习率

抽取式生成的代码
- convert数据转化的过程
- 进入extract_convert.py中的extract_flow函数内容
- 查看text_split函数的文本切割过程
- snippets.py之中的text_segmentate函数的调用
- 回到extract_convert.py的text_segmentate函数之中的内容
- 进入extract_convert.py中的extract_matching函数内容
- snippets.py之中查看compute_metrics函数的内容
- snippets.py之中查看compute_rouge函数内容
- 法研杯摘要学习snippets.py中compute_main_metrics函数中的调用部分
- sinppets.py之中compute_metrics函数调用过程
- sinppets.py之中的compute_rouge函数内容
- 回到extract_convert.py之中的extract_convert.py的函数内容
- extract_convert.py中extract_matching函数递归操作实现
- extract_convert.py之中的extract_flow函数调用的操作
- 回到extract_convert.py之中的convert函数中来
- 回到extract_convert.py的main函数之中继续进行调查
- 总结

抽取式生成的代码

最近拜读了苏大佬抽取式生成的代码，收获颇丰，这里解析一下对应内容
对应的github项目地址：
https://github.com/bojone/SPACES
苏大佬讲解的内容
https://spaces.ac.cn/archives/8046
首先输入数据的格式：

{"id": "5cec68aadcbea086a5b4b6eccb58a88f", "summary": "原告与被告侵权责任纠纷一案。原告提出诉求：判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、残疾赔偿金、精神损害抚慰金、后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。被告辩称两被告对此不予认可，称两被告与涉案店铺没有关系，并未租用该店铺。经查明原告系受案外人粟顺良指示在涉案店铺进行装修，其主张两被告未尽到管理责任，但并未能提供充分的证据证明涉案商铺与两被告的关系，亦未能证实两被告存在过错行为且与原告受伤的结果之间有因果联系。根据《中华人民共和国民事诉讼法》第六十四条第一款、《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，判决：驳回原告全部诉讼请求。", 
"text": [{"sentence": "唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书", "label": 1},
 {"sentence": "广东省深圳市宝安区人民法院", "label": 0}, {"sentence": "民 事 判 决 书", "label": 0}, {"sentence": "（2017）粤0306民初3474号", "label": 0}, 
 {"sentence": "原告唐鲜明", "label": 0}, {"sentence": "委托代理人孙光扬，泽丰（深圳）律师事务所律师。", "label": 0}, {"sentence": "被告何伟华", "label": 0}, 
 {"sentence": "被告深圳市华名威电汽车服务有限公司。", "label": 0}, {"sentence": "法定代表人何伟华。", "label": 0}, {"sentence": "两被告共同委托代理人刘征，广东同观律师事务所律师。", "label": 0}, {"sentence": "上列原告唐鲜明诉被告何伟华、深圳市华名威电汽车服务有限公司（以下简称华名威公司）侵权责任纠纷一案，原告诉请：1、判决被告赔偿原告163755.57元，赔偿明细如下：医疗费27086.37元、住院伙食补助费2500元、营养费4000元、护理费4598元、误工费26851元、残疾赔偿金46677.20元、精神损害抚慰金20000元、后续治疗费10000元、被抚养人生活费7787+9456元、交通费2000元、住宿费1000元、鉴定费1800元；", "label": 1}, {"sentence": "2、案件受理费等由被告承担。", "label": 1}, 
 ............
{"sentence": "5、住院期间留一人陪护。", "label": 0}, {"sentence": "2015年3月16日，广东南天司法鉴定所作出粤南(2015)临鉴字第817号《司法鉴定意见书》，鉴定意见为被鉴定人唐鲜明的伤残等级为玖级。", "label": 0}, 
{"sentence": "原告为此支付鉴定费1800元。", "label": 0}, {"sentence": "另，关于原告家庭情况，原告主张其无子女，兄弟三人，原告父亲唐近祥1948年12月16日出生，母亲李解英1951年10月18日出生，均为农业户口。", "label": 0}, 
{"sentence": "判决结果", "label": 0}, {"sentence": "本院认为，原告系受案外人粟顺良指示在涉案店铺进行装修，其主张两被告未尽到管理责任，但并未能提供充分的证据证明涉案商铺与两被告的关系，亦未能证实两被告存在过错行为且与原告受伤的结果之间有因果联系，故原告应承担举证不能的法律后果，对原告的诉讼请求，本院均不予支持。", "label": 1}, 
{"sentence": "综上，依照《中华人民共和国民事诉讼法》第六十四条第一款、《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，判决如下：", "label": 1}, {"sentence": "驳回原告唐鲜明的全部诉讼请求。", "label": 1}, {"sentence": "案件受理费3575.12元，由原告唐鲜明负担。", "label": 1}, 
{"sentence": "如不服本判决，可在判决书送达之日起十五日内，向本院递交上诉状，并按对方当事人的人数提出副本，上诉于广东省深圳市中级人民法院。", "label": 0}, {"sentence": "审　判　长　赵　 曼　 琪", "label": 0}, {"sentence": "人民陪审员　陈　 初　 瑛", "label": 0}, 
{"sentence": "人民陪审员　王　 嘉　 义", "label": 0}, {"sentence": "二〇一七年十二月二十七日", "label": 0}, {"sentence": "书　记　员　高美琪（兼）", "label": 0}, 
{"sentence": "书　记　员　文　 英　 玲", "label": 0}, {"sentence": "附本案相关法律条文如下：", "label": 0}, {"sentence": "《中华人民共和国民事诉讼法》", "label": 0}, 
{"sentence": "第六十四条第一款当事人对自己提出的主张，有责任提供证据。", "label": 0}, {"sentence": "《最高人民法院关于民事诉讼证据的若干规定》", "label": 0}, 
{"sentence": "第二条当事人对自己提出的诉讼请求所依据的事实或者反驳对方诉讼请求所依据的事实有责任提供证据加以证明。", "label": 0}, {"sentence": "没有证据或者证据不足以证明当事人的事实主张的，由负有举证责任的当事人承担不利后果。", "label": 0}]}

可以看出这里有对应的text，由许多的sentence组成，同时也有对应的label。
接着进行载入数据

data = load_data(data_json)

加载完成之后得到的data

data1 = 
('唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书\n广东省深圳市宝安区人民法院\n民 事 判 决 书\n
（2017）粤0306民初3474号\n原告唐鲜明\n委托代理人孙光扬，泽丰（深圳）律师事务所律师。\n
被告何伟华\n被告深圳市华名威电汽车服务有限公司。\n法定代表人何伟华。\n两被告共同委托代理人刘征，广东同观律师事务所律师。\n
......
根据《中华人民共和国民事诉讼法》第六十四条第一款、《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，判决：驳回原告全部诉讼请求。')

每一句中间用\n进行隔开，这样组装成一个对应的句子
接着进行数据转换操作：

data = convert(data)

获得对应的data

data2 = 
(['唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书', '1、判决被告赔偿原告163755.57元，', 
'赔偿明细如下：', '医疗费27086.37元、住院伙食补助费2500元、营养费4000元、护理费4598元、误工费26851元、残疾赔偿金46677.20元、
精神损害抚慰金20000元、后续治疗费10000元、被抚养人生活费7787+9456元、交通费2000元、住宿费1000元、鉴定费1800元；', 
'2、案件受理费等由被告承担。', '本院受理后，', '依法适用普通程序，', '公开开庭进行了审理。', '原告唐鲜明及其委托代理人孙光扬，',
'两被告共同委托代理人刘征到庭参加了诉讼。', '由负有举证责任的当事人承担不利后果。'], 
[12, 13, 16, 37, 38, 39, 73, 74, 75, 76, 81, 82, 83], 
'原告与被告侵权责任纠纷一案。原告提出诉求：判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、残疾赔偿金、精神损害抚慰金、
后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。被告辩称两被告对此不予认可，称两被告与涉案店铺没有关系，并未租用该店铺。
经查明原告系受案外人粟顺良指示在涉案店铺进行装修，其主张两被告未尽到管理责任，但并未能提供充分的证据证明涉案商铺与两被告的关系《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，判决：驳回原告全部诉讼请求。')

这里进入convert(data)之中查看具体的数据转换环节

convert数据转化的过程

def convert(data):
    """分句，并转换为抽取式摘要
    """
    D = parallel_apply(
        func=extract_flow,
        iterable=tqdm(data, desc=u'转换数据'),
        workers=100,
        max_queue_size=200
    )
    total_metric = sum([d[3] for d in D])
    D = [d[:3] for d in D]
    print(u'抽取结果的平均指标: %s' % (total_metric / len(D)))
    return D

这里并行转换为遍历读取相应的数据

def convert(data):
    """分句，并转换为抽取式摘要
    """
    for data1 in data:
        print('data1 = ')
        print(data1)
        result1 = extract_flow(data1)
        print('result1 = ')
        print(result1)
        break
    total_metric = sum([d[3] for d in D])
    D = [d[:3] for d in D]
    print(u'抽取结果的平均指标: %s' % (total_metric / len(D)))
    return D

这里对应的data1的内容为

data1 = 
('唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书\n
广东省深圳市宝安区人民法院\n民 事 判 决 书\n（2017）粤0306民初3474号\n
......
根据《中华人民共和国民事诉讼法》第六十四条第一款、《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，判决：驳回原告全部诉讼请求。')

进入到extract_flow函数之中去

result1 = extract_flow(data1)

进入extract_convert.py中的extract_flow函数内容

查看extract_flow函数

def extract_flow(inputs):
    """单个样本的构建流（给parallel_apply用）
    """
    text, summary = inputs
    texts = text_split(text, True)  # 取后maxlen句
    summaries = text_split(summary, False)
    mapping = extract_matching(texts, summaries)
    #!!!extract_matching抽取关键!!!看上面的extract_matching函数的注释
    labels = sorted(set([i[1] for i in mapping]))
    pred_summary = ''.join([texts[i] for i in labels])
    metric = compute_main_metric(pred_summary, summary)
    return texts, labels, summary, metric

查看text_split函数的文本切割过程

def text_split(text, limited=True):
    """将长句按照标点分割为多个子句。
    """
    texts = text_segmentate(text, 1, u'\n。；：，')
    if limited:
        texts = texts[-maxlen:]
    return texts

首先看开头的切割部分

texts = text_segmentate(text,1,u'\n。；：，')

这里这段是将句子切分开，这里我从snippets.py之中调用出text_segmentate函数的内容

snippets.py之中的text_segmentate函数的调用

def text_segmentate(text, maxlen, seps='\n', strips=None):
    """将文本按照标点符号划分为若干个短句
    """
    text = text.strip().strip(strips)
    if seps and len(text) > maxlen:
        pieces = text.split(seps[0])
        text, texts = '', []
        for i, p in enumerate(pieces):
            if text and p and len(text) + len(p) > maxlen - 1:
                texts.extend(text_segmentate(text, maxlen, seps[1:], strips))
                text = ''
            if i + 1 == len(pieces):
                text = text + p
            else:
                text = text + p + seps[0]
        if text:
            texts.extend(text_segmentate(text, maxlen, seps[1:], strips))
        return texts
    else:
        return [text]

回到extract_convert.py的text_segmentate函数之中的内容

首先进行切分

texts = text_segmentate(text, 1, u'\n。；：，')

这里在调用text_segmentate函数，本质上是使用换行、分号、冒号、逗号、句号进行分割。
切分之前内容

texts = 
原告与被告侵权责任纠纷一案。
原告提出诉求：判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、残疾赔偿金、精神损害抚慰金、后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。被告辩称两被告对此不予认可，称两被告与涉案店铺没有关系，并未租用该店铺。
经查明原告系受案外人粟顺良指示在涉案店铺进行装修，其主张两被告未尽到管理责任，但并未能提供充分的证据证明涉案商铺与两被告的关系，亦未能证实两被告存在过错行为且与原告受伤的结果之间有因果联系。
根据《中华人民共和国民事诉讼法》第六十四条第一款、《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，判决：驳回原告全部诉讼请求。

切分完之后的内容

['原告与被告侵权责任纠纷一案。', '原告提出诉求：', '判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、残疾赔偿金、精神损害抚慰金、后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。', '被告辩称两被告对此不予认可，', '称两被告与涉案店铺没有关系，', '并未租用该店铺。', '经查明原告系受案外人粟顺良指示在涉案店铺进行装修，', '其主张两被告未尽到管理责任，', '但并未能提供充分的证据证明涉案商铺与两被告的关系，', '亦未能证实两被告存在过错行为且与原告受伤的结果之间有因果联系。', '根据《中华人民共和国民事诉讼法》第六十四条第一款、《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，', '判决：', '驳回原告全部诉讼请求。']

注意：这里的-maxlen意思为取出最后面的maxlen个对应的数值

texts = texts[-maxlen:]

进入extract_convert.py中的extract_matching函数内容

def extract_matching(texts, summaries, start_i=0, start_j=0):
    """在texts中找若干句子，使得它们连起来与summaries尽可能相似
    算法：texts和summaries都分句，然后找出summaries最长的句子，在texts
          中找与之最相似的句子作为匹配，剩下部分递归执行。
    """
    print('extract_matching')
    if len(texts) == 0 or len(summaries) == 0:
        return []
    r"""
    texts = ['唐鲜明与何伟华、深圳市华名威电汽车服务有限公司
    ......
    '由负有举证责任的当事人承担不利后果。']
    $$$summaries = $$$
    ['原告与被告侵权责任纠纷一案。', '原告提出诉求：', 
     ......
     '驳回原告全部诉讼请求。']
    i = 2,这里的summaries之中i = 2对应的长度是最长的
    """
    i = np.argmax([len(s) for s in summaries])
    print('i = ')
    print(i)
    j = np.argmax([compute_main_metric(t, summaries[i], 'char') for t in texts])
    print('j = ')
    print(j)
    lm = extract_matching(texts[:j + 1], summaries[:i], start_i, start_j)
    rm = extract_matching(
        texts[j:], summaries[i + 1:], start_i + i + 1, start_j + j
    )
    return lm + [(start_i + i, start_j + j)] + rm

这里首先调用判断summaries最长的语句
注意调用的为summaries之中的最长语句的内容

i = np.argmax([len(s) for s in summaries])

得到对应的i = 2，这里代表对应的summaries之中

summaries = 
['原告与被告侵权责任纠纷一案。', '原告提出诉求：', 
'判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、
残疾赔偿金、精神损害抚慰金、后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。', 
......
'判决：', '驳回原告全部诉讼请求。']

第二个序列的句子

'判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、
残疾赔偿金、精神损害抚慰金、后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。'

长度是最长的
接下来调用相应的

j = np.argmax([compute_main_metric(t, summaries[i], 'char') for t in texts])

这里对于每个texts中的内容，调用compute_main_metric函数进行计算
上面筛选出来了最长的长度为summaries[i]，这里判断每一个texts之中的内容和summaries[i]的主要间隔
也就是说这里计算的是summaries之中的最长句子和texts之中的每个句子的内容构成的main_metric的最长长度

snippets.py之中查看compute_metrics函数的内容

def compute_metrics(source, target, unit='word'):
    """计算所有metrics
    """
    metrics = compute_rouge(source, target, unit)
    metrics['main'] = (
        metrics['rouge-1'] * 0.2 + metrics['rouge-2'] * 0.4 + metrics['rouge-l'] * 0.4
    )
    return metrics

def compute_main_metric(source, target, unit='word'):
    """计算主要metric
    """
    return compute_metrics(source, target, unit)['main']

snippets.py之中查看compute_rouge函数内容

def compute_rouge(source, target, unit='word'):
    """计算rouge-1、rouge-2、rouge-l
    """
    if unit == 'word':
        source = jieba.cut(source, HMM=False)
        target = jieba.cut(target, HMM=False)
    source, target = ' '.join(source), ' '.join(target)
    try:
        scores = rouge.get_scores(hyps=source, refs=target)
        return {
            'rouge-1': scores[0]['rouge-1']['f'],
            'rouge-2': scores[0]['rouge-2']['f'],
            'rouge-l': scores[0]['rouge-l']['f'],
        }
    except ValueError:
        return {
            'rouge-1': 0.0,
            'rouge-2': 0.0,
            'rouge-l': 0.0,
        }

由于上文找出来的summaries之中的最长长度为第二个索引，所以这里将第二个索引提取出来，依次将对应的文本中的内容和摘要列表之中的内容进行比较

j = np.argmax([compute_main_metric(t,summaries[i],'char') for t in texts])

判决被告赔偿原告医疗费、住院伙食补助费、
营养费、护理费、误工费、残疾赔偿金、精神损害抚慰金、
后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。

法研杯摘要学习snippets.py中compute_main_metrics函数中的调用部分

def compute_main_metric(source, target, unit='word'):
    """计算主要metric
    """
    return compute_metrics(source, target, unit)['main']

sinppets.py之中compute_metrics函数调用过程

接下来进入compute_metrics函数调用过程

def compute_metrics(source, target, unit='word'):
    """计算所有metrics
    """
    print('compute_metrics')
    print('source = ')
    print(source)
    print('target = ')
    print(target)
    metrics = compute_rouge(source, target, unit)
    print('metrics = ')
    print(metrics)
    metrics['main'] = (
        metrics['rouge-1'] * 0.2 + metrics['rouge-2'] * 0.4 +
        metrics['rouge-l'] * 0.4
    )
    print('new metrics = ')
    print(metrics)
    print('**************')
    return metrics

示例之中，我们采用

source = 
唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书
target = 
判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、残疾赔偿金、精神损害抚慰金、后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。

进入到snippets.py之中的compute_rouge之中

sinppets.py之中的compute_rouge函数内容

def compute_rouge(source, target, unit='word'):
    """计算rouge-1、rouge-2、rouge-l
    """
    if unit == 'word':
        source = jieba.cut(source, HMM=False)
        target = jieba.cut(target, HMM=False)
    source, target = ' '.join(source), ' '.join(target)
    try:
        scores = rouge.get_scores(hyps=source, refs=target)
        return {
            'rouge-1': scores[0]['rouge-1']['f'],
            'rouge-2': scores[0]['rouge-2']['f'],
            'rouge-l': scores[0]['rouge-l']['f'],
        }
    except ValueError:
        return {
            'rouge-1': 0.0,
            'rouge-2': 0.0,
            'rouge-l': 0.0,
        }

这里的调用过程首先需要切分对应的单词内容

source = jieba.cut(source,HMM=False)
target = jieba.cut(target,HMM=False)

这里HMM调用的参数为是否开启HMM进行中文分词
然后进行分词之后的拼接并计算相应的分数内容

source = 
唐 鲜 明 与 何 伟 华 、 深 圳 市 华 名 威 电 汽 车 服 务 有 限 公 司 侵 权 责 任 纠 纷 一 审 民 事 判 决 书
target = 
判 决 被 告 赔 偿 原 告 医 疗 费 、 住 院 伙 食 补 助 费 、 营 养 费 、 护 理 费 、 误 工 费 、 残 疾 赔 偿 金 、 精 神 损 害 抚 慰 金 、 后 续 治 疗 费 、 被 抚 养 人 生 活 费 、 交 通 费 、 住 宿 费 、 鉴 定 费 。

计算分数时候调用相应的计算分数的包

try:
    scores = rouge.get_scores(hyps=source, refs=target)
    return {
        'rouge-1': scores[0]['rouge-1']['f'],
        'rouge-2': scores[0]['rouge-2']['f'],
        'rouge-l': scores[0]['rouge-l']['f'],
    }
except ValueError:
    return {
        'rouge-1': 0.0,
        'rouge-2': 0.0,
        'rouge-l': 0.0,
    }

rouge基于摘要中n元词的共现来评价摘要，rouge准则由一系列评价方法组成，包括rouge-N(N=1,2,3)，
比如由机器产生的句子

the cat was found under the bed

与由人工产生的句子

the cat was under the bed

计算最终结果的时候

rouge1_recall = 6/6 = 1.0
rouge1_precision = 6/7

召回率看这个句子之中有几个被预测出来的，准确率也看这个句子之中有几个被预测出来的。
召回率
$\frac{机器生成的词以及人工生成的词}{机器生成的词}$
准确率
$\frac{机器生成的词以及人工生成的词}{机器生成的词}$
最终综合得分综合考虑Recall分数和Precision分数的指标

metrics['main'] = (
    metrics['rouge-1'] * 0.2 + metrics['rouge-2'] * 0.4 +
    metrics['rouge-l'] * 0.4
)

回到extract_convert.py之中的extract_convert.py的函数内容

i = np.argmax([len(s) for s in summaries])
j = np.argmax([compute_main_metric(t,summaries[i],'char') for t in texts])

這里的取出summaries中最長的len(s)，之後找到與這個summaries匹配最好的t
np.argmax用于返回一个numpy数组中最大值的索引值，当一组中同时出现几个最大值时，返回第一个最大值的索引值。这里切分的过程是按照最大索引值进行切割。
目前得到的這一波的匹配結果

i = 2
j = 16
texts[j] = 
医疗费27086.37元、住院伙食补助费2500元、营养费4000元、护理费4598元、误工费26851元、残疾赔偿金46677.20元、精神损害抚慰金20000元、后续治疗费10000元、被抚养人生活费7787+9456元、交通费2000元、住宿费1000元、鉴定费1800元；
-----------
summaries[i] = 
判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、残疾赔偿金、精神损害抚慰金、后续治疗费、被抚养人生活费、交通费、住宿费、鉴定费。

extract_convert.py中extract_matching函数递归操作实现

进入到开始递归的操作

lm = extract_matching(texts[:j + 1], summaries[:i], start_i, start_j)

这里输入的递归的第一个部分

texts[:j+1] = 
['唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书', '广东省深圳市宝安区人民法院', '民 事 判 决 书', '（2017）粤0306民初3474号', 
'原告唐鲜明', '委托代理人孙光扬，', '泽丰（深圳）律师事务所律师。', '被告何伟华', '被告深圳市华名威电汽车服务有限公司。', '法定代表人何伟华。', 
'两被告共同委托代理人刘征，', '广东同观律师事务所律师。', '上列原告唐鲜明诉被告何伟华、深圳市华名威电汽车服务有限公司（以下简称华名威公司）侵权责任纠纷一案，', 
'原告诉请：', '1、判决被告赔偿原告163755.57元，', '赔偿明细如下：', '医疗费27086.37元、住院伙食补助费2500元、营养费4000元、护理费4598元、误工费26851元、
 残疾赔偿金46677.20元、精神损害抚慰金20000元、后续治疗费10000元、被抚养人生活费7787+9456元、交通费2000元、住宿费1000元、鉴定费1800元；']
summaries[:i] = 
['原告与被告侵权责任纠纷一案。', '原告提出诉求：']
start_i = 0
start_j = 0

输入的递归的第二个部分

texts[:j+1] = 
['唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书', '广东省深圳市宝安区人民法院', '民 事 判 决 书', '（2017）粤0306民初3474号', '原告唐鲜明', 
'委托代理人孙光扬，', '泽丰（深圳）律师事务所律师。', '被告何伟华', '被告深圳市华名威电汽车服务有限公司。', '法定代表人何伟华。', '两被告共同委托代理人刘征，', '广东同观律师事务所律师。', 
'上列原告唐鲜明诉被告何伟华、深圳市华名威电汽车服务有限公司（以下简称华名威公司）侵权责任纠纷一案，', '原告诉请：', '1、判决被告赔偿原告163755.57元，', '赔偿明细如下：', 
'医疗费27086.37元、住院伙食补助费2500元、营养费4000元、护理费4598元、误工费26851元、残疾赔偿金46677.20元、精神损害抚慰金20000元、后续治疗费10000元、
被抚养人生活费7787+9456元、交通费2000元、住宿费1000元、鉴定费1800元；']

summaries[:i] = 
['原告与被告侵权责任纠纷一案。', '原告提出诉求：']

感觉这里的texts到j就可以了，summaries到i，
因为texts是按照语义顺序的，summaries也是按照语义顺序的，之前找到texts[j]和summaries[i]匹配的最好，接下来只要去匹配texts和summaries前面的内容以及texts和summaries后面的内容即可

lm = extract_matching(texts[:j + 1], summaries[:i], start_i, start_j)
rm = extract_matching(
    texts[j:], summaries[i + 1:], start_i + i + 1, start_j + j
)

注意每次返回的时候，要加上当前选择的这对组合

return lm+[(start_i+i,start_j+j)]+rm

递归最终的终止条件写在函数前面

if len(texts) == 0 or len(summaries) == 0:
	return []

extract_convert.py之中的extract_flow函数调用的操作

此时这里的extract_matching函数调用完毕，回到extract_flow的函数之中

mapping = extract_matching(texts, summaries)
labels = sorted(set([i[1] for i in mapping]))

得到的结果

[(0, 12), (1, 13), (2, 16), (3, 37), (4, 38), (5, 39), (6, 73), (7, 74), (8, 75), (9, 76), (10, 81), (11, 82), (12, 83)]

第一个标签对应着labels的索引，第二个标签对应summaries的索引
接下来调用对应的labels之中的内容

labels = sorted(set([i[1] for i in mapping]))

得到对应的labels的结果

labels = [12,13,16,37,...,81,82,83]

之所以上面需要使用i[1]也就是texts文本中的顺序进行排序，是因为下面需要对texts文本之中的内容进行拼接
接下来需要从原始的texts文本之中将这些比较符合的文本提取出来

pred_summary = ''.join([texts[i] for i in labels])

将提取出来的rouge分数比较相近的文本拼接在一起
接下来计算拼接完成之后的得分

metric = compute_main_metric(pred_summary,summary)

回到extract_convert.py之中的convert函数中来

对于每一个data，这里并行式抽取数据并进行转化

D = parallel_apply(
    func=extract_flow,
    iterable=tqdm(data, desc=u'转换数据'),
    workers=100,
    max_queue_size=200
)

转化完成之后获得相应的D内容

D = 
(['唐鲜明与何伟华、深圳市华名威电汽车服务有限公司侵权责任纠纷一审民事判决书', '广东省深圳市宝安区人民法院', '民 事 判 决 书',
......
'没有证据或者证据不足以证明当事人的事实主张的，', '由负有举证责任的当事人承担不利后果。'],
[12,13,16,...81,82,83],
'原告与被告侵权责任纠纷一案。原告提出诉求：判决被告赔偿原告医疗费、住院伙食补助费、营养费、护理费、误工费、
......
《最高人民法院关于民事诉讼证据的若干规定》第二条的规定，判决：驳回原告全部诉讼请求。',
 0.7481025356642723)
 ......

这里的第一段文本为原始文本，标签为每个summaries能够匹配上的原始文本，最后一段为summaries对应的文本内容以及这次的评分。
这里计算相应的评分结果的平均值

total_metric = sum([d[3] for d in D])
D = [d[:3] for d in D]
print(u'抽取结果的平均指标: %s' % (total_metric / len(D)))
return D

回到extract_convert.py的main函数之中继续进行调查

if os.path.exists(data_random_order_json):
    idxs = json.load(open(data_random_order_json))
else:
    idxs = list(range(len(data)))
    np.random.shuffle(idxs)
    json.dump(idxs, open(data_random_order_json, 'w'))

如果之前已经写入到文件之中了，这里运行

os.path.exists(data_random_order_json)

从中读取出对应的idxs的内容
如果之前的id并未写入到相应的文件之中

idxs = list(range(len(data)))
np.random.shuffle(idxs)
json.dump(idxs, open(data_random_order_json, 'w'))

重写打乱并写入新的文件之中
接下来按照打乱的顺序依次读取并写入到相应的文件之中

data = [data[i] for i in idxs]
with open(data_extract_json, 'w', encoding='utf-8') as f:
    for d in data:
        f.write(json.dumps(d, ensure_ascii=False) + '\n')

总结

本质上extract_vectorize.py文件中的sequence_padding还是进行padding两次，第一次padding的过程出现在predict函数之中

batch_token_ids = sequence_padding(batch_token_ids)
batch_segment_ids = sequence_padding(batch_segment_ids)

这是当每一个句子长度没有补齐最长的长度时候，将句子长度补齐最长的长度
第二次padding出现在convert函数之中

def convert(data):
	......
	embeddings = sequence_padding(embeddings)
	return embeddings

这里的padding是将整个的list补齐到一个长度，比如每个句子分别是(12,768)，(15,768)，这里需要将这些句子都补齐到(15,768)

你可能感兴趣的:(文本摘要抽取代码解读,python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。