一枚小白的日常

Nl2sql学习（1）：基于bert的baseline

本文转载自 https://kexue.fm/archives/6771，加入了自己对代码的标注理解

import json
from keras_bert import load_trained_model_from_checkpoint, Tokenizer
import codecs
from keras.layers import *
from keras.models import Model
import keras.backend as K
from keras.optimizers import Adam
from keras.callbacks import Callback
from tqdm import tqdm
import jieba
import editdistance
import re
import numpy as np
import tensorflow as tf
import keras
import pandas as pd
print(tf.__version__)
print(keras.__version__)

1.13.1
2.2.4

'''
{
    "table_id": "a1b2c3d4", # 相应表格的id
    "question": "世茂茂悦府新盘容积率大于1，请问它的套均面积是多少？", # 自然语言问句
    "sql":{ # 真实SQL
        "sel": [7], # SQL选择的列 
        "agg": [0], # 选择的列相应的聚合函数, '0'代表无
        "cond_conn_op": 0, # 条件之间的关系
        "conds": [
            [1, 2, "世茂茂悦府"], # 条件列, 条件类型, 条件值，col_1 == "世茂茂悦府"
            [6, 0, "1"]
        ]
    }
}

# 其中条件运算符、聚合符、连接符分别如下
op_sql_dict = {0:">", 1:"<", 2:"==", 3:"!="}
agg_sql_dict = {0:"", 1:"AVG", 2:"MAX", 3:"MIN", 4:"COUNT", 5:"SUM"}
conn_sql_dict = {0:"", 1:"and", 2:"or"}

'''

maxlen = 160
num_agg = 7 # agg_sql_dict = {0:"", 1:"AVG", 2:"MAX", 3:"MIN", 4:"COUNT", 5:"SUM", 6:"不被select"}
num_op = 5 # {0:">", 1:"<", 2:"==", 3:"!=", 4:"不被select"}
num_cond_conn_op = 3 # conn_sql_dict = {0:"", 1:"and", 2:"or"}
learning_rate = 5e-5
min_learning_rate = 1e-5


config_path = 'E:\\zym_test\\test\\nlp\\chinese_wwm_ext_L-12_H-768_A-12\\bert_config.json'
checkpoint_path = 'E:\\zym_test\\test\\nlp\\chinese_wwm_ext_L-12_H-768_A-12\\bert_model.ckpt'
dict_path = 'E:\\zym_test\\test\\nlp\\chinese_wwm_ext_L-12_H-768_A-12\\vocab.txt'

def read_data(data_file, table_file):
    data, tables = [], {}
    with open(data_file,encoding='UTF-8') as f:
        for l in f:
            data.append(json.loads(l))
    with open(table_file,encoding='UTF-8') as f:
        for l in f:
            l = json.loads(l)
            # 观察f后发现，rows、name、title、header、common、ids、types
            # rows是一个表格，里面有具体的值，name:是该表的名称，title未知，
            # header是表的列名，common未知，ids是name的id，types是具体值的类型：是text还是real等
            
            # 创建新的字典 
            # 原来header变为现在的headers
            # 将headers添加索引记录到header2id中,(索引，名字)
            # content为空
            # all_values创建一个空set()
            # rows,将列表保存为数组
            d = {}
            d['headers'] = l['header']
            d['header2id'] = {j: i for i, j in enumerate(d['headers'])}
            d['content'] = {}
            d['all_values'] = set()
            rows = np.array(l['rows'])
            
            # 填充content字典：{列名：该列的值},并且去除了重复的值
            for i, h in enumerate(d['headers']):
                d['content'][h] = set(rows[:, i])
                # 记录所有的值（去除重复）：set.update() -> 更新原有set(),并去重 
                d['all_values'].update(d['content'][h])
                
            # hasattr() 函数用于判断对象是否包含对应的属性
            # 去除空位置
            d['all_values'] = set([i for i in d['all_values'] if hasattr(i, '__len__')])
            # {id:d}
            tables[l['id']] = d
    
    return data, tables

train_data, train_tables = read_data('E:/zym_test/test/nlp/data/train/train.json','E:/zym_test/test/nlp/data/train/train.tables.json')
valid_data, valid_tables = read_data('E:/zym_test/test/nlp/data/val/val.json','E:/zym_test/test/nlp/data/val/val.tables.json')
test_data, test_tables = read_data('E:/zym_test/test/nlp/data/test/test.json','E:/zym_test/test/nlp/data/test/test.tables.json')

train_data[0:4]

[{'table_id': '4d29d0513aaa11e9b911f40f24344a08',
  'question': '二零一九年第四周大黄蜂和密室逃生这两部影片的票房总占比是多少呀',
  'sql': {'agg': [5],
   'cond_conn_op': 2,
   'sel': [2],
   'conds': [[0, 2, '大黄蜂'], [0, 2, '密室逃生']]}},
 {'table_id': '4d29d0513aaa11e9b911f40f24344a08',
  'question': '你好，你知道今年第四周密室逃生，还有那部大黄蜂它们票房总的占比吗',
  'sql': {'agg': [5],
   'cond_conn_op': 2,
   'sel': [2],
   'conds': [[0, 2, '大黄蜂'], [0, 2, '密室逃生']]}},
 {'table_id': '4d29d0513aaa11e9b911f40f24344a08',
  'question': '我想你帮我查一下第四周大黄蜂，还有密室逃生这两部电影票房的占比加起来会是多少来着',
  'sql': {'agg': [5],
   'cond_conn_op': 2,
   'sel': [2],
   'conds': [[0, 2, '大黄蜂'], [0, 2, '密室逃生']]}},
 {'table_id': '4d25e6403aaa11e9bdbbf40f24344a08',
  'question': '有几家传媒公司16年为了融资收购其他资产而进行定增的呀',
  'sql': {'agg': [4],
   'cond_conn_op': 1,
   'sel': [1],
   'conds': [[6, 2, '2016'], [7, 2, '融资收购其他资产']]}}]

train_tables[ '4d29d0513aaa11e9b911f40f24344a08' ]

{'headers': ['影片名称', '周票房（万）', '票房占比（%）', '场均人次'],
 'header2id': {'影片名称': 0, '周票房（万）': 1, '票房占比（%）': 2, '场均人次': 3},
 'content': {'影片名称': {'“大”人物',
   '一条狗的回家路',
   '大黄蜂',
   '家和万事惊',
   '密室逃生',
   '掠食城市',
   '死侍2：我爱我家',
   '海王',
   '白蛇：缘起',
   '钢铁飞龙之奥特曼崛起'},
  '周票房（万）': {'10503.8',
   '10637.3',
   '3322.9',
   '356.6',
   '360.0',
   '500.3',
   '5841.4',
   '595.5',
   '635.2',
   '6426.6'},
  '票房占比（%）': {'0.9',
   '1.2',
   '1.4',
   '1.5',
   '14.2',
   '15.6',
   '25.4',
   '25.8',
   '8.1'},
  '场均人次': {'25.0', '3.0', '4.0', '5.0', '6.0', '7.0'}},
 'all_values': {'0.9',
  '1.2',
  '1.4',
  '1.5',
  '10503.8',
  '10637.3',
  '14.2',
  '15.6',
  '25.0',
  '25.4',
  '25.8',
  '3.0',
  '3322.9',
  '356.6',
  '360.0',
  '4.0',
  '5.0',
  '500.3',
  '5841.4',
  '595.5',
  '6.0',
  '635.2',
  '6426.6',
  '7.0',
  '8.1',
  '“大”人物',
  '一条狗的回家路',
  '大黄蜂',
  '家和万事惊',
  '密室逃生',
  '掠食城市',
  '死侍2：我爱我家',
  '海王',
  '白蛇：缘起',
  '钢铁飞龙之奥特曼崛起'}}

train_tables['4d25e6403aaa11e9bdbbf40f24344a08']

{'headers': ['证券代码',
  '证券简称',
  '最新收盘价',
  '定增价除权后至今价格',
  '增发价格',
  '倒挂率',
  '定增年度',
  '增发目的'],
 'header2id': {'证券代码': 0,
  '证券简称': 1,
  '最新收盘价': 2,
  '定增价除权后至今价格': 3,
  '增发价格': 4,
  '倒挂率': 5,
  '定增年度': 6,
  '增发目的': 7},
 'content': {'证券代码': {'300148.SZ', '300182.SZ', '300269.SZ'},
  '证券简称': {'天舟文化', '捷成股份', '联建光电'},
  '最新收盘价': {'4.09', '4.69', '5.48'},
  '定增价除权后至今价格': {'11.16', '11.29', '12.48', '21.88', '23.07', '9.91'},
  '增发价格': {'14.78', '15.09', '16.34', '16.988', '22.09', '23.3004'},
  '倒挂率': {'23.75', '25.05', '36.65', '37.58', '41.26', '41.54'},
  '定增年度': {'2016.0'},
  '增发目的': {'融资收购其他资产', '配套融资'}},
 'all_values': {'11.16',
  '11.29',
  '12.48',
  '14.78',
  '15.09',
  '16.34',
  '16.988',
  '2016.0',
  '21.88',
  '22.09',
  '23.07',
  '23.3004',
  '23.75',
  '25.05',
  '300148.SZ',
  '300182.SZ',
  '300269.SZ',
  '36.65',
  '37.58',
  '4.09',
  '4.69',
  '41.26',
  '41.54',
  '5.48',
  '9.91',
  '天舟文化',
  '捷成股份',
  '联建光电',
  '融资收购其他资产',
  '配套融资'}}

# 对每个汉字进行编码
# 读取词表，并给创建每一个字对应的序号的字典
token_dict = {}

with codecs.open(dict_path, 'r', 'utf8') as reader:
    for line in reader:
        token = line.strip()
        token_dict[token] = len(token_dict)

token_dict

{'[PAD]': 0,
 '[unused1]': 1,
 '[unused2]': 2,
 '[unused3]': 3,
 '[unused4]': 4,
 '[unused5]': 5,
 '[unused6]': 6,
 '[unused7]': 7,
 '[unused8]': 8,
 '[unused9]': 9,
 '[unused10]': 10,
 '[unused11]': 11,
 '[unused12]': 12,
 '[unused13]': 13,
 '[unused14]': 14,
 '[unused15]': 15,
 '[unused16]': 16,
 '[unused17]': 17,
 '[unused18]': 18,
 '[unused19]': 19,
 '[unused20]': 20,
 '[unused21]': 21,
 '[unused22]': 22,
 '[unused23]': 23,
 '[unused24]': 24,
 '[unused25]': 25,
 '[unused26]': 26,
 '[unused27]': 27,
 '[unused28]': 28,
 '[unused29]': 29,
 '[unused30]': 30,
 '[unused31]': 31,
 '[unused32]': 32,
 '[unused33]': 33,
 '[unused34]': 34,
 '[unused35]': 35,
 '[unused36]': 36,
 '[unused37]': 37,
 '[unused38]': 38,
 '[unused39]': 39,
 '[unused40]': 40,
 '[unused41]': 41,
 '[unused42]': 42,
 '[unused43]': 43,
 '[unused44]': 44,
 '[unused45]': 45,
 '[unused46]': 46,
 '[unused47]': 47,
 '[unused48]': 48,
 '[unused49]': 49,
 '[unused50]': 50,
 '[unused51]': 51,
 '[unused52]': 52,
 '[unused53]': 53,
 '[unused54]': 54,
 '[unused55]': 55,
 '[unused56]': 56,
 '[unused57]': 57,
 '[unused58]': 58,
 '[unused59]': 59,
 '[unused60]': 60,
 '[unused61]': 61,
 '[unused62]': 62,
 '[unused63]': 63,
 '[unused64]': 64,
 '[unused65]': 65,
 '[unused66]': 66,
 '[unused67]': 67,
 '[unused68]': 68,
 '[unused69]': 69,
 '[unused70]': 70,
 '[unused71]': 71,
 '[unused72]': 72,
 '[unused73]': 73,
 '[unused74]': 74,
 '[unused75]': 75,
 '[unused76]': 76,
 '[unused77]': 77,
 '[unused78]': 78,
 '[unused79]': 79,
 '[unused80]': 80,
 '[unused81]': 81,
 '[unused82]': 82,
 '[unused83]': 83,
 '[unused84]': 84,
 '[unused85]': 85,
 '[unused86]': 86,
 '[unused87]': 87,
 '[unused88]': 88,
 '[unused89]': 89,
 '[unused90]': 90,
 '[unused91]': 91,
 '[unused92]': 92,
 '[unused93]': 93,
 '[unused94]': 94,
 '[unused95]': 95,
 '[unused96]': 96,
 '[unused97]': 97,
 '[unused98]': 98,
 '[unused99]': 99,
 '[UNK]': 100,
 '[CLS]': 101,
 '[SEP]': 102,
 '[MASK]': 103,
 '': 104,
 '': 105,
 '!': 106,
 '"': 107,
 '#': 108,
 '$': 109,
 '%': 110,
 '&': 111,
 "'": 112,
 '(': 113,
 ')': 114,
 '*': 115,
 '+': 116,
 ',': 117,
 '-': 118,
 '.': 119,
 '/': 120,
 '0': 121,
 '1': 122,
 '2': 123,
 '3': 124,
 '4': 125,
 '5': 126,
 '6': 127,
 '7': 128,
 '8': 129,
 '9': 130,
 ':': 131,
 ';': 132,
 '<': 133,
 '=': 134,
 '>': 135,
 '?': 136,
 '@': 137,
 '[': 138,
 '\\': 139,
 ']': 140,
 '^': 141,
 '_': 142,
 'a': 143,
 'b': 144,
 'c': 145,
 'd': 146,
 'e': 147,
 'f': 148,
 'g': 149,
 'h': 150,
 'i': 151,
 'j': 152,
 'k': 153,
 'l': 154,
 'm': 155,
 'n': 156,
 'o': 157,
 'p': 158,
 'q': 159,
 'r': 160,
 's': 161,
 't': 162,
 'u': 163,
 'v': 164,
 'w': 165,
 'x': 166,
 'y': 167,
 'z': 168,
 '{': 169,
 '|': 170,
 '}': 171,
 '~': 172,
 '£': 173,
 '¤': 174,
 '¥': 175,
 '§': 176,
 '©': 177,
 '«': 178,
 '®': 179,
 '°': 180,
 '±': 181,
 '²': 182,
 '³': 183,
 'µ': 184,
 '·': 185,
 '¹': 186,
 'º': 187,
 '»': 188,
 '¼': 189,
 '×': 190,
 'ß': 191,
 'æ': 192,
 '÷': 193,
 'ø': 194,
 'đ': 195,
 'ŋ': 196,
 'ɔ': 197,
 'ə': 198,
 'ɡ': 199,
 'ʰ': 200,
 'ˇ': 201,
 'ˈ': 202,
 'ˊ': 203,
 'ˋ': 204,
 'ˍ': 205,
 'ː': 206,
 '˙': 207,
 '˚': 208,
 'ˢ': 209,
 'α': 210,
 'β': 211,
 'γ': 212,
 'δ': 213,
 'ε': 214,
 'η': 215,
 'θ': 216,
 'ι': 217,
 'κ': 218,
 'λ': 219,
 'μ': 220,
 'ν': 221,
 'ο': 222,
 'π': 223,
 'ρ': 224,
 'ς': 225,
 'σ': 226,
 'τ': 227,
 'υ': 228,
 'φ': 229,
 'χ': 230,
 'ψ': 231,
 'ω': 232,
 'а': 233,
 'б': 234,
 'в': 235,
 'г': 236,
 'д': 237,
 'е': 238,
 'ж': 239,
 'з': 240,
 'и': 241,
 'к': 242,
 'л': 243,
 'м': 244,
 'н': 245,
 'о': 246,
 'п': 247,
 'р': 248,
 'с': 249,
 'т': 250,
 'у': 251,
 'ф': 252,
 'х': 253,
 'ц': 254,
 'ч': 255,
 'ш': 256,
 'ы': 257,
 'ь': 258,
 'я': 259,
 'і': 260,
 'ا': 261,
 'ب': 262,
 'ة': 263,
 'ت': 264,
 'د': 265,
 'ر': 266,
 'س': 267,
 'ع': 268,
 'ل': 269,
 'م': 270,
 'ن': 271,
 'ه': 272,
 'و': 273,
 'ي': 274,
 '۩': 275,
 'ก': 276,
 'ง': 277,
 'น': 278,
 'ม': 279,
 'ย': 280,
 'ร': 281,
 'อ': 282,
 'า': 283,
 'เ': 284,
 '๑': 285,
 '་': 286,
 'ღ': 287,
 'ᄀ': 288,
 'ᄁ': 289,
 'ᄂ': 290,
 'ᄃ': 291,
 'ᄅ': 292,
 'ᄆ': 293,
 'ᄇ': 294,
 'ᄈ': 295,
 'ᄉ': 296,
 'ᄋ': 297,
 'ᄌ': 298,
 'ᄎ': 299,
 'ᄏ': 300,
 'ᄐ': 301,
 'ᄑ': 302,
 'ᄒ': 303,
 'ᅡ': 304,
 'ᅢ': 305,
 'ᅣ': 306,
 'ᅥ': 307,
 'ᅦ': 308,
 'ᅧ': 309,
 'ᅨ': 310,
 'ᅩ': 311,
 'ᅪ': 312,
 'ᅬ': 313,
 'ᅭ': 314,
 'ᅮ': 315,
 'ᅯ': 316,
 'ᅲ': 317,
 'ᅳ': 318,
 'ᅴ': 319,
 'ᅵ': 320,
 'ᆨ': 321,
 'ᆫ': 322,
 'ᆯ': 323,
 'ᆷ': 324,
 'ᆸ': 325,
 'ᆺ': 326,
 'ᆻ': 327,
 'ᆼ': 328,
 'ᗜ': 329,
 'ᵃ': 330,
 'ᵉ': 331,
 'ᵍ': 332,
 'ᵏ': 333,
 'ᵐ': 334,
 'ᵒ': 335,
 'ᵘ': 336,
 '‖': 337,
 '„': 338,
 '†': 339,
 '•': 340,
 '‥': 341,
 '‧': 342,
 '': 13503,
 '‰': 344,
 '′': 345,
 '″': 346,
 '‹': 347,
 '›': 348,
 '※': 349,
 '‿': 350,
 '⁄': 351,
 'ⁱ': 352,
 '⁺': 353,
 'ⁿ': 354,
 '₁': 355,
 '₂': 356,
 '₃': 357,
 '₄': 358,
 '€': 359,
 '℃': 360,
 '№': 361,
 '™': 362,
 'ⅰ': 363,
 'ⅱ': 364,
 'ⅲ': 365,
 'ⅳ': 366,
 'ⅴ': 367,
 '←': 368,
 '↑': 369,
 '→': 370,
 '↓': 371,
 '↔': 372,
 '↗': 373,
 '↘': 374,
 '⇒': 375,
 '∀': 376,
 '−': 377,
 '∕': 378,
 '∙': 379,
 '√': 380,
 '∞': 381,
 '∟': 382,
 '∠': 383,
 '∣': 384,
 '∥': 385,
 '∩': 386,
 '∮': 387,
 '∶': 388,
 '∼': 389,
 '∽': 390,
 '≈': 391,
 '≒': 392,
 '≡': 393,
 '≤': 394,
 '≥': 395,
 '≦': 396,
 '≧': 397,
 '≪': 398,
 '≫': 399,
 '⊙': 400,
 '⋅': 401,
 '⋈': 402,
 '⋯': 403,
 '⌒': 404,
 '①': 405,
 '②': 406,
 '③': 407,
 '④': 408,
 '⑤': 409,
 '⑥': 410,
 '⑦': 411,
 '⑧': 412,
 '⑨': 413,
 '⑩': 414,
 '⑴': 415,
 '⑵': 416,
 '⑶': 417,
 '⑷': 418,
 '⑸': 419,
 '⒈': 420,
 '⒉': 421,
 '⒊': 422,
 '⒋': 423,
 'ⓒ': 424,
 'ⓔ': 425,
 'ⓘ': 426,
 '─': 427,
 '━': 428,
 '│': 429,
 '┃': 430,
 '┅': 431,
 '┆': 432,
 '┊': 433,
 '┌': 434,
 '└': 435,
 '├': 436,
 '┣': 437,
 '═': 438,
 '║': 439,
 '╚': 440,
 '╞': 441,
 '╠': 442,
 '╭': 443,
 '╮': 444,
 '╯': 445,
 '╰': 446,
 '╱': 447,
 '╳': 448,
 '▂': 449,
 '▃': 450,
 '▅': 451,
 '▇': 452,
 '█': 453,
 '▉': 454,
 '▋': 455,
 '▌': 456,
 '▍': 457,
 '▎': 458,
 '■': 459,
 '□': 460,
 '▪': 461,
 '▫': 462,
 '▬': 463,
 '▲': 464,
 '△': 465,
 '▶': 466,
 '►': 467,
 '▼': 468,
 '▽': 469,
 '◆': 470,
 '◇': 471,
 '○': 472,
 '◎': 473,
 '●': 474,
 '◕': 475,
 '◠': 476,
 '◢': 477,
 '◤': 478,
 '☀': 479,
 '★': 480,
 '☆': 481,
 '☕': 482,
 '☞': 483,
 '☺': 484,
 '☼': 485,
 '♀': 486,
 '♂': 487,
 '♠': 488,
 '♡': 489,
 '♣': 490,
 '♥': 491,
 '♦': 492,
 '♪': 493,
 '♫': 494,
 '♬': 495,
 '✈': 496,
 '✔': 497,
 '✕': 498,
 '✖': 499,
 '✦': 500,
 '✨': 501,
 '✪': 502,
 '✰': 503,
 '✿': 504,
 '❀': 505,
 '❤': 506,
 '➜': 507,
 '➤': 508,
 '⦿': 509,
 '、': 510,
 '。': 511,
 '〃': 512,
 '々': 513,
 '〇': 514,
 '〈': 515,
 '〉': 516,
 '《': 517,
 '》': 518,
 '「': 519,
 '」': 520,
 '『': 521,
 '』': 522,
 '【': 523,
 '】': 524,
 '〓': 525,
 '〔': 526,
 '〕': 527,
 '〖': 528,
 '〗': 529,
 '〜': 530,
 '〝': 531,
 '〞': 532,
 'ぁ': 533,
 'あ': 534,
 'ぃ': 535,
 'い': 536,
 'う': 537,
 'ぇ': 538,
 'え': 539,
 'お': 540,
 'か': 541,
 'き': 542,
 'く': 543,
 'け': 544,
 'こ': 545,
 'さ': 546,
 'し': 547,
 'す': 548,
 'せ': 549,
 'そ': 550,
 'た': 551,
 'ち': 552,
 'っ': 553,
 'つ': 554,
 'て': 555,
 'と': 556,
 'な': 557,
 'に': 558,
 'ぬ': 559,
 'ね': 560,
 'の': 561,
 'は': 562,
 'ひ': 563,
 'ふ': 564,
 'へ': 565,
 'ほ': 566,
 'ま': 567,
 'み': 568,
 'む': 569,
 'め': 570,
 'も': 571,
 'ゃ': 572,
 'や': 573,
 'ゅ': 574,
 'ゆ': 575,
 'ょ': 576,
 'よ': 577,
 'ら': 578,
 'り': 579,
 'る': 580,
 'れ': 581,
 'ろ': 582,
 'わ': 583,
 'を': 584,
 'ん': 585,
 '゜': 586,
 'ゝ': 587,
 'ァ': 588,
 'ア': 589,
 'ィ': 590,
 'イ': 591,
 'ゥ': 592,
 'ウ': 593,
 'ェ': 594,
 'エ': 595,
 'ォ': 596,
 'オ': 597,
 'カ': 598,
 'キ': 599,
 'ク': 600,
 'ケ': 601,
 'コ': 602,
 'サ': 603,
 'シ': 604,
 'ス': 605,
 'セ': 606,
 'ソ': 607,
 'タ': 608,
 'チ': 609,
 'ッ': 610,
 'ツ': 611,
 'テ': 612,
 'ト': 613,
 'ナ': 614,
 'ニ': 615,
 'ヌ': 616,
 'ネ': 617,
 'ノ': 618,
 'ハ': 619,
 'ヒ': 620,
 'フ': 621,
 'ヘ': 622,
 'ホ': 623,
 'マ': 624,
 'ミ': 625,
 'ム': 626,
 'メ': 627,
 'モ': 628,
 'ャ': 629,
 'ヤ': 630,
 'ュ': 631,
 'ユ': 632,
 'ョ': 633,
 'ヨ': 634,
 'ラ': 635,
 'リ': 636,
 'ル': 637,
 'レ': 638,
 'ロ': 639,
 'ワ': 640,
 'ヲ': 641,
 'ン': 642,
 'ヶ': 643,
 '・': 644,
 'ー': 645,
 'ヽ': 646,
 'ㄅ': 647,
 'ㄆ': 648,
 'ㄇ': 649,
 'ㄉ': 650,
 'ㄋ': 651,
 'ㄌ': 652,
 'ㄍ': 653,
 'ㄎ': 654,
 'ㄏ': 655,
 'ㄒ': 656,
 'ㄚ': 657,
 'ㄛ': 658,
 'ㄞ': 659,
 'ㄟ': 660,
 'ㄢ': 661,
 'ㄤ': 662,
 'ㄥ': 663,
 'ㄧ': 664,
 'ㄨ': 665,
 'ㆍ': 666,
 '㈦': 667,
 '㊣': 668,
 '㎡': 669,
 '㗎': 670,
 '一': 671,
 '丁': 672,
 '七': 673,
 '万': 674,
 '丈': 675,
 '三': 676,
 '上': 677,
 '下': 678,
 '不': 679,
 '与': 680,
 '丐': 681,
 '丑': 682,
 '专': 683,
 '且': 684,
 '丕': 685,
 '世': 686,
 '丘': 687,
 '丙': 688,
 '业': 689,
 '丛': 690,
 '东': 691,
 '丝': 692,
 '丞': 693,
 '丟': 694,
 '両': 695,
 '丢': 696,
 '两': 697,
 '严': 698,
 '並': 699,
 '丧': 700,
 '丨': 701,
 '个': 702,
 '丫': 703,
 '中': 704,
 '丰': 705,
 '串': 706,
 '临': 707,
 '丶': 708,
 '丸': 709,
 '丹': 710,
 '为': 711,
 '主': 712,
 '丼': 713,
 '丽': 714,
 '举': 715,
 '丿': 716,
 '乂': 717,
 '乃': 718,
 '久': 719,
 '么': 720,
 '义': 721,
 '之': 722,
 '乌': 723,
 '乍': 724,
 '乎': 725,
 '乏': 726,
 '乐': 727,
 '乒': 728,
 '乓': 729,
 '乔': 730,
 '乖': 731,
 '乗': 732,
 '乘': 733,
 '乙': 734,
 '乜': 735,
 '九': 736,
 '乞': 737,
 '也': 738,
 '习': 739,
 '乡': 740,
 '书': 741,
 '乩': 742,
 '买': 743,
 '乱': 744,
 '乳': 745,
 '乾': 746,
 '亀': 747,
 '亂': 748,
 '了': 749,
 '予': 750,
 '争': 751,
 '事': 752,
 '二': 753,
 '于': 754,
 '亏': 755,
 '云': 756,
 '互': 757,
 '五': 758,
 '井': 759,
 '亘': 760,
 '亙': 761,
 '亚': 762,
 '些': 763,
 '亜': 764,
 '亞': 765,
 '亟': 766,
 '亡': 767,
 '亢': 768,
 '交': 769,
 '亥': 770,
 '亦': 771,
 '产': 772,
 '亨': 773,
 '亩': 774,
 '享': 775,
 '京': 776,
 '亭': 777,
 '亮': 778,
 '亲': 779,
 '亳': 780,
 '亵': 781,
 '人': 782,
 '亿': 783,
 '什': 784,
 '仁': 785,
 '仃': 786,
 '仄': 787,
 '仅': 788,
 '仆': 789,
 '仇': 790,
 '今': 791,
 '介': 792,
 '仍': 793,
 '从': 794,
 '仏': 795,
 '仑': 796,
 '仓': 797,
 '仔': 798,
 '仕': 799,
 '他': 800,
 '仗': 801,
 '付': 802,
 '仙': 803,
 '仝': 804,
 '仞': 805,
 '仟': 806,
 '代': 807,
 '令': 808,
 '以': 809,
 '仨': 810,
 '仪': 811,
 '们': 812,
 '仮': 813,
 '仰': 814,
 '仲': 815,
 '件': 816,
 '价': 817,
 '任': 818,
 '份': 819,
 '仿': 820,
 '企': 821,
 '伉': 822,
 '伊': 823,
 '伍': 824,
 '伎': 825,
 '伏': 826,
 '伐': 827,
 '休': 828,
 '伕': 829,
 '众': 830,
 '优': 831,
 '伙': 832,
 '会': 833,
 '伝': 834,
 '伞': 835,
 '伟': 836,
 '传': 837,
 '伢': 838,
 '伤': 839,
 '伦': 840,
 '伪': 841,
 '伫': 842,
 '伯': 843,
 '估': 844,
 '伴': 845,
 '伶': 846,
 '伸': 847,
 '伺': 848,
 '似': 849,
 '伽': 850,
 '佃': 851,
 '但': 852,
 '佇': 853,
 '佈': 854,
 '位': 855,
 '低': 856,
 '住': 857,
 '佐': 858,
 '佑': 859,
 '体': 860,
 '佔': 861,
 '何': 862,
 '佗': 863,
 '佘': 864,
 '余': 865,
 '佚': 866,
 '佛': 867,
 '作': 868,
 '佝': 869,
 '佞': 870,
 '佟': 871,
 '你': 872,
 '佢': 873,
 '佣': 874,
 '佤': 875,
 '佥': 876,
 '佩': 877,
 '佬': 878,
 '佯': 879,
 '佰': 880,
 '佳': 881,
 '併': 882,
 '佶': 883,
 '佻': 884,
 '佼': 885,
 '使': 886,
 '侃': 887,
 '侄': 888,
 '來': 889,
 '侈': 890,
 '例': 891,
 '侍': 892,
 '侏': 893,
 '侑': 894,
 '侖': 895,
 '侗': 896,
 '供': 897,
 '依': 898,
 '侠': 899,
 '価': 900,
 '侣': 901,
 '侥': 902,
 '侦': 903,
 '侧': 904,
 '侨': 905,
 '侬': 906,
 '侮': 907,
 '侯': 908,
 '侵': 909,
 '侶': 910,
 '侷': 911,
 '便': 912,
 '係': 913,
 '促': 914,
 '俄': 915,
 '俊': 916,
 '俎': 917,
 '俏': 918,
 '俐': 919,
 '俑': 920,
 '俗': 921,
 '俘': 922,
 '俚': 923,
 '保': 924,
 '俞': 925,
 '俟': 926,
 '俠': 927,
 '信': 928,
 '俨': 929,
 '俩': 930,
 '俪': 931,
 '俬': 932,
 '俭': 933,
 '修': 934,
 '俯': 935,
 '俱': 936,
 '俳': 937,
 '俸': 938,
 '俺': 939,
 '俾': 940,
 '倆': 941,
 '倉': 942,
 '個': 943,
 '倌': 944,
 '倍': 945,
 '倏': 946,
 '們': 947,
 '倒': 948,
 '倔': 949,
 '倖': 950,
 '倘': 951,
 '候': 952,
 '倚': 953,
 '倜': 954,
 '借': 955,
 '倡': 956,
 '値': 957,
 '倦': 958,
 '倩': 959,
 '倪': 960,
 '倫': 961,
 '倬': 962,
 '倭': 963,
 '倶': 964,
 '债': 965,
 '值': 966,
 '倾': 967,
 '偃': 968,
 '假': 969,
 '偈': 970,
 '偉': 971,
 '偌': 972,
 '偎': 973,
 '偏': 974,
 '偕': 975,
 '做': 976,
 '停': 977,
 '健': 978,
 '側': 979,
 '偵': 980,
 '偶': 981,
 '偷': 982,
 '偻': 983,
 '偽': 984,
 '偿': 985,
 '傀': 986,
 '傅': 987,
 '傍': 988,
 '傑': 989,
 '傘': 990,
 '備': 991,
 '傚': 992,
 '傢': 993,
 '傣': 994,
 '傥': 995,
 '储': 996,
 '傩': 997,
 '催': 998,
 '傭': 999,
 ...}

# 重写Tokenizer(分词用)，为了保证text经过tokenizer后与原text长度相同 # Tokenizer 自带的 _tokenize 会自动去掉空格，然后有些字符会粘在一块输出， # 导致 tokenize 之后的列表不等于原来字符串的长度了，这样如果做序列标注的任务会很麻烦 # 继承Tokenizer类 class OurTokenizer(Tokenizer): def _tokenize(self, text): R = [] for c in text: if c in self._token_dict: R.append(c) elif self._is_space(c): R.append('[unused1]') # space类用未经训练的[unused1]表示 else: R.append('[UNK]') # 剩余的字符是[UNK] return R # 输入词表形成分词器 tokenizer = OurTokenizer(token_dict) tokenizer

<__main__.OurTokenizer at 0x2430e637908>

# 句子填充 # 将句子都补充为等长 def seq_padding(X, padding=0, maxlen=None): if maxlen is None: L = [len(x) for x in X]#获取每句话的长度 ML = max(L)#获取最长句子的长度 else: ML = maxlen return np.array([ np.concatenate([x[:ML], [padding] * (ML - len(x))]) if len(x[:ML]) < ML else x for x in X ]) #np.cpncatenate会将几个矩阵进行拼接，如果x的长度小于ML会用0进行填充，如果x长度大于ML则不做处理 # for x in X: # if len(x[:ML]) < ML: # np.concatenate([x[:ML], [padding] * (ML - len(x))]) # else: # x

def most_similar(s, slist): """从词表中找最相近的词（当无法全匹配的时候） """ if len(slist) == 0: return s scores = [editdistance.eval(s, t) for t in slist]#最小编辑距离算法 return slist[np.argmin(scores)]

def most_similar_2(w, s): """从句子s中找与w最相近的片段，借助分词工具和ngram的方式尽量精确地确定边界。 """ sw = jieba.lcut(s) sl = list(sw) sl.extend([''.join(i) for i in zip(sw, sw[1:])]) sl.extend([''.join(i) for i in zip(sw, sw[1:], sw[2:])]) return most_similar(w, sl)

d=train_data[0] # 对"二零一九年"对照编码词表进行编码，并加上了前后的[cls]和[sep] # x1是词的编码信息，x2是说明每个数字属于第几句话 x1, x2 = tokenizer.encode('二零一九年',"我是傻子") print(x1) print(x2) print(len(x1)) #bert的输入除了单词的向量外还需要有position vector还需要有segment print(len(x2))

[101, 753, 7439, 671, 736, 2399, 102, 2769, 3221, 1004, 2094, 102] [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1] 12 12

# 产生数据 class data_generator: def __init__(self, data, tables, batch_size=32): # 设置batch_size和steps self.data = data self.tables = tables self.batch_size = batch_size self.steps = len(self.data) // self.batch_size if len(self.data) % self.batch_size != 0: self.steps += 1 def __len__(self): return self.steps def __iter__(self): while True: idxs = list(range(len(self.data))) np.random.shuffle(idxs) X1, X2, XM, H, HM, SEL, CONN, CSEL, COP = [], [], [], [], [], [], [], [], [] # 遍历每一个输入数据 -> 字典:包括句子及其id和sql的'agg'，'cond_conn_op','sel'，'conds' for i in idxs: d = self.data[i] # 去table中查找该id对应的列名 t = self.tables[d['table_id']]['headers'] # 将输入数据的question编码 x1, x2 = tokenizer.encode(d['question']) # 设置一个与输入数据编码后长度相同的列表[0,1,1,...,1,0] xm = [0] + [1] * len(d['question']) + [0] h = [] for j in t: # 对列名进行编码 _x1, _x2 = tokenizer.encode(j) # len(h)记录了有多少个列名 h.append(len(x1)) # extend() 函数用于在列表末尾一次性追加另一个序列中的多个值 # 将问题编码与列名编码合并 x1.extend(_x1) x2.extend(_x2) # 列名个1 hm = [1] * len(h) sel = [] for j in range(len(h)): # index() 方法检测字符串中是否包含子字符串 str ,并返回索引值 # 如果j是sel中的，则获得这个sel的索引值并赋给j if j in d['sql']['sel']: j = d['sql']['sel'].index(j) sel.append(d['sql']['agg'][j]) else: sel.append(num_agg - 1) # 不被select则被标记为num_agg-1 # 获得and 或 or conn = [d['sql']['cond_conn_op']] csel = np.zeros(len(d['question']) + 2, dtype='int32') # 这里的0既表示padding，又表示第一列，padding部分训练时会被mask cop = np.zeros(len(d['question']) + 2, dtype='int32') + num_op - 1 # 不被select则被标记为num_op-1 for j in d['sql']['conds']: if j[2] not in d['question']: j[2] = most_similar_2(j[2], d['question']) if j[2] not in d['question']: continue k = d['question'].index(j[2]) csel[k + 1: k + 1 + len(j[2])] = j[0] cop[k + 1: k + 1 + len(j[2])] = j[1] if len(x1) > maxlen: continue X1.append(x1) # bert的输入 X2.append(x2) # bert的输入 XM.append(xm) # 输入序列的mask H.append(h) # 列名所在位置 HM.append(hm) # 列名mask SEL.append(sel) # 被select的列 CONN.append(conn) # 连接类型 CSEL.append(csel) # 条件中的列 COP.append(cop) # 条件中的运算符（同时也是值的标记） if len(X1) == self.batch_size: X1 = seq_padding(X1) X2 = seq_padding(X2) XM = seq_padding(XM, maxlen=X1.shape[1]) H = seq_padding(H) HM = seq_padding(HM) SEL = seq_padding(SEL) CONN = seq_padding(CONN) CSEL = seq_padding(CSEL, maxlen=X1.shape[1]) COP = seq_padding(COP, maxlen=X1.shape[1]) yield [X1, X2, XM, H, HM, SEL, CONN, CSEL, COP], None X1, X2, XM, H, HM, SEL, CONN, CSEL, COP = [], [], [], [], [], [], [], [], []

def seq_gather(x): """seq是[None, seq_len, s_size]的格式， idxs是[None, n]的格式，在seq的第i个序列中选出第idxs[i]个向量，最终输出[None, n, s_size]的向量。 """ seq, idxs = x idxs = K.cast(idxs, 'int32') return K.tf.batch_gather(seq, idxs)

bert_model = load_trained_model_from_checkpoint(config_path, checkpoint_path, seq_len=None)

WARNING:tensorflow:From E:\Anaconda\anaconda\envs\tensorflow1\lib\site-packages\tensorflow\python\framework\op_def_library.py:263: colocate_with (from tensorflow.python.framework.ops) is deprecated and will be removed in a future version. Instructions for updating: Colocations handled automatically by placer. WARNING:tensorflow:From E:\Anaconda\anaconda\envs\tensorflow1\lib\site-packages\keras\backend\tensorflow_backend.py:3445: calling dropout (from tensorflow.python.ops.nn_ops) with keep_prob is deprecated and will be removed in a future version. Instructions for updating: Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.

for l in bert_model.layers: l.trainable = True

x1_in = Input(shape=(None,), dtype='int32') x2_in = Input(shape=(None,)) xm_in = Input(shape=(None,)) h_in = Input(shape=(None,), dtype='int32') hm_in = Input(shape=(None,)) sel_in = Input(shape=(None,), dtype='int32') conn_in = Input(shape=(1,), dtype='int32') csel_in = Input(shape=(None,), dtype='int32') cop_in = Input(shape=(None,), dtype='int32')

x1, x2, xm, h, hm, sel, conn, csel, cop = ( x1_in, x2_in, xm_in, h_in, hm_in, sel_in, conn_in, csel_in, cop_in )

hm = Lambda(lambda x: K.expand_dims(x, 1))(hm) # header的mask.shape=(None, 1, h_len) x = bert_model([x1_in, x2_in]) x4conn = Lambda(lambda x: x[:, 0])(x) pconn = Dense(num_cond_conn_op, activation='softmax')(x4conn) x4h = Lambda(seq_gather)([x, h]) psel = Dense(num_agg, activation='softmax')(x4h) pcop = Dense(num_op, activation='softmax')(x) x = Lambda(lambda x: K.expand_dims(x, 2))(x) x4h = Lambda(lambda x: K.expand_dims(x, 1))(x4h) pcsel_1 = Dense(256)(x) pcsel_2 = Dense(256)(x4h) pcsel = Lambda(lambda x: x[0] + x[1])([pcsel_1, pcsel_2]) pcsel = Activation('tanh')(pcsel) pcsel = Dense(1)(pcsel) pcsel = Lambda(lambda x: x[0][..., 0] - (1 - x[1]) * 1e10)([pcsel, hm]) pcsel = Activation('softmax')(pcsel)

model = Model( [x1_in, x2_in, h_in, hm_in], [psel, pconn, pcop, pcsel] ) train_model = Model( [x1_in, x2_in, xm_in, h_in, hm_in, sel_in, conn_in, csel_in, cop_in], [psel, pconn, pcop, pcsel] )

xm = xm # question的mask.shape=(None, x_len) hm = hm[:, 0] # header的mask.shape=(None, h_len) cm = K.cast(K.not_equal(cop, num_op - 1), 'float32') # conds的mask.shape=(None, x_len) psel_loss = K.sparse_categorical_crossentropy(sel_in, psel) psel_loss = K.sum(psel_loss * hm) / K.sum(hm) pconn_loss = K.sparse_categorical_crossentropy(conn_in, pconn) pconn_loss = K.mean(pconn_loss) pcop_loss = K.sparse_categorical_crossentropy(cop_in, pcop) pcop_loss = K.sum(pcop_loss * xm) / K.sum(xm) pcsel_loss = K.sparse_categorical_crossentropy(csel_in, pcsel) pcsel_loss = K.sum(pcsel_loss * xm * cm) / K.sum(xm * cm) loss = psel_loss + pconn_loss + pcop_loss + pcsel_loss train_model.add_loss(loss) train_model.compile(optimizer=Adam(learning_rate)) train_model.summary()

__________________________________________________________________________________________________ Layer (type) Output Shape Param # Connected to ================================================================================================== input_1 (InputLayer) (None, None) 0 __________________________________________________________________________________________________ input_2 (InputLayer) (None, None) 0 __________________________________________________________________________________________________ model_2 (Model) (None, None, 768) 101677056 input_1[0][0] input_2[0][0] __________________________________________________________________________________________________ input_4 (InputLayer) (None, None) 0 __________________________________________________________________________________________________ lambda_3 (Lambda) (None, None, 768) 0 model_2[1][0] input_4[0][0] __________________________________________________________________________________________________ lambda_4 (Lambda) (None, None, 1, 768) 0 model_2[1][0] __________________________________________________________________________________________________ lambda_5 (Lambda) (None, 1, None, 768) 0 lambda_3[0][0] __________________________________________________________________________________________________ dense_4 (Dense) (None, None, 1, 256) 196864 lambda_4[0][0] __________________________________________________________________________________________________ dense_5 (Dense) (None, 1, None, 256) 196864 lambda_5[0][0] __________________________________________________________________________________________________ lambda_6 (Lambda) (None, None, None, 2 0 dense_4[0][0] dense_5[0][0] __________________________________________________________________________________________________ activation_1 (Activation) (None, None, None, 2 0 lambda_6[0][0] __________________________________________________________________________________________________ input_5 (InputLayer) (None, None) 0 __________________________________________________________________________________________________ dense_6 (Dense) (None, None, None, 1 257 activation_1[0][0] __________________________________________________________________________________________________ lambda_1 (Lambda) (None, 1, None) 0 input_5[0][0] __________________________________________________________________________________________________ lambda_2 (Lambda) (None, 768) 0 model_2[1][0] __________________________________________________________________________________________________ lambda_7 (Lambda) (None, None, None) 0 dense_6[0][0] lambda_1[0][0] __________________________________________________________________________________________________ dense_2 (Dense) (None, None, 7) 5383 lambda_3[0][0] __________________________________________________________________________________________________ dense_1 (Dense) (None, 3) 2307 lambda_2[0][0] __________________________________________________________________________________________________ dense_3 (Dense) (None, None, 5) 3845 model_2[1][0] __________________________________________________________________________________________________ activation_2 (Activation) (None, None, None) 0 lambda_7[0][0] ================================================================================================== Total params: 102,082,576 Trainable params: 102,082,576 Non-trainable params: 0 __________________________________________________________________________________________________

def nl2sql(question, table): """输入question和headers，转SQL """ x1, x2 = tokenizer.encode(question) h = [] for i in table['headers']: _x1, _x2 = tokenizer.encode(i) h.append(len(x1)) x1.extend(_x1) x2.extend(_x2) hm = [1] * len(h) psel, pconn, pcop, pcsel = model.predict([ np.array([x1]), np.array([x2]), np.array([h]), np.array([hm]) ]) R = {'agg': [], 'sel': []} for i, j in enumerate(psel[0].argmax(1)): if j != num_agg - 1: # num_agg-1类是不被select的意思 R['sel'].append(i) R['agg'].append(j) conds = [] v_op = -1 for i, j in enumerate(pcop[0, :len(question)+1].argmax(1)): # 这里结合标注和分类来预测条件 if j != num_op - 1: if v_op != j: if v_op != -1: v_end = v_start + len(v_str) csel = pcsel[0][v_start: v_end].mean(0).argmax() conds.append((csel, v_op, v_str)) v_start = i v_op = j v_str = question[i - 1] else: v_str += question[i - 1] elif v_op != -1: v_end = v_start + len(v_str) csel = pcsel[0][v_start: v_end].mean(0).argmax() conds.append((csel, v_op, v_str)) v_op = -1 R['conds'] = set() for i, j, k in conds: if re.findall('[^\d\.]', k): j = 2 # 非数字只能用等号 if j == 2: if k not in table['all_values']: # 等号的值必须在table出现过，否则找一个最相近的 k = most_similar(k, list(table['all_values'])) h = table['headers'][i] # 然后检查值对应的列是否正确，如果不正确，直接修正列名 if k not in table['content'][h]: for r, v in table['content'].items(): if k in v: i = table['header2id'][r] break R['conds'].add((i, j, k)) R['conds'] = list(R['conds']) if len(R['conds']) <= 1: # 条件数少于等于1时，条件连接符直接为0 R['cond_conn_op'] = 0 else: R['cond_conn_op'] = 1 + pconn[0, 1:].argmax() # 不能是0 return R

def is_equal(R1, R2): """判断两个SQL字典是否全匹配 """ return (R1['cond_conn_op'] == R2['cond_conn_op']) &\ (set(zip(R1['sel'], R1['agg'])) == set(zip(R2['sel'], R2['agg']))) &\ (set([tuple(i) for i in R1['conds']]) == set([tuple(i) for i in R2['conds']]))

def evaluate(data, tables): right = 0. pbar = tqdm() F = open('evaluate_pred.json', 'w') for i, d in enumerate(data): question = d['question'] table = tables[d['table_id']] R = nl2sql(question, table) right += float(is_equal(R, d['sql'])) pbar.update(1) pbar.set_description('< acc: %.5f >' % (right / (i + 1))) d['sql_pred'] = R s = json.dumps(d, ensure_ascii=False, indent=4) F.write(s.encode('utf-8') + '\n') F.close() pbar.close() return right / len(data)

def test(data, tables, outfile='result.json'): pbar = tqdm() F = open(outfile, 'w') for i, d in enumerate(data): question = d['question'] table = tables[d['table_id']] R = nl2sql(question, table) pbar.update(1) s = json.dumps(R, ensure_ascii=False) F.write(s.encode('utf-8') + '\n') F.close() pbar.close()

class Evaluate(Callback): def __init__(self): self.accs = [] self.best = 0. self.passed = 0 self.stage = 0 def on_batch_begin(self, batch, logs=None): """第一个epoch用来warmup，第二个epoch把学习率降到最低 """ if self.passed < self.params['steps']: lr = (self.passed + 1.) / self.params['steps'] * learning_rate K.set_value(self.model.optimizer.lr, lr) self.passed += 1 elif self.params['steps'] <= self.passed < self.params['steps'] * 2: lr = (2 - (self.passed + 1.) / self.params['steps']) * (learning_rate - min_learning_rate) lr += min_learning_rate K.set_value(self.model.optimizer.lr, lr) self.passed += 1 def on_epoch_end(self, epoch, logs=None): acc = self.evaluate() self.accs.append(acc) if acc > self.best: self.best = acc train_model.save_weights('best_model.weights') print ('acc: %.5f, best acc: %.5f\n' % (acc, self.best)) def evaluate(self): return evaluate(valid_data, valid_tables)

train_D = data_generator(train_data, train_tables) evaluator = Evaluate()

if __name__ == '__main__': train_model.fit_generator( train_D.__iter__(), steps_per_epoch=len(train_D), epochs=15, callbacks=[evaluator] ) else: train_model.load_weights('best_model.weights')

头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
Python if-else对缩进的要求宇寒风暖 python编程 python 开发语言学习笔记
在Python中，缩进是语法的一部分，用于表示代码块的层次结构。if-else语句的代码块必须通过缩进来定义，缩进不正确会导致语法错误或逻辑错误。1.缩进的基本规则1.1缩进的作用缩进用于表示代码块的层次结构。同一代码块中的语句必须具有相同的缩进级别。缩进通常使用4个空格，这是Python官方推荐的风格。1.2示例x=10ifx>5:print("x大于5")#缩进4个空格print("这是if代
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
开源项目常见问题解决方案——cryptography 周屹隽
开源项目常见问题解决方案——cryptographycryptographycryptographyisapackagedesignedtoexposecryptographicprimitivesandrecipestoPythondevelopers.项目地址:https://gitcode.com/gh_mirrors/cr/cryptography项目基础介绍cryptography是一个
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
Pytest基础使用北条苒茗殇 pytest
概述Pytest是Python里的一个强大的测试框架，灵活易用，可以进行功能，自动化测试使用，可以与Requests，Selenium等进行结合使用，同时可以生成Html的报告。一、Pytest的基本使用在未指定Pytest的配置文件时，会对以下文件进行执行：test_*.py，如：test_1.py*_test.py，如：1_test.py会对以下的类和函数进行执行：类：以Test_开头的类，如
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
python中rmdir和rmtree的用法 Gin387 python
shutil.rmtree()是Python中shutil模块提供的一个函数，用于递归删除整个目录树（包括子目录和所有文件）。os.rmdir()（只能删除空目录）不同，shutil.rmtree()可以强制删除非空目录importshutil#删除指定目录及其所有内容shutil.rmtree('path/to/directory')
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

Nl2sql学习（1）：基于bert的baseline

本文转载自 https://kexue.fm/archives/6771，加入了自己对代码的标注理解

你可能感兴趣的:(python,rnn,nlp)