HxShine

nl2sql_baseline项目解读（待完成）

1.目的

该项目是将自然语言处理转化为mysql语句。
链接：https://github.com/ZhuiyiTechnology/nl2sql_baseline
首届中文NL2SQL挑战赛:https://tianchi.aliyun.com/competition/entrance/231716/introduction?spm=5176.12281949.1003.8.6f802448KX0Rys

2.方法

其实也很简单

就是 :
select $agg{0:"", 1:“AVG”, 2:“MAX”, 3:“MIN”, 4:“COUNT”, 5:“SUM”}
$column
where
$column $op{0:">", 1:"<", 2:"", 3:"!="}
conn_sql_dict{0:"", 1:“and”, 2:“or”}
$column $op{0:">", 1:"<", 2:"", 3:"!="}
…
可以将其拆解为4个子项目：

1 判定sel_agg,选的是啥
2 判定column,该项目又可以分为列个数sel_num和列值sel_pred
3 判定cond_pred,也就是where后面条件语句的词。
4 判定where_rela_pred，也就是where后面条件的组合关系，and或者or

baseline项目的结果为:

可以看出，其他效果都比较好了，就是要解决W-Col,where的列,W-Op where后面的op,W-Val where后面的值。

3. 查看一下难点的实现方法

拆解为四个部分

条件个数cond_num_score,这个目前效果还可以
条件列cond_col_score,这个效果垃圾
条件op:cond_op_score这个0.88
条件值?cond_str_score这个更垃圾

todo：具体实现log

3.1 有的数据

输入

输入文本
输入列columns

输出

cond_num_score:个数
cond_col_score：列选择
cond_op_score：操作
cond_str_score：值

其实就是将输入文本embedding，columns的embedding，然后得到输出的各项分数。

3.2 发现有问题

baseline居然没有用列名的embedding？其他求解都用到了，这是啥原因？这个是不是导致精度不高的原因呢？

col_inp_var: embedding of each header
看看论文：https://arxiv.org/pdf/1711.04436.pdf

3.2.1 论文中预测where后面的个数、列、value、op的方法：

具体实现如下：

已经预测出列了，需要决定哪些列是属于where里面的，因为有些列是属于select 后面的列的
设置一个网络去取topk个columns，对每个查询项目，优化这个k
OP slot是一个三分类的问题=,>,<
VALUE slot是利用一个sequence-to-sequence直接取预测sub-string。

3.2.2 gen_query,根据预测的score生成mysql语句的方法来看具体实现

总体：
score拆分：
sel_num_score, sel_score, agg_score, cond_score, where_rela_score = score
B为batchsize
根据sel_num来选定select后面columns的列和agg

            sel_num = np.argmax(sel_num_score[b])
            max_col_idxes = np.argsort(-sel_score[b])[:sel_num]
            # find the most-probable columns' indexes
            max_agg_idxes = np.argsort(-agg_score[b])[:sel_num]
            cur_query['sel'].extend([int(i) for i in max_col_idxes])
            cur_query['agg'].extend([i[0] for i in max_agg_idxes])

where_rela_score自力更生

cur_query['cond_conn_op'] = np.argmax(where_rela_score[b])

cond也就是where后面的数量num，列col，op，value其实也是自力更生。

       
# 拆分       cond_num_score,cond_col_score,cond_op_score,cond_str_score =\
            [x.data.cpu().numpy() for x in cond_score]
# 选择num
cond_num = np.argmax(cond_num_score[b])

# 总体
            cond_num = np.argmax(cond_num_score[b])
            all_toks = [''] + q[b] + ['']
            max_idxes = np.argsort(-cond_col_score[b])[:cond_num]
            for idx in range(cond_num):
                cur_cond = []
                cur_cond.append(max_idxes[idx]) # where-col
                cur_cond.append(np.argmax(cond_op_score[b][idx])) # where-op
                cur_cond_str_toks = []
                for str_score in cond_str_score[b][idx]:
                    str_tok = np.argmax(str_score[:len(all_toks)])
                    str_val = all_toks[str_tok]
                    if str_val == '':
                        break
                    cur_cond_str_toks.append(str_val)
                cur_cond.append(merge_tokens(cur_cond_str_toks, raw_q[b]))
                cur_query['conds'].append(cur_cond)

4 预测where后面的个数、列、value、op具体实现

4.1 Predict the number of conditions预测条件的个数

总体思路是将列名和输入语句embedding然后得到预测个数，但是有几点需要注意：

输入的时候，假设一个batch为64，由于每一个表的列的个数不一致，每一列的列名的字符串的长度也不一致，他这里现将各个表的列名拼凑成一个整体，然后用lstm算一个embedding，再转化为bacth，max(col_len),feature_size,大小的特征作为输出。
列名最后只是作为一个隐藏层的特征，去算一个输入问题的att的隐藏层的特征，最后的输出是结合这个att联合句子的embedding来输出的。
输出为(64,5)是啥原因？这个估计得看下输入数据的构造情况了。

下面是输入输出纬度的debug的展示：

col_inp_var.shape
torch.Size([599, 16, 300])
p col_name_len.shape
(599,)
p col_len.shape
(64,)
self.cond_num_name_enc
LSTM(300, 50, num_layers=2, batch_first=True, dropout=0.3, bidirectional=True)
e_num_col.shape
torch.Size([64, 17, 100])
p col_num.shape
(64,)
p self.cond_num_col_att
Linear(in_features=100, out_features=1, bias=True)
p num_col_att_val.shape
torch.Size([64, 17])
p num_col_att.shape
torch.Size([64, 17])
p num_col_att.unsqueeze(2).shape
torch.Size([64, 17, 1])
(e_num_col * num_col_att.unsqueeze(2)).shape
torch.Size([64, 17, 100])
(e_num_col * num_col_att.unsqueeze(2)).sum(1).shape
torch.Size([64, 100])
p K_num_col.shape
torch.Size([64, 100])
p cond_num_h1.shape
torch.Size([4, 64, 50])
p cond_num_h2.shape
torch.Size([4, 64, 50])
p self.cond_num_lstm
LSTM(300, 50, num_layers=2, batch_first=True, dropout=0.3, bidirectional=True)
p h_num_enc.shape
torch.Size([64, 57, 100])
p self.cond_num_att
Linear(in_features=100, out_features=1, bias=True)
p self.cond_num_att(h_num_enc).shape
torch.Size([64, 57, 1])
p self.cond_num_att(h_num_enc).squeeze().shape
torch.Size([64, 57])
p num_att_val.shape
torch.Size([64, 57])
p num_att.shape
torch.Size([64, 57])
p num_att.unsqueeze(2).shape
torch.Size([64, 57, 1])
p h_num_enc.shape
torch.Size([64, 57, 100])
p num_att.unsqueeze(2).expand_as(h_num_enc).shape
torch.Size([64, 57, 100])
p (h_num_enc * num_att.unsqueeze(2).expand_as(h_num_enc)).shape
torch.Size([64, 57, 100])
p (h_num_enc * num_att.unsqueeze(2).expand_as(h_num_enc)).sum(1).shape
torch.Size([64, 100])
p K_cond_num.shape
torch.Size([64, 100])
p self.cond_num_col2hid1
Linear(in_features=100, out_features=200, bias=True)

p self.cond_num_col2hid1(K_num_col).shape
torch.Size([64, 200])
p self.cond_num_col2hid1(K_num_col).view(B, 4, self.N_h/2).shape
torch.Size([64, 4, 50])
p self.cond_num_col2hid1(K_num_col).view(B, 4, self.N_h/2).transpose(0, 1).shape
torch.Size([4, 64, 50])
p self.cond_num_col2hid1(K_num_col).view(B, 4, self.N_h/2).transpose(0, 1).contiguous().shape
torch.Size([4, 64, 50])

p self.cond_num_out
Sequential(
  (0): Linear(in_features=100, out_features=100, bias=True)
  (1): Tanh()
  (2): Linear(in_features=100, out_features=5, bias=True)
)
p cond_num_score.shape
torch.Size([64, 5])

4.2 Predict the columns of conditions预测列

与上面类似

5 数据加载处理

q_seq:
: [[‘沪’, ‘宁’, ‘高’, ‘速’, ‘公’, ‘路’, ‘每’, ‘天’, ‘的’, ‘车’, ‘辆’, ‘流’, ‘通’, ‘辆’, ‘是’, ‘9’, ‘5’, ‘0’, ‘6’, ‘9’, ‘辆’, ‘，’, ‘七’, ‘个’, ‘座’, ‘位’, ‘以’, ‘下’, ‘的’, ‘车’, ‘辆’, ‘有’, ‘多’, ‘少’, ‘比’, ‘例’, ‘啊’], [‘麻’, ‘烦’, ‘问’, ‘问’, ‘一’, ‘共’, ‘有’, ‘多’, ‘少’, ‘个’, ‘周’, ‘成’, ‘交’, ‘额’, ‘超’, ‘过’, ‘1’, ‘0’, ‘0’, ‘0’, ‘亿’, ‘元’, ‘的’, ‘板’, ‘块’, ‘？’], [‘你’, ‘知’, ‘道’, ‘歌’, ‘手’, ‘2’, ‘0’, ‘1’, ‘9’, ‘在’, ‘芒’, ‘果’, ‘T’, ‘V’, ‘的’, ‘播’, ‘放’, ‘量’, ‘是’, ‘多’, ‘少’, ‘吗’], [‘你’, ‘知’, ‘道’, ‘杰’, ‘克’, ‘股’, ‘和’, ‘杰’, ‘瑞’, ‘股’, ‘他’, ‘两’, ‘股’, ‘票’, ‘交’, ‘易’, ‘价’, ‘格’, ‘最’, ‘大’, ‘达’, ‘到’, ‘了’, ‘几’, ‘吗’, ‘？’], [‘你’, ‘知’, ‘道’, ‘在’, ‘普’, ‘陀’, ‘区’, ‘中’, ‘海’, ‘紫’, ‘御’, ‘豪’, ‘庭’, ‘这’, ‘个’, ‘项’, ‘目’, ‘他’, ‘们’, ‘的’, ‘开’, ‘盘’, ‘数’, ‘量’, ‘是’, ‘多’, ‘少’, ‘吗’, ‘？’], [‘请’, ‘问’, ‘在’, ‘哪’, ‘个’, ‘时’, ‘间’, ‘锂’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’, ‘大’, ‘于’, ’ ', ‘3’, ‘0’, ‘G’, ‘W’, ‘h’, ’ ', ‘并’, ‘且’, ’ ', ‘三’, ‘元’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’, ‘大’, ‘于’, ’ ', ‘1’, ‘0’, ‘G’, ‘W’, ‘h’, ‘？’], [‘我’, ‘知’, ‘道’, ‘上’, ‘海’, ‘在’, ‘1’, ‘1’, ‘年’, ‘5’, ‘月’, ‘它’, ‘的’, ‘成’, ‘交’, ‘面’, ‘积’, ‘超’, ‘过’, ‘了’, ‘1’, ‘0’, ‘，’, ‘那’, ‘均’, ‘值’, ‘呢’, ‘？’], [‘呃’, ‘那’, ‘个’, ‘，’, ‘滚’, ‘动’, ‘市’, ‘盈’, ‘率’, ‘高’, ‘于’, ‘1’, ‘0’, ‘.’, ‘6’, ‘5’, ‘的’, ‘股’, ‘有’, ‘哪’, ‘些’, ‘啊’, ‘，’, ‘分’, ‘别’, ‘对’, ‘应’, ‘的’, ‘代’, ‘码’, ‘又’, ‘是’, ‘多’, ‘少’], [‘请’, ‘问’, ‘一’, ‘下’, ‘哪’, ‘个’, ‘楼’, ‘盘’, ‘名’, ‘称’, ‘的’, ‘5’, ‘月’, ‘平’, ‘均’, ‘价’, ‘格’, ‘小’, ‘于’, ‘两’, ‘万’, ‘四’, ‘而’, ‘且’, ‘月’, ‘环’, ‘比’, ‘涨’, ‘幅’, ‘小’, ‘于’, ‘4’, ‘的’], [‘我’, ‘想’, ‘知’, ‘道’, ‘有’, ‘几’, ‘家’, ‘公’, ‘司’, ‘1’, ‘0’, ‘年’, ‘和’, ‘1’, ‘1’, ‘年’, ‘每’, ‘股’, ‘收’, ‘益’, ‘都’, ‘超’, ‘过’, ‘0’, ‘.’, ‘2’, ‘元’, ‘的’], [‘你’, ‘帮’, ‘我’, ‘查’, ‘一’, ‘下’, ‘哪’, ‘些’, ‘公’, ‘司’, ‘一’, ‘二’, ‘年’, ‘和’, ‘一’, ‘三’, ‘年’, ‘的’, ‘每’, ‘股’, ‘税’, ‘后’, ‘利’, ‘润’, ‘达’, ‘到’, ‘一’, ‘块’, ‘六’, ‘毛’, ‘钱’, ‘以’, ‘上’, ‘的’, ‘吧’], [‘你’, ‘帮’, ‘我’, ‘查’, ‘查’, ‘在’, ‘哪’, ‘个’, ‘时’, ‘间’, ‘锂’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’, ‘大’, ‘于’, ’ ', ‘3’, ‘0’, ‘G’, ‘W’, ‘h’, ’ ', ‘并’, ‘且’, ’ ', ‘三’, ‘元’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’, ‘大’, ‘于’, ’ ', ‘1’, ‘0’, ‘G’, ‘W’, ‘h’, ‘？’]]
gt_sel_num:
: [1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]
col_seq:
: [[[‘高’, ‘速’, ‘公’, ‘路’], [‘日’, ‘均’, ‘交’, ‘通’, ‘量’, ‘（’, ‘辆’, ‘/’, ‘日’, ‘）’], [‘7’, ‘座’, ‘以’, ‘下’, ‘（’, ‘%’, ‘）’], [‘8’, ‘-’, ‘1’, ‘9’, ‘座’, ‘以’, ‘下’, ‘（’, ‘%’, ‘）’], [‘2’, ‘0’, ‘-’, ‘3’, ‘9’, ‘座’, ‘以’, ‘下’, ‘（’, ‘%’, ‘）’], [‘4’, ‘0’, ‘座’, ‘以’, ‘上’, ‘（’, ‘%’, ‘）’], [‘1’, ‘0’, ‘-’, ‘1’, ‘5’, ‘吨’, ‘货’, ‘车’, ‘（’, ‘%’, ‘）’], [‘1’, ‘5’, ‘吨’, ‘以’, ‘上’, ‘货’, ‘车’, ‘（’, ‘%’, ‘）’]], [[‘板’, ‘块’, ‘代’, ‘码’], [‘板’, ‘块’, ‘名’, ‘称’], [‘成’, ‘分’, ‘股’, ‘个’, ‘数’], [‘周’, ‘成’, ‘交’, ‘额’, ‘（’, ‘亿’, ‘元’, ‘）’], [‘周’, ‘涨’, ‘跌’, ‘幅’, ‘%’], [‘市’, ‘盈’, ‘率’, ‘P’, ‘E’, ‘(’, ‘T’, ‘T’, ‘M’, ‘)’]], [[‘排’, ‘名’], [‘剧’, ‘集’, ‘名’, ‘称’], [‘播’, ‘放’, ‘量’, ‘（’, ‘万’, ‘）’], [‘播’, ‘出’, ‘平’, ‘台’]], [[‘代’, ‘码’], [‘公’, ‘司’], [‘股’, ‘价’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘8’, ‘E’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘9’, ‘E’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘2’, ‘0’, ‘E’], [‘P’, ‘E’, ‘2’, ‘0’, ‘1’, ‘8’, ‘E’], [‘P’, ‘E’, ‘2’, ‘0’, ‘1’, ‘9’, ‘E’], [‘P’, ‘E’, ‘2’, ‘0’, ‘2’, ‘0’, ‘E’], [‘评’, ‘级’]], [[‘序’, ‘号’], [‘项’, ‘目’, ‘名’, ‘称’], [‘位’, ‘置’], [‘发’, ‘证’, ‘日’, ‘期’], [‘开’, ‘盘’, ‘套’, ‘数’], [‘已’, ‘签’, ‘约’, ‘套’, ‘数’], [‘容’, ‘积’, ‘率’], [‘套’, ‘均’, ‘面’, ‘积’], [‘装’, ‘修’, ‘标’, ‘准’], [‘成’, ‘交’, ‘均’, ‘价’], [‘去’, ‘化’, ‘情’, ‘况’]], [[‘时’, ‘间’], [‘锂’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’], [‘锂’, ‘电’, ‘池’, ‘Y’, ‘o’, ‘Y’], [‘三’, ‘元’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’], [‘三’, ‘元’, ‘电’, ‘池’, ‘Y’, ‘o’, ‘Y’], [‘磷’, ‘酸’, ‘铁’, ‘锂’, ‘&’, ‘钴’, ‘酸’, ‘锂’, ‘需’, ‘求’, ‘量’], [‘磷’, ‘酸’, ‘铁’, ‘锂’, ‘&’, ‘钴’, ‘酸’, ‘锂’, ‘Y’, ‘o’, ‘Y’]], [[‘城’, ‘市’], [‘类’, ‘型’], [‘2’, ‘0’, ‘1’, ‘2’, ‘/’, ‘5’, ‘成’, ‘交’, ‘面’, ‘积’], [‘2’, ‘0’, ‘1’, ‘1’, ‘/’, ‘5’, ‘成’, ‘交’, ‘面’, ‘积’], [‘2’, ‘0’, ‘1’, ‘2’, ‘/’, ‘4’, ‘成’, ‘交’, ‘面’, ‘积’], [‘1’, ‘1’, ‘年’, ‘均’, ‘值’], [‘2’, ‘0’, ‘1’, ‘1’, ‘成’, ‘交’, ‘面’, ‘积’, ‘同’, ‘比’], [‘2’, ‘0’, ‘1’, ‘2’, ‘成’, ‘交’, ‘面’, ‘积’, ‘同’, ‘比’], [‘成’, ‘交’, ‘面’, ‘积’, ‘环’, ‘比’], [‘2’, ‘0’, ‘1’, ‘2’, ‘/’, ‘5’, ‘成’, ‘交’, ‘套’, ‘数’], [‘2’, ‘0’, ‘1’, ‘1’, ‘/’, ‘5’, ‘成’, ‘交’, ‘套’, ‘数’], [‘2’, ‘0’, ‘1’, ‘2’, ‘/’, ‘4’, ‘成’, ‘交’, ‘套’, ‘数’], [‘成’, ‘交’, ‘套’, ‘数’, ‘同’, ‘比’], [‘成’, ‘交’, ‘套’, ‘数’, ‘环’, ‘比’]], [[‘股’, ‘票’, ‘代’, ‘码’], [‘股’, ‘票’, ‘简’, ‘称’], [‘P’, ‘E’, ‘-’, ‘T’, ‘T’, ‘M’], [‘P’, ‘B’], [‘P’, ‘S’]], [[‘楼’, ‘盘’, ‘名’, ‘称’], [‘5’, ‘月’, ‘均’, ‘价’, ‘(’, ‘元’, ‘/’, ‘㎡’, ‘)’], [‘月’, ‘环’, ‘比’, ‘涨’, ‘幅’]], [[‘公’, ‘司’, ‘名’, ‘称’], [‘总’, ‘市’, ‘值’, ‘（’, ‘亿’, ‘元’, ‘）’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘0’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘1’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘2’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘3’], [‘P’, ‘E’, ‘2’, ‘0’, ‘1’, ‘0’], [‘P’, ‘E’, ‘2’, ‘0’, ‘1’, ‘1’], [‘P’, ‘E’, ‘2’, ‘0’, ‘1’, ‘2’], [‘P’, ‘E’, ‘2’, ‘0’, ‘1’, ‘3’], [‘P’, ‘B’], [‘R’, ‘N’, ‘A’, ‘V’, ‘P’], [‘折’, ‘价’, ‘率’], [‘评’, ‘级’]], [[‘公’, ‘司’, ‘名’, ‘称’], [‘股’, ‘价’, ‘1’, ‘2’, ‘0’, ‘6’, ‘0’, ‘6’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘2’, ‘E’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘3’, ‘E’], [‘E’, ‘P’, ‘S’, ‘2’, ‘0’, ‘1’, ‘4’, ‘E’], [‘P’, ‘E’, ‘2’, ‘0’, ‘1’, ‘2’], [‘P’, ‘B’, ‘2’, ‘0’, ‘1’, ‘2’, ‘Q’, ‘1’], [‘折’, ‘/’, ‘溢’, ‘价’, ‘2’, ‘0’, ‘1’, ‘2’], [‘评’, ‘价’]], [[‘时’, ‘间’], [‘锂’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’], [‘锂’, ‘电’, ‘池’, ‘Y’, ‘o’, ‘Y’], [‘三’, ‘元’, ‘电’, ‘池’, ‘需’, ‘求’, ‘量’], [‘三’, ‘元’, ‘电’, ‘池’, ‘Y’, ‘o’, ‘Y’], [‘磷’, ‘酸’, ‘铁’, ‘锂’, ‘&’, ‘钴’, ‘酸’, ‘锂’, ‘需’, ‘求’, ‘量’], [‘磷’, ‘酸’, ‘铁’, ‘锂’, ‘&’, ‘钴’, ‘酸’, ‘锂’, ‘Y’, ‘o’, ‘Y’]]]
col_num
: [8, 6, 4, 10, 11, 7, 14, 5, 3, 14, 9, 7]
ans_seq:相当于where后面除了条件值都有了
ans_seq.append(
(
len(sql[‘sql’][‘agg’]),选择的列相应的聚合函数的个数, '0’代表无
sql[‘sql’][‘sel’],列
sql[‘sql’][‘agg’],选择的列相应的聚合函数, '0’代表无
conds_num,
tuple(x[0] for x in sql[‘sql’][‘conds’]),
tuple(x[1] for x in sql[‘sql’][‘conds’]),
sql[‘sql’][‘cond_conn_op’],
))
: [(1, [2], [0], 2, (1, 0), (2, 2), 1), (1, [1], [4], 1, (3,), (0,), 0), (1, [2], [0], 2, (3, 1), (2, 2), 1), (1, [2], [2], 2, (1, 1), (2, 2), 2), (1, [4], [0], 2, (2, 1), (2, 2), 1), (1, [0], [0], 2, (1, 3), (0, 0), 1), (1, [5], [0], 2, (0, 3), (2, 0), 1), (2, [0, 1], [0, 0], 1, (2,), (0,), 0), (1, [0], [0], 2, (1, 2), (1, 1), 2), (1, [0], [4], 2, (2, 3), (0, 0), 1), (1, [0], [0], 2, (2, 3), (0, 0), 1), (1, [0], [0], 2, (1, 3), (0, 0), 1)]
gt_cond_seq,就是原始的conds，前面两个是列，后面是值
: [[[1, 2, ‘95,069.00’], [0, 2, ‘沪宁高速公路’]], [[3, 0, ‘1000’]], [[3, 2, ‘芒果TV’], [1, 2, ‘歌手2019’]], [[1, 2, ‘杰瑞股份’], [1, 2, ‘杰克股份’]], [[2, 2, ‘普陀区’], [1, 2, ‘中海紫御豪庭’]], [[1, 0, ‘30’], [3, 0, ‘10’]], [[0, 2, ‘上海’], [3, 0, ‘10’]], [[2, 0, ‘10.65’]], [[1, 1, ‘24000’], [2, 1, ‘4’]], [[2, 0, ‘0.2’], [3, 0, ‘0.2’]], [[2, 0, ‘1.6’], [3, 0, ‘1.6’]], [[1, 0, ‘30’], [3, 0, ‘10’]]]
gt_where_seq,原始提问句前后分别插入了《BEG》和《END》,然后原文如果可以找到答案，就返回[0,答案_start,答案_end,句子长度]，原文找不到答案，就返回[0,句子长度]
: [[[[0, 38]], [0, 1, 2, 3, 4, 5, 6, 38]], [[0, 17, 18, 19, 20, 27]], [[0, 11, 12, 13, 14, 23], [0, 4, 5, 6, 7, 8, 9, 23]], [[[0, 27]], [[0, 27]]], [[0, 5, 6, 7, 30], [0, 8, 9, 10, 11, 12, 13, 30]], [[0, 17, 18, 42], [0, 36, 37, 42]], [[0, 4, 5, 29], [0, 21, 22, 29]], [[0, 12, 13, 14, 15, 16, 35]], [[[0, 34]], [0, 32, 34]], [[0, 24, 25, 26, 29], [0, 24, 25, 26, 29]], [[[0, 36]], [[0, 36]]], [[0, 20, 21, 45], [0, 39, 40, 45]]]
gt_sel_seq，gt_sel_seq = [x[1] for x in ans_seq]，就是单独列的id
: [[2], [1], [2], [2], [4], [0], [5], [0, 1], [0], [0], [0], [0]]

附录：

{
     "table_id": "a1b2c3d4", # 相应表格的id
     "question": "世茂茂悦府新盘容积率大于1，请问它的套均面积是多少？", # 自然语言问句
    "sql":{ # 真实SQL
        "sel": [7], # SQL选择的列 
        "agg": [0], # 选择的列相应的聚合函数, '0'代表无
        "cond_conn_op": 0, # 条件之间的关系
        "conds": [
            [1,2,"世茂茂悦府"], # 条件列, 条件类型, 条件值，col_1 == "世茂茂悦府"
            [6,0,1]
        ]
    }
}
#其中，SQL的表达字典说明如下：

op_sql_dict = {0:">", 1:"<", 2:"==", 3:"!="}
agg_sql_dict = {0:"", 1:"AVG", 2:"MAX", 3:"MIN", 4:"COUNT", 5:"SUM"}
conn_sql_dict = {0:"", 1:"and", 2:"or"}

     # q_seq: char-based sequence of question
    # gt_sel_num: number of selected columns and aggregation functions
    # col_seq: char-based column name
    # col_num: number of headers in one table
    # ans_seq: (sel, number of conds, sel list in conds, op list in conds)
    # gt_cond_seq: ground truth of conds

6 数据认识

6.1 样例1

question: 二零一九年第四周大黄蜂和密室逃生这两部影片的票房总占比是多少呀
sql_string: {"agg": " SUM", "sel": " 票房占比（%）", "cond_conn_op": "or", "conds": "影片名称==大黄蜂影片名称==密室逃生"}
header: ['影片名称', '周票房（万）', '票房占比（%）', '场均人次']
id_train_tabel: {"rows": [["死侍2：我爱我家", 10637.3, 25.8, 5.0], ["白蛇：缘起", 10503.8, 25.4, 7.0], ["大黄蜂", 6426.6, 15.6, 6.0], ["密室逃生", 5841.4, 14.2, 6.0], ["“大”人物", 3322.9, 8.1, 5.0], ["家和万事惊", 635.2, 1.5, 25.0], ["钢铁飞龙之奥特曼崛起", 595.5, 1.4, 3.0], ["海王", 500.3, 1.2, 5.0], ["一条狗的回家路", 360.0, 0.9, 4.0], ["掠食城市", 356.6, 0.9, 3.0]], "name": "Table_4d29d0513aaa11e9b911f40f24344a08", "title": "表3：2019年第4周（2019.01.28 - 2019.02.03）全国电影票房TOP10", "header": ["影片名称", "周票房（万）", "票房占比（%）", "场均人次"], "common": "资料来源：艺恩电影智库，光大证券研究所", "id": "4d29d0513aaa11e9b911f40f24344a08", "types": ["text", "real", "real", "real"]}

agg SUM
可以通过语句和列名直接得到
sel 票房占比
可以通过语句和列名直接得到
cond_conn_op or
可以通过语句直接判别
conds 影片名称大黄蜂，影片名称密室逃生
这个个数可以很准了
columns不准：因为它不知道大黄蜂是属于电影名称还是票房还是啥，和加入列下的字符串来优化(取set就行)，数字的统一用一个字表示，然后来分类。
values不准：把中文加尽量，数字用其他字符代替，数字需要分组。
op不准：这个为啥不准？

6.2 样例2

question: 你好，我要查询一下涨跌幅超过20%的证券名称以及证券代码，谢谢
sql_string: {"agg": "  ", "sel": " 证券名称 证券代码", "cond_conn_op": "", "conds": "涨跌幅（%）>20"}
header: ['证券代码', '证券名称', '涨跌幅（%）']
id_train_tabel: {"rows": [["300010.SZ", "立思辰", 13.13], ["300079.SZ", "数码科技", 5.56], ["002602.SZ", "世纪华通", 5.3], ["002640.SZ", "跨境通", 5.25], ["002555.SZ", "三七互娱", 5.19], ["600652.SH", "游久游戏", 23.31], ["002354.SZ", "天神娱乐", 23.21], ["601811.SH", "新华文轩", 21.15], ["300148.SZ", "天舟文化", 20.47], ["000673.SZ", "当代东方", 20.0]], "name": "Table_4d24aa113aaa11e9baa9f40f24344a08", "title": "图表1. A股传媒板块本周涨跌幅排行（2019.01.28-2019.02.01）", "header": ["证券代码", "证券名称", "涨跌幅（%）"], "common": "资料来源：万得，中银国际证券", "id": "4d24aa113aaa11e9baa9f40f24344a08", "types": ["text", "text", "real"]}

agg “”
可以通过语句和列名直接得到
sel 证券名称证券代码
可以通过语句和列名直接得到
cond_conn_op “”,一个的话就为空
可以通过语句直接判别
conds 涨跌幅（%）>20
这个个数可以很准了
columns不准：涨跌幅（%）根据列名和语句可以搞出来。
values不准：20%。总感觉数字可以编码，然后再得到。
op不准：根据列名和语句可以搞出来

聚类分析|k-means聚类方法及其Python实现皖山文武数据挖掘商务智能 kmeans 聚类 python 数据挖掘机器学习
k-means聚类方法及其Python实现0.k-means算法简介1.k-means算法工作原理2.k-means算法流程3.k–means算法的Python实现0.k-means算法简介k-means算法由MacQueen在1967年提出。是一种经典的基于划分的聚类方法。划分方法（PartitioningMethod）是基于距离判断样本相似度，通过不断迭代将含有多个样本的数据集划分成若干个簇，
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
【实战ES】实战 Elasticsearch：快速上手与深度实践-6.2.2GDPR数据脱敏处理言析数智实战 elasticsearch 大数据搜索引擎
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲6.2.2GDPR数据脱敏处理深度实践指南1.GDPR核心要求映射1.1关键条款与技术要求1.2`数据类型与脱敏策略`2.全链路脱敏配置2.1`动态脱敏管道`2.2静态脱敏模板3.`脱敏算法性能对比`3.1算法性能矩阵3.2存储成本分析4.企业级合规方案4.1金融行业案例4.2医疗行业方案5.合规性验证方案5.1自动化检查脚本5.2审计检查清单6.
【贪心算法2】 m0_46150269 贪心算法算法
力扣122.买卖股票最佳时机Ⅱ链接:link思路要求最大利润，可以分解成子问题求解，在最低价格买入，最高价格卖出。假如第0天价格最低，第3天价格最高，利润=prices[3]-pricnes[0],可以将利润公式拆解成(prices[3]-prices[2])+(prices[2]-prices[1])+(prices[1]-prices[0])最终变成了求相邻两天的利润，所以可以得到一个关于利润
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
领域大模型之微调技术和最佳实践程序员莫玛人工智能深度学习语言模型金融
BERT和GPT-3等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。-介绍-大型语言模型（LLM）的特别之处可以概括为两个关键词——大型和通用。“大”是指它们训练的海量数据集及其参数的大小，即模型在训练过程中学习的记忆和知识;“通用”意味着他们具有广泛的语言任务能力。更明确地说，L
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
【贪心算法】柠檬水找零 I_Am_Me_ 贪心算法贪心算法算法
1.题目解析860.柠檬水找零-力扣（LeetCode）2.讲解算法原理分情况讨论5---》直接收下10---》找五元，收下20----》10+5△----》5+5+5由于5元更有用，则尽可能保留5元3.代码classSolution{publicbooleanlemonadeChange(int[]bills){intfive=0,ten=0;for(intx:bills){if(x==5){f
leetcode 贪心算法 gufly- leetcode 贪心算法算法
刷题记录以局部最优推出整体最优，且想不到反例，则可以尝试贪心算法455.分发饼干从后向前遍历孩子数组，用大饼干满足胃口大，并统计满足小孩数量classSolution(object):deffindContentChildren(self,g,s):g.sort()s.sort()res=0ind=len(s)-1foriinrange(len(g)-1,-1,-1):ifind>=0ands[i
python贪心算法几个经典例子_贪心算法经典例子 weixin_39637979
一、定义什么是贪心算法呢？所谓贪心算法是指，在对问题求解时，总是做出在当前看来最好的选择。也就是说，不从整体最优解出发来考虑，它所做出的仅是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解，但对范围相当广泛的许多问题都能产生整体最优解或整体最优解的近似解。贪心算法的基本思路如下：1.建立数学模型来描述问题。2.把求解的问题分成若干个子问题。3.对每个子问题求解，得到每个子问题的局
python贪心算法几个经典例子_贪心算法及几个经典例子 weixin_39786850
一、定义什么是贪心算法呢？所谓贪心算法是指，在对问题求解时，总是做出在当前看来最好的选择。也就是说，不从整体最优解出发来考虑，它所做出的仅是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解，但对范围相当广泛的许多问题都能产生整体最优解或整体最优解的近似解。贪心算法的基本思路如下：1.建立数学模型来描述问题。2.把求解的问题分成若干个子问题。3.对每个子问题求解，得到每个子问题的局
简单区分五大算法分析策略（分治、动态规划、贪心、回溯、分支限界）土味儿~ 数据结构与算法数据结构与算法
一、分治法1、设计思想将一个难以直接解决的大问题，分割成k个规模较小的子问题，这些子问题相互独立，且与原问题相同，然后各个击破，分而治之。2、递归算法分治法常常与递归结合使用：通过反复应用分治，可以使子问题与原问题类型一致而规模不断缩小，最终使子问题缩小到很容易求出其解，由此自然导致递归算法。3、子问题规模根据分治法的分割原则，应把原问题分割成多少个子问题才比较适宜？每个子问题是否规模相同或怎样才
贪心算法 tzc_fly 白景屹-算法栈贪心算法
贪心算法框架贪心算法（greedyalgorithm）是一个容易想象但难以证明的算法，算法框架包括：可选对象集合S，S是全集；已选对象集合T；判断解是否合法的函数isValid(T)；评价解的函数payoff(T)；目标：从S中选出T，使isValid(T)为True，同时，满足payoff(T)最大；做法：从空集开始，每次增加一个元素使当前payoff最大最后求解完成需要验证是不是全局最优贪心算
LeetCode刷题实战522：最长特殊序列 II 编程IT圈字符串算法 leetcode java 数据结构
算法的重要性，我就不多说了吧，想去大厂，就必须要经过基础知识和业务逻辑面试+算法面试。所以，为了提高大家的算法能力，这个公众号后续每天带大家做一道算法题，题目就从LeetCode上面选！今天和大家聊的问题叫做最长特殊序列II，我们先来看题面：https://leetcode-cn.com/problems/longest-uncommon-subsequence-ii/Givenanarrayof
贪心算法及几个经典例子 G11176593 贪心算法算法动态规划
贪心算法一、基本概念：所谓贪心算法是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，他所做出的仅是在某种意义上的局部最优解。贪心算法没有固定的算法框架，算法设计的关键是贪心策略的选择。必须注意的是，贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具备无后效性，即某个状态以后的过程不会影响以前的状态，只与当前状态有关。所以对所采用的贪心策略一定要仔细
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
贪心算法解题框架+经典反例分析，效率提升300% Reese_Cool 洛谷贪心算法算法 c++蓝桥杯
贪心算法是一种在每一步选择中都采取当前状态下的最优决策，从而希望最终达到全局最优解的算法策略。以下从其定义、特点、一般步骤、应用场景及实例等方面进行讲解：定义与基本思想•贪心算法在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，它所做出的仅仅是在某种意义上的局部最优解。它通常以自顶向下的方式进行，每一步都选择当前的最优解，而不考虑之前或之后的步骤。特点•无后效性：即
XGBClassifiler函数介绍浊酒南街 #算法机器学习 XGB
目录前言函数介绍示例前言XGBClassifier是XGBoost库中用于分类任务的类。XGBoost是一种高效且灵活的梯度提升决策树（GBDT）实现，它在多种机器学习竞赛中表现出色，尤其擅长处理表格数据。函数介绍XGBClassifiler(max_depth=3,learning_rate=0.1,n_estimators=100,objective='binary:logistic',boo
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
句子改写器在线转换的原创性提升策略 hjehheje 算法人工智能 python
在文本处理领域，"句子改写器在线转换"的原创性提升并非单纯依赖工具升级，而是需要融合算法优化、人工干预与策略设计的系统工程。以下从技术底层到应用层拆解核心方法，辅以实验数据验证其可行性：一、语义拓扑重构技术（SemanticTopologyReconstruction）原理突破传统同义词替换仅影响表层词汇（LexicalLevel），而STR技术通过依存句法分析，构建句子的语义网络拓扑图，对主谓宾
玩转Mysql系列 - 第26篇：聊聊mysql如何实现分布式锁？「已注销」 mysql 分布式数据库 java 服务器
Mysql系列的目标是：通过这个系列从入门到全面掌握一个高级开发所需要的全部技能。欢迎大家加我微信itsoku一起交流java、算法、数据库相关技术。这是Mysql系列第26篇。本篇我们使用mysql实现一个分布式锁。分布式锁的功能分布式锁使用者位于不同的机器中，锁获取成功之后，才可以对共享资源进行操作锁具有重入的功能：即一个使用者可以多次获取某个锁获取锁有超时的功能：即在指定的时间内去尝试获取锁
向量数据库简介 openwin_top python编程示例系列 python编程示例系列二数据库
向量数据库（VectorDatabase）是一种专门用于存储和查询向量数据的数据库系统。向量数据库通常使用高效的向量索引技术，支持基于向量相似度的查询和检索，可以应用于图像搜索、自然语言处理、推荐系统、机器学习等领域。与传统的关系型数据库不同，向量数据库通常使用基于向量的数据模型，将向量作为数据的核心表示形式。向量数据库可以存储和处理大量的向量数据，支持高效的向量相似度计算和查询。常见的向量索引技
搜索插入位置（js实现，LeetCode：35）充气大锤算法 leetcode 算法数据结构学习笔记 javascript 二分查找
给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。示例1:输入:nums=[1,3,5,6],target=5输出:2示例2:输入:nums=[1,3,5,6],target=2输出:1示例3:输入:nums=[1,3,5,6],target=7输出:4提示:1<=nums.lengt
Vue中vfor循环创建DOM时Key的理解之Vue中的diff算法充气大锤前端性能优化 vue.js javascript 前端学习笔记算法 ecmascript
在Vue开发过程中vfor遍历数组创建Dom是最常见的方式，在vfor时，标签中有一个key值，key值的作用是啥呢？这就不得不提到Vue中的diff算法。一、什么是diff算法Vue会用虚拟DOM来表述真实DOM，这样的目的是为了计算出DOM的最小的变化从而更加快速的更新真实DOM二、diff算法的计算过程1、遍历老虚拟DOM2、遍历新虚拟DOM3、重新排序这样做会有个问题，就是节点数越多，计算
Ubuntu22.04安装CP2K最新版2025.1 jhonwyyc 机器学习深度学习 ubuntu
CP2K教程CP2K系列之一安装文章目录CP2K教程前言一、安装依赖库1.引入库二、下载并解压缩1.下载链接2.解压缩三、安装1.安装cp2k_toolchain2.安装cp2k3.指定根目录4.修改环境变量四、测试总结前言CP2K是一款开源的第一性原理计算软件，采用Fortran98编写。近年来结合机器学习与lammps，已成为热度逐年增加的软件。但是目前使用它仍存在不少难点。本文讲解在Ubun
基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测机器学习和优化算法多头注意力机制深度学习神经网络人工智能机器学习单变量时序预测 BiLSTM 多头注意力机制
目录1、代码简介2、代码运行结果展示3、代码获取1、代码简介基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测(单输入单输出)1.程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！2.需要其他算法的都可以定制！注：1️⃣、运行环境要求MATLAB版本为2023b及其以上。【没有我赠送】2️⃣、评价指标包括:R
Azure AI Document Intelligence 使用指南 scaFHIO azure 人工智能 flask python
AzureAIDocumentIntelligence使用指南AzureAIDocumentIntelligence（原名AzureFormRecognizer）是一项基于机器学习的服务，可以从数字或扫描PDF、图像、Office和HTML文件中提取文本（包括手写）、表格、文档结构（如标题、节标题等）和键值对。它支持多种格式，包括PDF、JPEG/JPG、PNG、BMP、TIFF、HEIF、DOC
鸢尾花数据集的四个特征具体是什么？学术乙方 Python 人工智能
鸢尾花数据集（IrisDataset）是机器学习领域中最经典的数据集之一，它包含150个样本，每个样本有4个特征，分别是：1.花萼长度（SepalLength）描述：花萼（花的外部绿色部分）的长度，单位为厘米。取值范围：通常为4.3cm到7.9cm。2.花萼宽度（SepalWidth）描述：花萼的宽度，单位为厘米。取值范围：通常为2.0cm到4.4cm。3.花瓣长度（PetalLength）描述：
LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning Zhouqi_Hua 大模型论文阅读人工智能 chatgpt 论文阅读机器学习深度学习语言模型
Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen