Audior

语音识别——基于深度学习的中文语音识别（自注意力机制的语言模型代码实践）

文章目录

基于自注意力机制的语言模型

1. 数据处理
2.模型搭建

2.1 构造建模组件

layer norm层
embedding层
multihead层
feedforward
label_smoothing.

2.2 搭建模型

3. 训练模型

3.1 参数设定
3.2 模型训练
3.3 模型推断

基于自注意力机制的语言模型

因为最近在看self-attention，今天整理CBHG的语言模型tutorial的时候，想到self-attention的特点，做拼音到汉字是再适合不过的了。然后赶紧动手，于是出现了这篇基于自注意力机制的拼音转汉字的博客。
结果还是非常喜人的，准确率很高，也考虑了不同字词之间的影响，有种人生巅峰的感觉。

论文地址：https://arxiv.org/abs/1706.03762
项目地址：https://github.com/audier/my_ch_speech_recognition/tree/master/tutorial

话不多说，将我的实现方法介绍给大家。
转载请注明出处：https://blog.csdn.net/chinatelecom08

1. 数据处理

读取数据

with open("data/zh.tsv", 'r', encoding='utf-8') as fout:
    data = fout.readlines()[:100]

分开输入和输出

from tqdm import tqdm

inputs = []
labels = []
for i in tqdm(range(len(data))):
    key, pny, hanzi = data[i].split('\t')
    inputs.append(pny.split(' '))
    labels.append(hanzi.strip('\n').split(' '))

100%|█████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 50129.13it/s]

print(inputs[:5])
print()
print(labels[:5])

[['lv4', 'shi4', 'yang2', 'chun1', 'yan1', 'jing3', 'da4', 'kuai4', 'wen2', 'zhang1', 'de', 'di3', 'se4', 'si4', 'yue4', 'de', 'lin2', 'luan2', 'geng4', 'shi4', 'lv4', 'de2', 'xian1', 'huo2', 'xiu4', 'mei4', 'shi1', 'yi4', 'ang4', 'ran2'], ['ta1', 'jin3', 'ping2', 'yao1', 'bu4', 'de', 'li4', 'liang4', 'zai4', 'yong3', 'dao4', 'shang4', 'xia4', 'fan1', 'teng2', 'yong3', 'dong4', 'she2', 'xing2', 'zhuang4', 'ru2', 'hai3', 'tun2', 'yi1', 'zhi2', 'yi3', 'yi1', 'tou2', 'de', 'you1', 'shi4', 'ling3', 'xian1'], ['pao4', 'yan3', 'da3', 'hao3', 'le', 'zha4', 'yao4', 'zen3', 'me', 'zhuang1', 'yue4', 'zheng4', 'cai2', 'yao3', 'le', 'yao3', 'ya2', 'shu1', 'de', 'tuo1', 'qu4', 'yi1', 'fu2', 'guang1', 'bang3', 'zi', 'chong1', 'jin4', 'le', 'shui3', 'cuan4', 'dong4'], ['ke3', 'shei2', 'zhi1', 'wen2', 'wan2', 'hou4', 'ta1', 'yi1', 'zhao4', 'jing4', 'zi', 'zhi3', 'jian4', 'zuo3', 'xia4', 'yan3', 'jian3', 'de', 'xian4', 'you4', 'cu1', 'you4', 'hei1', 'yu3', 'you4', 'ce4', 'ming2', 'xian3', 'bu4', 'dui4', 'cheng1'], ['qi1', 'shi2', 'nian2', 'dai4', 'mo4', 'wo3', 'wai4', 'chu1', 'qiu2', 'xue2', 'mu3', 'qin1', 'ding1', 'ning2', 'wo3', 'chi1', 'fan4', 'yao4', 'xi4', 'jue2', 'man4', 'yan4', 'xue2', 'xi2', 'yao4', 'shen1', 'zuan1', 'xi4', 'yan2']]

[['绿', '是', '阳', '春', '烟', '景', '大', '块', '文', '章', '的', '底', '色', '四', '月', '的', '林', '峦', '更', '是', '绿', '得', '鲜', '活', '秀', '媚', '诗', '意', '盎', '然'], ['他', '仅', '凭', '腰', '部', '的', '力', '量', '在', '泳', '道', '上', '下', '翻', '腾', '蛹', '动', '蛇', '行', '状', '如', '海', '豚', '一', '直', '以', '一', '头', '的', '优', '势', '领', '先'], ['炮', '眼', '打', '好', '了', '炸', '药', '怎', '么', '装', '岳', '正', '才', '咬', '了', '咬', '牙', '倏', '地', '脱', '去', '衣', '服', '光', '膀', '子', '冲', '进', '了', '水', '窜', '洞'], ['可', '谁', '知', '纹', '完', '后', '她', '一', '照', '镜', '子', '只', '见', '左', '下', '眼', '睑', '的', '线', '又', '粗', '又', '黑', '与', '右', '侧', '明', '显', '不', '对', '称'], ['七', '十', '年', '代', '末', '我', '外', '出', '求', '学', '母', '亲', '叮', '咛', '我', '吃', '饭', '要', '细', '嚼', '慢', '咽', '学', '习', '要', '深', '钻', '细', '研']]

生成词典，将符号转化为index

def get_vocab(data):
    vocab = ['']
    for line in tqdm(data):
        for char in line:
            if char not in vocab:
                vocab.append(char)
    return vocab

pny2id = get_vocab(inputs)
han2id = get_vocab(labels)

100%|██████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 7712.39it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 5277.65it/s]

print(pny2id[:10])
print(han2id[:10])

['', 'lv4', 'shi4', 'yang2', 'chun1', 'yan1', 'jing3', 'da4', 'kuai4', 'wen2']
['', '绿', '是', '阳', '春', '烟', '景', '大', '块', '文']

将字符形式数据转化为数字形式数据

input_num = [[pny2id.index(pny) for pny in line] for line in tqdm(inputs)]
label_num = [[han2id.index(han) for han in line] for line in tqdm(labels)]

100%|██████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 6591.81it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 3855.73it/s]

能够产生padding后数据的batch generator

import numpy as np
def get_batch(input_data, label_data, batch_size):
    batch_num = len(input_data) // batch_size
    for k in range(batch_num):
        begin = k * batch_size
        end = begin + batch_size
        input_batch = input_data[begin:end]
        label_batch = label_data[begin:end]
        max_len = max([len(line) for line in input_batch])
        input_batch = np.array([line + [0] * (max_len - len(line)) for line in input_batch])
        label_batch = np.array([line + [0] * (max_len - len(line)) for line in label_batch])
        yield input_batch, label_batch
        
        
batch = get_batch(input_num, label_num, 4)
input_batch, label_batch = next(batch)
print(input_batch)
print(label_batch)

[[  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  11  16  17
   18   2   1  19  20  21  22  23  24  25  26  27   0   0   0]
 [ 28  29  30  31  32  11  33  34  35  36  37  38  39  40  41  36  42  43
   44  45  46  47  48  49  50  51  49  52  11  53   2  54  20]
 [ 55  56  57  58  59  60  61  62  63  64  15  65  66  67  59  67  68  69
   11  70  71  49  72  73  74  75  76  77  59  78  79  42   0]
 [ 80  81  82   9  83  84  28  49  85  86  75  87  88  89  39  56  90  11
   91  92  93  92  94  95  92  96  97  98  32  99 100   0   0]]
[[  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  11  16  17
   18   2   1  19  20  21  22  23  24  25  26  27   0   0   0]
 [ 28  29  30  31  32  11  33  34  35  36  37  38  39  40  41  42  43  44
   45  46  47  48  49  50  51  52  50  53  11  54  55  56  57]
 [ 58  59  60  61  62  63  64  65  66  67  68  69  70  71  62  71  72  73
   74  75  76  77  78  79  80  81  82  83  62  84  85  86   0]
 [ 87  88  89  90  91  92  93  50  94  95  81  96  97  98  39  59  99  11
  100 101 102 101 103 104 105 106 107 108 109 110 111   0   0]]

2.模型搭建

模型采用self-attention,模型结构如下：

我们只需要搭建左侧编码器即可，不用搭建右侧解码器。

模型代码搭建我们直接参考开源的代码：
https://github.com/Kyubyong/transformer/blob/master/modules.py

我们只需要注意每一快的输入输出数据形式怎样即可。

import tensorflow as tf

2.1 构造建模组件

下面代码实现了图片结构中的各个功能组件。

layer norm层

def normalize(inputs, 
              epsilon = 1e-8,
              scope="ln",
              reuse=None):
    '''Applies layer normalization.

    Args:
      inputs: A tensor with 2 or more dimensions, where the first dimension has
        `batch_size`.
      epsilon: A floating number. A very small number for preventing ZeroDivision Error.
      scope: Optional scope for `variable_scope`.
      reuse: Boolean, whether to reuse the weights of a previous layer
        by the same name.

    Returns:
      A tensor with the same shape and data dtype as `inputs`.
    '''
    with tf.variable_scope(scope, reuse=reuse):
        inputs_shape = inputs.get_shape()
        params_shape = inputs_shape[-1:]

        mean, variance = tf.nn.moments(inputs, [-1], keep_dims=True)
        beta= tf.Variable(tf.zeros(params_shape))
        gamma = tf.Variable(tf.ones(params_shape))
        normalized = (inputs - mean) / ( (variance + epsilon) ** (.5) )
        outputs = gamma * normalized + beta

    return outputs

embedding层

def embedding(inputs, 
              vocab_size, 
              num_units, 
              zero_pad=True, 
              scale=True,
              scope="embedding", 
              reuse=None):
    '''Embeds a given tensor.
    Args:
      inputs: A `Tensor` with type `int32` or `int64` containing the ids
         to be looked up in `lookup table`.
      vocab_size: An int. Vocabulary size.
      num_units: An int. Number of embedding hidden units.
      zero_pad: A boolean. If True, all the values of the fist row (id 0)
        should be constant zeros.
      scale: A boolean. If True. the outputs is multiplied by sqrt num_units.
      scope: Optional scope for `variable_scope`.
      reuse: Boolean, whether to reuse the weights of a previous layer
        by the same name.
    Returns:
      A `Tensor` with one more rank than inputs's. The last dimensionality
        should be `num_units`.

    For example,

    ```
    import tensorflow as tf

    inputs = tf.to_int32(tf.reshape(tf.range(2*3), (2, 3)))
    outputs = embedding(inputs, 6, 2, zero_pad=True)
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        print sess.run(outputs)
    >>
    [[[ 0.          0.        ]
      [ 0.09754146  0.67385566]
      [ 0.37864095 -0.35689294]]
     [[-1.01329422 -1.09939694]
      [ 0.7521342   0.38203377]
      [-0.04973143 -0.06210355]]]
    ```

    ```
    import tensorflow as tf

    inputs = tf.to_int32(tf.reshape(tf.range(2*3), (2, 3)))
    outputs = embedding(inputs, 6, 2, zero_pad=False)
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        print sess.run(outputs)
    >>
    [[[-0.19172323 -0.39159766]
      [-0.43212751 -0.66207761]
      [ 1.03452027 -0.26704335]]
     [[-0.11634696 -0.35983452]
      [ 0.50208133  0.53509563]
      [ 1.22204471 -0.96587461]]]
    ```
    '''
    with tf.variable_scope(scope, reuse=reuse):
        lookup_table = tf.get_variable('lookup_table',
                                       dtype=tf.float32,
                                       shape=[vocab_size, num_units],
                                       initializer=tf.contrib.layers.xavier_initializer())
        if zero_pad:
            lookup_table = tf.concat((tf.zeros(shape=[1, num_units]),
                                      lookup_table[1:, :]), 0)
        outputs = tf.nn.embedding_lookup(lookup_table, inputs)

        if scale:
            outputs = outputs * (num_units ** 0.5) 

    return outputs

multihead层

该层实现了下面功能：

def multihead_attention(emb,
                        queries, 
                        keys, 
                        num_units=None, 
                        num_heads=8, 
                        dropout_rate=0,
                        is_training=True,
                        causality=False,
                        scope="multihead_attention", 
                        reuse=None):
    '''Applies multihead attention.
    
    Args:
      queries: A 3d tensor with shape of [N, T_q, C_q].
      keys: A 3d tensor with shape of [N, T_k, C_k].
      num_units: A scalar. Attention size.
      dropout_rate: A floating point number.
      is_training: Boolean. Controller of mechanism for dropout.
      causality: Boolean. If true, units that reference the future are masked. 
      num_heads: An int. Number of heads.
      scope: Optional scope for `variable_scope`.
      reuse: Boolean, whether to reuse the weights of a previous layer
        by the same name.
        
    Returns
      A 3d tensor with shape of (N, T_q, C)  
    '''
    with tf.variable_scope(scope, reuse=reuse):
        # Set the fall back option for num_units
        if num_units is None:
            num_units = queries.get_shape().as_list[-1]
        
        # Linear projections
        Q = tf.layers.dense(queries, num_units, activation=tf.nn.relu) # (N, T_q, C)
        K = tf.layers.dense(keys, num_units, activation=tf.nn.relu) # (N, T_k, C)
        V = tf.layers.dense(keys, num_units, activation=tf.nn.relu) # (N, T_k, C)
        
        # Split and concat
        Q_ = tf.concat(tf.split(Q, num_heads, axis=2), axis=0) # (h*N, T_q, C/h) 
        K_ = tf.concat(tf.split(K, num_heads, axis=2), axis=0) # (h*N, T_k, C/h) 
        V_ = tf.concat(tf.split(V, num_heads, axis=2), axis=0) # (h*N, T_k, C/h) 

        # Multiplication
        outputs = tf.matmul(Q_, tf.transpose(K_, [0, 2, 1])) # (h*N, T_q, T_k)
        
        # Scale
        outputs = outputs / (K_.get_shape().as_list()[-1] ** 0.5)
        
        # Key Masking
        key_masks = tf.sign(tf.abs(tf.reduce_sum(emb, axis=-1))) # (N, T_k)
        key_masks = tf.tile(key_masks, [num_heads, 1]) # (h*N, T_k)
        key_masks = tf.tile(tf.expand_dims(key_masks, 1), [1, tf.shape(queries)[1], 1]) # (h*N, T_q, T_k)
        
        paddings = tf.ones_like(outputs)*(-2**32+1)
        outputs = tf.where(tf.equal(key_masks, 0), paddings, outputs) # (h*N, T_q, T_k)
  
        # Causality = Future blinding
        if causality:
            diag_vals = tf.ones_like(outputs[0, :, :]) # (T_q, T_k)
            tril = tf.contrib.linalg.LinearOperatorTriL(diag_vals).to_dense() # (T_q, T_k)
            masks = tf.tile(tf.expand_dims(tril, 0), [tf.shape(outputs)[0], 1, 1]) # (h*N, T_q, T_k)
   
            paddings = tf.ones_like(masks)*(-2**32+1)
            outputs = tf.where(tf.equal(masks, 0), paddings, outputs) # (h*N, T_q, T_k)
  
        # Activation
        outputs = tf.nn.softmax(outputs) # (h*N, T_q, T_k)
         
        # Query Masking
        query_masks = tf.sign(tf.abs(tf.reduce_sum(emb, axis=-1))) # (N, T_q)
        query_masks = tf.tile(query_masks, [num_heads, 1]) # (h*N, T_q)
        query_masks = tf.tile(tf.expand_dims(query_masks, -1), [1, 1, tf.shape(keys)[1]]) # (h*N, T_q, T_k)
        outputs *= query_masks # broadcasting. (N, T_q, C)
          
        # Dropouts
        outputs = tf.layers.dropout(outputs, rate=dropout_rate, training=tf.convert_to_tensor(is_training))
               
        # Weighted sum
        outputs = tf.matmul(outputs, V_) # ( h*N, T_q, C/h)
        
        # Restore shape
        outputs = tf.concat(tf.split(outputs, num_heads, axis=0), axis=2 ) # (N, T_q, C)
              
        # Residual connection
        outputs += queries
              
        # Normalize
        outputs = normalize(outputs) # (N, T_q, C)
 
    return outputs

feedforward

两层全连接，用卷积模拟加速运算，也可以使用dense层。

def feedforward(inputs, 
                num_units=[2048, 512],
                scope="multihead_attention", 
                reuse=None):
    '''Point-wise feed forward net.
    
    Args:
      inputs: A 3d tensor with shape of [N, T, C].
      num_units: A list of two integers.
      scope: Optional scope for `variable_scope`.
      reuse: Boolean, whether to reuse the weights of a previous layer
        by the same name.
        
    Returns:
      A 3d tensor with the same shape and dtype as inputs
    '''
    with tf.variable_scope(scope, reuse=reuse):
        # Inner layer
        params = {"inputs": inputs, "filters": num_units[0], "kernel_size": 1,
                  "activation": tf.nn.relu, "use_bias": True}
        outputs = tf.layers.conv1d(**params)
        
        # Readout layer
        params = {"inputs": outputs, "filters": num_units[1], "kernel_size": 1,
                  "activation": None, "use_bias": True}
        outputs = tf.layers.conv1d(**params)
        
        # Residual connection
        outputs += inputs
        
        # Normalize
        outputs = normalize(outputs)
    
    return outputs

label_smoothing.

对于训练有好处，将0变为接近零的小数，1变为接近1的数，原文：

During training, we employed label smoothing of value ls = 0.1 [36]. This hurts perplexity, as the model learns to be more unsure, but improves accuracy and BLEU score.

def label_smoothing(inputs, epsilon=0.1):
    '''Applies label smoothing. See https://arxiv.org/abs/1512.00567.
    
    Args:
      inputs: A 3d tensor with shape of [N, T, V], where V is the number of vocabulary.
      epsilon: Smoothing rate.
    
    For example,
    
    ```
    import tensorflow as tf
    inputs = tf.convert_to_tensor([[[0, 0, 1], 
       [0, 1, 0],
       [1, 0, 0]],
      [[1, 0, 0],
       [1, 0, 0],
       [0, 1, 0]]], tf.float32)
       
    outputs = label_smoothing(inputs)
    
    with tf.Session() as sess:
        print(sess.run([outputs]))
    
    >>
    [array([[[ 0.03333334,  0.03333334,  0.93333334],
        [ 0.03333334,  0.93333334,  0.03333334],
        [ 0.93333334,  0.03333334,  0.03333334]],
       [[ 0.93333334,  0.03333334,  0.03333334],
        [ 0.93333334,  0.03333334,  0.03333334],
        [ 0.03333334,  0.93333334,  0.03333334]]], dtype=float32)]   
    ```
    '''
    K = inputs.get_shape().as_list()[-1] # number of channels
    return ((1-epsilon) * inputs) + (epsilon / K)

2.2 搭建模型

模型实现下图结构：

class Graph():
    def __init__(self, is_training=True):
        tf.reset_default_graph()
        self.is_training = arg.is_training
        self.hidden_units = arg.hidden_units
        self.input_vocab_size = arg.input_vocab_size
        self.label_vocab_size = arg.label_vocab_size
        self.num_heads = arg.num_heads
        self.num_blocks = arg.num_blocks
        self.max_length = arg.max_length
        self.lr = arg.lr
        self.dropout_rate = arg.dropout_rate
        
        # input
        self.x = tf.placeholder(tf.int32, shape=(None, None))
        self.y = tf.placeholder(tf.int32, shape=(None, None))
        # embedding
        self.emb = embedding(self.x, vocab_size=self.input_vocab_size, num_units=self.hidden_units, scale=True, scope="enc_embed")
        self.enc = self.emb + embedding(tf.tile(tf.expand_dims(tf.range(tf.shape(self.x)[1]), 0), [tf.shape(self.x)[0], 1]),
                                      vocab_size=self.max_length,num_units=self.hidden_units, zero_pad=False, scale=False,scope="enc_pe")
        ## Dropout
        self.enc = tf.layers.dropout(self.enc, 
                                    rate=self.dropout_rate, 
                                    training=tf.convert_to_tensor(self.is_training))
                
        ## Blocks
        for i in range(self.num_blocks):
            with tf.variable_scope("num_blocks_{}".format(i)):
                ### Multihead Attention
                self.enc = multihead_attention(emb = self.emb,
                                               queries=self.enc, 
                                                keys=self.enc, 
                                                num_units=self.hidden_units, 
                                                num_heads=self.num_heads, 
                                                dropout_rate=self.dropout_rate,
                                                is_training=self.is_training,
                                                causality=False)
                        
        ### Feed Forward
        self.outputs = feedforward(self.enc, num_units=[4*self.hidden_units, self.hidden_units])
            
                
        # Final linear projection
        self.logits = tf.layers.dense(self.outputs, self.label_vocab_size)
        self.preds = tf.to_int32(tf.argmax(self.logits, axis=-1))
        self.istarget = tf.to_float(tf.not_equal(self.y, 0))
        self.acc = tf.reduce_sum(tf.to_float(tf.equal(self.preds, self.y))*self.istarget)/ (tf.reduce_sum(self.istarget))
        tf.summary.scalar('acc', self.acc)
                
        if is_training:  
            # Loss
            self.y_smoothed = label_smoothing(tf.one_hot(self.y, depth=self.label_vocab_size))
            self.loss = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.y_smoothed)
            self.mean_loss = tf.reduce_sum(self.loss*self.istarget) / (tf.reduce_sum(self.istarget))
               
            # Training Scheme
            self.global_step = tf.Variable(0, name='global_step', trainable=False)
            self.optimizer = tf.train.AdamOptimizer(learning_rate=self.lr, beta1=0.9, beta2=0.98, epsilon=1e-8)
            self.train_op = self.optimizer.minimize(self.mean_loss, global_step=self.global_step)
                   
            # Summary 
            tf.summary.scalar('mean_loss', self.mean_loss)
            self.merged = tf.summary.merge_all()

3. 训练模型

3.1 参数设定

def create_hparams():
    params = tf.contrib.training.HParams(
        num_heads = 8,
        num_blocks = 6,
        # vocab
        input_vocab_size = 50,
        label_vocab_size = 50,
        # embedding size
        max_length = 100,
        hidden_units = 512,
        dropout_rate = 0.2,
        lr = 0.0003,
        is_training = True)
    return params

        
arg = create_hparams()
arg.input_vocab_size = len(pny2id)
arg.label_vocab_size = len(han2id)

3.2 模型训练

import os

epochs = 25
batch_size = 4

g = Graph(arg)

saver =tf.train.Saver()
with tf.Session() as sess:
    merged = tf.summary.merge_all()
    sess.run(tf.global_variables_initializer())
    if os.path.exists('logs/model.meta'):
        saver.restore(sess, 'logs/model')
    writer = tf.summary.FileWriter('tensorboard/lm', tf.get_default_graph())
    for k in range(epochs):
        total_loss = 0
        batch_num = len(input_num) // batch_size
        batch = get_batch(input_num, label_num, batch_size)
        for i in range(batch_num):
            input_batch, label_batch = next(batch)
            feed = {g.x: input_batch, g.y: label_batch}
            cost,_ = sess.run([g.mean_loss,g.train_op], feed_dict=feed)
            total_loss += cost
            if (k * batch_num + i) % 10 == 0:
                rs=sess.run(merged, feed_dict=feed)
                writer.add_summary(rs, k * batch_num + i)
        if (k+1) % 5 == 0:
            print('epochs', k+1, ': average loss = ', total_loss/batch_num)
    saver.save(sess, 'logs/model')
    writer.close()

WARNING:tensorflow:From d:\ProgramData\Anaconda3\lib\site-packages\tensorflow\python\util\deprecation.py:497: calling conv1d (from tensorflow.python.ops.nn_ops) with data_format=NHWC is deprecated and will be removed in a future version.
Instructions for updating:
`NHWC` for data_format is deprecated, use `NWC` instead
WARNING:tensorflow:From :53: softmax_cross_entropy_with_logits (from tensorflow.python.ops.nn_ops) is deprecated and will be removed in a future version.
Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See tf.nn.softmax_cross_entropy_with_logits_v2.

epochs 5 : average loss =  1.6399681091308593
epochs 10 : average loss =  1.1646613264083863
epochs 15 : average loss =  1.157580156326294
epochs 20 : average loss =  1.1407248640060426
epochs 25 : average loss =  1.1298853492736816

3.3 模型推断

arg.is_training = False

g = Graph(arg)

saver =tf.train.Saver()

with tf.Session() as sess:
    saver.restore(sess, 'logs/model')
    while True:
        line = input('输入测试拼音: ')
        if line == 'exit': break
        line = line.strip('\n').split(' ')
        x = np.array([pny2id.index(pny) for pny in line])
        x = x.reshape(1, -1)
        preds = sess.run(g.preds, {g.x: x})
        got = ''.join(han2id[idx] for idx in preds[0])
        print(got)

INFO:tensorflow:Restoring parameters from logs/model
输入测试拼音: shen1 ye4 shi2 er4 dian3 zhong1 ta1 zhan4 zai4 shao4 wei4 shang4 huan2 shi4 zhou1 wei2 yin1 sen1 ke3 bu4 yue4 xiang3 yue4 hai4 pa4 bao4 qiang1 ku1 zhe pao3 hui2 ying2 fang2
深夜十二点钟他站在哨位上环视周围阴森可怖越想越害怕抱枪哭着跑回营房
输入测试拼音: wu3 yue4 er4 shi2 jiu3 ri4 ye4 wan3 ao4 da4 li4 ya4 shou3 dou1 kan1 pei2 la1 de huang2 jia1 ju4 yuan4 re4 lie4 er2 chong1 man3 zhe zhen1 qing2
五月二十九日夜晚澳大利亚首都堪培拉的皇家剧院热烈而充满着真情
输入测试拼音: tai4 hu2 dong1 an4 yi1 dai4 de yun2 tuan2 you2 dan4 dao4 nong2 zai4 you2 nong2 dao4 dan4 er2 shang4 hai3 shi4 qu1 shang4 kong1 de yun2 yue4 lai2 yue4 shao3 yue4 lai2 yue4 xi1
太湖东岸一带的云团由淡到浓再由浓到淡而上海市区上空的云越来越少越来越稀
输入测试拼音: exit

windows实现麦克风持续实时实现科大讯飞语音识别，判断声音是否停止并生成pcm文件青年夏日科技工作者语音识别人工智能
importpyaudio,waveimportnumpyasnpdeflisten():temp=20CHUNK=1024FORMAT=pyaudio.paInt16CHANNELS=1RATE=16000RECORD_SECONDS=2SAMPLE_WIDTH=2#2bytespersampleWAVE_OUTPUT_FILENAME='test.wav'mindb=2000#最小声音，大于则
AI 外呼产品架构解读：让智能外呼更精准高效 MARS_AI_ 人工智能架构自然语言处理信息与通信
在人工智能（AI）技术迅猛发展的今天，AI外呼系统已成为呼叫中心领域的新宠。本文将剖析AI外呼产品的基本架构，帮助读者理解其背后的技术逻辑和应用价值。一、支撑能力层：AI外呼的基石AI外呼系统的底层架构，即支撑能力层，为整个系统提供了坚实的技术基础。这一层主要包括以下三个核心组成部分：1.AI基础能力AI基础能力涵盖了语音识别（ASR）、自然语言处理（NLP）和语音合成（TTS）等技术。这些技术使
国内外优秀AI外呼产品推荐 MARS_AI_ 人工智能自然语言处理 sass nlp 信息与通信
在数字化转型浪潮中，AI外呼系统凭借其高效率、低成本、精准交互的特点，成为企业客户触达与服务的核心工具。本文基于行业实践与技术测评，推荐国内外表现突出的AI外呼产品，重点解析国内标杆企业云蝠智能，并对比其他代表性产品，助企业快速选型。一、云蝠智能：大模型驱动的“性价比之王”作为国内AI外呼领域的领军者，云蝠智能以神鹤AI对话大模型为核心技术，深度融合自然语言处理（NLP）、语音识别（ASR）与语音
AI大模型教程入门到精通，非常详细收藏我这一篇就够了！AI大模型零基础入门教程（适合小白） AGI大模型学习人工智能大模型应用大模型 AI产品经理学习 AI大模型大模型教程
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
神经进化算法(Neuroevolution) 原理与代码实例讲解 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
神经进化算法,Neuroevolution,进化算法,深度学习,机器学习,遗传算法,神经网络,代码实例1.背景介绍在机器学习领域，神经网络凭借其强大的学习能力和泛化能力，在图像识别、自然语言处理、语音识别等领域取得了显著的成就。然而，传统的神经网络训练方法通常依赖于人工设计的网络结构和参数初始化，这往往需要大量的经验和试错，并且难以找到最优的网络结构和参数。神经进化算法(Neuroevolutio
微信小程序毕业设计大全 QQ1305637939 小程序毕业设计小程序答辩 java idea
微信小程序程序列表:微信小程序健身房课程预约系统6638微信小程序投票系统6640微信小程序小说阅读推荐系统6641微信小程序垃圾分类识别系统（语音识别，拍照识别）qt-93982微信小程序网上书店qt-93982微信小程序在线购物系统qt-93982微信小程序课堂签到系统qtail-93982微信小程序人脸识别图书馆座位预约系统qt-93982微信小程序二手物品交易系统qt-93982微信小程序
自然语言处理之语法解析：BERT：自然语言处理基础理论 zhubeibei168 自然语言处理 1024程序员节自然语言处理 bert 语音识别人工智能
自然语言处理之语法解析：BERT：自然语言处理基础理论自然语言处理基础自然语言处理的定义与应用自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究如何处理和运用自然语言；自然语言认知则是指让计算机“懂”人类的语言。NLP建立于20世纪50年代，随着计算机技术的飞速发展，NLP技术在信息检索、文本挖掘、语音识别、机器翻译、情
API开发：Flask VS FastAPI Sherry Wangs Python开发实践 python fastapi 后端
在当今的Web开发领域，选择合适的框架对于构建高效、稳定且易于维护的API至关重要。Flask和FastAPI是两个备受关注的PythonWeb框架，它们各自具有独特的特点和优势，适用于不同的开发场景。文章目录一、简介二、性能表现三、开发效率（中文语音识别为例）四、代码可读性和维护性五、生态系统和社区支持六、总结一、简介Flask：Flask是一个轻量级的PythonWeb框架，它基于Werkze
使用 Vosk 实现语音识别分发吧语音识别 xcode 人工智能
在近两年里，如果说想要在本地部署离线语音识别模型，那么Whisper和FunASR肯定是首选项。所以为什么要使用Vosk呢？优势Vosk是一个离线开源语音识别工具包，它的优点在于：轻量：Vosk提供轻量级的模型（小于50MB大小），可以用于低功耗平台（例如Android、树莓派之类）多编程语言、多平台支持：Python、Java、Node.js、C#、C++、Rust、Go等多语种支持：支持二十多
python编译安装vosk语音识别包 hzjxinyue python
不知道为什么，谁把vosk从pip源上删了。没办法只能自己编译安装了。下载源代码gitclonehttps://github.com/alphacep/vosk-api.git进入python文件夹cdvosk-api/python编译安装python3setup.pyinstall
VOSK语音识别工具包使用教程邴联微
VOSK语音识别工具包使用教程voskVOSKSpeechRecognitionToolkit项目地址:https://gitcode.com/gh_mirrors/vo/vosk1.项目介绍VOSK是一个开源的语音识别工具包，旨在提供高效的语音识别解决方案。VOSK基于大规模信号数据库概念，通过音频指纹技术进行语音识别。它支持多种语言，并且可以在不同的硬件平台上运行，包括Android和Linu
DeepSeek全栈接入指南：从零到生产环境的深度实践量子纠缠BUG DeepSeek部署 AI DeepSeek 人工智能深度学习机器学习
第一章：DeepSeek技术体系全景解析1.1认知DeepSeek技术生态DeepSeek作为新一代人工智能技术平台，构建了覆盖算法开发、模型训练、服务部署的全链路技术栈。其核心能力体现在：1.1.1多模态智能引擎自然语言处理：支持文本生成（NLG）、语义理解（NLU）、情感分析等计算机视觉：提供图像分类、目标检测、OCR识别等CV能力语音交互：包含语音识别（ASR）、语音合成（TTS）及声纹识别
说话人识别系统原理醉心编码人工智能基础编程基础技术类人工智能说话人识别语音识别
在当今数字化和智能化飞速发展的时代，说话人识别系统作为一项关键的生物识别技术，正逐渐融入我们生活的方方面面。简单来说，说话人识别系统就像是一位“语音侦探”，能够通过分析语音中的独特特征，精准地判断出说话者的身份。它与指纹识别、人脸识别等技术一样，都属于生物识别技术的范畴，但有着独特的优势——仅通过声音即可实现身份识别，无需额外的物理接触或视觉捕捉。与语音识别不同，语音识别关注的是语音内容的转写，比
深度学习的前沿与挑战：从基础到最新进展 Jason_Orton 深度学习人工智能数据挖掘机器学习
目录引言什么是深度学习？深度学习的工作原理深度学习的关键技术1.卷积神经网络（CNN）2.循环神经网络（RNN）3.生成对抗网络（GAN）4.变分自编码器（VAE）5.自注意力机制与Transformer深度学习的应用1.计算机视觉2.自然语言处理（NLP）3.语音识别与合成4.推荐系统5.医学影像分析深度学习面临的挑战结语引言深度学习（DeepLearning）近年来成为人工智能领域的核心技术之
python系列&deep_study系列：使用python操作麦克风录制讲话，实时语音识别转换为文字坦笑&&life AI系列 python 语音识别 xcode
使用python操作麦克风录制讲话，实时语音识别转换为文字使用python操作麦克风录制讲话，实时语音识别转换为文字项目步骤VoskPyaudio完整代码使用python操作麦克风录制讲话，实时语音识别转换为文字在这个项目中，我们将建立一个系统，它可以使用麦克风录制现场讲话，然后通过语音识别进行转录。这可用于自动记录和转录会议、讲座和其他活动，能过自动记录演讲内容。我们将编写代码，来开始和停止录音
大模型之二十七-语音识别Whisper实例浅析 shichaog 神经网络&人工智能语音识别 whisper 人工智能
Whisper简介Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其paper中并没透露使用语料的详细来源，估计是爬了一些版权数据，在Huggingface上提到模型有很强的泛化能力，能够在未经特定训练的情况下处理新的
使用Python和Vosk库实现语音识别车载testing python 语音识别开发语言
使用Python和Vosk库实现语音识别在人工智能和机器学习领域，语音识别技术正变得越来越重要。Python作为一种强大的编程语言，拥有丰富的库和框架，可以方便地实现语音识别功能。今天，我们将介绍如何使用Python中的SpeechRecognition库和Vosk模型来实现语音识别。一、SpeechRecognition库的安装SpeechRecognition库是Python中一个简单易用的语
Python+whisper/vosk实现语音识别唯余木叶下弦声 python whisper 语音识别人工智能
目录一、Whisper1、Whisper介绍2、安装Whisper3、使用Whisper-base模型4、使用Whisper-large-v3-turbo模型二、vosk1、Vosk介绍2、vosk安装3、使用vosk三、总结一、Whisper1、Whisper介绍Whisper是一个由OpenAI开发的人工智能语音识别模型，它能够将语音转换为文本。Whisper模型特别之处在于它的设计目标是能够
深度学习：从神经网络到智能应用 Jason_Orton 深度学习神经网络人工智能机器学习
目录引言一.什么是深度学习？二.深度学习的基本原理1.神经网络的组成2.激活函数3.反向传播（Backpropagation）三.深度学习的常见模型四.深度学习的应用场景五.深度学习的挑战与未来结语引言深度学习（DeepLearning）作为机器学习的一个分支，近年来在人工智能领域取得了革命性的进展。无论是语音识别、图像识别，还是自动驾驶、自然语言处理，深度学习都在推动着技术的发展和行业的变革。那
全市场大模型分类及对比分析报告早退的程序员分类数据挖掘人工智能
全市场大模型分类及对比分析报告1.引言随着人工智能技术的飞速发展，大模型（LargeModels）已成为推动AI进步的核心力量。大模型凭借其强大的计算能力和海量数据处理能力，在自然语言处理（NLP）、计算机视觉（CV）、语音识别等领域取得了显著成果。本报告将对全市场中几类主要的大模型进行分类和对比分析，探讨其技术特点、应用场景及未来发展趋势。2.大模型分类根据模型架构、训练目标和应用领域，全市场的
【物联网项目】基于ESP8266设计的家庭灯光与火情智能监测系统（完整工程资料源码等）阿齐Archie 单片机项目合集单片机嵌入式硬件 stm32 毕业设计毕设物联网
基于ESP8266设计的家庭灯光与火情智能监测系统效果：摘要：该系统是在家庭灯光与火情智能监测系统的基础上，进行智能化控制监测的设计与开发。系统是以单片机ESP8266WIFI开发板为主控核心，实现对各个主要功能模块的控制。主要模块如HC-SR501人体红外传感器模块、光敏电阻传感器模块、火焰传感器模块、LD3320语音识别模块、DHT11温湿度传感器模块等。使用Arduino开发软件进行烧录程序
脑洞打开话题：deepseek这么火，什么时候能完全代替人类？噔噔噔噔@ 网络
AI完全代替人类是一个复杂且充满争议的话题，涉及技术、伦理、社会和经济等多个方面。目前来看，AI在某些领域已经表现出超越人类的能力，但要完全代替人类仍然面临许多挑战和限制。以下是关于AI何时可能完全代替人类的一些分析和思考：1.技术层面的限制尽管AI在某些特定任务上已经超越了人类（如图像识别、语音识别、围棋等），但要完全代替人类，AI需要在以下几个方面取得突破：通用人工智能（AGI）目前的AI主要
python 语音转文本中文——DeepSpeech drebander python 开发语言 DeepSpeech
DeepSpeech简介与音频转文本实践DeepSpeech是由Mozilla开发的一种开源语音识别引擎，基于深度学习技术，采用端到端架构，可以高效地将语音转换为文本。其核心算法受BaiduDeepSpeech论文启发，使用RecurrentNeuralNetwork（RNN）处理语音数据。一、DeepSpeech的原理1.核心组件声学模型：将语音波形转换为概率分布表示。语言模型：对语音识别结果进
HarmonyOS Next智能相册应用中的AI识图与语音识别实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能相册应用中AI识图与语音识别技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、智能相册应用需求与架构设计（一）功能需求深度剖析图像分类需求在智能相册应用中，图像分类是一项重要功能，
适用于呼叫中心质检的离线ASR模型狂爱代码的码农 VOIP那些事容器
以下是适用于中文呼叫中心质检的离线语音转文字（STT）模型及工具，根据性能、中文支持、部署灵活性等维度整理：1.开源模型与框架1.1WeNet(出门问问&西北大学)特点：端到端语音识别框架，专为中文优化，支持流式和非流式识别，适合工业场景。优势：预训练模型基于AIShell等中文数据集，准确率高。低延迟，适合实时处理（如质检中的实时监控）。支持GPU/CPU部署，提供Python和C++接口。部署
funasr 麦克风实时流语音识别；模拟vad检测单独输出完整每句话 loong_XL 深度学习语音AI 语音识别人工智能
参考：https://github.com/alibaba-damo-academy/FunASRchunk_size是用于流式传输延迟的配置。[0,10,5]表示实时显示的粒度为1060=600毫秒，并且预测的向前信息为560=300毫秒。每个推理输入为600毫秒（采样点为16000*0.6=960），输出为相应的文本。对于最后一个语音片段的输入，需要将is_final=True设置为强制输出最
探索未来之声：趣玩语音识别新篇章——FunASR 乌芬维Maisie
探索未来之声：趣玩语音识别新篇章——FunASR去发现同类优质开源项目:https://gitcode.com/在这个数字时代，语音识别技术如同开启智能交互的金钥匙，而【FunASR】正是这把钥匙中的璀璨明珠。FunASR，一款由阿里巴巴达摩院倾力打造的基础语音识别工具包，不仅连接着学术探索的深邃与产业应用的实践，更是以“让语音识别更有趣”为使命，引领了一场声音转换为文字的技术革命。技术剖析：全面
AI 机器人外呼 —— 开启智能外呼新纪元 yoloGina 客户管理电销系统电话外呼系统人工智能机器人
在竞争白热化的商业战场，如何先人一步抢占市场高地？如何精准触达客户、高效转化商机？沃创云AI机器人外呼为您呈上完美解决方案。一、卓越性能，领航外呼超高速拨打：摆脱人工外呼的效率枷锁，沃创云AI机器人外呼以闪电速度出击，一天之内可海量外呼数千通电话，让您的业务信息如疾风般席卷目标客户群体，不错过任何一个潜在机遇。精准语音识别：融合前沿语音技术，无论是字正腔圆的普通话，还是极具地域特色的各地方言，亦或
GPU与FPGA加速：硬件赋能AI应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
GPU与FPGA加速：硬件赋能AI应用1.背景介绍1.1人工智能的兴起人工智能(AI)在过去几年中经历了爆炸式增长,成为推动科技创新的核心动力。从语音识别和计算机视觉,到自然语言处理和推荐系统,AI已广泛应用于各个领域。然而,训练和部署AI模型需要大量计算资源,这对传统的CPU架构提出了巨大挑战。1.2硬件加速的必要性为满足AI算法对计算能力的巨大需求,硬件加速技术应运而生。专用硬件如GPU(图形
数字人源头厂商-源码出售源码交付-OEM系统贴牌余~~18538162800 音视频线性代数网络人工智能
引言在数字化浪潮中，数字人正成为创新应用的焦点。从虚拟偶像活跃于舞台，到虚拟客服在各行业的普及，数字人展现出巨大的潜力。搭建数字人源码系统，是融合多领域前沿技术的复杂工程，涵盖图形学、人工智能、语音处理等。本文将深入剖析数字人源码搭建的技术开发细节，为开发者提供全面且深入的技术指南。技术体系架构感知层语音识别：技术选型：采用Kaldi语音识别框架，它是一个开源且灵活的工具包，支持多种语言和声学模型
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>