Eastmount

[Python人工智能] 二十七.基于BiLSTM-CRF的医学命名实体识别研究（下）模型构建

这篇文章写得很冗余，但是我相信你如果真的看完，并且按照我的代码和逻辑进行分析，对您以后的数据预处理和命名实体识别都有帮助，只有真正对这些复杂的文本进行NLP处理后，您才能适应更多的真实环境，坚持！毕竟我写的时候也看了20多小时的视频，又写了20多个小时，别抱怨，加油~

上一篇文章处理后的数据格式如下图所示，将一个个句子处理成了包含六元组的CSV文件，这篇文章将介绍BiLSTM-CRF模型搭建及训练、预测，最终实现医学命名实体识别。

整个项目工程如下图所示：

本专栏主要结合作者之前的博客、AI经验和相关视频及论文介绍，后面随着深入会讲解更多的Python人工智能案例及应用。基础性文章，希望对您有所帮助，如果文章中存在错误或不足之处，还请海涵~作者作为人工智能的菜鸟，希望大家能与我在这一笔一划的博客中成长起来。写了这么多年博客，尝试第一个付费专栏，但更多博客尤其基础性文章，还是会继续免费分享，但该专栏也会用心撰写，望对得起读者，共勉！

读者也可以从github下载源码，结合源码来运行最终实验。祝好~

Keras下载地址：https://github.com/eastmountyxz/AI-for-Keras
TensorFlow下载地址：https://github.com/eastmountyxz/AI-for-TensorFlow

文章目录

一.生成映射字典
二.数据增强
三.数据准备
四.模型构建
- 1.BiLSTM模型构建
- 2.CRF模型融合
- 3.初始化函数完善
- 4.模型训练
五.模型预测
- 1.输出训练误差
- 2.预测数据
六.完整代码
- 1.model.py
- 2.train.py
- 3.data_utils.py
- 4.prepare_data.py
- 5.data_process.py
七.总结

前文：
[Python人工智能] 一.TensorFlow2.0环境搭建及神经网络入门
[Python人工智能] 二.TensorFlow基础及一元直线预测案例
[Python人工智能] 三.TensorFlow基础之Session、变量、传入值和激励函数
[Python人工智能] 四.TensorFlow创建回归神经网络及Optimizer优化器
[Python人工智能] 五.Tensorboard可视化基本用法及绘制整个神经网络
[Python人工智能] 六.TensorFlow实现分类学习及MNIST手写体识别案例
[Python人工智能] 七.什么是过拟合及dropout解决神经网络中的过拟合问题
[Python人工智能] 八.卷积神经网络CNN原理详解及TensorFlow编写CNN
[Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算
[Python人工智能] 十.Tensorflow+Opencv实现CNN自定义图像分类案例及与机器学习KNN图像分类算法对比
[Python人工智能] 十一.Tensorflow如何保存神经网络参数
[Python人工智能] 十二.循环神经网络RNN和LSTM原理详解及TensorFlow编写RNN分类案例
[Python人工智能] 十三.如何评价神经网络、loss曲线图绘制、图像分类案例的F值计算
[Python人工智能] 十四.循环神经网络LSTM RNN回归案例之sin曲线预测
[Python人工智能] 十五.无监督学习Autoencoder原理及聚类可视化案例详解
[Python人工智能] 十六.Keras环境搭建、入门基础及回归神经网络案例
[Python人工智能] 十七.Keras搭建分类神经网络及MNIST数字图像案例分析
[Python人工智能] 十八.Keras搭建卷积神经网络及CNN原理详解
[Python人工智能] 十九.Keras搭建循环神经网络分类案例及RNN原理详解
[Python人工智能] 二十.基于Keras+RNN的文本分类vs基于传统机器学习的文本分类
[Python人工智能] 二十一.Word2Vec+CNN中文文本分类详解及与机器学习（RF\DTC\SVM\KNN\NB\LR）分类对比
[Python人工智能] 二十二.基于大连理工情感词典的情感分析和情绪计算
[Python人工智能] 二十三.基于机器学习和TFIDF的情感分类（含详细的NLP数据清洗）
[Python人工智能] 二十四.易学智能GPU搭建Keras环境实现LSTM恶意URL请求分类
[Python人工智能] 二十六.基于BiLSTM-CRF的医学命名实体识别研究（上）数据预处理
[Python人工智能] 二十七.基于BiLSTM-CRF的医学命名实体识别研究（下）模型构建
《人工智能狂潮》读后感——什么是人工智能？(一)

一.生成映射字典

接下来需要将每个汉字、边界、拼音、偏旁部首等映射成向量。所以，我们首先需要来构造字典，统计多少个不同的字、边界、拼音、偏旁部首等，然后再构建模型将不同的汉字、拼音等映射成不同的向量。

在prepare_data.py中自定义函数get_dict()生成映射字典。
为了训练时保证每个批次输入样本长度一致，这里补充了PAD标记变量，用于填充。同时，每个批次数据在进行填充时是以本批次中最长的句子作为标准，因此需要将句子按长度排序，每个批次数据的长度接近从而提升运算速度。

思考
在机器学习和深度学习中，测试集很可能出现新的特征，这些特征在训练集中从未出现过。比如该数据集的某个汉字、拼音或偏旁部首，在测试集中很可能第一次出现。那么，这种情况怎么解决呢？这种未登录词可以设置为低频Unknown，从而解决该问题。

此时的完整代码如下所示：

prepare_data.py

#encoding:utf-8
import os
import pandas as pd
from collections import Counter
from data_process import split_text
from tqdm import tqdm          #进度条 pip install tqdm 
#词性标注
import jieba.posseg as psg
#获取字的偏旁和拼音
from cnradical import Radical, RunOption
#删除目录
import shutil
#随机划分训练集和测试集
from random import shuffle
#遍历文件包
from glob import glob

train_dir = "train_data"

#----------------------------功能:文本预处理---------------------------------
def process_text(idx, split_method=None, split_name='train'):
    """
    功能: 读取文本并切割,接着打上标记及提取词边界、词性、偏旁部首、拼音等特征
    param idx: 文件的名字 不含扩展名
    param split_method: 切割文本方法
    param split_name: 存储数据集 默认训练集, 还有测试集
    return
    """

    #定义字典 保存所有字的标记、边界、词性、偏旁部首、拼音等特征
    data = {
     }

    #--------------------------------------------------------------------
    #                            获取句子
    #--------------------------------------------------------------------
    if split_method is None:
        #未给文本分割函数 -> 读取文件
        with open(f'data/{train_dir}/{idx}.txt', encoding='utf8') as f:     #f表示文件路径
            texts = f.readlines()
    else:
        #给出文本分割函数 -> 按函数分割
        with open(f'data/{train_dir}/{idx}.txt', encoding='utf8') as f:
            outfile = f'data/train_data_pro/{idx}_pro.txt'
            print(outfile)
            texts = f.read()
            texts = split_method(texts, outfile)

    #提取句子
    data['word'] = texts
    print(texts)

    #--------------------------------------------------------------------
    #                             获取标签(实体类别、起始位置)
    #--------------------------------------------------------------------
    #初始时将所有汉字标记为O
    tag_list = ['O' for s in texts for x in s]    #双层循环遍历每句话中的汉字

    #读取ANN文件获取每个实体的类型、起始位置和结束位置
    tag = pd.read_csv(f'data/{train_dir}/{idx}.ann', header=None, sep='\t') #Pandas读取 分隔符为tab键
    #0 T1 Disease 1845 1850  1型糖尿病

    for i in range(tag.shape[0]):  #tag.shape[0]为行数
        tag_item = tag.iloc[i][1].split(' ')    #每一行的第二列 空格分割
        #print(tag_item)
        #存在某些实体包括两段位置区间 仅获取起始位置和结束位置
        cls, start, end = tag_item[0], int(tag_item[1]), int(tag_item[-1])
        #print(cls,start,end)
        
        #对tag_list进行修改
        tag_list[start] = 'B-' + cls
        for j in range(start+1, end):
            tag_list[j] = 'I-' + cls

    #断言 两个长度不一致报错
    assert len([x for s in texts for x in s])==len(tag_list)
    #print(len([x for s in texts for x in s]))
    #print(len(tag_list))

    #--------------------------------------------------------------------
    #                       分割后句子匹配标签
    #--------------------------------------------------------------------
    tags = []
    start = 0
    end = 0
    #遍历文本
    for s in texts:
        length = len(s)
        end += length
        tags.append(tag_list[start:end])
        start += length    
    print(len(tags))
    #标签数据存储至字典中
    data['label'] = tags

    #--------------------------------------------------------------------
    #                       提取词性和词边界
    #--------------------------------------------------------------------
    #初始标记为M
    word_bounds = ['M' for item in tag_list]    #边界 M表示中间
    word_flags = []                             #词性
    
    #分词
    for text in texts:
        #带词性的结巴分词
        for word, flag in psg.cut(text):   
            if len(word)==1:  #1个长度词
                start = len(word_flags)
                word_bounds[start] = 'S'   #单个字
                word_flags.append(flag)
            else:
                start = len(word_flags)
                word_bounds[start] = 'B'         #开始边界
                word_flags += [flag]*len(word)   #保证词性和字一一对应
                end = len(word_flags) - 1
                word_bounds[end] = 'E'           #结束边界
    #存储
    bounds = []
    flags = []
    start = 0
    end = 0
    for s in texts:
        length = len(s)
        end += length
        bounds.append(word_bounds[start:end])
        flags.append(word_flags[start:end])
        start += length
    data['bound'] = bounds
    data['flag'] = flags

    #--------------------------------------------------------------------
    #                         获取拼音和偏旁特征
    #--------------------------------------------------------------------
    radical = Radical(RunOption.Radical)   #提取偏旁部首
    pinyin = Radical(RunOption.Pinyin)     #提取拼音

    #提取拼音和偏旁 None用特殊符号替代UNK
    radical_out = [[radical.trans_ch(x) if radical.trans_ch(x) is not None else 'UNK' for x in s] for s in texts]
    pinyin_out = [[pinyin.trans_ch(x) if pinyin.trans_ch(x) is not None else 'UNK' for x in s] for s in texts]

    #赋值
    data['radical'] = radical_out
    data['pinyin'] = pinyin_out

    #--------------------------------------------------------------------
    #                              存储数据
    #--------------------------------------------------------------------
    #获取样本数量
    num_samples = len(texts)     #行数
    num_col = len(data.keys())   #列数 字典自定义类别数 6
    print(num_samples)
    print(num_col)
    
    dataset = []
    for i in range(num_samples):
        records = list(zip(*[list(v[i]) for v in data.values()]))   #压缩
        dataset += records+[['sep']*num_col]                        #每处理一句话sep分割
    #records = list(zip(*[list(v[0]) for v in data.values()]))
    #for r in records:
    #    print(r)
    
    #最后一行sep删除
    dataset = dataset[:-1]
    #转换成dataframe 增加表头
    dataset = pd.DataFrame(dataset,columns=data.keys())
    #保存文件 测试集 训练集
    save_path = f'data/prepare/{split_name}/{idx}.csv'
    dataset.to_csv(save_path,index=False,encoding='utf-8')

    #--------------------------------------------------------------------
    #                       处理换行符 w表示一个字
    #--------------------------------------------------------------------
    def clean_word(w):
        if w=='\n':
            return 'LB'
        if w in [' ','\t','\u2003']: #中文空格\u2003
            return 'SPACE'
        if w.isdigit():              #将所有数字转换为一种符号 数字训练会造成干扰
            return 'NUM'
        return w
    
    #对dataframe应用函数
    dataset['word'] = dataset['word'].apply(clean_word)

    #存储数据
    dataset.to_csv(save_path,index=False,encoding='utf-8')
    
    #return texts, tags, bounds, flags
    #return texts[0], tags[0], bounds[0], flags[0], radical_out[0], pinyin_out[0]

#----------------------------功能:预处理所有文本---------------------------------
def multi_process(split_method=None,train_ratio=0.8):
    """
    功能: 对所有文本尽心预处理操作
    param split_method: 切割文本方法
    param train_ratio: 训练集和测试集划分比例
    return
    """
    
    #删除目录
    if os.path.exists('data/prepare/'):
        shutil.rmtree('data/prepare/')
        
    #创建目录
    if not os.path.exists('data/prepare/train/'):
        os.makedirs('data/prepare/train/')
        os.makedirs('data/prepare/test/')

    #获取所有文件名
    idxs = set([file.split('.')[0] for file in os.listdir('data/'+train_dir)])
    idxs = list(idxs)
    
    #随机划分训练集和测试集
    shuffle(idxs)                         #打乱顺序
    index = int(len(idxs)*train_ratio)    #获取训练集的截止下标
    #获取训练集和测试集文件名集合
    train_ids = idxs[:index]
    test_ids = idxs[index:]

    #--------------------------------------------------------------------
    #                               引入多进程
    #--------------------------------------------------------------------
    #线程池方式调用
    import multiprocessing as mp
    num_cpus = mp.cpu_count()           #获取机器CPU的个数
    pool = mp.Pool(num_cpus)
    
    results = []
    #训练集处理
    for idx in train_ids:
        result = pool.apply_async(process_text, args=(idx,split_method,'train'))
        results.append(result)
    #测试集处理
    for idx in test_ids:
        result = pool.apply_async(process_text, args=(idx,split_method,'test'))
        results.append(result)
    #关闭进程池
    pool.close()
    pool.join()
    [r.get for r in results]

#----------------------------功能:生成映射字典---------------------------------
#统计函数：列表、频率计算阈值
def mapping(data,threshold=10,is_word=False,sep='sep'):
    #统计列表data中各种类型的个数
    count = Counter(data)

    #删除之前自定义的sep换行符
    if sep is not None:
        count.pop(sep)

    #判断是汉字 未登录词处理 出现频率较少 设置为Unknown
    if is_word:
        #设置下列两个词频次 排序靠前
        count['PAD'] = 100000001          #填充字符 保证长度一致
        count['UNK'] = 100000000          #未知标记
        #降序排列
        data = sorted(count.items(),key=lambda x:x[1], reverse=True)
        #去除频率小于threshold的元素
        data = [x[0] for x in data if x[1]>=threshold]
        #转换成字典
        id2item = data
        item2id = {
     id2item[i]:i for i in range(len(id2item))}
    else:
        count['PAD'] = 100000001
        data = sorted(count.items(),key=lambda x:x[1], reverse=True)
        data = [x[0] for x in data]
        id2item = data
        item2id = {
     id2item[i]:i for i in range(len(id2item))}
    return id2item, item2id

#生成映射字典
def get_dict():
    #获取所有内容
    all_w = []         #汉字
    all_bound = []     #边界
    all_flag = []      #词性
    all_label = []     #类别
    all_radical = []   #偏旁
    all_pinyin = []    #拼音
    
    #读取文件
    for file in glob('data/prepare/train/*.csv') + glob('data/prepare/test/*.csv'):
        df = pd.read_csv(file,sep=',')
        all_w += df['word'].tolist()
        all_bound += df['bound'].tolist()
        all_flag += df['flag'].tolist()
        all_label += df['label'].tolist()
        all_radical += df['radical'].tolist()
        all_pinyin += df['pinyin'].tolist()

    #保存返回结果 字典
    map_dict = {
     } 

    #调用统计函数
    map_dict['word'] = mapping(all_w,threshold=20,is_word=True)
    map_dict['bound'] = mapping(all_bound)
    map_dict['flag'] = mapping(all_flag)
    map_dict['label'] = mapping(all_label)
    map_dict['radical'] = mapping(all_radical)
    map_dict['pinyin'] = mapping(all_pinyin)

    #字典保存内容
    return map_dict
    
#-------------------------------功能:主函数--------------------------------------
if __name__ == '__main__':
    #print(process_text('0',split_method=split_text,split_name='train'))

    #多线程处理文本
    #multi_process(split_text)

    #生成映射字典
    print(get_dict())

输出结果如下图所示：

至此，成功输出结果，包括字、边界、标记、类别、偏旁、拼音六类数据及对应的下标。比如边界共包括PAD、S、B、E、M五种，实体类型包括31种。

如果需要对生成的数据进行存储和调用，则使用如下核心代码：

输出结果为：

([‘PAD’, ‘S’, ‘B’, ‘E’, ‘M’], {‘PAD’: 0, ‘S’: 1, ‘B’: 2, ‘E’: 3, ‘M’: 4})

二.数据增强

接下来我们需要将这些下标转换成对应的数值，再映射成向量，模型根据向量进行训练。

第一步，创建文件data_utils.py。

data_utils.py

我们将文件中的三个句子合并成一个句子，从而实现数据增强。同时，拼接文件前获取汉字、边界、词性、类别、偏旁、拼音对应的下标，再进行后续句子拼接操作。注意，这里的三个句子拼接在一定程度能让整个文本保持一个均匀的长度，从而分批训练的词向量长度一致，增强数据并提升运算性能。

第二步，编写相关代码。

#encoding:utf-8
import pandas as pd
import pickle
import numpy as np
from tqdm import tqdm
import os

#功能:获取值对应的下标 参数为列表和字符
def item2id(data,w2i):
    #x在字典中直接获取 不在字典中返回UNK
    return [w2i[x] if x in w2i else w2i['UNK'] for x in data]
    
#----------------------------功能:拼接文件---------------------------------
def get_data_with_windows(name='train'):
    #读取prepare_data.py生成的dict.pkl文件 存储字典{类别:下标}
    with open(f'data/dict.pkl', 'rb') as f:
        map_dict = pickle.load(f)   #加载字典
        
    #存储所有数据
    results = []
    root = os.path.join('data/prepare/'+name)
    files = list(os.listdir(root))
    print(files)
    #['10.csv', '11.csv', '12.csv',.....]

    #获取所有文件 进度条
    for file in tqdm(files):
        all_data = []
        path = os.path.join(root, file)
        samples = pd.read_csv(path,sep=',')
        max_num = len(samples)
        #获取sep换行分隔符下标 -1 20 40 60
        sep_index = [-1]+samples[samples['word']=='sep'].index.tolist()+[max_num]
        #print(sep_index)
        #[-1, 83, 92, 117, 134, 158, 173, 200,......]

        #----------------------------------------------------------------------
        #                  获取句子并将句子全部都转换成id
        #----------------------------------------------------------------------
        for i in range(len(sep_index)-1):
            start = sep_index[i] + 1     #0 (-1+1)
            end = sep_index[i+1]         #20
            data = []
            #每个特征进行处理
            for feature in samples.columns:    #访问每列
                #通过函数item2id获取下标 map_dict两个值(列表和字典) 获取第二个值
                data.append(item2id(list(samples[feature])[start:end],map_dict[feature][1]))
            #将每句话的列表合成
            all_data.append(data)

        #----------------------------------------------------------------------
        #                             数据增强
        #----------------------------------------------------------------------
        #前后两个句子拼接 每个句子六个元素(汉字、边界、词性、类别、偏旁、拼音)
        two = []
        for i in range(len(all_data)-1):
            first = all_data[i]
            second = all_data[i+1]
            two.append([first[k]+second[k] for k in range(len(first))]) #六个元素

        three = []
        for i in range(len(all_data)-2):
            first = all_data[i]
            second = all_data[i+1]
            third = all_data[i+2]
            three.append([first[k]+second[k]+third[k] for k in range(len(first))])
            
        #返回所有结果
        results.extend(all_data+two+three)
        
    return results    

#-------------------------------功能:主函数--------------------------------------
if __name__ == '__main__':
    print(get_data_with_windows('train'))

此时的输出如下图所示，可以看到tqdm打印的进度条。

  0%|          | 0/290 [00:00<?, ?it/s]
  1%|          | 2/290 [00:02<06:36,  1.38s/it]
  3%|▎         | 9/290 [00:11<06:51,  1.46s/it]
 13%|█▎        | 38/290 [01:08<07:01,  1.67s/it]
 27%|██▋       | 79/290 [03:08<11:06,  3.16s/it]
 45%|████▌     | 131/290 [06:39<11:56,  4.51s/it]
 61%|██████    | 177/290 [11:41<15:11,  8.07s/it]

三.数据准备

继续完善代码，将结果输出至文件，并定义类分批管理。

1.先执行get_data_with_windows(‘train’)函数拼接文件
2.再执行train_data = BatchManager(10, ‘train’)函数分批处理
3.用函数get_data_with_windows(‘test’)处理测试集数据

该部分最终完整代码如下：

data_utils.py

#encoding:utf-8
import pandas as pd
import pickle
import numpy as np
from tqdm import tqdm
import os
import math

#功能:获取值对应的下标 参数为列表和字符
def item2id(data,w2i):
    #x在字典中直接获取 不在字典中返回UNK
    return [w2i[x] if x in w2i else w2i['UNK'] for x in data]
    
#----------------------------功能:拼接文件---------------------------------
def get_data_with_windows(name='train'):
    #读取prepare_data.py生成的dict.pkl文件 存储字典{类别:下标}
    with open(f'data/dict.pkl', 'rb') as f:
        map_dict = pickle.load(f)   #加载字典
        
    #存储所有数据
    results = []
    root = os.path.join('data/prepare/'+name)
    files = list(os.listdir(root))
    print(files)
    #['10.csv', '11.csv', '12.csv',.....]

    #获取所有文件 进度条
    for file in tqdm(files):
        all_data = []
        path = os.path.join(root, file)
        samples = pd.read_csv(path,sep=',')
        max_num = len(samples)
        #获取sep换行分隔符下标 -1 20 40 60
        sep_index = [-1]+samples[samples['word']=='sep'].index.tolist()+[max_num]
        #print(sep_index)
        #[-1, 83, 92, 117, 134, 158, 173, 200,......]

        #----------------------------------------------------------------------
        #                  获取句子并将句子全部都转换成id
        #----------------------------------------------------------------------
        for i in range(len(sep_index)-1):
            start = sep_index[i] + 1     #0 (-1+1)
            end = sep_index[i+1]         #20
            data = []
            #每个特征进行处理
            for feature in samples.columns:    #访问每列
                #通过函数item2id获取下标 map_dict两个值(列表和字典) 获取第二个值
                data.append(item2id(list(samples[feature])[start:end],map_dict[feature][1]))
            #将每句话的列表合成
            all_data.append(data)

        #----------------------------------------------------------------------
        #                             数据增强
        #----------------------------------------------------------------------
        #前后两个句子拼接 每个句子六个元素(汉字、边界、词性、类别、偏旁、拼音)
        two = []
        for i in range(len(all_data)-1):
            first = all_data[i]
            second = all_data[i+1]
            two.append([first[k]+second[k] for k in range(len(first))]) #六个元素

        three = []
        for i in range(len(all_data)-2):
            first = all_data[i]
            second = all_data[i+1]
            third = all_data[i+2]
            three.append([first[k]+second[k]+third[k] for k in range(len(first))])
            
        #返回所有结果
        results.extend(all_data+two+three)
        
    #return results

    #数据存储至本地 每次调用时间成本过大
    with open(f'data/'+name+'.pkl', 'wb') as f:
        pickle.dump(results, f)
        
#----------------------------功能:批处理---------------------------------
class BatchManager(object):

    def __init__(self, batch_size, name='train'):
        #调用函数拼接文件
        #data = get_data_with_windows(name)
        
        #读取文件
        with open(f'data/'+name+'.pkl', 'rb') as f:
            data = pickle.load(f)
        print(len(data))         #265455句话
        print(len(data[0]))      #6种类别
        print(len(data[0][0]))   #第一句包含字的数量 83
        print("原始数据:", data[0])
                               
        #数据批处理
        self.batch_data = self.sort_and_pad(data, batch_size)
        self.len_data = len(self.batch_data)

    def sort_and_pad(self, data, batch_size):
        #计算总批次数量 26546
        num_batch = int(math.ceil(len(data) / batch_size))
        #按照句子长度排序
        sorted_data = sorted(data, key=lambda x: len(x[0]))
        batch_data = list()
        
        #获取一个批次的数据
        for i in range(num_batch):
            batch_data.append(self.pad_data(sorted_data[i*int(batch_size) : (i+1)*int(batch_size)]))
        print("分批输出:", batch_data[1000])
        
        return batch_data

    @staticmethod
    def pad_data(data_):
        #定义变量
        chars = []
        bounds = []
        flags = []
        radicals = []
        pinyins = []
        targets = []
        
        #print("每个批次句子个数:", len(data_))           #10
        #print("每个句子包含元素个数:", len(data_[0]))     #6
        #print("输出data:", data_)
        
        max_length = max([len(sentence[0]) for sentence in data_])  #值为1
        #print(max_length)
        
        #每个批次共有十组数据 每组数据均为六个元素
        for line in data_:
            char, bound, flag, target, radical, pinyin = line
            padding = [0] * (max_length - len(char))    #计算补充字符数量
            #注意char和chars不要写错 否则造成递归循环赋值错误
            chars.append(char + padding)
            bounds.append(bound + padding)
            flags.append(flag + padding)
            targets.append(target + padding)
            radicals.append(radical + padding)
            pinyins.append(pinyin + padding)
            
        return [chars, bounds, flags, radicals, pinyins, targets]

    #每次使用一个批次数据
    def iter_batch(self, shuffle=False):
        if shuffle:
            random.shuffle(self.batch_data)
        for idx in range(self.len_data):
            yield self.batch_data[idx]
            
#-------------------------------功能:主函数--------------------------------------
if __name__ == '__main__':
    #1.拼接文件(第一次执行 后续可注释)
    #get_data_with_windows('train')

    #2.分批处理 
    train_data = BatchManager(10, 'train')
    
    #3.接着处理下测试集数据
    #get_data_with_windows('test')

原始数据及处理后的数据如下图所示：

某些Python工具能看到中间输出结果，可以看到我们的data_utils.py脚本成功将句子分批次补齐，每个批次处理为对应的10个句子 x 6个数据类型。

注：该部分老师丢失了视频，是作者结合源码进行还原，哈哈！泪奔~

四.模型构建

此时我们项目的结构图如下所示，包括：

data：数据文件夹，prepare为预处理数据，由很多包含六元组的CSV文件组成
train.pkl：训练集句子六元组下标
test.pkl：测试集句子六元组下标
data_process.py：获取实体类别及个数、BIO数据标注、长短句分割
prepare_data.py：获取数据标签、提取六元组（字、边界、词性、类别、偏旁、拼音）
data_utils.py：获取六元组对应的下标并进行对齐处理，后续转换词向量训练

接着让我们开始创建BiLSTM模型。

1.BiLSTM模型构建

第一步，创建模型构建脚本。

model.py

核心代码如下，大家可以先熟悉Model类中基本的函数、变量组成。

#encoding:utf-8
"""
Created on Thu Jan  7 12:56:40 2021
@author: xiuzhang
"""
import tensorflow as tf
import numpy as np

#---------------------------功能：预测计算函数-----------------------------
def network(char,bound,flag,radical,pinyin,shapes,
            initializer=tf.truncated_normal_initializer):
    """
    功能：接收一个批次样本的特征数据，计算网络的输出值
    :param char: int, id of chars a tensor of shape 2-D [None,None]
    :param bound: int, a tensor of shape 2-D [None,None]
    :param flag: int, a tensor of shape 2-D [None,None]
    :param radical: int, a tensor of shape 2-D [None,None]
    :param pinyin: int, a tensor of shape 2-D [None,None]
    :param shapes: 词向量形状字典
    :param initializer: 初始化函数
    :return
    """
    #--------------------------------------------------
    #特征嵌入:将所有特征的id转换成一个固定长度的向量
    embedding = []
    
    #五类特征转换成词向量再拼接
    with tf.variable_scope('char_embedding'):
        #获取汉字信息
        char_lookup = tf.get_variable(
            name = 'char_embedding',        #名称
            shape = ['char'],               #[num,dim] 行数(个数)*列数(向量维度)
            initializer = initializer
        )
        #词向量映射
        embedding.append(tf.nn.embedding_lookup(char_lookup,char))
        
#-----------------------------功能：定义模型类---------------------------
class Model(object):
    
    #初始化
    def __init__(self, dict_):
        #通过dict.pkl计算各个特征数量
        self.num_char = len(dict_['word'][0])
        self.num_bound = len(dict_['bound'][0])
        self.num_flag = len(dict_['flag'][0])
        self.num_radical = len(dict_['radical'][0])
        self.num_pinyin = len(dict_['pinyin'][0])
        self.num_entity = len(dict_['label'][0])
        
        #字符映射成向量的维度
        self.char_dim = 100
        self.bound_dim = 20
        self.flag_dim = 50
        self.radical_dim = 50
        self.pinyin_dim = 50
        
        #shape表示为[num,dim] 行数(个数)*列数(向量维度)
        
    #定义网络 接收批次样本
    def get_logits(self,char,bound,flag,radical,pinyin):
        """
        功能：接收一个批次样本的特征数据，计算网络的输出值
        :param char: int, id of chars a tensor of shape 2-D [None,None]
        :param bound: int, a tensor of shape 2-D [None,None]
        :param flag: int, a tensor of shape 2-D [None,None]
        :param radical: int, a tensor of shape 2-D [None,None]
        :param pinyin: int, a tensor of shape 2-D [None,None]
        :return
        """
        #定义字典传参
        shapes = {
     }
        shapes['char'] = [self.num_char,self.char_dim]
        shapes['bound'] = [self.num_bound,self.bound_dim]
        shapes['flag'] = [self.num_flag,self.flag_dim]
        shapes['radical'] = [self.num_radical,self.radical_dim]
        shapes['pinyin'] = [self.num_pinyin,self.pinyin_dim]
        
        return network(char,bound,flag,radical,pinyin,dict_input)

第二步，我们尝试编写一个test.py脚本理解词嵌入相关知识。

test.py

# -*- coding: utf-8 -*-
"""
Created on Thu Jan  7 12:56:40 2021
@author: xiuzhang
"""
import tensorflow as tf
import numpy as np

matrix = np.array([
    [1,1,1,1,1,1],
    [2,2,2,2,2,2],
    [3,3,3,3,3,3],
    [4,4,4,4,4,4]
])

x = np.array([
    [0,2,1,1,2],
    [3,2,0,2,2]      
])

#词向量转换
result = tf.nn.embedding_lookup(matrix,x)
with tf.Session() as sess:
    print(sess.run(result))

其输出结果如下图所示，它通过embedding_lookup函数将x矩阵按matrix进行词向量映射，比如[0,2,1,1,2]在matrix分别对应第一行、第三行、第二行、第二行和第四行，相当于每一个id对应一个向量，最终得到如下结果。

同样下面这个函数将char汉字进行词向量映射。

embedding.append(tf.nn.embedding_lookup(char_lookup,char))

第三步，继续完善model.py代码。
我们尝试对参数进行修改，多个参数传递并调用同一规则函数时，可以将参数插入至字典中，从而优化代码。比如：

优化前
def network(char,bound,flag,radical,pinyin,shapes,initializer=…)
优化后
def network(inputs,shapes,initializer=…)

接着定义双向LSTM神经网络，为了提高运算效率，我们需要计算输入Inputs句子的实际长度，而填充数据PAD（下标0）不计算。

完整代码如下，它将词向量输入后处理，最终返回三维矩阵，每个词做一个多分类（31种实体类别），核心函数相当于一个编码器。

get_logits(self,char,bound,flag,radical,pinyin)
network(inputs,shapes,num_entity,lstm_dim=100, initializer)
[batch_size,max_length,num_entity]

#encoding:utf-8
"""
Created on Thu Jan  7 12:56:40 2021
@author: xiuzhang
"""
import tensorflow as tf
import numpy as np
from tensorflow.contrib import rnn

#---------------------------功能：预测计算函数-----------------------------
def network(inputs,shapes,num_entity,lstm_dim=100,
            initializer=tf.truncated_normal_initializer):
    """
    功能：接收一个批次样本的特征数据，计算网络的输出值
    :param char: int, id of chars a tensor of shape 2-D [None,None] 批次数量*每个批次句子长度
    :param bound: int, a tensor of shape 2-D [None,None]
    :param flag: int, a tensor of shape 2-D [None,None]
    :param radical: int, a tensor of shape 2-D [None,None]
    :param pinyin: int, a tensor of shape 2-D [None,None]
    :param shapes: 词向量形状字典
    :param lstm_dim: 神经元的个数
    :param num_entity: 实体标签数量 31种类型
    :param initializer: 初始化函数
    :return
    """
    #--------------------------------------------------
    #特征嵌入:将所有特征的id转换成一个固定长度的向量
    #--------------------------------------------------
    embedding = []
    keys = list(shapes.keys())
    
    #循环将五类特征转换成词向量 后续拼接
    for key in keys:
        with tf.variable_scope(key+'_embedding'):
            #获取汉字信息
            lookup = tf.get_variable(
                name = key + '_embedding',        #名称
                shape = [key],                    #[num,dim] 行数(个数)*列数(向量维度)
                initializer = initializer
            )
            #词向量映射 汉字结果[None,None,100]
            embedding.append(tf.nn.embedding_lookup(lookup,inputs[key]))
    
    #拼接词向量 shape[None,None,char_dim+bound_dim+flag_dim+radical_dim+pinyin_dim]
    embed = tf.concat(embedding,axis=-1)  #最后一个维度上拼接 -1
    
    #lengths: 计算输入inputs每句话的实际长度(填充内容不计算)
    #填充值PAD下标为0 因此总长度减去PAD数量即为实际长度 从而提升运算效率
    sign = tf.sign(tf.abs(inputs[keys[0]]))               #字符长度
    lengths = tf.reduce_sum(sign, reduction_indices=1)
    
    #获取填充序列长度 char的第二个维度
    num_time = tf.shape(inputs[keys[0]])[1]
    
    #--------------------------------------------------
    #循环神经网络编码: 双层双向网络
    #--------------------------------------------------
    #第一层
    with tf.variable_scope('BiLSTM_layer1'):
        lstm_cell = {
     }
        #第一层前向 后向
        for name in ['forward','backward']:
            with tf.varibale_scope(name):           #设置名称
                lstm_cell[name] = rnn.BasicLSTMCell(
                    lstm_dim,                       #神经元的个数
                    initializer = initializer
                )     
        #运行LSTM
        outputs1,finial_states1 = tf.nn.bidirectional_dynamic_run(
            lstm_cell['forward'],
            lstm_cell['backward'],
            embed,
            dtype = tf.float32,
            sequence_length = lengths               #序列实际长度(该参数可省略)
        )
    #拼接前向LSTM和后向LSTM输出
    outputs1 = tf.concat(outputs1,axis=-1)  #b,L,2*lstm_dim
    
    #第二层
    with tf.variable_scope('BiLSTM_layer2'):
        lstm_cell = {
     }
        #第一层前向 后向
        for name in ['forward','backward']:
            with tf.varibale_scope(name):           #设置名称
                lstm_cell[name] = rnn.BasicLSTMCell(
                    lstm_dim,                       #神经元的个数
                    initializer = initializer
                )
        #运行LSTM
        outputs,finial_states = tf.nn.bidirectional_dynamic_run(
            lstm_cell['forward'],
            lstm_cell['backward'],
            embed,                                  #是否利用第一层网络
            dtype = tf.float32,
            sequence_length = lengths               #序列实际长度(该参数可省略)
        )
    #最终结果 [batch_size,maxlength,2*lstm_dim] 即200
    result = tf.concat(outputs,axis=-1)
    
    #--------------------------------------------------
    #输出映射
    #--------------------------------------------------
    #转换成二维矩阵 [batch_size*maxlength,2*lstm_dim]
    result = tf.reshape(result, [-1,2*lstm_dim])
    
    #第一层映射 矩阵乘法
    with tf.variable_scope('project_layer1'):
        #权重
        w = tf.get_variable(
            name = 'w',
            shape = [2*lstm_dim,lstm_dim],     #转100维
            initializer = initializer
        )
        #bias
        b = tf.get_variable(
            name = 'w',
            shape = [lstm_dim],
            initializer = tf.zeros_initializer()
        )
        #运算 激活函数relu
        result = tf.nn.relu(matmul(result,w)+b)
    
    #第二层映射 矩阵乘法
    with tf.variable_scope('project_layer2'):
        #权重
        w = tf.get_variable(
            name = 'w',
            shape = [lstm_dim,num_entity],     #31种实体类别
            initializer = initializer
        )
        #bias
        b = tf.get_variable(
            name = 'w',
            shape = [num_entity],
            initializer = tf.zeros_initializer()
        )
        #运算 激活函数relu 最后一层不激活
        result = matmul(result,w)+b
        
    #形状转换成三维
    result = tf.reshape(result, [-1,num_time,num_entity])
    
    #[batch_size,max_length,num_entity]
    return result
    
#-----------------------------功能：定义模型类---------------------------
class Model(object):
    
    #初始化
    def __init__(self, dict_):
        #通过dict.pkl计算各个特征数量
        self.num_char = len(dict_['word'][0])
        self.num_bound = len(dict_['bound'][0])
        self.num_flag = len(dict_['flag'][0])
        self.num_radical = len(dict_['radical'][0])
        self.num_pinyin = len(dict_['pinyin'][0])
        self.num_entity = len(dict_['label'][0])
        
        #字符映射成向量的维度
        self.char_dim = 100
        self.bound_dim = 20
        self.flag_dim = 50
        self.radical_dim = 50
        self.pinyin_dim = 50
        
        #shape表示为[num,dim] 行数(个数)*列数(向量维度)
        
        #设置LSTM的维度 神经元的个数
        self.lstm_dim = 100
        
    #定义网络 接收批次样本
    def get_logits(self,char,bound,flag,radical,pinyin):
        """
        功能：接收一个批次样本的特征数据，计算网络的输出值
        :param char: int, id of chars a tensor of shape 2-D [None,None]
        :param bound: int, a tensor of shape 2-D [None,None]
        :param flag: int, a tensor of shape 2-D [None,None]
        :param radical: int, a tensor of shape 2-D [None,None]
        :param pinyin: int, a tensor of shape 2-D [None,None]
        :return: 返回3-d tensor [batch_size,max_length,num_entity]
        """
        #定义字典传参
        shapes = {
     }
        shapes['char'] = [self.num_char,self.char_dim]
        shapes['bound'] = [self.num_bound,self.bound_dim]
        shapes['flag'] = [self.num_flag,self.flag_dim]
        shapes['radical'] = [self.num_radical,self.radical_dim]
        shapes['pinyin'] = [self.num_pinyin,self.pinyin_dim]
        
        #输入参数定义字典
        inputs = {
     }
        inputs['char'] = char
        inputs['bound'] = bound
        inputs['flag'] = flag
        inputs['radical'] = radical
        inputs['pinyin'] = pinyin
        
        #return network(char,bound,flag,radical,pinyin,shapes)
        return network(inputs,shapes,lstm_dim=self.lstm_dim,num_entity=self.num_entity)

下面我们补充一张该图的算法流程图，基本流程：

首先将汉字、边界、词性、偏旁和拼音转换成词向量
词嵌入拼接成270维输入
经过两个双向LSTM，转换成200维输出结果，做31种实体类别的分类处理

模型之间的参数计算如下图所示（源自白老师），LSTM有4个门控，31是输出实体标签的数量，100表示LSTM的神经元数。

注意，我们可以查看BILSTM源码帮助学习，比如其返回值包括输出(前向&后向)和状态。

2.CRF模型融合

最终得到31个值（实体类别数）后，我们接下来需要做Softmax吗？
我们不做Softmax，我们不是要每个时刻概率最大，而是需要序列概率最大。因此接下来通过条件随机场计算损失。此时，我们每个时刻有31种选择，假设存在一个10长度的序列，它有31的10次方个组合，而真实的序列只有一种，我们的目标是让真实序列的概率在整个序列所有概率中最大。因此采用CRF模型。

下面开始撰写代码：

model.py

重点：下面总结希望大家认真阅读
传统CRF++是通过统计学方法计算每个时刻隐状态的分值，而现在我们是通过模型network来完成的。因此该模型称为BiLSTM-CRF模型。同时，调用crf_log_likelihood()函数计算条件随机场的对数似然，如下图所示，初始时刻状态为31个概率为0（log-1000）和Start概率为1（log0）。

BiLSTM：负责提取特征（结合上下文），每个时刻输出31个值
CRF：负责计算隐状态分值
该模型与隐马尔可夫模型本质区别是计算分数方法不同，一种是基于统计学方法P(y|x)，一种是基于神经网络实现（BiLSTM）。
最后的结果就是真实概率值在所有概率值中最大，因此条件随机场是序列归一化，对整个序列的分值做归一化处理。

此时model.py的完整代码如下：

#encoding:utf-8
"""
Created on Thu Jan  7 12:56:40 2021
@author: xiuzhang
"""
import tensorflow as tf
import numpy as np
from tensorflow.contrib import rnn
#计算条件随机场的对数似然
from tensorflow.contrib.crf import crf_log_likelihood

#---------------------------功能：预测计算函数-----------------------------
def network(inputs,shapes,num_entity,lstm_dim=100,
            initializer=tf.truncated_normal_initializer):
    """
    功能：接收一个批次样本的特征数据，计算网络的输出值
    :param char: int, id of chars a tensor of shape 2-D [None,None] 批次数量*每个批次句子长度
    :param bound: int, a tensor of shape 2-D [None,None]
    :param flag: int, a tensor of shape 2-D [None,None]
    :param radical: int, a tensor of shape 2-D [None,None]
    :param pinyin: int, a tensor of shape 2-D [None,None]
    :param shapes: 词向量形状字典
    :param lstm_dim: 神经元的个数
    :param num_entity: 实体标签数量 31种类型
    :param initializer: 初始化函数
    :return
    """
    #--------------------------------------------------
    #特征嵌入:将所有特征的id转换成一个固定长度的向量
    #--------------------------------------------------
    embedding = []
    keys = list(shapes.keys())
    
    #循环将五类特征转换成词向量 后续拼接
    for key in keys:
        with tf.variable_scope(key+'_embedding'):
            #获取汉字信息
            lookup = tf.get_variable(
                name = key + '_embedding',        #名称
                shape = [key],                    #[num,dim] 行数(个数)*列数(向量维度)
                initializer = initializer
            )
            #词向量映射 汉字结果[None,None,100]
            embedding.append(tf.nn.embedding_lookup(lookup,inputs[key]))
    
    #拼接词向量 shape[None,None,char_dim+bound_dim+flag_dim+radical_dim+pinyin_dim]
    embed = tf.concat(embedding,axis=-1)  #最后一个维度上拼接 -1
    
    #lengths: 计算输入inputs每句话的实际长度(填充内容不计算)
    #填充值PAD下标为0 因此总长度减去PAD数量即为实际长度 从而提升运算效率
    sign = tf.sign(tf.abs(inputs[keys[0]]))               #字符长度
    lengths = tf.reduce_sum(sign, reduction_indices=1)
    
    #获取填充序列长度 char的第二个维度
    num_time = tf.shape(inputs[keys[0]])[1]
    
    #--------------------------------------------------
    #循环神经网络编码: 双层双向网络
    #--------------------------------------------------
    #第一层
    with tf.variable_scope('BiLSTM_layer1'):
        lstm_cell = {
     }
        #第一层前向 后向
        for name in ['forward','backward']:
            with tf.varibale_scope(name):           #设置名称
                lstm_cell[name] = rnn.BasicLSTMCell(
                    lstm_dim,                       #神经元的个数
                    initializer = initializer
                )     
        #运行LSTM
        outputs1,finial_states1 = tf.nn.bidirectional_dynamic_run(
            lstm_cell['forward'],
            lstm_cell['backward'],
            embed,
            dtype = tf.float32,
            sequence_length = lengths               #序列实际长度(该参数可省略)
        )
    #拼接前向LSTM和后向LSTM输出
    outputs1 = tf.concat(outputs1,axis=-1)  #b,L,2*lstm_dim
    
    #第二层
    with tf.variable_scope('BiLSTM_layer2'):
        lstm_cell = {
     }
        #第一层前向 后向
        for name in ['forward','backward']:
            with tf.varibale_scope(name):           #设置名称
                lstm_cell[name] = rnn.BasicLSTMCell(
                    lstm_dim,                       #神经元的个数
                    initializer = initializer
                )
        #运行LSTM
        outputs,finial_states = tf.nn.bidirectional_dynamic_run(
            lstm_cell['forward'],
            lstm_cell['backward'],
            embed,                                  #是否利用第一层网络
            dtype = tf.float32,
            sequence_length = lengths               #序列实际长度(该参数可省略)
        )
    #最终结果 [batch_size,maxlength,2*lstm_dim] 即200
    result = tf.concat(outputs,axis=-1)
    
    #--------------------------------------------------
    #输出映射
    #--------------------------------------------------
    #转换成二维矩阵 [batch_size*maxlength,2*lstm_dim]
    result = tf.reshape(result, [-1,2*lstm_dim])
    
    #第一层映射 矩阵乘法
    with tf.variable_scope('project_layer1'):
        #权重
        w = tf.get_variable(
            name = 'w',
            shape = [2*lstm_dim,lstm_dim],     #转100维
            initializer = initializer
        )
        #bias
        b = tf.get_variable(
            name = 'w',
            shape = [lstm_dim],
            initializer = tf.zeros_initializer()
        )
        #运算 激活函数relu
        result = tf.nn.relu(matmul(result,w)+b)
    
    #第二层映射 矩阵乘法
    with tf.variable_scope('project_layer2'):
        #权重
        w = tf.get_variable(
            name = 'w',
            shape = [lstm_dim,num_entity],     #31种实体类别
            initializer = initializer
        )
        #bias
        b = tf.get_variable(
            name = 'w',
            shape = [num_entity],
            initializer = tf.zeros_initializer()
        )
        #运算 激活函数relu 最后一层不激活
        result = matmul(result,w)+b
        
    #形状转换成三维
    result = tf.reshape(result, [-1,num_time,num_entity])
    
    #[batch_size,max_length,num_entity]
    return result,lengths

#-----------------------------功能：定义模型类---------------------------
class Model(object):
    
    #初始化
    def __init__(self, dict_):
        #通过dict.pkl计算各个特征数量
        self.num_char = len(dict_['word'][0])
        self.num_bound = len(dict_['bound'][0])
        self.num_flag = len(dict_['flag'][0])
        self.num_radical = len(dict_['radical'][0])
        self.num_pinyin = len(dict_['pinyin'][0])
        self.num_entity = len(dict_['label'][0])
        
        #字符映射成向量的维度
        self.char_dim = 100
        self.bound_dim = 20
        self.flag_dim = 50
        self.radical_dim = 50
        self.pinyin_dim = 50
        
        #shape表示为[num,dim] 行数(个数)*列数(向量维度)
        
        #设置LSTM的维度 神经元的个数
        self.lstm_dim = 100
        
    #定义网络 接收批次样本
    def get_logits(self,char,bound,flag,radical,pinyin):
        """
        功能：接收一个批次样本的特征数据，计算网络的输出值
        :param char: int, id of chars a tensor of shape 2-D [None,None]
        :param bound: int, a tensor of shape 2-D [None,None]
        :param flag: int, a tensor of shape 2-D [None,None]
        :param radical: int, a tensor of shape 2-D [None,None]
        :param pinyin: int, a tensor of shape 2-D [None,None]
        :return: 返回3-d tensor [batch_size,max_length,num_entity]
        """
        #定义字典传参
        shapes = {
     }
        shapes['char'] = [self.num_char,self.char_dim]
        shapes['bound'] = [self.num_bound,self.bound_dim]
        shapes['flag'] = [self.num_flag,self.flag_dim]
        shapes['radical'] = [self.num_radical,self.radical_dim]
        shapes['pinyin'] = [self.num_pinyin,self.pinyin_dim]
        
        #输入参数定义字典
        inputs = {
     }
        inputs['char'] = char
        inputs['bound'] = bound
        inputs['flag'] = flag
        inputs['radical'] = radical
        inputs['pinyin'] = pinyin
        
        #return network(char,bound,flag,radical,pinyin,shapes)
        return network(inputs,shapes,lstm_dim=self.lstm_dim,num_entity=self.num_entity)

    #--------------------------功能：定义loss CRF模型-------------------------
    #参数: 模型输出值 真实标签序列 长度(不计算填充)
    def loss(self,result,targets,lengths):
        #获取长度
        b = len(lengths)                      #真实长度
        num_steps = tf.shape(result)[1]       #含填充
        
        #转移矩阵
        with tf.variable_scope('crf_loss'):
            #取log相当于概率接近0
            small = -1000.0
            
            #初始时刻状态 两个矩阵在最后一个维度合并
            start_logits = tf.concat(
                #前31个-1000概率为0 最后一个start为0取log为1
                [small*tf.ones(shape=[b,1,self.num_entity]),tf.zeros(shape=[b,1,1])],
                axis = -1
            )
            
            #X值拼接 每个时刻加一个状态
            pad_logits = tf.cast(small*tf.ones([b,num_steps,1]),tf.float32)
            logits = tf.concat([result, pad_logits], axis=-1)
            logits = tf.concat([start_logits,logits], axis=1) #第二个位置拼接
            
            #Y值拼接
            targets = tf.concat(
                [tf.cast(self.num_entity*tf.ones([b,1]),tf.int32),targets],
                axis = -1
            )
            
            #计算
            self.trans = tf.get_variable(
                name = 'trans',
                #初始概率start加1 最终32个
                shape = [self.num_entity+1,self.num_entity+1],
                initializer = tf.truncated_normal_initializer()
            )
            
            #损失 计算条件随机场的对数似然 每个样本计算几个值
            log_likehood, self.trans = crf_log_likelihood(
                inputs = logits,                   #输入
                tag_indices = targets,             #目标
                transition_params = self.trans,
                sequence_lengths = lengths         #真实样本长度
            )
            
            #返回所有样本平均值 数加个负号损失最小化
            return tf.reduce_mean(-log_likehood)

3.初始化函数完善

继续修改Model类，在初始化init函数中增加如下功能：

定义接收数据的placeholder
调用get_logits计算模型输出结果及句子真实长度
调用loss计算损失值
定义优化器，采用梯度截断技术处理，如果导数值过大会导致步子迈得过大，造成梯度爆炸，因此限制在某个范围内（如[-5,5]）
保存模型参数

该模型最终将270维的向量（字、边界、词性、偏旁、拼音）映射成31维向量。核心代码如下：

class Model(object):
    
    #---------------------------------------------------------
    #初始化
    def __init__(self, dict_, lr=0.0001):
        #通过dict.pkl计算各个特征数量
        self.num_char = len(dict_['word'][0])
        self.num_bound = len(dict_['bound'][0])
        self.num_flag = len(dict_['flag'][0])
        self.num_radical = len(dict_['radical'][0])
        self.num_pinyin = len(dict_['pinyin'][0])
        self.num_entity = len(dict_['label'][0])
        
        #字符映射成向量的维度
        self.char_dim = 100
        self.bound_dim = 20
        self.flag_dim = 50
        self.radical_dim = 50
        self.pinyin_dim = 50
        
        #shape表示为[num,dim] 行数(个数)*列数(向量维度)
        
        #设置LSTM的维度 神经元的个数
        self.lstm_dim = 100
        
        #学习率
        self.lr = lr
      
        #---------------------------------------------------------
        #定义接收数据的placeholder [None,None] 批次 句子长度
        self.char_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='char_inputs')
        self.bound_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='bound_inputs')
        self.flag_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='flag_inputs')
        self.radical_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='radical_inputs')
        self.pinyin_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='pinyin_inputs')
        self.targets = tf.placeholder(dtype=tf.int32,shape=[None,None],name='targets') #目标真实值
        self.global_step = tf.Variable(0,trainable=False)  #不能训练 用于计数
        
        #---------------------------------------------------------
        #传递给网络 计算模型输出值
        #参数：输入的字、边界、词性、偏旁、拼音下标 -> network转换词向量并计算
        #返回：网络输出值、每句话的真实长度
        self.logits,self.lengths = self.get_logits(
            self.char_inputs,
            self.bound_inputs,
            self.flag_inputs,
            self.radical_inputs,
            self.pinyin_inputs
        )
        
        #---------------------------------------------------------
        #计算损失 
        #参数：模型输出值、真实标签序列、长度(不计算填充)
        #返回：损失值
        self.cost = self.loss(
            self.logits,
            self.targets,
            self.lengths
        )
        
        #---------------------------------------------------------
        #优化器优化 采用梯度截断技术
        with tf.variable_scope('optimizer'):
            opt = tf.train.AdamOptimizer(self.lr)      #学习率
            #计算所有损失函数的导数值
            grad_vars = opt.compute_gradients(self.cost)
            #梯度截断-导数值过大会导致步子迈得过大 梯度爆炸(因此限制在某个范围内)
            #grad_vars记录每组参数导数和本身
            clip_grad_vars = [[tf.clip_by_value(g,-5,5),v] for g,v in grad_vars]
            #使用截断后的梯度更新参数 该方法每应用一次global_step参数自动加1
            self.train_op = opt.apply_gradients(clip_grad_vars,self.global_step)
        
        #模型保存 保留最近5次模型
        self.saver = tf.train.Saver(tf.global_variables(),max_to_keep=5)

4.模型训练

新建 train.py 文件，并撰写训练代码。

第一步，首先引入BatchManager类。我们可以用之前data_utils.py脚本定义的BatchManager直接调用处理好的训练集和测试集。
第二步，自定义函数读取字典dict.pkl内容，该文件存储了实体六元组。
第三步，引入model类搭建模型。

核心代码如下图所示，我们先尝试运行下代码：

在调试程序时，我们可以增加断点单步调试，也可以print打桩输出。比如：

(1) network模型分析
重点是观察network函数（model.py）的参数变化情况。神经网络的输出结果如下，核心功能包括：

调用tf.nn.embedding_lookup函数完成词向量映射
调用rnn.BasicLSTMCell构建LSTM网络
调用tf.nn.bidirectional_dynamic_rnn组合BiLSTM，两层BiLSTM
两层全连接层将维度转换成31，相当于做31分类（对应实体类别）
– result = tf.nn.relu(tf.matmul(result,w)+b)
– result = tf.matmul(result,w)+b

计算六元组个数
字: 1663
边界: 5
词性: 56
偏旁: 227
拼音: 989
类别: 31 

""""初始化操作"""
model init: 1663 5 56 227 989 31
shapes: {
     'char': [1663, 100], 'bound': [5, 20], 'flag': [56, 50], 
 'radical': [227, 50], 'pinyin': [989, 50]} 
Network Shape: ['char', 'bound', 'flag', 'radical', 'pinyin']

"""词向量映射 每个字映射100维向量 [None,None,100]"""
Network Input: {
     'char': <tf.Tensor 'char_inputs:0' shape=(?, ?) dtype=int32>,...
Network Embedding: [
 <tf.Tensor 'char_embedding' shape=(?, ?, 100) dtype=float32>, 
 <tf.Tensor 'bound_embedding' shape=(?, ?, 20) dtype=float32>, 
 <tf.Tensor 'flag_embedding' shape=(?, ?, 50) dtype=float32>, 
 <tf.Tensor 'radical_embedding' shape=(?, ?, 50) dtype=float32>, 
 <tf.Tensor 'pinyin_embedding' shape=(?, ?, 50) dtype=float32>
]

"""合并270维度"""
Network Embed: Tensor("concat:0", shape=(?, ?, 270), dtype=float32) 

""""神经网络 2个LSTM组织(各100个神经元)"""
Network BiLSTM-1: Tensor("concat_1:0", shape=(?, ?, 200), dtype=float32)
Network BiLSTM-2: Tensor("concat_2:0", shape=(?, ?, 200), dtype=float32)
Dense-1: Tensor("project_layer1/Relu:0", shape=(?, 100), dtype=float32)
Dense-2: Tensor("project_layer2/add:0", shape=(?, 31), dtype=float32)

"""二维转三维输出最终结果"""
Result: Tensor("Reshape_1:0", shape=(?, ?, 31), dtype=float32)

(2) loss计算
核心功能包括：

获取真实长度、输入数据集 [批次大小, 序列长度, 31个实体类别]、真实标签
计算损失
-用crf_log_likelihood计算条件随机场的对数似然

Loss lengths: Tensor("strided_slice_1:0", shape=(), dtype=int32)
Loss Inputs: Tensor("Reshape_1:0", shape=(?, ?, 31), dtype=float32)
Loss Targets: Tensor("targets:0", shape=(?, ?), dtype=int32)
Loss Logits: Tensor("crf_loss/concat_2:0", shape=(?, ?, 32), dtype=float32)

Loss Targets: Tensor("crf_loss/concat_3:0", shape=(?, ?), dtype=int32)
Loss loglikehood: Tensor("crf_loss/sub:0", dtype=float32)
Loss Trans: <tf.Variable 'crf_loss/trans:0' shape=(32, 32) dtype=float32_ref>
Cost: Tensor("crf_loss/Mean:0", shape=(), dtype=float32)

Optimizer: name: "optimizer/Adam"
op: "AssignAdd"
input: "Variable"
input: "optimizer/Adam/value"
attr {
     
  key: "T"
  value {
     
    type: DT_INT32
  }
}
attr {
     
  key: "_class"
  value {
     
    list {
     
      s: "loc:@Variable"
    }
  }
}
attr {
     
  key: "use_locking"
  value {
     
    b: false
  }
}

最后构造优化器，采用梯度截断技术及保存模型。

注意，可能报错“AttributeError: module ‘tensorflow._api.v1.nn’ has no attribute ‘bidirectional_dynamic_run’”，注意版本问题，百度修改成对应的函数即可，作者是tensorflow1.15。

五.模型预测

1.输出训练误差

上面将模型建立好之后，我们尝试调用模型进行误差训练，train.py代码如下，这里的喂数据操作可以封装到类中实现。

# -*- coding: utf-8 -*-
"""
Created on Thu Jan  7 18:57:23 2021
@author: xiuzhang
"""
import tensorflow as tf
from data_utils import BatchManager
import pickle
from model import Model

#-----------------------------功能：读取字典---------------------------
dict_file = 'data/dict.pkl'
def get_dict(path):
    with open(path, 'rb') as f:
        data = pickle.load(f)
    return data

#-----------------------------功能：训练函数---------------------------
batch_size = 20
def train():
    #调用已定义的方法获取处理好的数据集
    train_manager = BatchManager(batch_size, name='train')
    print('train:', type(train_manager))    #
    
    #读取字典
    mapping_dict = get_dict(dict_file)
    print('train:', len(mapping_dict))   #6
    print('计算六元组个数')
    print('字:', len(mapping_dict['word'][0]))              #1663
    print('边界:', len(mapping_dict['bound'][0]))           #5
    print('词性:', len(mapping_dict['flag'][0]))            #56
    print('偏旁:', len(mapping_dict['radical'][0]))         #227
    print('拼音:', len(mapping_dict['pinyin'][0]))          #989
    print('类别:', len(mapping_dict['label'][0]),'\n')      #31
    
    #-------------------------搭建模型---------------------------
    #实例化模型 执行init初始化方法model核心函数：
    #    1.get_logits：传递给网络 计算模型输出值 
    #    2.loss：计算损失值
    #-----------------------------------------------------------
    model = Model(mapping_dict)
    print("---------------模型构建成功---------------------\n")
    
    #初始化训练
    init = tf.global_variables_initializer()
    with tf.Session() as sess:
        sess.run(init)
        for i in range(10):
            #调用iter_batch函数 迭代过程可以让梯度下降在不断尝试找到最优解
            for batch in train_manager.iter_batch(shuffle=True):      #乱序
                #print(len(batch))       #6个类型
                #print(len(batch[0]),len(batch[1]),len(batch[2]))     #20个    
                
                #每次获取一个批次的数据 feed_dict喂数据 placeholder用于接收神经网络数据
                _,loss = sess.run([model.train_op,model.cost],feed_dict={
     
                                            model.char_inputs : batch[0],
                                            model.bound_inputs : batch[2],
                                            model.flag_inputs : batch[3],
                                            model.radical_inputs : batch[4],
                                            model.pinyin_inputs : batch[5],
                                            model.targets : batch[1]  #注意顺序
                                            })
                print('loss:{}'.format(loss))

#---------------------------功能:主函数---------------------------------
if __name__ == '__main__':
    train()

输出结果如下图示，可以看到loss从大到小。

loss:545.8291625976562
loss:901.7841796875
loss:442.2290954589844
loss:876.3251953125
loss:332.58746337890625
loss:674.8977661132812
loss:409.48663330078125
loss:220.19033813476562
.....
loss:31.463674545288086
loss:45.567161560058594
loss:98.6595458984375
loss:72.75428009033203
loss:52.30353927612305

问题：
这里需要注意一个问题，如下所示。该问题通常是词向量映射错误导致，但这个问题困扰了我两天，调试了很长时间代码。终于解决，泪奔~

InvalidArgumentError: indices[0,2] = 7 is not in [0, 5)
embedding.append(tf.nn.embedding_lookup(lookup,inputs[key]))

原因：
我们最终生成的CSV文件格式是word、label、bound、flag、radical、pinyin顺序，但是后面写入dict.pkl文件及feed_dict喂入数据训练的顺序不一致。这导致最终映射的词向量不一致，造成了“InvalidArgumentError: indices[0,2] = 7 is not in [0, 5)”。

解决方法：
由于之前预处理CSV文件按照char, target, bound, flag, radical, pinyin这个顺序，所以生成的dict.pkl也需要按照这个顺序读写，而feed_dict时读取dict.pkl顺序也需要按照这个顺序，标签是第2列。因此，修改方法：

所有顺序需要一致，重新按char, target, bound, flag, radical, pinyin生成dict.pkl文件；
– data_utils.py: char, target, bound, flag, radical, pinyin = line
feed_dict顺序调整
– model.targets:batch[1]
建议包含target（label）的操作，如读取、赋值、写入均按照统一的顺序执行，除非是字典按照关键词调用（如shapes[‘char’]）。

2.预测数据

在Model类中定义run_step函数分批处理数据
在Model类中定义decode函数解码，通过模型输出和转义矩阵预测
在Model类中定义predict函数预测
在train.py中分配输出

输出结果如下图所示：

六.完整代码

代码下载地址：

https://github.com/eastmountyxz/AI-for-Keras

1.model.py

#encoding:utf-8
"""
Created on Thu Jan  7 12:56:40 2021
@author: xiuzhang
"""
import tensorflow as tf
import numpy as np
from tensorflow.contrib import rnn
#计算条件随机场的对数似然
from tensorflow.contrib.crf import crf_log_likelihood, viterbi_decode

#---------------------------功能：预测计算函数-----------------------------
def network(inputs,shapes,num_entity,lstm_dim=100,
            initializer=tf.truncated_normal_initializer):
    """
    功能：接收一个批次样本的特征数据，计算网络的输出值
    :param char: int, id of chars a tensor of shape 2-D [None,None] 批次数量*每个批次句子长度
    :param bound: int, a tensor of shape 2-D [None,None]
    :param flag: int, a tensor of shape 2-D [None,None]
    :param radical: int, a tensor of shape 2-D [None,None]
    :param pinyin: int, a tensor of shape 2-D [None,None]
    :param shapes: 词向量形状字典
    :param lstm_dim: 神经元的个数
    :param num_entity: 实体标签数量 31种类型
    :param initializer: 初始化函数
    :return
    """
    #--------------------------------------------------
    #特征嵌入:将所有特征的id转换成一个固定长度的向量
    #--------------------------------------------------
    embedding = []
    keys = list(shapes.keys())
    print("Network Input:", inputs)
    #{'char':,
    print("Network Shape:", keys) 
    #['char', 'bound', 'flag', 'radical', 'pinyin']
    
    #循环将五类特征转换成词向量 后续拼接
    for key in keys:   #char
        with tf.variable_scope(key+'_embedding'):
            #获取汉字信息
            lookup = tf.get_variable(
                name = key + '_embedding',         #名称
                shape = shapes[key],               #[num,dim] 行数(字个数)*列数(向量维度) 1663*100
                initializer = initializer
            )
            #词向量映射 汉字结果[None,None,100] 每个字映射100维向量 inputs对应每个字
            embedding.append(tf.nn.embedding_lookup(lookup, inputs[key]))
    print("Network Embedding:", embedding)
    #[,
    
    #拼接词向量 shape[None,None,char_dim+bound_dim+flag_dim+radical_dim+pinyin_dim]
    embed = tf.concat(embedding,axis=-1)  #最后一个维度上拼接 -1
    print("Network Embed:", embed, '\n')
    #Tensor("concat:0", shape=(?, ?, 270), dtype=float32) 
    
    #lengths: 计算输入inputs每句话的实际长度(填充内容不计算)
    #填充值PAD下标为0 因此总长度减去PAD数量即为实际长度 从而提升运算效率
    sign = tf.sign(tf.abs(inputs[keys[0]]))             #char 字符长度
    lengths = tf.reduce_sum(sign, reduction_indices=1)  #第二个维度
    
    #获取填充序列长度 char的第二个维度
    num_time = tf.shape(inputs[keys[0]])[1]
    print(sign, lengths, num_time)
    #Tensor("Sign:0", shape=(?, ?), dtype=int32) 
    #Tensor("Sum:0", shape=(?,), dtype=int32) 
    #Tensor("strided_slice:0", shape=(), dtype=int32)
    
    #--------------------------------------------------
    #循环神经网络编码: 双层双向网络
    #--------------------------------------------------
    #第一层
    with tf.variable_scope('BiLSTM_layer1'):
        lstm_cell = {
     }
        #第一层前向 后向
        for name in ['forward','backward']:
            with tf.variable_scope(name):           #设置名称
                lstm_cell[name] = rnn.BasicLSTMCell(
                    lstm_dim                        #神经元的个数
                )     
        #BiLSTM 2个LSTM组成(各100个神经元)
        outputs1,finial_states1 = tf.nn.bidirectional_dynamic_rnn(
            lstm_cell['forward'],
            lstm_cell['backward'],
            embed,
            dtype = tf.float32,
            sequence_length = lengths               #序列实际长度(该参数可省略)
        )
    #拼接前向LSTM和后向LSTM输出
    outputs1 = tf.concat(outputs1,axis=-1)  #b,L,2*lstm_dim
    print('Network BiLSTM-1:', outputs1)
    #Tensor("concat_1:0", shape=(?, ?, 200), dtype=float32)
    
    #第二层
    with tf.variable_scope('BiLSTM_layer2'):
        lstm_cell = {
     }
        #第一层前向 后向
        for name in ['forward','backward']:
            with tf.variable_scope(name):           #设置名称
                lstm_cell[name] = rnn.BasicLSTMCell(
                    lstm_dim                        #神经元的个数
                )
        #BiLSTM
        outputs,finial_states = tf.nn.bidirectional_dynamic_rnn(
            lstm_cell['forward'],
            lstm_cell['backward'],
            outputs1,                                #是否利用第一层网络
            dtype = tf.float32,
            sequence_length = lengths                #序列实际长度(该参数可省略)
        )
    #最终结果 [batch_size,maxlength,2*lstm_dim] 即200
    result = tf.concat(outputs,axis=-1)
    print('Network BiLSTM-2:', result)
    #Tensor("concat_2:0", shape=(?, ?, 200), dtype=float32)
    
    #--------------------------------------------------
    #输出全连接映射
    #--------------------------------------------------
    #转换成二维矩阵再进行乘法操作 [batch_size*maxlength,2*lstm_dim]
    result = tf.reshape(result, [-1,2*lstm_dim])
    
    #第一层映射 矩阵乘法 200映射到100
    with tf.variable_scope('project_layer1'):
        #权重
        w = tf.get_variable(
            name = 'w',
            shape = [2*lstm_dim,lstm_dim],     #转100维
            initializer = initializer
        )
        #bias
        b = tf.get_variable(
            name = 'b',
            shape = [lstm_dim],
            initializer = tf.zeros_initializer()
        )
        #运算 激活函数relu
        result = tf.nn.relu(tf.matmul(result,w)+b)
    print("Dense-1:",result)
    #Tensor("project_layer1/Relu:0", shape=(?, 100), dtype=float32)
    
    #第二层映射 矩阵乘法 100映射到31
    with tf.variable_scope('project_layer2'):
        #权重
        w = tf.get_variable(
            name = 'w',
            shape = [lstm_dim,num_entity],     #31种实体类别
            initializer = initializer
        )
        #bias
        b = tf.get_variable(
            name = 'b',
            shape = [num_entity],
            initializer = tf.zeros_initializer()
        )
        #运算 激活函数relu 最后一层不激活
        result = tf.matmul(result,w)+b
    print("Dense-2:",result)
    #Tensor("project_layer2/add:0", shape=(?, 31), dtype=float32)
    
    #形状转换成三维
    result = tf.reshape(result, [-1,num_time,num_entity])
    print('Result:', result, "\n")
    #Tensor("Reshape_1:0", shape=(?, ?, 31), dtype=float32)
    
    #[batch_size,max_length,num_entity]
    return result,lengths

#-----------------------------功能：定义模型类---------------------------
class Model(object):
    
    #---------------------------------------------------------
    #初始化
    def __init__(self, dict_, lr=0.0001):
        #通过dict.pkl计算各个特征数量
        self.num_char = len(dict_['word'][0])
        self.num_bound = len(dict_['bound'][0])
        self.num_flag = len(dict_['flag'][0])
        self.num_radical = len(dict_['radical'][0])
        self.num_pinyin = len(dict_['pinyin'][0])
        self.num_entity = len(dict_['label'][0])
        print('model init:', self.num_char, self.num_bound, self.num_flag,
              self.num_radical, self.num_pinyin, self.num_entity)
        
        #字符映射成向量的维度
        self.char_dim = 100
        self.bound_dim = 20
        self.flag_dim = 50
        self.radical_dim = 50
        self.pinyin_dim = 50
        
        #shape表示为[num,dim] 行数(个数)*列数(向量维度)
        
        #设置LSTM的维度 神经元的个数
        self.lstm_dim = 100
        
        #学习率
        self.lr = lr
        
        #保存初始化字典
        self.map = dict_
      
        #---------------------------------------------------------
        #定义接收数据的placeholder [None,None] 批次 句子长度
        self.char_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='char_inputs')
        self.bound_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='bound_inputs')
        self.flag_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='flag_inputs')
        self.radical_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='radical_inputs')
        self.pinyin_inputs = tf.placeholder(dtype=tf.int32,shape=[None,None],name='pinyin_inputs')
        self.targets = tf.placeholder(dtype=tf.int32,shape=[None,None],name='targets')    #目标真实值
        self.global_step = tf.Variable(0,trainable=False)  #不能训练 用于计数
                
        #---------------------------------------------------------
        #传递给网络 计算模型输出值
        #参数：输入的字、边界、词性、偏旁、拼音下标 -> network转换词向量并计算
        #返回：网络输出值、每句话的真实长度
        self.logits,self.lengths = self.get_logits(
            self.char_inputs,
            self.bound_inputs,
            self.flag_inputs,
            self.radical_inputs,
            self.pinyin_inputs
        )
        
        #---------------------------------------------------------
        #计算损失 
        #参数：模型输出值、真实标签序列、长度(不计算填充)
        #返回：损失值
        self.cost = self.loss(
            self.logits,
            self.targets,
            self.lengths
        )
        print("Cost:", self.cost)
        
        #---------------------------------------------------------
        #优化器优化 采用梯度截断技术
        with tf.variable_scope('optimizer'):
            opt = tf.train.AdamOptimizer(self.lr)      #学习率
            #计算所有损失函数的导数值
            grad_vars = opt.compute_gradients(self.cost)
            #梯度截断-导数值过大会导致步子迈得过大 梯度爆炸(因此限制在某个范围内)
            #grad_vars记录每组参数导数和本身
            clip_grad_vars = [[tf.clip_by_value(g,-5,5),v] for g,v in grad_vars]
            #使用截断后的梯度更新参数 该方法每应用一次global_step参数自动加1
            self.train_op = opt.apply_gradients(clip_grad_vars, self.global_step)
            print("Optimizer:", self.train_op)
            
        #模型保存 保留最近5次模型
        self.saver = tf.train.Saver(tf.global_variables(),max_to_keep=5)
        
    #---------------------------------------------------------
    #定义网络 接收批次样本
    def get_logits(self,char,bound,flag,radical,pinyin): 
        """
        功能：接收一个批次样本的特征数据，计算网络的输出值
        :param char: int, id of chars a tensor of shape 2-D [None,None]
        :param bound: int, a tensor of shape 2-D [None,None]
        :param flag: int, a tensor of shape 2-D [None,None]
        :param radical: int, a tensor of shape 2-D [None,None]
        :param pinyin: int, a tensor of shape 2-D [None,None]
        :return: 返回3-d tensor [batch_size,max_length,num_entity]
        """
        #定义字典传参
        shapes = {
     }
        shapes['char'] = [self.num_char,self.char_dim]
        shapes['bound'] = [self.num_bound,self.bound_dim]
        shapes['flag'] = [self.num_flag,self.flag_dim]
        shapes['radical'] = [self.num_radical,self.radical_dim]
        shapes['pinyin'] = [self.num_pinyin,self.pinyin_dim]
        print("shapes:", shapes, '\n')
        #{'char': [1663, 100], 'bound': [5, 20], 'flag': [56, 50], 
        # 'radical': [227, 50], 'pinyin': [989, 50]}        
        
        #输入参数定义字典
        inputs = {
     }
        inputs['char'] = char
        inputs['bound'] = bound
        inputs['flag'] = flag
        inputs['radical'] = radical
        inputs['pinyin'] = pinyin
        
        #return network(char,bound,flag,radical,pinyin,shapes)
        return network(inputs,shapes,lstm_dim=self.lstm_dim,num_entity=self.num_entity)

    #--------------------------功能：定义loss CRF模型-------------------------
    #参数: 模型输出值 真实标签序列 长度(不计算填充)
    def loss(self,result,targets,lengths):
        #获取长度
        b = tf.shape(lengths)[0]              #真实长度 该值只有一维
        num_steps = tf.shape(result)[1]       #含填充
        print("Loss lengths:", b, num_steps)
        print("Loss Inputs:", result)
        print("Loss Targets:", targets)
        
        #转移矩阵
        with tf.variable_scope('crf_loss'):
            #取log相当于概率接近0
            small = -1000.0
            
            #初始时刻状态
            start_logits = tf.concat(
                #前31个-1000概率为0 最后一个start为0取log为1
                [small*tf.ones(shape=[b,1,self.num_entity]),tf.zeros(shape=[b,1,1])],
                axis = -1   #两个矩阵在最后一个维度合并
            )
            
            #X值拼接 每个时刻加一个状态
            pad_logits = tf.cast(small*tf.ones([b,num_steps,1]),tf.float32)
            logits = tf.concat([result, pad_logits], axis=-1)
            logits = tf.concat([start_logits,logits], axis=1) #第二个位置拼接
            print("Loss Logits:", logits)
            
            #Y值拼接
            targets = tf.concat(
                [tf.cast(self.num_entity*tf.ones([b,1]),tf.int32),targets],
                axis = -1
            )
            print("Loss Targets:", targets)
            
            #计算
            self.trans = tf.get_variable(
                name = 'trans',
                #初始概率start加1 最终32个
                shape = [self.num_entity+1,self.num_entity+1],
                initializer = tf.truncated_normal_initializer()
            )
            
            #损失 计算条件随机场的对数似然 每个样本计算几个值
            log_likehood, self.trans = crf_log_likelihood(
                inputs = logits,                   #输入
                tag_indices = targets,             #目标
                transition_params = self.trans,
                sequence_lengths = lengths         #真实样本长度
            )
            print("Loss loglikehood:", log_likehood)
            print("Loss Trans:", self.trans)
            
            #返回所有样本平均值 数加个负号损失最小化
            return tf.reduce_mean(-log_likehood)
       
    #--------------------------功能：分步运行-------------------------
    #参数: 会话、分批数据、训练预测
    def run_step(self,sess,batch,is_train=True):
        if is_train:
            feed_dict = {
     
                self.char_inputs : batch[0],
                self.bound_inputs : batch[2],
                self.flag_inputs : batch[3],
                self.radical_inputs : batch[4],
                self.pinyin_inputs : batch[5],
                self.targets : batch[1]  #注意顺序
            }
            #训练计算损失
            _,loss = sess.run([self.train_op,self.cost], feed_dict=feed_dict)
            return loss
        else: #预测没有类标
            feed_dict = {
     
                self.char_inputs : batch[0],
                self.bound_inputs : batch[2],
                self.flag_inputs : batch[3],
                self.radical_inputs : batch[4],
                self.pinyin_inputs : batch[5],
            }
            #测试计算结果
            logits,lengths = sess.run([self.logits, self.lengths], feed_dict=feed_dict)
            return logits,lengths
    
    #--------------------------功能：解码获取id-------------------------
    #参数:模型输出值、真实长度、转移矩阵(用于解码)
    def decode(self,logits,lengths,matrix):
        #保留概率最大路径
        paths = []
        small = -1000.0
        #每个样本解码 31种类别+最后一个是0
        start = np.asarray([[small]*self.num_entity+[0]])
        
        #获取每句话的成绩和样本真实长度
        for score,length in zip(logits,lengths):
            score = score[:length]   #只取有效字符的输出
            pad = small*np.ones([length,1])
            #拼接
            logits = np.concatenate([score,pad],axis=-1)
            logits = np.concatenate([start,logits],axis=0)
            #解码
            path,_ = viterbi_decode(logits,matrix)
            paths.append(path[1:])
        
        #paths获取的是id 还需要转换成对应的实体标签
        return paths
        
    #--------------------------功能：预测分析-------------------------
    #参数: 会话、批次 
    def predict(self,sess,batch):
        results = []
        #获取转移矩阵
        matrix = self.trans.eval()
        
        #获取模型结果 执行测试
        logits, lengths = self.run_step(sess, batch, is_train=False)
        
        #调用解码函数获取paths
        paths = self.decode(logits, lengths, matrix)
        
        #查看字及对应的标记
        chars = batch[0]
        for i in range(len(paths)):  #有多少路径就有多少句子
            #获取第i句话真实长度
            length = lengths[i]
            #第i句话真实的字
            chars[i][:length]
            #ID转换成对应的每个字
            #map['word'][1]是字典
            string = [self.map['word'][1][index] for index in chars[i][:length]]
            #获取tag
            tags = [self.map['label'][0][index] for index in paths[i]]
            #形成完整列表
            result = [k for c,t in zip(string,tags)]
            results.append(result)
            
        #获取预测值
        return results

2.train.py

# -*- coding: utf-8 -*-
"""
Created on Thu Jan  7 18:57:23 2021
@author: xiuzhang
"""
import tensorflow as tf
from data_utils import BatchManager
import pickle
from model import Model
import time

#-----------------------------功能：读取字典---------------------------
dict_file = 'data/dict.pkl'
def get_dict(path):
    with open(path, 'rb') as f:
        data = pickle.load(f)
    return data

#-----------------------------功能：训练函数---------------------------
batch_size = 20
def train():
    #调用已定义的方法获取处理好的数据集
    train_manager = BatchManager(batch_size=20, name='train')
    print('train:', type(train_manager))    #
    test_manager = BatchManager(batch_size=100, name='test')
    
    #读取字典
    mapping_dict = get_dict(dict_file)
    print('train:', len(mapping_dict))   #6
    print('计算六元组个数')
    print('字:', len(mapping_dict['word'][0]))              #1663
    print('边界:', len(mapping_dict['bound'][0]))           #5
    print('词性:', len(mapping_dict['flag'][0]))            #56
    print('偏旁:', len(mapping_dict['radical'][0]))         #227
    print('拼音:', len(mapping_dict['pinyin'][0]))          #989
    print('类别:', len(mapping_dict['label'][0]),'\n')      #31
    
    #-------------------------搭建模型---------------------------
    #实例化模型 执行init初始化方法model核心函数：
    #    1.get_logits：传递给网络 计算模型输出值 
    #    2.loss：计算损失值
    #-----------------------------------------------------------
    model = Model(mapping_dict)
    print("---------------模型构建成功---------------------\n")
    
    #初始化训练
    init = tf.global_variables_initializer()
    with tf.Session() as sess:
        sess.run(init)
        for i in range(10):
            j = 1
            #调用iter_batch函数 迭代过程可以让梯度下降在不断尝试找到最优解
            for batch in train_manager.iter_batch(shuffle=True):      #乱序
                #时间计算
                start = time.time()
                #调用自定义函数
                loss = model.run_step(sess,batch)
                end = time.time()
                
                #每10批输出
                if j % 10==0:
                    #第几轮 每批数量 多少批次 损失 消耗时间 剩余估计时间
                    print('epoch:{},step:{}/{},loss:{},elapse:{},estimate:{}'.format(
                            i+1,j,train_manager.len_data,
                            loss,(end-start),
                            (end-start)*(train_manager.len_data-j)))
                j += 1
                
                """
                #print(len(batch))       #6个类型
                #print(len(batch[0]),len(batch[1]),len(batch[2]))     #20个                   
                #每次获取一个批次的数据 feed_dict喂数据 placeholder用于接收神经网络数据
                _,loss = sess.run([model.train_op,model.cost],feed_dict={
                                            model.char_inputs : batch[0],
                                            model.bound_inputs : batch[2],
                                            model.flag_inputs : batch[3],
                                            model.radical_inputs : batch[4],
                                            model.pinyin_inputs : batch[5],
                                            model.targets : batch[1]  #注意顺序
                                            })
                print('loss:{}'.format(loss))
                #InvalidArgumentError: indices[0,2] = 7 is not in [0, 5)
                #注意:feed_dict对应数据必须一致,最早CSV文件label为第2列,所有文件写返回值顺序一致
                #data_utils.py: char, target, bound, flag, radical, pinyin = line
                """
            
            #--------------------------------------------------
            #每迭代一轮进行预测
            for batch in test_manager.iter_batch(shuffle=True):
                print(model.predict(sess,batch))
            
#----------------------------功能:主函数---------------------------------
if __name__ == '__main__':
    train()

3.data_utils.py

#encoding:utf-8
import pandas as pd
import pickle
import numpy as np
from tqdm import tqdm
import os
import math
import random

#功能:获取值对应的下标 参数为列表和字符
def item2id(data,w2i):
    #x在字典中直接获取 不在字典中返回UNK
    return [w2i[x] if x in w2i else w2i['UNK'] for x in data]
    
#----------------------------功能:拼接文件---------------------------------
def get_data_with_windows(name='train'):
    #读取prepare_data.py生成的dict.pkl文件 存储字典{类别:下标}
    with open(f'data/dict.pkl', 'rb') as f:
        map_dict = pickle.load(f)   #加载字典
        
    #存储所有数据
    results = []
    root = os.path.join('data/prepare/'+name)
    files = list(os.listdir(root))
    print(files)
    #['10.csv', '11.csv', '12.csv',.....]

    #获取所有文件 进度条
    for file in tqdm(files):
        all_data = []
        path = os.path.join(root, file)
        samples = pd.read_csv(path,sep=',')
        max_num = len(samples)
        #获取sep换行分隔符下标 -1 20 40 60
        sep_index = [-1]+samples[samples['word']=='sep'].index.tolist()+[max_num]
        #print(sep_index)
        #[-1, 83, 92, 117, 134, 158, 173, 200,......]

        #----------------------------------------------------------------------
        #                  获取句子并将句子全部都转换成id
        #----------------------------------------------------------------------
        for i in range(len(sep_index)-1):
            start = sep_index[i] + 1     #0 (-1+1)
            end = sep_index[i+1]         #20
            data = []
            #每个特征进行处理
            for feature in samples.columns:    #访问每列
                #通过函数item2id获取下标 map_dict两个值(列表和字典) 获取第二个值
                data.append(item2id(list(samples[feature])[start:end],map_dict[feature][1]))
            #将每句话的列表合成
            all_data.append(data)

        #----------------------------------------------------------------------
        #                             数据增强
        #----------------------------------------------------------------------
        #前后两个句子拼接 每个句子六个元素(汉字、边界、词性、类别、偏旁、拼音)
        two = []
        for i in range(len(all_data)-1):
            first = all_data[i]
            second = all_data[i+1]
            two.append([first[k]+second[k] for k in range(len(first))]) #六个元素

        three = []
        for i in range(len(all_data)-2):
            first = all_data[i]
            second = all_data[i+1]
            third = all_data[i+2]
            three.append([first[k]+second[k]+third[k] for k in range(len(first))])
            
        #返回所有结果
        results.extend(all_data+two+three)
        
    #return results

    #数据存储至本地 每次调用时间成本过大
    with open(f'data/'+name+'.pkl', 'wb') as f:
        pickle.dump(results, f)
        
#----------------------------功能:批处理---------------------------------
class BatchManager(object):

    def __init__(self, batch_size, name='train'):
        #调用函数拼接文件
        #data = get_data_with_windows(name)
        
        #读取文件
        with open(f'data/'+name+'.pkl', 'rb') as f:
            data = pickle.load(f)
        print(len(data))         #265455句话
        print(len(data[0]))      #6种类别
        print(len(data[0][0]))   #第一句包含字的数量 83
        print("原始数据:", data[0])
                               
        #数据批处理
        self.batch_data = self.sort_and_pad(data, batch_size)
        self.len_data = len(self.batch_data)

    def sort_and_pad(self, data, batch_size):
        #计算总批次数量 26546
        num_batch = int(math.ceil(len(data) / batch_size))
        #按照句子长度排序
        sorted_data = sorted(data, key=lambda x: len(x[0]))
        batch_data = list()
        
        #获取一个批次的数据
        for i in range(num_batch):
            batch_data.append(self.pad_data(sorted_data[i*int(batch_size) : (i+1)*int(batch_size)]))
        print("分批输出:", batch_data[100])
        
        return batch_data

    @staticmethod
    def pad_data(data_):
        #定义变量
        chars = []
        bounds = []
        flags = []
        radicals = []
        pinyins = []
        targets = []
        
        #print("每个批次句子个数:", len(data_))            #10
        #print("每个句子包含元素个数:", len(data_[0]))     #6
        #print("输出data:", data_)
        
        max_length = max([len(sentence[0]) for sentence in data_])  #值为1
        #print(max_length)
        
        #每个批次共有十组数据 每组数据均为六个元素
        for line in data_:
            #char, bound, flag, target, radical, pinyin = line
            char, target, bound, flag, radical, pinyin = line
            padding = [0] * (max_length - len(char))    #计算补充字符数量
            #注意char和chars不要写错 否则造成递归循环赋值错误
            chars.append(char + padding)
            targets.append(target + padding)
            bounds.append(bound + padding)
            flags.append(flag + padding)
            radicals.append(radical + padding)
            pinyins.append(pinyin + padding)
            
        return [chars, targets, bounds, flags, radicals, pinyins]

    #每次使用一个批次数据
    def iter_batch(self, shuffle=False):
        if shuffle: #乱序
            random.shuffle(self.batch_data)
        for idx in range(self.len_data):
            yield self.batch_data[idx]
            
#-------------------------------功能:主函数--------------------------------------
if __name__ == '__main__':
    #1.拼接文件(第一次执行 后续可注释)
    #get_data_with_windows('train')

    #2.分批处理 
    train_data = BatchManager(10, 'train')
    
    #3.接着处理下测试集数据
    get_data_with_windows('test')

4.prepare_data.py

#encoding:utf-8
import os
import pickle
import pandas as pd
from collections import Counter
from data_process import split_text
from tqdm import tqdm          #进度条 pip install tqdm 
#词性标注
import jieba.posseg as psg
#获取字的偏旁和拼音
from cnradical import Radical, RunOption
#删除目录
import shutil
#随机划分训练集和测试集
from random import shuffle
#遍历文件包
from glob import glob

train_dir = "train_data"

#----------------------------功能:文本预处理---------------------------------
def process_text(idx, split_method=None, split_name='train'):
    """
    功能: 读取文本并切割,接着打上标记及提取词边界、词性、偏旁部首、拼音等特征
    param idx: 文件的名字 不含扩展名
    param split_method: 切割文本方法
    param split_name: 存储数据集 默认训练集, 还有测试集
    return
    """

    #定义字典 保存所有字的标记、边界、词性、偏旁部首、拼音等特征
    data = {
     }

    #--------------------------------------------------------------------
    #                            获取句子
    #--------------------------------------------------------------------
    if split_method is None:
        #未给文本分割函数 -> 读取文件
        with open(f'data/{train_dir}/{idx}.txt', encoding='utf8') as f:     #f表示文件路径
            texts = f.readlines()
    else:
        #给出文本分割函数 -> 按函数分割
        with open(f'data/{train_dir}/{idx}.txt', encoding='utf8') as f:
            outfile = f'data/train_data_pro/{idx}_pro.txt'
            print(outfile)
            texts = f.read()
            texts = split_method(texts, outfile)

    #提取句子
    data['word'] = texts
    print(texts)

    #--------------------------------------------------------------------
    #                             获取标签(实体类别、起始位置)
    #--------------------------------------------------------------------
    #初始时将所有汉字标记为O
    tag_list = ['O' for s in texts for x in s]    #双层循环遍历每句话中的汉字

    #读取ANN文件获取每个实体的类型、起始位置和结束位置
    tag = pd.read_csv(f'data/{train_dir}/{idx}.ann', header=None, sep='\t') #Pandas读取 分隔符为tab键
    #0 T1 Disease 1845 1850  1型糖尿病

    for i in range(tag.shape[0]):  #tag.shape[0]为行数
        tag_item = tag.iloc[i][1].split(' ')    #每一行的第二列 空格分割
        #print(tag_item)
        #存在某些实体包括两段位置区间 仅获取起始位置和结束位置
        cls, start, end = tag_item[0], int(tag_item[1]), int(tag_item[-1])
        #print(cls,start,end)
        
        #对tag_list进行修改
        tag_list[start] = 'B-' + cls
        for j in range(start+1, end):
            tag_list[j] = 'I-' + cls

    #断言 两个长度不一致报错
    assert len([x for s in texts for x in s])==len(tag_list)
    #print(len([x for s in texts for x in s]))
    #print(len(tag_list))

    #--------------------------------------------------------------------
    #                       分割后句子匹配标签
    #--------------------------------------------------------------------
    tags = []
    start = 0
    end = 0
    #遍历文本
    for s in texts:
        length = len(s)
        end += length
        tags.append(tag_list[start:end])
        start += length    
    print(len(tags))
    #标签数据存储至字典中
    data['label'] = tags

    #--------------------------------------------------------------------
    #                       提取词性和词边界
    #--------------------------------------------------------------------
    #初始标记为M
    word_bounds = ['M' for item in tag_list]    #边界 M表示中间
    word_flags = []                             #词性
    
    #分词
    for text in texts:
        #带词性的结巴分词
        for word, flag in psg.cut(text):   
            if len(word)==1:  #1个长度词
                start = len(word_flags)
                word_bounds[start] = 'S'   #单个字
                word_flags.append(flag)
            else:
                start = len(word_flags)
                word_bounds[start] = 'B'         #开始边界
                word_flags += [flag]*len(word)   #保证词性和字一一对应
                end = len(word_flags) - 1
                word_bounds[end] = 'E'           #结束边界
    #存储
    bounds = []
    flags = []
    start = 0
    end = 0
    for s in texts:
        length = len(s)
        end += length
        bounds.append(word_bounds[start:end])
        flags.append(word_flags[start:end])
        start += length
    data['bound'] = bounds
    data['flag'] = flags

    #--------------------------------------------------------------------
    #                         获取拼音和偏旁特征
    #--------------------------------------------------------------------
    radical = Radical(RunOption.Radical)   #提取偏旁部首
    pinyin = Radical(RunOption.Pinyin)     #提取拼音

    #提取拼音和偏旁 None用特殊符号替代UNK
    radical_out = [[radical.trans_ch(x) if radical.trans_ch(x) is not None else 'UNK' for x in s] for s in texts]
    pinyin_out = [[pinyin.trans_ch(x) if pinyin.trans_ch(x) is not None else 'UNK' for x in s] for s in texts]

    #赋值
    data['radical'] = radical_out
    data['pinyin'] = pinyin_out

    #--------------------------------------------------------------------
    #                              存储数据
    #--------------------------------------------------------------------
    #获取样本数量
    num_samples = len(texts)     #行数
    num_col = len(data.keys())   #列数 字典自定义类别数 6
    print(num_samples)
    print(num_col)
    
    dataset = []
    for i in range(num_samples):
        records = list(zip(*[list(v[i]) for v in data.values()]))   #压缩
        dataset += records+[['sep']*num_col]                        #每处理一句话sep分割
    #records = list(zip(*[list(v[0]) for v in data.values()]))
    #for r in records:
    #    print(r)
    
    #最后一行sep删除
    dataset = dataset[:-1]
    #转换成dataframe 增加表头
    dataset = pd.DataFrame(dataset,columns=data.keys())
    #保存文件 测试集 训练集
    save_path = f'data/prepare/{split_name}/{idx}.csv'
    dataset.to_csv(save_path,index=False,encoding='utf-8')

    #--------------------------------------------------------------------
    #                       处理换行符 w表示一个字
    #--------------------------------------------------------------------
    def clean_word(w):
        if w=='\n':
            return 'LB'
        if w in [' ','\t','\u2003']: #中文空格\u2003
            return 'SPACE'
        if w.isdigit():              #将所有数字转换为一种符号 数字训练会造成干扰
            return 'NUM'
        return w
    
    #对dataframe应用函数
    dataset['word'] = dataset['word'].apply(clean_word)

    #存储数据
    dataset.to_csv(save_path,index=False,encoding='utf-8')
    
    
    #return texts, tags, bounds, flags
    #return texts[0], tags[0], bounds[0], flags[0], radical_out[0], pinyin_out[0]


#----------------------------功能:预处理所有文本---------------------------------
def multi_process(split_method=None,train_ratio=0.8):
    """
    功能: 对所有文本尽心预处理操作
    param split_method: 切割文本方法
    param train_ratio: 训练集和测试集划分比例
    return
    """
    
    #删除目录
    if os.path.exists('data/prepare/'):
        shutil.rmtree('data/prepare/')
        
    #创建目录
    if not os.path.exists('data/prepare/train/'):
        os.makedirs('data/prepare/train/')
        os.makedirs('data/prepare/test/')

    #获取所有文件名
    idxs = set([file.split('.')[0] for file in os.listdir('data/'+train_dir)])
    idxs = list(idxs)
    
    #随机划分训练集和测试集
    shuffle(idxs)                         #打乱顺序
    index = int(len(idxs)*train_ratio)    #获取训练集的截止下标
    #获取训练集和测试集文件名集合
    train_ids = idxs[:index]
    test_ids = idxs[index:]

    #--------------------------------------------------------------------
    #                               引入多进程
    #--------------------------------------------------------------------
    #线程池方式调用
    import multiprocessing as mp
    num_cpus = mp.cpu_count()           #获取机器CPU的个数
    pool = mp.Pool(num_cpus)
    
    results = []
    #训练集处理
    for idx in train_ids:
        result = pool.apply_async(process_text, args=(idx,split_method,'train'))
        results.append(result)
    #测试集处理
    for idx in test_ids:
        result = pool.apply_async(process_text, args=(idx,split_method,'test'))
        results.append(result)
    #关闭进程池
    pool.close()
    pool.join()
    [r.get for r in results]


#----------------------------功能:生成映射字典---------------------------------
#统计函数：列表、频率计算阈值
def mapping(data,threshold=10,is_word=False,sep='sep',is_label=False):
    #统计列表data中各种类型的个数
    count = Counter(data)

    #删除之前自定义的sep换行符
    if sep is not None:
        count.pop(sep)

    #判断是汉字 未登录词处理 出现频率较少 设置为Unknown
    if is_word:
        #设置下列两个词频次 排序靠前
        count['PAD'] = 100000001          #填充字符 保证长度一致
        count['UNK'] = 100000000          #未知标记
        #降序排列
        data = sorted(count.items(),key=lambda x:x[1], reverse=True)
        #去除频率小于threshold的元素
        data = [x[0] for x in data if x[1]>=threshold]
        #转换成字典
        id2item = data
        item2id = {
     id2item[i]:i for i in range(len(id2item))}
    elif is_label:
        #label标签不加PAD
        data = sorted(count.items(),key=lambda x:x[1], reverse=True)
        data = [x[0] for x in data]
        id2item = data
        item2id = {
     id2item[i]:i for i in range(len(id2item))}
    else:
        count['PAD'] = 100000001
        data = sorted(count.items(),key=lambda x:x[1], reverse=True)
        data = [x[0] for x in data]
        id2item = data
        item2id = {
     id2item[i]:i for i in range(len(id2item))}
    return id2item, item2id

#生成映射字典
def get_dict():
    #获取所有内容
    all_w = []         #汉字
    all_label = []     #类别
    all_bound = []     #边界
    all_flag = []      #词性
    all_radical = []   #偏旁
    all_pinyin = []    #拼音
    
    #读取文件
    for file in glob('data/prepare/train/*.csv') + glob('data/prepare/test/*.csv'):
        df = pd.read_csv(file,sep=',')
        all_w += df['word'].tolist()
        all_label += df['label'].tolist()
        all_bound += df['bound'].tolist()
        all_flag += df['flag'].tolist()
        all_radical += df['radical'].tolist()
        all_pinyin += df['pinyin'].tolist()

    #保存返回结果 字典
    map_dict = {
     } 

    #调用统计函数
    map_dict['word'] = mapping(all_w,threshold=20,is_word=True)
    map_dict['label'] = mapping(all_label,is_label=True)
    map_dict['bound'] = mapping(all_bound)
    map_dict['flag'] = mapping(all_flag)
    map_dict['radical'] = mapping(all_radical)
    map_dict['pinyin'] = mapping(all_pinyin)

    #字典保存内容
    #return map_dict

    #保存字典数据至文件
    with open(f'data/dict.pkl', 'wb') as f:
        pickle.dump(map_dict,f)
        
#-------------------------------功能:主函数--------------------------------------
if __name__ == '__main__':
    #print(process_text('0',split_method=split_text,split_name='train'))

    #1.多线程处理文本
    #multi_process(split_text)

    #2.生成映射字典
    #print(get_dict())
    get_dict()

    #3.读取get_dict函数保存的字典文件
    with open(f'data/dict.pkl', 'rb') as f:
        data = pickle.load(f)
    print(data['bound'])

5.data_process.py

#encoding:utf-8
import os
import re

#----------------------------功能:获取实体类别及个数---------------------------------
def get_entities(dirPath):
    entities = {
     }                 #存储实体类别
    files = os.listdir(dirPath)   #遍历路径

    #获取所有文件的名字并去重 0.ann => 0
    filenames = set([file.split('.')[0] for file in files])
    filenames = list(filenames)
    #print(filenames)

    #重新构造ANN文件名并遍历文件
    for filename in filenames:
        path = os.path.join(dirPath, filename+".ann")
        #print(path)
        #读文件
        with open(path, 'r', encoding='utf8') as f:
            for line in f.readlines():
                #TAB键分割获取实体类型
                name = line.split('\t')[1]
                #print(name)
                value = name.split(' ')[0]
                #print(value)
                #实体加入字典并统计个数
                if value in entities:
                    entities[value] += 1   #在实体集合中数量加1
                else:
                    entities[value] = 1    #创建键值且值为1
    #返回实体集
    return entities

#----------------------------功能:命名实体BIO标注--------------------------------
def get_labelencoder(entities):
    #排序
    entities = sorted(entities.items(), key=lambda x: x[1], reverse=True)
    print(entities)
    #获取实体类别名称
    entities = [x[0] for x in entities]
    print(entities)
    #标记实体
    id2label = []
    id2label.append('O')
    #生成实体标记
    for entity in entities:
        id2label.append('B-'+entity)
        id2label.append('I-'+entity)

    #字典键值生成
    label2id = {
     id2label[i]:i for i in range(len(id2label))}

    return id2label, label2id

#-------------------------功能:自定义分隔符文本分割------------------------------
def split_text(text, outfile):
    #分割后的下标
    split_index = []

    #文件写入
    fw = open(outfile, 'w', encoding='utf8')

    #--------------------------------------------------------------------
    #                             文本分割
    #--------------------------------------------------------------------
    #第一部分 按照符号分割
    pattern = '。|，|,|;|；|？|\?|\.'
    
    #获取字符的下标位置
    for m in re.finditer(pattern, text):
        """
        print(m)
        start = m.span()[0]   #标点符号位置
        print(text[start])
        start = m.span()[0] - 5
        end = m.span()[1] + 5
        print('****', text[start:end], '****')
        """
        #特殊符号下标
        idx = m.span()[0]
        #判断是否断句 contniue表示不能直接分割句子
        if text[idx-1]=='\n':         #当前符号前是换行符
            continue
        if text[idx-1].isdigit() and text[idx+1].isdigit():  #前后都是数字或数字+空格
            continue
        if text[idx-1].isdigit() and text[idx+1].isspace() and text[idx+2].isdigit():
            continue
        if text[idx-1].islower() and text[idx+1].islower():  #前后都是小写字母
            continue
        if text[idx-1].isupper() and text[idx+1].isupper():  #前后都是大写字母
            continue
        if text[idx-1].islower() and text[idx+1].isdigit():  #前面是小写字母 后面是数字
            continue
        if text[idx-1].isupper() and text[idx+1].isdigit():  #前面是大写字母 后面是数字
            continue
        if text[idx-1].isdigit() and text[idx+1].islower():  #前面是数字 后面是小写字母
            continue
        if text[idx-1].isdigit() and text[idx+1].isupper():  #前面是数字 后面是大写字母
            continue
        if text[idx+1] in set('.。;；,，'):                  #前后都是标点符号
            continue
        if text[idx-1].isspace() and text[idx-2].isspace() and text[idx-3].isupper():
            continue                                         #HBA1C  。两个空格+字母
        if text[idx-1].isspace() and text[idx-3].isupper():
            continue
            #print('****', text[idx-20:idx+20], '****')
        
        #将分句的下标存储至列表中 -> 标点符号后面的字符
        split_index.append(idx+1)

    #--------------------------------------------------------------------
    #第二部分 按照自定义符号分割
    #下列形式进行句子分割
    pattern2 = '\([一二三四五六七八九十零]\)|[一二三四五六七八九十零]、|'
    pattern2 += '注:|附录 |表 \d|Tab \d+|\[摘要\]|\[提要\]|表\d[^。，,;；]+?\n|'
    pattern2 += '图 \d|Fig \d|\[Abdtract\]|\[Summary\]|前  言|【摘要】|【关键词】|'
    pattern2 += '结    果|讨    论|and |or |with |by |because of |as well as '
    #print(pattern2)            
    for m in re.finditer(pattern2, text):
        idx = m.span()[0]
        #print('****', text[idx-20:idx+20], '****')
        #连接词位于单词中间不能分割 如 goodbye
        if (text[idx:idx+2] in ['or','by'] or text[idx:idx+3]=='and' or text[idx:idx+4]=='with')\
            and (text[idx-1].islower() or text[idx-1].isupper()):
            continue
        split_index.append(idx)  #注意这里不加1 找到即分割

    #--------------------------------------------------------------------
    #第三部分 中文字符+数字分割
    #判断序列且包含汉字的分割(2.接下来...) 同时小数不进行切割
    pattern3 = '\n\d\.'  #数字+点
    for m in  re.finditer(pattern3, text):
        idx = m.span()[0]
        if ischinese(text[idx+3]): #第四个字符为中文汉字 含换行
            #print('****', text[idx-20:idx+20], '****')
            split_index.append(idx+1)

    #换行+数字+括号  (1)总体治疗原则:淤在选择降糖药物时
    for m in re.finditer('\n\(\d\)', text):
        idx = m.span()[0]
        split_index.append(idx+1)

    #--------------------------------------------------------------------
    #获取句子分割下标后进行排序操作 增加第一行和最后一行
    split_index = sorted(set([0, len(text)] + split_index))
    split_index = list(split_index)
    #print(split_index)

    #计算机最大值和最小值
    lens = [split_index[i+1]-split_index[i] for i in range(len(split_index)-1)]
    #print(max(lens), min(lens))
        
    #--------------------------------------------------------------------
    #                                 长短句处理
    #--------------------------------------------------------------------
    #遍历每一个句子 (一)xxxx 分割
    other_index = []        
    for i in range(len(split_index)-1):
        begin = split_index[i]
        end = split_index[i+1]
        #print("-----", text[begin:end])
        #print(begin, end)
        if (text[begin] in '一二三四五六七八九十零') or \
            (text[begin]=='(' and text[begin+1] in '一二三四五六七八九十零'):
            for j in range(begin,end):
                if text[j]=='\n':
                    other_index.append(j+1)
    #补充+排序
    split_index += other_index
    split_index = list(sorted(set([0, len(text)] + split_index)))

    #--------------------------------------------------------------------
    #第一部分 长句处理：句子长度超过150进行拆分
    other_index = []
    for i in range(len(split_index)-1):
        begin = split_index[i]
        end = split_index[i+1]
        other_index.append(begin)
            
        #句子长度超过150切割 并且最短15个字符
        if end-begin>150:
            for j in range(begin,end):
                #这一次下标位置比上一次超过15分割
                if(j+1-other_index[-1])>15:
                    #换行分割
                    if text[j]=='\n':
                        other_index.append(j+1)
                    #空格+前后数字
                    if text[j]==' ' and text[j-1].isnumeric() and text[j+1].isnumeric():
                        other_index.append(j+1)
    split_index += other_index
    split_index = list(sorted(set([0, len(text)] + split_index)))

    #--------------------------------------------------------------------
    #第二部分 删除空格的句子
    for i in range(1, len(split_index)-1):
        idx = split_index[i]
        #当前下标和上一个下标对比 如果等于空格继续比较
        while idx>split_index[i-1]-1 and text[idx-1].isspace():
            idx -= 1
        split_index[i] = idx
    split_index = list(sorted(set([0, len(text)] + split_index)))

    #--------------------------------------------------------------------
    #第三部分 短句处理-拼接
    temp_idx = []
    i = 0
    while i<(len(split_index)-1):
        begin = split_index[i]
        end = split_index[i+1]
        #先统计句子中中文字符和英文字符个数
        num_ch = 0
        num_en = 0
        if end - begin <15:
            for ch in text[begin:end]:
                if ischinese(ch):
                    num_ch += 1
                elif ch.islower() or ch.isupper():
                    num_en += 1
                if num_ch + 0.5*num_en>5:  #大于5说明长度够用
                    temp_idx.append(begin)
                    i += 1                 #注意break前i加1 否则死循环
                    break
            #长度小于等于5和后面的句子合并
            if num_ch + 0.5*num_en<=5:
                temp_idx.append(begin)
                i += 2
        else:
            temp_idx.append(begin)  #大于15直接添加下标
            i += 1
    split_index = list(sorted(set([0, len(text)] + temp_idx)))

    #查看句子长度 由于存在\n换行一个字符
    lens = [split_index[i+1]-split_index[i] for i in range(len(split_index)-1)][:-1] #删除最后一个换行
    print(max(lens), min(lens))
        
    #for i in range(len(split_index)-1):
    #    print(i, '****', text[split_index[i]:split_index[i+1]])

    #存储结果
    result = []
    for i in range(len(split_index)-1):
        result.append(text[split_index[i]:split_index[i+1]])
        fw.write(text[split_index[i]:split_index[i+1]])
    fw.close()

    #检查：预处理后字符是否减少
    s = ''
    for r in result:
        s += r
    assert len(s)==len(text)   #断言
    return result

#---------------------------功能:判断字符是不是汉字-------------------------------
def ischinese(char):
    if '\u4e00' <=char <= '\u9fff':
        return True
    return False

#-------------------------------功能:主函数--------------------------------------
if __name__ == '__main__':
    dirPath = "data/train_data"
    outPath = 'data/train_data_pro'

    #获取实体类别及个数
    entities = get_entities(dirPath)
    print(entities)
    print(len(entities))

    #完成实体标记 列表 字典
    #得到标签和下标的映射
    label, label_dic = get_labelencoder(entities)
    print(label)
    print(len(label))
    print(label_dic, '\n\n')

    #遍历路径
    files = os.listdir(dirPath)   
    filenames = set([file.split('.')[0] for file in files])
    filenames = list(filenames)
    for filename in filenames:
        path = os.path.join(dirPath, filename+".txt")  #TXT文件
        outfile = os.path.join(outPath, filename+"_pro.txt")
        #print(path)
        with open(path, 'r', encoding='utf8') as f:
            text = f.read()
            #分割文本
            print(path)
            split_text(text, outfile)
    print("\n")

七.总结

写到这里，这篇文章就介绍结束了，希望对您有所帮助。文章虽然很冗余，但还是能学到知识，尤其是数据预处理和BiLSTM构建知识，后续随着作者深入，会分享更简洁的命名实体识别代码，继续加油~

希望您喜欢这篇文章，从看视频到撰写代码，我真的写了一周时间，再次感谢视频的作者白老师及B站UP主。真心希望这篇文章对您有所帮助，加油~

https://github.com/eastmountyxz/AI-for-Keras

(By:Eastmount 2021-01-05 周二写于武汉 http://blog.csdn.net/eastmount/ )

2020年8月18新开的“娜璋AI安全之家”，主要围绕Python大数据分析、网络空间安全、人工智能、Web渗透及攻防技术进行讲解，同时分享CCF、SCI、南核北核论文的算法实现。娜璋之家会更加系统，并重构作者的所有文章，从零讲解Python和安全，写了近十年文章，真心想把自己所学所感所做分享出来，还请各位多多指教，真诚邀请您的关注！谢谢。

参考文献：

https://www.bilibili.com/video/BV1Z5411477j - 谁用了我的白桦林
肖仰华《知识图谱概念与技术》
NLP在线医生-BiLSTM+CRF命名实体识别 - 阁下兄

你可能感兴趣的:(Python人工智能,命名实体识别,知识图谱,医学命名实体识别,自然语言处理)

Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
积食宝宝福音，试着坚持3件事，孩子脾胃好还消积！ MrWu_e989
许多宝妈由于第一次当父母，所以经验还是缺乏，宝宝突然不吃饭了，睡眠也变差了，还容易哭闹，有经验的家长朋友们都会说，这些都是孩子积食的表现，所以得注意了，孩子腹痛腹胀也是孩子积食的表现哦。一起了解孩子积食积食在中医学上，主要是小孩吃东西消化慢，堆积在体内，形成一种肠胃疾患，主要的表现就是腹胀、不吃饭、腹泻呕吐等等。宝宝积食危害大，长时间的积食容易影响营养的吸收，还会影响生长发育，甚至是智力发育的罪魁
2020年 12月3日渥太华阴一生守望一人
今天结课了。全面备战，准备期末考试了。最近看到纽约州立阿尔伯尼法学院和西奈山医学院有一个联合生命科学的硕士学位，有点心动，打算考完试以后找教授和相关负责人问一下。新闻方面，中国第一次实现了外太空运载器发射，嫦娥今天正式启程返家了。这也预示着我们面对载人登月又踏出了自己坚实的一步。同时，我们继美国之后在同一年制造出了量子计算机“九章”。“九章”量子计算机可以以200秒的速度计算出当前最强大超级计算机
内经简介（上）骆长珊
哈喽大家好我是骆长珊今天是2017年1月9日，今天是我每天一篇文章的第四十八篇。最近在重温《黄帝内经》，我在不断记颂原文的过程也不断的找相关资料来看。最终目的，以教为学，写出自己知道的，提神自己的觉悟。黄帝内经》是我国传统医学四大经典著作之一（《黄帝内经》、《伤寒论》、《金匮要略》、《温病条辨》），也是第一部冠以中华民族先祖“黄帝”之名的传世巨著，是我国医学宝库中现存成书最早的一部医学典籍。在理论
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
认识世界陈陈_19b4
9月16日，雨。阅读书目:《真相》。作者:瑞典统计学家和医学教授汉斯·罗斯林，他的儿子奥拉·罗斯林，google公共数据团队的负责人。汉斯·罗斯林还是一位全球知名的教育家，是世界健康组织和联合国儿童基金会的顾问。他与儿子儿媳共同创办了Gapminder基金会，开发了Trendalyzer软件，将国际统计数据转化成交互式的生动有趣的图表，帮助人们以事实为基础来观察世界，被称为“可视化数据之父”。图片
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
【这里是新疆】（2）“有效光照理论”下的新疆美好生活…… 拈花老夏
图片发自App【这里是新疆】（2）“有效光照理论”下的新疆人，及新疆人们的生活……（这一篇，最好在读完上一篇后进行！前面谈“有效光照”下的植物与作物，本篇谈人，其实本为一整体，但是太长，发不出来[撇嘴]）老夏每年游学南方各省，经常听人这么说：新疆人个子就是高大，结实……其实人也与一棵植物，一棵庄稼没有根本区别！作为生命个体的代表，决定人生命的，其实一是具有能量的、高质量的食物（国际医学及科学普遍认
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
因在船上做噩梦，他坚持中途下船，结果船上211人只有他幸存！三晋风云客
大家都知道，现代社会是讲究科学和逻辑的理性社会。不过依旧有一些科学无法解释的情况存在，比如英国一位神秘的巫婆，据悉她从小便有预言能力，在长大后更是预言了美国总统的人选。但是医学和科学方面并不能解释这种奇怪的现象。今天要向大家介绍的这个神秘事件，也是一个至今未能得到科学解释的谜题，它就是瓦拉塔赫失踪之谜。正文事情发生在英国，1908年，蓝猫航运公司将造船的任务委托给巴克利与柯尔公司。经过这家造船公司
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
百日共读｜Day4普济世人的中医药学 rzrzrz
01中医药学:中国人的生命科学中国传统思想文化是儒、道、释三种流派思想长期融合而来的。这三派思想，都对中医学的形成与发展影响深远，尤其是强调人与自然界协调统一的“天人合一”观，不仅是中国传统文化的精髓之一，也直接缔造了中医学的基本框架，为中医学的发展找到了出发点与归宿。02中医药风靡亚洲中医药学的传播与东医集成而自立:早在西汉时期中国与朝鲜之间就有了医药文化方面的交流，中医中药学在朝鲜半岛的传播主
十款青少年钙片产品排行榜学生生长发育钙片推荐优惠券高省
第一名：钙尔奇钙尔奇，首个进入中国的国际知名钙补充剂品牌，被众多中国医学专家和营养学专家推荐用于预防和治疗骨质疏松症，也是全球医生推荐比较多的钙制剂品牌。钙尔奇，国际知名钙补充剂品牌。来自于辉瑞中国健康药物部，前身为惠氏中国健康药物部，成立于1991年。辉瑞公司创建于1849年，是世界领先的以研发为基础的生物医学和制药公司。目前，分布于90个国家的大约80,000名辉瑞员工，致力于为全球带来更多健
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交