小樊努力努力再努力

基于条件随机场(CRF)对中文案件语料进行命名实体识别(NER)

环境要求

numpy==1.15.4
python-crfsuite==0.9.6
scikit-learn==0.20.1
scipy==1.1.0
six==1.11.0
sklearn==0.0
sklearn-crfsuite==0.3.6
tabulate==0.8.2
tqdm==4.28.1

## 文件组织

- **corpus.py**
语料类

- **model.py**
模型类

- **utils.py**
工具函数、映射、配置

- **data**
语料

- **requirements.txt**
依赖

## 运行main
```
pip install -r requireme

nts.txt
        python main.py
    ```
    即可
## 效果

中间结果

预测结果

corpus.py 语料类

# -*- coding: utf-8 -*-
"""
@version: 
@time: 2018/11/24
@software: PyCharm
@file: Corpus
"""
import codecs
import re

from utils import q_2_b, tag_mean_map

__corpus = None


class Corpus(object):

    def __init__(self):
        self.origin_corpus = self.read_corpus("./data/corpus.txt")#读取语料库
        self.pro_corpus = self.pre_process(self.origin_corpus)
        self.save_pro_corpus(self.pro_corpus)
        self.word_seq = []#文本列表
        self.pos_seq = []#POS(Part-of-Speech)标注
        self.tag_seq = []#标签

    def read_corpus(self, path):#读取训练集数据
        with open(path, encoding='utf-8') as f:
            corpus = f.readlines()
        print("-> 完成训练集{0}的读入".format(path))
        return corpus

    def save_pro_corpus(self, pro_corpus):#保存写入预处理数据
        with codecs.open("./data/pro_corpus.txt", 'w', encoding='utf-8') as f:#w:打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。
            for line in pro_corpus:
                f.write(line)#写入文件
                f.write("\n")
        print("-> 保存预处理数据")

    def pre_process(self, origin_corpus):#数据预处理
        pro_corpus = []#先创建一个list列表
        for line in origin_corpus:
            words = q_2_b(line.strip("")).split('  ')#移除字符串头尾得”“，然后split进行分割
            pro_words = self.process_big_seq(words)
            pro_words = self.process_nr(pro_words)
            pro_words = self.process_t(pro_words)
            pro_corpus.append('  '.join(pro_words[1:]))#从第二个开始添加，每个成员符号用空格隔开
        print("-> 完成数据预处理")
        return pro_corpus

    def process_nr(self, words):#对nr进行处理
        pro_words = []
        index = 0
        while True:
            word = words[index] if index < len(words) else ''
            if '/nr' in word:#word列表是现在的单词，words是整个句子列表
                next_index = index + 1
                #如果说在句子中向下检索单词长度是小于总句子长度而且是'/nr'的时候
                if next_index < len(words) and '/nr' in words[next_index]:
                    #把所有的'/nr'全都替换掉然后把检索的整个句子中的现在的下一个单词压入
                    pro_words.append(word.replace('/nr', '') + words[next_index])
                    index = next_index
                else:
                    pro_words.append(word)
            elif word:
                pro_words.append(word)
            else:
                break
            index += 1
        return pro_words

    def process_t(self, words):#对_t进行处理

        pro_words = []
        index = 0
        temp = ''
        while True:
            word = words[index] if index < len(words) else ''
            if '/t' in word:
                temp = temp.replace('/t', '') + word
            elif temp:
                pro_words.append(temp)
                pro_words.append(word)
                temp = ''
            elif word:
                pro_words.append(word)
            else:
                break
            index += 1
        return pro_words

    def process_big_seq(self, words):#数据序列发生器
        pro_words = []
        index = 0
        temp = ''
        while True:
            word = words[index] if index < len(words) else ''
            if '[' in word:
                temp += re.sub(pattern='/[a-zA-Z]*', repl='', string=word.replace('[', ''))
            elif ']' in word:
                w = word.split(']')
                temp += re.sub(pattern='/[a-zA-Z]*', repl='', string=w[0])
                pro_words.append(temp + '/' + w[1])
                temp = ''
            elif temp:
                temp += re.sub(pattern='/[a-zA-Z]*', repl='', string=word)
            elif word:
                pro_words.append(word)
            else:
                break
            index += 1
        return pro_words

    def initialize(self):#初始化
        pro_corpus = self.read_corpus("./data/pro_corpus.txt")
        corpus_list = [line.strip().split('  ') for line in pro_corpus if line.strip()]
        del pro_corpus
        self.init_sequence(corpus_list)

    def init_sequence(self, corpus_list):#字序列、词性序列、标记序列的初始化
        words_seq = [[word.split('/')[0] for word in words] for words in corpus_list]
        pos_seq = [[word.split('/')[1] for word in words] for words in corpus_list]
        tag_seq = [[self.pos_2_tag(p) for p in pos] for pos in pos_seq]
        self.pos_seq = [[[pos_seq[index][i] for _ in range(len(words_seq[index][i]))]
                         for i in range(len(pos_seq[index]))] for index in range(len(pos_seq))]
        self.tag_seq = [[[self.perform_tag(tag_seq[index][i], w) for w in range(len(words_seq[index][i]))]
                         for i in range(len(tag_seq[index]))] for index in range(len(tag_seq))]
        self.pos_seq = [['un'] + [self.perform_pos(p) for pos in pos_seq for p in pos] + ['un'] for pos_seq in
                        self.pos_seq]
        self.tag_seq = [[t for tag in tag_seq for t in tag] for tag_seq in self.tag_seq]
        self.word_seq = [[''] + [w for word in word_seq for w in word] + [''] for word_seq in words_seq]
        print("-> 完成字序列、词性序列、标记序列的初始化")

    def pos_2_tag(self, pos):#对"nr", "PER"进行处理
        return tag_mean_map[pos] if pos in tag_mean_map else '0'

    def perform_tag(self, tag, index):#进行标签化BIO处理
        if index == 0 and tag != '0':
            return 'B_{}'.format(tag)
        elif tag != '0':
            return 'I_{}'.format(tag)
        else:
            return tag

    def perform_pos(self, pos):
        if pos in tag_mean_map.keys() and pos != 't':
            return 'n'
        else:
            return pos

    def generator(self):#根据特征模板，提取特征
        print("-> 以 {0} 的窗口大小，分割字序列".format(3))
        word_grams = [self.segment_by_window(word_list) for word_list in self.word_seq]
        print("-> 根据特征模板，提取特征")
        features = self.feature_extractor(word_grams)
        return features, self.tag_seq
    def segment_by_window(self, word_list=None, window_size=3):#窗口部分
        all_posible_words = []
        begin, end = 0, window_size
        for _ in range(1, len(word_list)):
            if end > len(word_list):
                break
            all_posible_words.append(word_list[begin:end])
            begin += 1
            end += 1
        return all_posible_words

    def feature_extractor(self, word_grams):#特征提取器
        features, features_list = [], []
        for index in range(len(word_grams)):
            for i in range(len(word_grams[index])):#一个字一个字得进行分析
                word_gram = word_grams[index][i]
                feature = {
                    "w-1": word_gram[0],
                    "w": word_gram[1],
                    "w+1": word_gram[2],

                    "w-1:w": word_gram[0] + word_gram[1],
                    "w:w+1": word_gram[1] + word_gram[2],

                    "bias": 1.0
                }

                features.append(feature)
            features_list.append(features)
            features = []
        return features_list


def get_corpus():#获取语料库
    global __corpus
    if not __corpus:
        __corpus = Corpus()
    return __corpus


if __name__ == '__main__':
    c = Corpus()
    c.initialize()

line.strip().split(‘,‘)含义：

strip()用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
split（‘ ’）: 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则分隔 num+1 个子字符串。

eg:

words = q_2_b(line.strip("")).split(' ')
#移除字符串头尾得”“，然后split进行分割

Python中的 .join()用法

这个函数展开来写应该是str.join(item)，join函数是一个字符串操作函数

str表示字符串（字符），item表示一个成员，注意括号里必须只能有一个成员，比如','.join('a','b')这种写法是行不通的

举个例子：
','.join('abc')
上面代码的含义是“将字符串abc中的每个成员以字符','分隔开再拼接成一个字符串”，输出结果为：
'a,b,c'

python字符串替换replace函数

replace(old, new, count)

old，旧字符或字符串

new，新字符或字符串

count，最大替换数量，从起始位置开始计数，默认替换所有

注意：replace函数替换字符串，不影响原字符串

python 中del 的用法

python中的del用法比较特殊，新手学习往往产生误解，弄清del的用法，可以帮助深入理解python的内存方面的问题。

python的del不同于C的free和C++的delete。

由于python都是引用，而python有GC机制，所以，del语句作用在变量上，而不是数据对象上。
if __name__=='__main__':  
    a=1       # 对象 1 被 变量a引用，对象1的引用计数器为1  
    b=a       # 对象1 被变量b引用，对象1的引用计数器加1  
    c=a       #1对象1 被变量c引用，对象1的引用计数器加1  
    del a     #删除变量a，解除a对1的引用  
    del b     #删除变量b，解除b对1的引用  
    print(c)  #最终变量c仍然引用1  
del删除的是变量，而不是数据。

另外。关于list。
if __name__=='__main__':  
    li=[1,2,3,4,5]  #列表本身不包含数据1,2,3,4,5，而是包含变量：li[0] li[1] li[2] li[3] li[4]   
    first=li[0]     #拷贝列表，也不会有数据对象的复制，而是创建新的变量引用  
    del li[0]  
    print(li)      #输出[2, 3, 4, 5]  
    print(first)   #输出 1  

pyhton （for in if）用法

带有if语句

我们可以在 for 语句后面跟上一个 if 判断语句，用于过滤掉那些不满足条件的结果项。

例如，我想去除列表中所有的偶数项，保留奇数项，可以这么写：
>>> L = [1, 2, 3, 4, 5, 6]
>>> L = [x for x in L if x % 2 != 0]
>>> L
[1, 3, 5]
带有for嵌套

在复杂一点的列表推导式中，可以嵌套有多个 for 语句。按照从左至右的顺序，分别是外层循环到内层循环。

例如：
>>> [x + y for x in 'ab' for y in 'jk']
['aj', 'ak', 'bj', 'bk'
参考资料python 循环高级用法 [expression for x in X [if condition] for y in Y [if condition] ... for n in N [if condition] ]按照从左至右的顺序，分别是外层循环到内层循环 - bonelee - 博客园

[word.split('/')[0] for word in words]

python中for _ in range () 中'_'的意思

以斐波那契数列为例
#求前20项的斐波那契数
a = 0
b = 1
for _ in range(20):
    (a, b) = (b, a + b)
    print(a, end=' ')
其中’_’ 是一个循环标志，也可以用i，j 等其他字母代替，下面的循环中不会用到，起到的是循环此数的作用
就像C语言中
for (int i ; i<100 ; i++){
    代码块;
}
其中的’i’在下面并不会用到，起到的只是控制循环此数的作用

python中global用法

Python中定义函数时，若想在函数内部对函数外的变量进行操作，就需要在函数内部声明其为global。
x = 1

def func():
    x = 2

func()
print(x)
输出：1
在func函数中并未在x前面加global，所以func函数无法将x赋为2，无法改变x的值

例子2
x = 1

def func():
    global x
    x = 2

func()
print(x)
输出：2
加了global，则可以在函数内部对函数外的对象进行操作了，也可以改变它的值了

例子3
global x
x = 1

def func():
    x = 2

func()
print(x)
输出：1
global需要在函数内部声明，若在函数外声明，则函数依然无法操作x

re.sub()用法的详细介绍

上面 re.sub(r'[A-Za-z]+', ' ', s) 这句话则表示匹配多个连续的字母，并将多个连续的字母替换为一个' '号 。

参考链接：re.sub()用法的详细介绍_jack的博客-CSDN博客

utils.py 工具函数、映射、配置

# -*- coding: utf-8 -*-
"""
@version: 
@time: 2018/11/24
@software: PyCharm
@file: Corpus
"""
import re

# 定义测试集section名的映射
document = "文书"

_section_map = (
    ("head", "首部"),
    ("party_info", "当事人信息"),
    ("case_info", "案件基本情况"),
    ("judge_principle", "裁判原则"),
    ("judgment", "判决结果"),
    ("ending", "尾部"),
    ("apply_record", "上诉记录")
)

section_map = dict(_section_map)

# 定义训练集目标实体名映射

entity = "实体"

_entity_map = (
    ("BIR", "出生信息"),
    ("NAT", "名族"),
    ("LOC", "居住地"),
    ("SEX", "性别"),
    ("HJ", "户籍"),
    ("EDU", "文化背景"),
    ("JOB", "职务"),
    ("ORG", "单位"),
    ("POL", "政治面貌"),
    ("PER", "被告人姓名"),
    ("T", "犯罪时间"),
    ("MON", "涉案金额")
)

entity_map = dict(_entity_map)

_tag_mean_map = (
    ("nr", "PER"),
    ("ns", "LOC"),
    ("nt", "ORG"),
    ("t", "T")
)

tag_mean_map = dict(_tag_mean_map)

_model_config = (
    ("algorithm", "lbfgs"),
    ("c1", "0.1"),
    ("c2", "0.1"),
    ("max_iterations", 100),
    ("model_path", "{}.pkl")
)

model_config = dict(_model_config)

_test_config = (#配置文件
    ("test_path", "./data/{}.json"),
    ("output_path", "{}.json")
)

test_config = dict(_test_config)

_regex_map = (#正则表达map
    ("edu", "文化"),
    ("pol", "中共党员"),
    ("nat", "族"),
    ("curator", "检察院"),
    ("money", "元")
)

regex_map = dict(_regex_map)

regex_pattern = "[0-9]+(.[0-9]+)?([百千万]*)(余?)元"


def expand_list(nested_list):
    """
        将高维list转换为一维list
    """
    for item in nested_list:
        if isinstance(item, list):
            for sub_item in expand_list(item):
                yield sub_item
        else:
            yield item


def b_2_q(b_str):
    """
        半角转全角
    """
    q_str = ""
    for uchar in b_str:
        inside_code = ord(uchar)
        if inside_code == 32:
            inside_code = 12288
        elif 126 >= inside_code >= 32:
            inside_code += 65248
        q_str += chr(inside_code)
    return q_str


def q_2_b(q_str):
    """
        全角转半角
    """
    b_str = ""
    for uchar in q_str:
        inside_code = ord(uchar)
        if inside_code == 12288:  # 全角空格
            inside_code = 32
        elif 65374 >= inside_code >= 65281:
            inside_code -= 65248
        b_str += chr(inside_code)
    return b_str


def deal_with_entity(entity_list, sentence, flag):
    obj = dict()
    if flag == 0:
        for index in range(len(entity_list)):
            if entity_list[index][1] == "PER":
                obj[entity_map["PER"]] = entity_list[index][0]
            if entity_list[index][1] == "LOC":
                if obj.get(entity_map["LOC"], None) is None:
                    obj[entity_map["LOC"]] = entity_list[index][0]
                else:
                    obj[entity_map["HJ"]] = entity_list[index][0]
            if entity_list[index][1] == 'T':
                obj[entity_map['BIR']] = entity_list[index][0]
            if entity_list[index][1] == 'ORG' and regex_map["curator"] not in entity_list[index][0]:
                obj[entity_map['ORG']] = entity_list[index][0]
        sentence = sentence.replace("。", ",")
        sentence_list = sentence.split(",")
        for index in range(len(sentence_list)):
            if regex_map["edu"] in sentence_list[index]:
                if obj.get(entity_map["EDU"], None) is None:
                    obj[entity_map["EDU"]] = sentence_list[index]
            if regex_map["pol"] in sentence_list[index]:
                if obj.get(entity_map["POL"], None) is None:
                    obj[entity_map["POL"]] = sentence_list[index]
            if regex_map["nat"] in sentence_list[index]:
                if obj.get(entity_map["NAT"], None) is None:
                    obj[entity_map["NAT"]] = sentence_list[index]
    if flag == 1:
        for index in range(len(entity_list)):
            if entity_list[index][1] == 'T':
                obj[entity_map['T']] = entity_list[index][0]
        sentence = sentence.replace("。", ",")
        sentence_list = sentence.split(",")
        for index in range(len(sentence_list)):
            if re.search(regex_pattern, sentence_list[index]) is not None:
                obj[entity_map['MON']] = re.search(regex_pattern, sentence_list[index]).group()
    return obj

Python中isinstance用法

Isinstance的用法是用来判断一个量是否是相应的类型，接受的参数一个是对象加一种类型。示范代码如下：

a = 1

print(isinstance(a,int))

print(isinstance(a,float))

返回 True False

yield关键词
def fy(count):
    c=count
    while c>0:
        c=c-1
        yield c
        
f=fy(4)
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())
上面的这个例子，让人感觉莫名其妙：fy表面上看起来是一个函数，f不过是一个函数对象而已，怎么会突然冒出一个成员函数__next__出来？
这一切都是因为fy中的一句yield c，原本仅仅是一个函数fy，由于yield的存在，变得完全不同。yield在这里起到的作用就是把一个普通的函数变成了一个生成器。所谓生成器，简单理解就是：迭代器+协程。也就是说yield有两重作用。
yield的第一重作用是把一个普通函数变成了一个迭代器。既然是迭代器，就得具有__next__函数，所以yield会给这个生成器加一个__next__函数，而这个__next__函数的具体实现，就相对于原来的函数体。我们先把fy函数变成一个迭代器，伪代码如下：
class fy_generator(object):
        def __init__(self,count):
            self.count=count
        def __iter__(self):
            return self
        def __next__(self):
            c=self.count
            while c>0:
                c=c-1
                yield c
这个迭代器的__next__函数中，仍然具有yield这个关键词，因为它已经把一个普通函数变成了一个迭代器，所以此时的yield将只会具有第二层作用，把__next__函数变成一个协程。yield的第二层作用，具体描述如下：
1 当__next__函数被调用，执行到yield时，首先相对于return c。
2 但是yield c又不是完全等价于return c，否则函数就退出了。所以，yield的第2个功能相对于保存了当时运行的上下文，把函数挂起。
3 既然把函数挂起，就相对于该协程让出程序执行权（让出上下文，由另外的协程来运行）。
4 当这个__next__函数再次被调用，它是从当初挂起的地方继续执行，直到再次执行yield c那句函数，然后又开始从第1点开始循环。
5 __next__函数可能这样一直循环下去，也可能在某种情况下没有执行到yield c，就函数退出了，那么此时__next__函数会抛出一个异常：raise StopIteration。
综上，关于yield两重作用的描述，重新解释一下所举的例子，如下表：

Neutron使用yield关键词编程，实际上还是属于用户（编程者/应用程序）自己对协程进行调度（函数挂起，让渡给别的函数执行）。

原文链接：Python中yield分析_实践求真知-CSDN博客_python yield

将高维list转换为一维list

def list_app(old_list, new_list = list()):
    """#isinstance去判断遍历的l是不是还是一个list如果还是list,用递归继续反复遍历"""
    for l in old_list:
        if isinstance(l, list):
            list_app(l) # 调用递归
        else:
            # 如果不是,把l添加进一个新的list
            new_list.append(l)
    return new_list

本案例代码中

def expand_list(nested_list):
    """
        将高维list转换为一维list
    """
    for item in nested_list:
        if isinstance(item, list):
            for sub_item in expand_list(item):
                yield sub_item
        else:
            yield item

python 中的ord()函数和chr()函数

需要对字符进行转换时使用其中ord函数可以将字符转化为你所需要的ASCII码，chr函数可以将0-255中的任一整数转化为你所需要的字符。

通过这样的转化你可以方便的完成字符与数字之间的转换操作，更好使用for循环以及if判断等常用操作。

示例代码如下：
print(ord("a"))
print(ord("b"))
print(ord("A"))
print(ord("B"))
print(chr(97))
print(chr(98))
运行结果为：

97
98
65
66
a
b

python实现全角半角的相互转换

转换说明

全角半角转换说明

有规律（不含空格）：

全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）
半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）

特例：
空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）

除空格外，全角/半角按unicode编码排序在顺序上是对应的（半角 + 0x7e= 全角）,所以可以直接通过用+-法来处理非空格数据，对空格单独处理。

注：

1. 中文文字永远是全角，只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角，占半个汉字的位置叫半角。

2. 引号在中英文、全半角情况下是不同的

Python字典－dict.get()的用法

dict_name.get(key, default = None)
#	key: 要设置默认值的Key
#	default: 要返回key的值，可以是任何值，如整形、字符串、列表、字典等
#	return: 如果字典中key本来有值，那么返回的是字典中Key所对应的值，如果没有，那么返回“default”中的值。

例子

dict = {'1': 1, '2': 2}

print ("Value : %s" %  dict.get('1'))
print ("Value : %s" %  dict.get('2'))
print ("Value : %s" %  dict.get('3', 0))

#输出
Value : 1
Value : 2
value : 0

Python3 re.search()方法

re.search()方法扫描整个字符串，并返回第一个成功的匹配。如果匹配失败，则返回None。

与re.match()方法不同，re.match()方法要求必须从字符串的开头进行匹配，如果字符串的开头不匹配，整个匹配就失败了；

re.search()并不要求必须从字符串的开头进行匹配，也就是说，正则表达式可以是字符串的一部分。

re.search(pattern, string, flags=0)

pattern : 正则中的模式字符串。

string : 要被查找替换的原始字符串。

flags : 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

eg：
import re
a = "123abc456"
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)   #123abc456,返回整体
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)   #123
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)   #abc
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)   #456
正则表达式中的三组括号把匹配结果分成三组

group() 同group（0）就是匹配正则表达式整体结果

group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。

没有匹配成功的，re.search（）返回None

model.py 模型类

# -*- coding: utf-8 -*-
"""
@version: 
@time: 2018/11/24
@software: PyCharm
@file: Model
"""

import sklearn_crfsuite
import joblib
from sklearn_crfsuite import metrics

from corpus import get_corpus
from utils import model_config, q_2_b, deal_with_entity


class NerModel(object):

    def __init__(self):
        self.corpus = get_corpus()
        self.corpus.initialize()
        self.model = None

    def initialize_model(self):#自己写一个初始化模型方法
        algorithm = model_config.get("algorithm")
        c1 = float(model_config.get("c1"))
        c2 = float(model_config.get("c2"))
        max_iterations = int(model_config.get("max_iterations"))
        self.model = sklearn_crfsuite.CRF(algorithm=algorithm,#采用sklearn_crfsuite的方法训练模型
                                          c1=c1,
                                          c2=c2,
                                          max_iterations=max_iterations,
                                          all_possible_transitions=True)
        print("-> 完成模型初始化")

    def train(self):#训练模型
        self.initialize_model()
        x, y = self.corpus.generator()#提取的特征设置x，y
        x_train, y_train = x[500:], y[500:]#划分训练集
        x_fix, y_fix = x[:500], y[:500]
        print("-> 开始训练模型")
        self.model.fit(x_train, y_train)#调用模型训练
        labels = list(self.model.classes_)
        labels.remove('0')#把0标签移除，因为没啥用
        y_predict = self.model.predict(x_fix)#根据训练的模型预测
        print("-> 调整模型")
        metrics.flat_f1_score(y_fix, y_predict, average='weighted', labels=labels)#评估
        # sorted_labels = sorted(labels, key=lambda name: (name[1:], name[0]))
        # print(metrics.flat_classification_report(y_fix, y_predict, labels=sorted_labels, digits=3))
        print("-> 完成模型训练")
        self.save_model()

    def save_model(self, name="model"):#存储成为kpl文件
        model_path = model_config.get("model_path").format(name)
        joblib.dump(self.model, model_path)
        print("-> 完成模型存储")

    def predict(self, sentence, section_flag):
        self.load_model()#个字符串
        x = q_2_b(sentence)#转换全——》半角返回一
        word_lists = [[''] + [c for c in x] + ['']]
        word_grams = [self.corpus.segment_by_window(word_list) for word_list in word_lists]
        features = self.corpus.feature_extractor(word_grams)
        y_predict = self.model.predict(features)
        entity = ''
        entity_list = []
        tag = ""
        entity_tag = ["B_PER", "B_LOC", "B_ORG", "B_T", "I_LOC", "I_PER", "I_ORG", "I_T"]#实体标记
        for index in range(len(y_predict[0])):
            if y_predict[0][index] == '0':#检测那些预测出来啥都不是的东西
                if index == 0:
                    continue
                elif index > 0 and y_predict[0][index - 1] != '0' and x[index] == x[index - 1]:
                    tag = y_predict[0][index - 1][2:]
                    entity += x[index]
            else:
                if index == 0:
                    entity += x[index]#不是废物标签的话就安排到实体上
                elif index > 0 and y_predict[0][index][-1] == y_predict[0][index - 1][-1]:
                    entity += x[index]
                    tag = y_predict[0][index][2:]
                elif index > 0 and y_predict[0][index][-1] != y_predict[0][index - 1][-1]:
                    entity_list.append((entity, tag))
                    entity = ''
                    tag = ''
                    entity += x[index]
        if len(entity_list) > 0 and entity_list[0][1] == '':
            entity_list.pop(0)
        obj = deal_with_entity(entity_list, x, section_flag)
        return obj

    def load_model(self, model_name="model"):
        model_path = model_config.get("model_path").format(model_name)
        joblib.load(model_path)

## 运行main

# -*- coding: utf-8 -*-
"""
@version: 
@time: 2018/11/24
@software: PyCharm
@file: main
"""
import json

from singleton import get_model
from utils import test_config, document, entity, section_map
import codecs

if __name__ == '__main__':
    model = get_model()
    model.train()

    with open(test_config.get("test_path").format("testset"), encoding='utf-8') as f:
        content = f.read()
    testset = json.loads(content)
    entity_list = []
    for obj in testset:
        sentence_0 = obj.get(document, {}).get(section_map["party_info"])
        if len(list(sentence_0.keys())) == 0:
            sentence_0 = ""
        elif len(list(sentence_0.keys())) == 1:
            sentence_0 = obj.get(document, {}).get(section_map["party_info"])["0"]
        else:
            sentence_0 = obj.get(document, {}).get(section_map["party_info"])["1"]
        sentence_1 = obj.get(document, {}).get(section_map["case_info"])
        if len(list(sentence_1.keys())) == 0:
            sentence_1 = ""
        else:
            sentence_1 = obj.get(document, {}).get(section_map["case_info"])["0"]
        entity_0 = model.predict(sentence_0, 0)
        entity_1 = model.predict(sentence_1, 1)
        entity_obj = entity_0.copy()
        entity_obj.update(entity_1)
        print("--> ", entity_obj)
        entity_list.append({entity: entity_obj})
    with codecs.open(test_config.get("output_path").format("output"), 'w', encoding='utf-8') as f:
        content = json.dumps(entity_list, indent=4, ensure_ascii=False)
        f.write(content)

with open(...) as ...

open() close() with open(...) as ...

　　　　看以下示例就能了解 Python 的 open() 及 close() 函数。这边调用 read()方法可以一次读取文件的全部内容，Python把内容读到内存，用一个str对象表示，具体使用参见下文。

　　　　在 E 盘 python_file 文件夹下新建一 a.txt，输入随意，如下：

　　　　　　

　　　　Python 操作打开及关闭方式如下：

　　　　　　

　　　　注意 open() 之后一定要 close()。但由于文件读写时都可能产生IOError，为了保证无论是否出错都能正确地关闭文件，我们用 try ... finally 来实现：

　　　　　　

　　　　python 简化了改写法，即用 with open(...) as ... ；建议之后文件读写都用该写法：

　　　　

　　　　上面，你肯定注意到了参数 "r"；该参数决定了打开文件的模式：只读，写入，追加等。所有可取值见如下的完全列表。这个参数是非强制的，默认文件访问模式为只读(r)。

参考文章:Python学习（九）IO 编程 —— 文件读写 - feesland - 博客园

codecs.open 和一般的open 区别~

总结一下：文件读尽量用codecs.open方法，一般不会出现编码的问题。至于用第二种方法有什么缺点，我没有研究过。。

open时，我们常常用：

>>> fr = open('test.txt','a')
>>> line1 = "我爱祖国"
>>> fr.write(line1)

OK的~~！！！

但是，我们爬虫或者其他方式得到一些数据写入文件时会有编码不统一的问题，会常常：----decode-----> unicode -------encode------> output文件(gbk, utf-8...)

而使用codecs.open，可以轻松解决：

>>> import codecs
>>> fw = codecs.open('test1.txt','a','utf-8')
>>> fw.write(line2)

你可能感兴趣的:(python,自然语言处理,人工智能)

python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

基于条件随机场(CRF)对中文案件语料进行命名实体识别(NER)

环境要求

**corpus.py** 语料类

line.strip().split(‘,‘)含义：

Python中的 .join()用法

python字符串替换replace函数

python 中del 的用法

pyhton （for in if）用法

[word.split('/')[0] for word in words]

python中for _ in range () 中'_'的意思

python中global用法

re.sub()用法的详细介绍

**utils.py** 工具函数、映射、配置

Python中isinstance用法

yield关键词

将高维list转换为一维list

python 中的ord()函数和chr()函数

python实现全角半角的相互转换

Python字典－dict.get()的用法

Python3 re.search()方法

**model.py** 模型类

## 运行main

with open(...) as ...

open() close() with open(...) as ...

codecs.open 和一般的open 区别~

你可能感兴趣的:(python,自然语言处理,人工智能)

corpus.py 语料类

utils.py 工具函数、映射、配置

model.py 模型类