zenRRan

统计机器学习方法 for NLP：基于CRF的词性标注

知乎: nghuyong
链接: https://zhuanlan.zhihu.com/p/523164712

前言

最近在重刷李航老师的《统计机器学习方法》尝试将其与NLP结合，通过具体的NLP应用场景，强化对书中公式的理解，最终形成「统计机器学习方法 for NLP」的系列。这篇将介绍条件随机场CRF（绝对给你一次讲明白）并基于CRF完成一个词性标注的任务。

CRF是什么

条件随机场(Conditional random field, CRF)是一个NLP领域广泛使用的模型，即使在深度学习时代也是如此。尤其在序列标注任务上，DNN+CRF依然是目前最主流的范式。 CRF是一个判别式模型，通过训练数据直接学习输入序列和对应的标签序列的条件概率。相比于逻辑回归(Logistic Regression)的分类，CRF能学习到标签之间的序列关系来辅助分类。例如在词性标注任务中，如果之前上一个词的词性是「动词」，那么当前词的词性就很小的概率依然是「动词」，因为「动词」后面继续跟「动词」是小概率事件。

马尔可夫随机场

条件随机场CRF中的随机场指的是马尔可夫随机场。马尔可夫随机场满足马尔可夫随机性，即节点上的随机变量只与跟节点直接相连的节点有关。所以我们就可以把一个无向图上随机变量进行因式分解，写成「最大团」乘积的形式。这里「最大团」指的是一个子图中的任何两个节点都有边相连（这就是「团」），并且在这个子图上不能再添加一个新的节点使其构成一个更大的团。例如下图中的{A,B,C}就是一个最大团。

所以随机变量可以写成下面的形式, 为图中的一个最大团:

这里是全部可能的的概率加和, 用来进行概率的归一化 (类似 softmax) ; 这里的是一个严格意义上正函数, 一般取指数函数。

条件随机场

当马尔可夫随机场中有一部分节点是确定节点 , 这时候就是求解在的条件下, 的概率, 即。我们可以继续按照「最大团」进行概率展开:

线性链条件随机场

NLP任务中一般为上图所示的线性链随机场, 与均为线性表示的序列, 即。这里我们称已知变量 (确定变量) 为观测变量, 末知变量 (随机变量) 为隐变量。如上图所示, 在图上的边只有 (观测变量和对应的隐变量的边）以及 (相邻的两个隐变量的边) 。

所以图中的最大团只有两部分构成：
(1) 观测变量和对应的隐变量之间
(2) 相邻的隐变量之间。
根据上面的公式进行展开:

进一步将写成指数函数的形式, 概率相乘就会转写成指数相加的形式:

这里为特征函数, 函数值为 1 或者 0, 满足特征为 1, 不满足特征为 0; 其中为定义在节点的特征函数, 称之为状态特征, 依赖当前位置; 为定义在边的特征函数, 称之为转移特征, 依赖当前和前一个位置。为特征函数对应的系数, 依然是归一化因子。

再进一步，我们可以将这两类最大团合并进行形式上的简化, 所以可以写成下面的形式:

这就是线性CRF最终推出的公式了!!!

额外补充

「特征函数」：可以看到特征函数与4个变量有关:
(1) 整体的观测变量
(2) 当前位置
(3) 当前的隐变量
(4) 前一个隐变量。

所以在词性标注的例子中, 整体的观测变量就是输入的句子，当前位置就是当前的单词 , 当前的隐变量就是当前的位置的词性标签 , 前一个隐变量就是前一个单词的词性标签。这时候我们就可以定义特征函数，例如：如果句子的结尾是问号, 当前的单词为第一个单词, 且当前单词的词性为动词, 那么函数输出为 1 , 否则为 0 。如果这个特征函数的权重越大, 说明这种范式越正确, 即问句的第一个词的词性是动词的概率较大, 比如: "吃饭了吗?"

「与HMM的关系」: HMM在之前的文章中专门介绍过, 具体参见: 统计机器学习方法 for NLP: 基于HMM的词性标注。先说结论, HMM是一种特殊的CRF。下面进行推倒, 首先对于 HMM:

写成log相加的形式:

接着我们通过定义两类特征函数就能转变成CRF的形式:

首先定义一类特征函数, 对于HMM中的两个tag 到的转移概率 , 定义特征函数 , 如果那么函数为 1 , 否则函数为 0 , 同时这个函数对应的特征权重就是到的转移概率。首先定义一类特征函数, 对于HMM中的tag 到单词的发射概率 , 定义特征函数 , 如果那么函数为 1 , 否则函数为 0 , 同时这个函数对应的特征权重就是到的发射概率。

所以我们可以看到HMM是一种特殊的CRF，同时具有两方面的局限性：
(1) HMM是局部特征而非全局特征，也就是没有利用整体的特征，而CRF可以利用整个句子的全局特征;
(2) HMM中的写成CRF特征函数的形式后，权重就是概率值，所以有加和为1的限制，而CRF没有系数和的限制。

模型训练与预测

在定义了特征函数之后，CRF模型本质是一个线性的模型，模型的参数就是特征函数的权重，这里可以采用「梯度下降」的方法学习模型参数。模型训练之后，预测阶段可通过viterbi算法进行解码，来获得最优的隐变量序列。

基于CRF的词性标注

词性标注任务是指给定一句话，给这种话中的每个词都标记上词性，例如动词/形容词等。例如给定句子：“I love China”，需要输出: (I: 代词, love: 动词, China: 名词)，具体可以参见HMM章节中对词性标注任务的介绍：统计机器学习方法 for NLP：基于HMM的词性标注。

下面将分为：数据处理，模型训练，模型预测三个部分来介绍如何利用CRF实现词性标注，具体参考的是这篇工作：「NLP Guide: Identifying Part of Speech Tags using Conditional Random Fields」 。

数据处理

这里采用的数据集是：NLTK Treebank 。获取数据并切分数据集为训练集和测试集。

tagged_sentence = nltk.corpus.treebank.tagged_sents(tagset='universal')
print("Number of Tagged Sentences ",len(tagged_sentence))
tagged_words=[tup for sent in tagged_sentence for tup in sent]
print("Total Number of Tagged words", len(tagged_words))
vocab=set([word for word,tag in tagged_words])
print("Vocabulary of the Corpus",len(vocab))
tags=set([tag for word,tag in tagged_words])
print("Number of Tags in the Corpus ",len(tags))
“”“
Number of Tagged Sentences  3914
Total Number of Tagged words 100676
Vocabulary of the Corpus 12408
Number of Tags in the Corpus  12
”“”
train_set, test_set = train_test_split(tagged_sentence,test_size=0.2,random_state=1234)
print("Number of Sentences in Training Data ",len(train_set))
print("Number of Sentences in Testing Data ",len(test_set))
“”“
Number of Sentences in Training Data  3131
Number of Sentences in Testing Data  783
”“”

模型训练

首先我们手工定义一组特征函数（状态特征函数），例如「第一个字母是不是大写」，「是不是第一个单词」，「是不是最后一个单词」，「前一个单词」，「后一个单词」等，并从数据集中进行特征的抽取：

# 特征定义
def features(sentence,index):
    ### sentence is of the form [w1,w2,w3,..], index is the position of the word in the sentence
    return {
        'is_first_capital':int(sentence[index][0].isupper()),
        'is_first_word': int(index==0),
        'is_last_word':int(index==len(sentence)-1),
        'is_complete_capital': int(sentence[index].upper()==sentence[index]),
        'prev_word':'' if index==0 else sentence[index-1],
        'next_word':'' if index==len(sentence)-1 else sentence[index+1],
        'is_numeric':int(sentence[index].isdigit()),
        'is_alphanumeric': int(bool((re.match('^(?=.*[0-9]$)(?=.*[a-zA-Z])',sentence[index])))),
        'prefix_1':sentence[index][0],
        'prefix_2': sentence[index][:2],
        'prefix_3':sentence[index][:3],
        'prefix_4':sentence[index][:4],
        'suffix_1':sentence[index][-1],
        'suffix_2':sentence[index][-2:],
        'suffix_3':sentence[index][-3:],
        'suffix_4':sentence[index][-4:],
        'word_has_hyphen': 1 if '-' in sentence[index] else 0
    }

def untag(sentence):
    return [word for word,tag in sentence]


def prepareData(tagged_sentences):
    X,y=[],[]
    for sentences in tagged_sentences:
        X.append([features(untag(sentences), index) for index in range(len(sentences))])
        y.append([tag for word,tag in sentences])
    return X,y

# 特征抽取
X_train,y_train=prepareData(train_set)
X_test,y_test=prepareData(test_set)

下面简单看一下抽取出来的特征：

[{'is_alphanumeric': 0,
  'is_complete_capital': 0,
  'is_first_capital': 1,
  'is_first_word': 1,
  'is_last_word': 0,
  'is_numeric': 0,
  'next_word': 'Wall',
  'prefix_1': 'O',
  'prefix_2': 'On',
  'prefix_3': 'On',
  'prefix_4': 'On',
  'prev_word': '',
  'suffix_1': 'n',
  'suffix_2': 'On',
  'suffix_3': 'On',
  'suffix_4': 'On',
  'word_has_hyphen': 0},
 {'is_alphanumeric': 0,
  'is_complete_capital': 0,
  'is_first_capital': 1,
  'is_first_word': 0,
  'is_last_word': 0,
  'is_numeric': 0,
  'next_word': 'Street',
  'prefix_1': 'W',
  'prefix_2': 'Wa',
  'prefix_3': 'Wal',
  'prefix_4': 'Wall',
  'prev_word': 'On',
  'suffix_1': 'l',
  'suffix_2': 'll',
  'suffix_3': 'all',
  'suffix_4': 'Wall',
  'word_has_hyphen': 0},
...
]

以及对应的标签：

['ADP',
 'NOUN',
 'NOUN',
...
]

接着使用sklearn-crfsuite - sklearn-crfsuite 0.3 documentation 进行模型训练：

from sklearn_crfsuite import CRF
crf = CRF(
    algorithm='lbfgs',
    c1=0.01,
    c2=0.1,
    max_iterations=100,
    all_possible_transitions=True
)
crf.fit(X_train, y_train)

模预预测

对测试集进行预测，并计算F1指标

y_pred=crf.predict(X_test)
metrics.flat_f1_score(y_test, y_pred,average='weighted',labels=crf.classes_)
“”“
0.9738471726864286
”“”

可以看到最终评估指标高达97.3% 表明抽取的特征很有效，CRF也是一个很强的模型。

下面看一下头部的转移特征和状态特征：

# 头部的转移特征
[(('ADJ', 'NOUN'), 4.114996),
 (('NOUN', 'NOUN'), 2.935448),
 (('NOUN', 'VERB'), 2.891987),
 (('VERB', 'PRT'), 2.519179),
 (('X', 'VERB'), 2.271558),
 (('ADP', 'NOUN'), 2.265833),
 (('NOUN', 'PRT'), 2.172849),
 (('PRON', 'VERB'), 2.117186),
 (('NUM', 'NOUN'), 2.059221),
 (('DET', 'NOUN'), 2.053832),
 (('ADV', 'VERB'), 1.994419),
 (('ADV', 'ADJ'), 1.957063),
 (('NOUN', 'ADP'), 1.838684),
 (('VERB', 'NOUN'), 1.763319),
 (('ADJ', 'ADJ'), 1.660578),
 (('NOUN', 'CONJ'), 1.591359),
 (('PRT', 'NOUN'), 1.398473),
 (('NOUN', '.'), 1.381863),
 (('NOUN', 'ADV'), 1.380086),
 (('ADV', 'ADV'), 1.301282)]
# 头部的状态特征
[(('prev_word:will', 'VERB'), 6.751359),
 (('prev_word:would', 'VERB'), 5.940819),
 (('prefix_1:*', 'X'), 5.830558),
 (('suffix_4:rest', 'NOUN'), 5.644523),
 (('suffix_2:ly', 'ADV'), 5.260228),
 (('is_first_capital', 'NOUN'), 5.043121),
 (('prev_word:could', 'VERB'), 5.018842),
 (('suffix_3:ous', 'ADJ'), 4.870949),
 (('prev_word:to', 'VERB'), 4.849822),
 (('suffix_4:will', 'VERB'), 4.677684),
 (('next_word:appeal', 'ADJ'), 4.386434),
 (('prev_word:how', 'PRT'), 4.35094),
 (('suffix_4:pany', 'NOUN'), 4.329975),
 (('prefix_4:many', 'ADJ'), 4.205028),
 (('prev_word:lock', 'PRT'), 4.153643),
 (('word_has_hyphen', 'ADJ'), 4.151036),
 (('prev_word:tune', 'PRT'), 4.147576),
 (('next_word:Express', 'NOUN'), 4.137127),
 (('suffix_4:food', 'NOUN'), 4.116688),
 (('suffix_2:ed', 'VERB'), 4.070659)]

根据转移特征('ADJ', 'NOUN')可以看到「形容词」后面接「名词」的概率非常高；根据状态特征('prev_word:will', 'VERB')可以看到如果上一个单词是will，那么当前词的词性为「动词」的概率非常高。

本篇的CRF还处于统计学习阶段，所以构建的特征也都是手工构建的特征，还是存在一定的局限性。所以后来在深度学习时代，一般会先用LSTM或者BERT这种深度神经网络先进行特征的抽取，再送到CRF进行标签的预测，能有更加显著的效果提升。

参考

Introduction to Conditional Random Fields: https://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/
NLP Guide: Identifying Part of Speech Tags using Conditional Random Fields: https://medium.com/analytics-vidhya/pos-tagging-using-conditional-random-fields-92077e5eaa31
https://github.com/AiswaryaSrinivas/DataScienceWithPython/blob/master/CRF%20POS%20Tagging.ipynb

论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

统计机器学习方法 for NLP：基于HMM的词性标注

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注~

通过SSH隧道与跳板机实现本地端口映射访问服务器文件 t.y.Tang ssh 服务器运维
文章目录场景需求一、服务器端配置1.启动HTTP文件服务2.配置防火墙3.验证服务状态二、SSH隧道建立1.直接连接场景2.通过跳板机连接三、Windows端配置1.使用PowerShell建立隧道2.保持隧道稳定四、浏览器验证五、高阶配置建议1.生产环境增强2.SSH安全加固故障排查指南原理解析场景需求在Windows浏览器访问127.0.0.1:12138自动显示服务器指定路径下的文件列表通过
数字证书与数字签名介绍张紫娃网络编程网络安全服务器
目录数字签名什么时候公钥加密数据，什么时候私钥加密数据？消息认证码（MAC）和数字签名区别数字证书如何使用数字证书验证服务器身份？数字签名定义：它类似于现实生活中的手写签名。手写签名的法律效力1、每个人的笔迹因生理和心理差异而独一无二，难以复制。签名被视为真实性和有效性的直接证明。2、手写签名是法律文件生效的核心要件之一，能证明签署人对文件内容的认可与授权。具有不可否认性。数字签名的过程(1)签名
访问者模式烟沙九洲设计模式访问者模式 java
访问者（Visitor）模式属于行为型模式的一种。访问者模式主要用于分离算法和对象结构，从而在不修改原有对象的情况下扩展新的操作。它适用于数据结构相对稳定，而操作（行为）容易变化的场景。访问者模式允许在不修改现有类的情况下，为类层次结构中的对象定义新的操作。访问者模式通过将操作封装到一个独立的类（即访问者）中，使得对象结构与操作解耦。访问者模式使用了一种名为双分派（在运行时根据两个对象的类型动态选
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
项目解决方案：博物馆视频监控系统建设解决方案威迪斯特解决方案博物馆视频联网资源汇聚监控软件音视频客户端
目录一.相关项目背景1.1技术革新背景1.2技术提升背景1.3发展趋势背景1.4合规性要求背景二.与客户确认的需求2.1实时远程监控与高清识别2.2权限管理灵活且安全2.3多平台访问，随时随地监控2.4视频汇聚，集中管理三.实现特点3.1智能预警，守护安全3.2全面支持，无忧运营3.3成本控制，效益最大化3.4拓展集成，信息联动四.必实现的建设目标4.1安全可靠4.2贴合需要4.3易于拓展4.4性
软考中级软件设计师考点知识点笔记总结 day06 莫问alicia 软考中级软件设计师笔记数据结构算法
文章目录6、树和二叉树6.1、树的基本概念6.2、二叉树的基本概念6.3、二叉树的遍历6.4、查找二叉树（二叉排序树）BST6.5、构造霍夫曼树+6.6、线索二叉树6.7、平衡二叉树7、图7.1、存储结构-邻接矩阵7.2、存储结构-邻接表7.3、图的遍历7.4、拓扑排序7.5、最小生成树普利姆算法7.6、克鲁斯卡尔算法6、树和二叉树6.1、树的基本概念结点的度：一个结点的度是指该结点拥有的子树数量
Bash 脚本基础 HXQ_晴天 linux bash chrome 开发语言
一、Bash脚本基础什么是Bash脚本：Bash脚本是一种文本文件，其中包含了一系列的命令，这些命令可以被Bashshell执行。它用于自动化重复性的任务，提高工作效率。Bash脚本的基本结构：以#!/bin/bash开头，表示使用Bash解释器来执行脚本。接下来是具体的命令和操作。二、编写和运行第一个Bash脚本创建脚本文件：使用命令nanohello.sh创建名为hello.sh的文件。编写脚
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
HTML+CSS案例展示(CSS3D效果旋转相册) hacalili html css 前端 css3
参考来源：黑马程序员pink老师前端入门教程，零基础必看的h5(html5)+css3+移动端前端视频教程_哔哩哔哩_bilibili效果展示：总结：transform：translate(x,y)rotate(180deg)scale()...顺序对最后的效果有影响，需要根据需求安排位移和其他属性的顺序；实现暂停动画效果：animation-play-state:paused;经常和鼠标经过等其
linux脚本怎么访问http,如何使用现有的tcp连接从bash脚本访问http服务器？玲珑阁玉韦 linux脚本怎么访问http
在bashshellscipt中,我使用几个命令行工具(wget,curl,httpie)来测试我的http服务器.当使用例如curl调用GET请求,我看到tcp连接打开到我的服务器并在http通信完成后立即关闭.$curlhttp://10.5.1.1/favicon.ico-o/dev/null为了更好地测试我的服务器的保持活动行为,我想在多个http请求/响应周期中保持tcp连接打开.我可以
ngx_http_conf_port_t 若云止水 http 网络协议网络
定义在src\http\ngx_http_core_module.htypedefstruct{ngx_int_tfamily;in_port_tport;ngx_array_taddrs;/*arrayofngx_http_conf_addr_t*/}ngx_http_conf_port_t;该结构体用于在Nginx配置阶段存储监听端口的配置信息，是listen指令解析后的核心数据结构。它将同一
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
html5 相册翻转效果,HTML5 css3：3D旋转木马效果相册岑依惜 html5 相册翻转效果
这篇博客的目的是因为上篇HTML5CSS3专题诱人的实例CSS3打造百度贴吧的3D翻牌效果中有个关于CSS3D效果的比较重要的知识点没讲到，就是perspective和tranlateY效果图：嘿嘿，我把大学毕业时的一些照片，做成旋转木马，绕着我大文理旋转，不忘母校的培育之恩~1、perspectiveperspective属性包括两个属性：none和具有单位的长度值。其中perspective属
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
HTML5+CSS实现图片3D旋转效果，附音乐宁醉小白 html5 前端 html
利用程序呈现图片，可以俘获一众女生的心，增加音乐可以实现图片变化的同时也带上了想要得到效果，如此一程序实乃众人之喜。先看看程序呈现的效果，还是特别吸引人的。先在网上爬取想要呈现的美女照片，存放在文件夹img-one，与程序路径一致。图片像素需进行调整，同一面图片可以使用同一个图片，保持图片像素一致的同时也增加了立体感。第二张02.jpg和2.jpg可以倒着放，这样在程序实现的时候，可以和其他方向的
炫酷的HTML5粒子动画特效实现详解木木黄木木 html5 前端 html
炫酷的HTML5粒子动画特效实现详解这里写目录标题炫酷的HTML5粒子动画特效实现详解项目介绍技术栈项目架构1.HTML结构2.样式设计核心实现1.粒子类设计2.动画效果实现星空效果烟花效果雨滴效果3.鼠标交互性能优化效果展示总结项目介绍本文将详细介绍如何使用HTML5Canvas技术实现一个炫酷的粒子动画特效系统。该系统包含三种不同的动画效果：星空、烟花和雨滴，并支持鼠标交互功能，能够为网页增添
Matlab绘制台风路径--数据来源：中国气象局热带气旋资料中心 e决 matlab
%读取台风数据fid=fopen('CH2009BST.txt','r');data=textscan(fid,'%s','Delimiter','\n');fclose(fid);data=data{1};%提取台风Morakot数据typhoon_data=[];is_dora=false;fori=1:length(data)line=data{i};%检查是否是Morakot台风的起始行i
SQL自学：怎么创建视图 m0_74823471 面试学习路线阿里巴巴 sql 数据库
在SQL中，视图是一种虚拟表，它是基于一个或多个表的查询结果集。视图并不实际存储数据，而是在每次查询时动态生成结果。一、创建视图的语法（以MySQL为例）CREATEVIEWview_nameASSELECTcolumn1,column2,...FROMtable_nameWHEREcondition;view_name：是要创建的视图的名称。column1,column2,...：要在视图中显示
代码随想录day7-链表俩数相加凌凡天链表数据结构 java 算法 leetcode
给你两个非空的链表，表示两个非负的整数。它们每位数字都是按照逆序的方式存储的，并且每个节点只能存储一位数字。请你将两个数相加，并以相同形式返回一个表示和的链表。你可以假设除了数字0之外，这两个数都不会以0开头。示例1：输入：l1=[2,4,3],l2=[5,6,4]输出：[7,0,8]解释：342+465=807.示例2：输入：l1=[0],l2=[0]输出：[0]示例3：输入：l1=[9,9,9
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
PTA:数组区间差集A-B 悦悦子a啊 C语言PTA习题算法数据结构
输入一个整数数组（题目保证数组中的整数不重复），然后输入两个闭区间，区间A[L1,R1]和区间B[L2,R2]，L1,R1代表区间A的左/右边界的数组下标；L2,R2代表区间B的左/右边界的数组下标（下标从0开始，且题目保证下标均在有效范围内不会越界）。输出由这两个区间形成的差集（A-B）的数值。输入格式:一个整数n（n不大于20），然后输入n个整数。最后输入4个整数，分别代表区间A和区间B的左边
环境配置（1）：笔记本window、虚拟机ubuntu、开发板三者互ping通信，并且虚拟机ubuntu和开发板能上网 lishing6 ubuntu linux mcu 嵌入式硬件 arm开发物联网硬件工程
1.配置网络我们配置网络是为了方便后续调试开发板系统或者应用程序时，能够使用tftp协议nfs协议等拷贝文件，以及设置文件系统启动方式为nfs挂载启动。2.设置Ubuntu使用NAT网络NAT是什么意思？NetworkAddressTranslation，网络地址转换。举个例子，在NAT里，Windows就是一个爱护孩子的父亲，Ubuntu就是受保护的小孩。小孩要买东西，都由他父亲代劳，别人根本不
systemd-networkd 的 *.network 配置文件详解笔记250323 kfepiza 网络通讯传输协议物联 #控制台命令行 Shell脚本 sh cmd 等 #Linux CentOS Ubuntu 等笔记 tcp/ip 网络 linux
systemd-networkd的*.network配置文件详解笔记250323查看官方文档可以用mansystemd.network命令,或访问:https://www.freedesktop.org/software/systemd/man/latest/systemd.network.html名称systemd.network—网络配置概要network.network描述一个纯INI风格的
systemctl restart 和 systemctl reload 和 systemctl daemon-reload 对比笔记250322 kfepiza #Linux CentOS Ubuntu 等 #控制台命令行 Shell脚本 sh cmd 等笔记 bash
systemctlrestart和systemctlreload和systemctldaemon-reload对比以下是systemctlrestart、systemctlreload和systemctldaemon-reload的对比总结：命令作用对象行为适用场景对服务的影响systemctlrestart服务名具体服务强制停止服务，再重新启动。配置或代码有重大变更，或服务出现异常需完全重启。服
systemd-networkd 的 /etc/systemd/network/*.network 的配置属性名称是不是严格区分大小写?是 kfepiza #Linux CentOS Ubuntu 等网络通讯传输协议物联网络运维 tcp/ip linux
systemd-networkd的/etc/systemd/network/*.network的配置属性名称是不是严格区分大小写?是查看官方文档可以用mansystemd.network命令,或访问:https://www.freedesktop.org/software/systemd/man/latest/systemd.network.html亲测在Debian10.12-standard中
systemd-networkd NetworkManager 介绍追心嵌入式 linux
systemd-networkd和NetworkManager的详细介绍systemd-networkd和NetworkManager都是Linux系统中常用的网络管理工具，但它们的设计目标和使用场景不同。以下是它们的详细介绍、功能、使用场景和差异。1.systemd-networkdsystemd-networkd是一个由systemd提供的网络管理工具，旨在为Linux系统提供网络配置和管理的
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str