山阴少年

NLP入门（九）词义消岐（WSD）的简介与实现

词义消岐简介

词义消岐，英文名称为Word Sense Disambiguation，英语缩写为WSD，是自然语言处理（NLP）中一个非常有趣的基本任务。
那么，什么是词义消岐呢？通常，在我们的自然语言中，不管是英语，还是中文，都有多义词存在。这些多义词的存在，会让人对句子的意思产生混淆，但人通过学习又是可以正确地区分出来的。
以“小米”这个词为例，如果仅仅只是说“小米”这个词语，你并不知道它实际指的到底是小米科技公司还是谷物。但当我们把词语置于某个特定的语境中，我们能很好地区分出这个词语的意思。比如，

雷军是小米的创始人。

在这个句子中，我们知道这个“小米”指的是小米科技公司。比如

我今天早上喝了一碗小米粥。

在这个句子中，“小米”指的是谷物、农作物。
所谓词义消岐，指的是在特定的语境中，识别出某个歧义词的正确含义。
那么，词义消岐有什么作用呢？词义消岐可以很好地服务于语言翻译和智能问答领域，当然，还有许多应用有待开发～

词义消岐实现

在目前的词义消岐算法中，有不少原创算法，有些实现起来比较简单，有些想法较为复杂，但实现的效果普遍都不是很好。比较经典的词义消岐的算法为Lesk算法，该算法的想法很简单，通过对某个歧义词构建不同含义的语料及待判别句子中该词语与语料的重合程度来实现，具体的算法原理可参考网址：https://en.wikipedia.org/wiki/Lesk_algorithm .
在下面的部分中，笔者将会介绍自己想的一种实现词义消岐的算法，仅仅是一个想法，仅供参考。
我们以词语“火箭”为例，选取其中的两个义项（同一个词语的不同含义）：NBA球队名和燃气推进装置，如下：

获取语料

首先，我们利用爬虫爬取这两个义项的百度百科网页，以句子为单位，只要句子中出现该词语，则把这句话加入到这个义项的预料中。爬虫的完整Python代码如下：

import requests
from bs4 import BeautifulSoup
from pyltp import SentenceSplitter

class WebScrape(object):
    def __init__(self, word, url):
        self.url = url
        self.word = word

    # 爬取百度百科页面
    def web_parse(self):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 \
                                             (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
        req = requests.get(url=self.url, headers=headers)

        # 解析网页，定位到main-content部分
        if req.status_code == 200:
            soup = BeautifulSoup(req.text.encode(req.encoding), 'lxml')
            return soup
        return None

    # 获取该词语的义项
    def get_gloss(self):
        soup = self.web_parse()
        if soup:
            lis = soup.find('ul', class_="polysemantList-wrapper cmn-clearfix")
            if lis:
                for li in lis('li'):
                    if '

 
 利用这个爬虫，我们爬取了“火箭”这个词语的两个义项的语料，生成了火箭_燃气推进装置.txt文件和火箭_NBA球队名.txt文件，这两个文件分别含有361和171个句子。以火箭_燃气推进装置.txt文件为例，前10个句子如下： 
  
  火箭技术的飞速发展，不仅可提供更加完善的各类导弹和推动相关科学的发展，还将使开发空间资源、建立空间产业、空间基地及星际航行等成为可能。
 火箭技术是一项十分复杂的综合性技术，主要包括火箭推进技术、总体设计技术、火箭结构技术、控制和制导技术、计划管理技术、可靠性和质量控制技术、试验技术，对导弹来说还有弹头制导和控制、
 1903年，俄国的К.E.齐奥尔科夫斯基提出了制造大型液体火箭的设想和设计原理。
 火箭有很多种，原始的火箭是用引火物附在弓箭头上，然后射到敌人身上引起焚烧的一种箭矢。
 “长征三号丙”火箭是在 “长征三号乙”火箭的基础上， 减少了两个助推器并取消了助推器上的尾翼。
 火箭与导弹有什么区别
 为了能够在未来大规模的将人类送入太空，不可能依赖传统的火箭和飞船。
 火箭V2火箭
 探测高层大气的物理特征（如气压、温度、湿度等）和现象的探空火箭。
 可一次发射一发至数十发火箭弹。 
  
 实现算法 
   我们以句子为单位进行词义消岐，即输入一句话，识别出该句子中某个歧义词的含义。笔者使用的算法比较简单，是以TF-IDF为权重的频数判别。以句子 
  
  赛季初的时候，火箭是众望所归的西部决赛球队。 
  
 为例，对该句子分词后，去掉停用词（stopwords），然后分别统计除了“火箭”这个词以外的TF-IDF值，累加起来,比较在两个义项下这个值的大小即可。
   实现这个算法的完整Python代码如下： 
 import os
import jieba
from math import log2

# 读取每个义项的语料
def read_file(path):
    with open(path, 'r', encoding='utf-8') as f:
        lines = [_.strip() for _ in f.readlines()]
        return lines

# 对示例句子分词
sent = '赛季初的时候，火箭是众望所归的西部决赛球队。'
wsd_word = '火箭'

jieba.add_word(wsd_word)
sent_words = list(jieba.cut(sent, cut_all=False))

# 去掉停用词
stopwords = [wsd_word, '我', '你', '它', '他', '她', '了', '是', '的', '啊', '谁', '什么','都',\
             '很', '个', '之', '人', '在', '上', '下', '左', '右', '。', '，', '！', '？']

sent_cut = []
for word in sent_words:
    if word not in stopwords:
        sent_cut.append(word)

print(sent_cut)


# 计算其他词的TF-IDF以及频数
wsd_dict = {}
for file in os.listdir('.'):
    if wsd_word in file:
        wsd_dict[file.replace('.txt', '')] = read_file(file)

# 统计每个词语在语料中出现的次数
tf_dict = {}
for meaning, sents in wsd_dict.items():
    tf_dict[meaning] = []
    for word in sent_cut:
        word_count = 0
        for sent in sents:
            example = list(jieba.cut(sent, cut_all=False))
            word_count += example.count(word)

        if word_count:
            tf_dict[meaning].append((word, word_count))

idf_dict = {}
for word in sent_cut:
    document_count = 0
    for meaning, sents in wsd_dict.items():
        for sent in sents:
            if word in sent:
                document_count += 1

    idf_dict[word] = document_count

# 输出值
total_document = 0
for meaning, sents in wsd_dict.items():
    total_document += len(sents)

# 计算tf_idf值
mean_tf_idf = []
for k, v in tf_dict.items():
    print(k+':')
    tf_idf_sum = 0
    for item in v:
        word = item[0]
        tf = item[1]
        tf_idf = item[1]*log2(total_document/(1+idf_dict[word]))
        tf_idf_sum += tf_idf
        print('%s, 频数为: %s, TF-IDF值为: %s'% (word, tf, tf_idf))

    mean_tf_idf.append((k, tf_idf_sum))

sort_array = sorted(mean_tf_idf, key=lambda x:x[1], reverse=True)
true_meaning = sort_array[0][0].split('_')[1]
print('\n经过词义消岐，%s在该句子中的意思为 %s .' % (wsd_word, true_meaning)) 
 输出结果如下： 
 ['赛季', '初', '时候', '众望所归', '西部', '决赛', '球队']
火箭_燃气推进装置:
初, 频数为: 2, TF-IDF值为: 12.49585502688717
火箭_NBA球队名:
赛季, 频数为: 63, TF-IDF值为: 204.6194333469459
初, 频数为: 1, TF-IDF值为: 6.247927513443585
时候, 频数为: 1, TF-IDF值为: 8.055282435501189
西部, 频数为: 16, TF-IDF值为: 80.88451896801904
决赛, 频数为: 7, TF-IDF值为: 33.13348038429679
球队, 频数为: 40, TF-IDF值为: 158.712783770034

经过词义消岐，火箭在该句子中的意思为 NBA球队名 . 
 测试 
   接着，我们对上面的算法和程序进行更多的测试。 
 输入句子为: 
  
  三十多年前，战士们在戈壁滩白手起家，建起了我国的火箭发射基地。 
  
 输出结果为: 
 ['三十多年', '前', '战士', '们', '戈壁滩', '白手起家', '建起', '我国', '发射', '基地']
火箭_燃气推进装置:
前, 频数为: 2, TF-IDF值为: 9.063440958888354
们, 频数为: 1, TF-IDF值为: 6.05528243550119
我国, 频数为: 3, TF-IDF值为: 22.410959804340102
发射, 频数为: 89, TF-IDF值为: 253.27878721862933
基地, 频数为: 7, TF-IDF值为: 42.38697704850833
火箭_NBA球队名:
前, 频数为: 3, TF-IDF值为: 13.59516143833253
们, 频数为: 1, TF-IDF值为: 6.05528243550119

经过词义消岐，火箭在该句子中的意思为 燃气推进装置 . 
 输入句子为： 
  
  对于马刺这样级别的球队，常规赛只有屈指可数的几次交锋具有真正的意义，今天对火箭一役是其中之一。 
  
 输出结果为： 
 ['对于', '马刺', '这样', '级别', '球队', '常规赛', '只有', '屈指可数', '几次', '交锋', '具有', '真正', '意义', '今天', '对', '一役', '其中', '之一']
火箭_燃气推进装置:
只有, 频数为: 1, TF-IDF值为: 7.470319934780034
具有, 频数为: 5, TF-IDF值为: 32.35159967390017
真正, 频数为: 2, TF-IDF值为: 14.940639869560068
意义, 频数为: 1, TF-IDF值为: 8.055282435501189
对, 频数为: 5, TF-IDF值为: 24.03677461028802
其中, 频数为: 3, TF-IDF值为: 21.16584730650357
之一, 频数为: 2, TF-IDF值为: 14.11056487100238
火箭_NBA球队名:
马刺, 频数为: 1, TF-IDF值为: 7.470319934780034
球队, 频数为: 40, TF-IDF值为: 158.712783770034
常规赛, 频数为: 14, TF-IDF值为: 73.4709851882102
只有, 频数为: 1, TF-IDF值为: 7.470319934780034
对, 频数为: 10, TF-IDF值为: 48.07354922057604
之一, 频数为: 1, TF-IDF值为: 7.05528243550119

经过词义消岐，火箭在该句子中的意思为 NBA球队名 . 
 输入句子为： 
  
  姚明是火箭队的主要得分手之一。 
  
 输出结果为： 
 ['姚明', '火箭队', '主要', '得分手', '之一']
火箭_燃气推进装置:
主要, 频数为: 9, TF-IDF值为: 51.60018906552445
之一, 频数为: 2, TF-IDF值为: 14.11056487100238
火箭_NBA球队名:
姚明, 频数为: 18, TF-IDF值为: 90.99508383902142
火箭队, 频数为: 133, TF-IDF值为: 284.1437533641371
之一, 频数为: 1, TF-IDF值为: 7.05528243550119

经过词义消岐，火箭在该句子中的意思为 NBA球队名 . 
 输入的句子为: 
  
  从1992年开始研制的长征二号F型火箭，是中国航天史上技术最复杂、可靠性和安全性指标最高的运载火箭。 
  
 输出结果为： 
 ['从', '1992', '年', '开始', '研制', '长征二号', 'F', '型', '中国', '航天史', '技术', '最', '复杂', '、', '可靠性', '和', '安全性', '指标', '最高', '运载火箭']
火箭_燃气推进装置:
从, 频数为: 6, TF-IDF值为: 29.312144604353264
1992, 频数为: 1, TF-IDF值为: 6.733354340613827
年, 频数为: 43, TF-IDF值为: 107.52982410441274
开始, 频数为: 5, TF-IDF值为: 30.27641217750595
研制, 频数为: 25, TF-IDF值为: 110.28565614316162
长征二号, 频数为: 37, TF-IDF值为: 159.11461253349566
F, 频数为: 7, TF-IDF值为: 40.13348038429679
中国, 频数为: 45, TF-IDF值为: 153.51418105769093
技术, 频数为: 27, TF-IDF值为: 119.10850863461454
最, 频数为: 2, TF-IDF值为: 7.614709844115208
、, 频数为: 117, TF-IDF值为: 335.25857156467714
可靠性, 频数为: 5, TF-IDF值为: 30.27641217750595
和, 频数为: 76, TF-IDF值为: 191.22539545388003
安全性, 频数为: 2, TF-IDF值为: 14.940639869560068
运载火箭, 频数为: 95, TF-IDF值为: 256.28439093389505
火箭_NBA球队名:
从, 频数为: 5, TF-IDF值为: 24.42678717029439
1992, 频数为: 2, TF-IDF值为: 13.466708681227654
年, 频数为: 52, TF-IDF值为: 130.0360663588247
开始, 频数为: 2, TF-IDF值为: 12.11056487100238
中国, 频数为: 4, TF-IDF值为: 13.64570498290586
最, 频数为: 3, TF-IDF值为: 11.422064766172813
、, 频数为: 16, TF-IDF值为: 45.847326025938756
和, 频数为: 31, TF-IDF值为: 77.99983235618791
最高, 频数为: 8, TF-IDF值为: 59.76255947824027

经过词义消岐，火箭在该句子中的意思为 燃气推进装置 . 
 输入句子为： 
  
  到目前为止火箭已经在休斯顿进行了电视宣传，并在大街小巷竖起广告栏。 
  
 输出结果为： 
 ['到', '目前为止', '已经', '休斯顿', '进行', '电视', '宣传', '并', '大街小巷', '竖起', '广告栏']
火箭_燃气推进装置:
到, 频数为: 11, TF-IDF值为: 39.19772273088667
已经, 频数为: 2, TF-IDF值为: 13.466708681227654
进行, 频数为: 14, TF-IDF值为: 68.39500407682429
并, 频数为: 11, TF-IDF值为: 49.17351928258037
火箭_NBA球队名:
到, 频数为: 6, TF-IDF值为: 21.38057603502909
已经, 频数为: 2, TF-IDF值为: 13.466708681227654
休斯顿, 频数为: 2, TF-IDF值为: 14.940639869560068
进行, 频数为: 2, TF-IDF值为: 9.770714868117755
并, 频数为: 5, TF-IDF值为: 22.351599673900168

经过词义消岐，火箭在该句子中的意思为 燃气推进装置 . 
 总结 
   对于笔者的这个算法，虽然有一定的效果，但是也不总是识别正确。比如，对于最后一个测试的句子，识别的结果就是错误的，其实“休斯顿”才是识别该词语义项的关键词，但很遗憾，在笔者的算法中，“休斯顿”的权重并不高。
   对于词义消岐算法，如果还是笔者的这个思路，那么有以下几方面需要改进： 
  
  语料大小及丰富程度； 
  停用词的扩充； 
  更好的算法。 
  
   笔者的这篇文章仅作为词义消岐的简介以及简单实现，希望能对读者有所启发～ 
 注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape）， 欢迎大家关注哦~~

【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
drawRect 触发时机
在iOS开发中，**UIView**的**drawRect:**方法（或其底层**CALayer**的绘制）的触发时机是由系统控制的，开发者不能直接调用这些方法。以下是触发视图绘制的完整机制：一、核心触发时机1.视图首次显示当视图被添加到视图层级时：[self.viewaddSubview:customView];//触发首次绘制2.显式标记需要重绘调用以下方法强制重绘：//标记整个视图需要重绘[
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
内核必须懂(七): Linux四级页表(x64) weixin_34310127 操作系统
目录前言Intel四级页表实操寻址获取cr3获取PGD获取PUD获取PMD获取PTE获取内容最后前言Linux四级页表的作用主要就是地址映射,将逻辑地址映射到物理地址.很多时候,有些地方想不明白就可以查看实际物理地址进行分析.Intel四级页表其实很多设计的根源或者说原因都来自于CPU的设计,OS很多时候都是辅助CPU.Linux的四级页表就是依据CPU的四级页表来设计的.这里主要说的就是Inte
GNhao，美国手机卡办理攻略轻松解决通讯！
GNhao，美国手机卡办理攻略轻松解决通讯！无论是留学、工作还是旅游，选择合适的GNhao，美国手机卡办理服务，能保证通信畅通无阻。GNhao，美国手机卡办理不仅方便快捷，还能节省大量国际漫游费用，是提升美国行体验的关键。GNhao，美国手机卡办理的优势解析GNhao，美国手机卡办理流程简单，申请便捷，适合各种用户需求。其次，办理资费合理，提供多种套餐选择，满足不同通信需求。此外，GNhao，美国
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解小李也疯狂 #Unity ShaderGraph Rectangle
目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板，支持动态调整大小和圆角（配合其他节点）5.2材质纹理（网格/条纹）场景：为材质添加矩形网格或条纹纹理（如布料格子、屏幕像素感）5.3粒子形状（矩形粒子/条纹）场景：控制粒子的形状为矩形
ShaderGraph节点解析(124):绕轴旋转节点（Rotate About Axis Node）详解小李也疯狂 #unity ShaderGraph Unity
目录一、节点功能概述二、端口详解控制选项三、技术原理解析3.1数学基础：罗德里格斯旋转公式3.2旋转矩阵构造3.3生成代码解析1.弧度模式（Radians）2.度模式（Degrees）3.4旋转方向：右手定则四、应用场景与实战案例4.1角色骨骼旋转（动画驱动）场景：实现角色手臂绕肱骨（上臂骨）旋转，模拟弯曲动作4.2相机环绕效果（第三人称视角）场景：让相机绕目标物体（如角色）的Y轴旋转，实现环绕观
Unity 内置着色器的使用与性能优化【Usage and Performance of Built-in Shaders】小李也疯狂 #Shader：Built-in shaders unity 着色器性能优化 shader
Unity中的着色器通过材质（Material）应用，材质将着色器代码与纹理、颜色等参数结合。理解着色器与材质的关系及性能影响因素，对优化项目渲染效率至关重要。以下是内置着色器的使用指南与性能分析：一、着色器与材质的关系核心概念着色器（Shader）：定义渲染逻辑（如光照计算、纹理混合），决定材质的属性和外观。材质（Material）：着色器的实例，存储具体参数（如纹理、颜色值），同一着色器可创建
北上广深编程语言生态与薪资全景分析（2024-2025）小李也疯狂其他 python 开发语言
目录前言一、用户数量与地域分布1.1开发者基数与城市能级1.2编程语言流行度对比二、薪资水平与行业关联2.1城市薪资梯度2.2语言薪资排名2.3行业薪资溢价三、技术趋势与影响因素3.1行业需求驱动3.2新兴技术冲击3.3政策与人才流动四、职业发展指导意见4.1开发者能力图谱4.2地域选择策略4.3企业技术选型建议结语前言在数字经济时代，编程语言的选择不仅决定技术路径，更直接影响职业发展。作为中国科
RTX 30、40、50 系列显卡全面对比：谁才是你的最佳选择？小李也疯狂其他人工智能显卡
目录前言一、架构设计：不断进化的核心驱动力1.1RTX30系列（Ampere架构）1.2RTX40系列（AdaLovelace架构）1.3RTX50系列（Blackwell架构，假设信息，实际可能不同）二、性能表现：数字背后的实力较量2.1游戏性能1080P分辨率2K分辨率4K分辨率2.2创作性能视频编辑3D建模与渲染三、功能特性：前沿科技的魅力呈现3.1DLSS技术对比3.2光线追踪性能3.3编
error -- unsupported GNU version gcc later than 10 are not supported；（gcc、g++）众人（某音、某书同名）服务器 linux 运维
服务器跑dit时编译flash-atten以及pytorch的cuda版本检查出错，分别报错题目以及如下：想了下是系统找不到编译器subprocess.CalledProcessError:Command'['which','c++']'returnednon-zeroexitstatus1.备案，以后有人要用12我还得换回来方案一：更改gcc和gcc+的版本没有合适的版本的话需要root权限指定
【华为od刷题（C++）】HJ33 整数与IP地址间的转换 m0_64866459 华为od c++链表
我的代码：#include//这个头文件提供了输入输出流的功能，使得我们能够使用cin和cout来进行输入输出usingnamespacestd;//可以直接使用标准命名空间std中的功能//比如cout和cin，而不需要每次都写出std::intmain(){longlonginta,b,c,d;//a,b,c,d：这四个变量用来存储IP地址的四个部分//分别代表IP地址中的四个字节longlo
Simscape入门教程微小冷机器人 Matlab simulink simscape 弹簧阻尼 multibody
文章目录物理网络连接到Simulink运行本文是官方教程构造物理模型的基本步骤的学习笔记，旨在建立一个带有控制器的质量-弹簧-阻尼系统。物理网络在命令行中输入sscnew，即可弹出Simscape模板，基于此模板即可组建其相应的物理网络。通过添加新模块、删除无关模块，连接其物理网络如下所有模块均在Simscape->FoundationLibrary->Mechanical中，具体包括需要的模块包
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
自学黑客（网络安全），一般人我劝你还是算了吧网络安全工程师教学兼职副业网络安全黑客技术 web安全安全网络人工智能学习
我是一名8年半的网安工程师“老司机”，要给准备入坑的同学泼盆冷水了，网络安全真的不是一般人能学的。有人会问“你一个8年的网安老司机，为什么还给大家泼冷水”？好多人说：网安基础很简单，是个人稍微认真点都能懂，给网安打上了简单、易懂的标签。然后上来就是一波言论浮夸的输出，把一些很基础很浅显的技术点拆解出来，让小白快速上手，误导新手，让他们以为网络安全就这么回事儿，可一到真正实操，哦豁，啥也不会。这导致
UIView和CALayer是啥关系有没有人告诉你
1.首先UIView可以响应事件，Layer不可以.UIKit使用UIResponder作为响应对象，来响应系统传递过来的事件并进行处理。在UIResponder中定义了处理各种事件和事件传递的接口。UIApplication、UIViewController、UIView、和所有从UIView派生出来的UIKit类（包括UIWindow）都直接或间接地继承自UIResponder类。CALaye
Esim：简化业务复杂度的Golang业务框架周琰策Scott
Esim：简化业务复杂度的Golang业务框架esim微服务应用框架项目地址:https://gitcode.com/gh_mirrors/esi/esim项目介绍Esim是一款专注于解决业务复杂度、测试、代码组织和扩展等问题的Golang业务框架。它不提供微服务整套技术体系，如服务治理、服务注册、服务发现等，而是将这些交给了ServiceMesh。Esim默认集成了gin和grpc两个技术框架，
Linux内存管理和寻址详解 *烟雨 linux 驱动开发网络
1.概念内存管理模式段式：内存分为了多段，每段都是连续的内存，不同的段对应不用的用途。每个段的大小都不是统一的，会导致内存碎片和内存交换效率低的问题。页式：内存划分为多个内存页进行管理，如在Linux系统中，每一页的大小为4KB。由于分了页后，就不会产生细小的内存碎片。但是仍然也存在内存碎片问题。段页式：段式和页式结合。地址类型划分逻辑地址：程序所使用的地址，通常是没被段式内存管理映射的地址，称为
动态链接库：技术赋能，打通“最后一公里”的商业模式超级晒盐人经验分享学习方法人工智能教育电商程序员创富
序言-飞跃大山的故事阿登是一位热爱骑行的冒险者，他计划骑行穿越一片壮丽的山脉，去探索那片未知的风景。然而，当他查看路线图时，他发现其中有一座几乎不可能翻越的高峰。这座山峰不仅陡峭无比，还充满了危险的地形，即使是经验最丰富的骑行者也望而却步。阿登知道，仅凭自己的力量，很难完成这次骑行计划。于是，他开始寻找解决方案。在一次偶然的机会中，他听说了一位名叫阿飞的飞行员，他提供一种独特的服务——用直升机帮助
徐家骏:我在华为工作十年的感悟（转）
徐是华为数据中心的头,技术超级牛人,一级部门总监,华为副总裁,年收入过千万,数据中心是用火山岩建的深入地下的一个大型建筑.防辐射,可防卫星的电子,雷达等手段的侦察.里面有象卫星发射中心那种超大屏幕,机房里满是三米的大型服务器和大型计算机.连接整个华为全球的每一台终端,整个华为每天三十多万封邮件,海外和全球的同步研发,内部的信息管理,内部流程,华为的国内国际IP电话都是通过出去.上周,我正式提交了离
告别合规“人海战术”，奇富科技Lumo AI合规助手让效率狂飙20倍！ CSDN资讯人工智能科技 Lumo AI
6月20日，国家金融监督管理总局发布《商业银行市场风险管理办法》，银行业随即掀起了一场监管解读与内部宣导的热潮，对照新规，企业内部逐一梳理，再逐一落实。面对不断更新的政策要求和堆积如山的协议审查，传统人工筛查方式显得力不从心，效率低下且漏洞百出，企业合规人力匮乏，全流程合规SOP执行难、合规自查覆盖率低、员工与客户异常行为发现滞后等问题如同高悬的“达摩克利斯之剑”，让机构们喘不过气来。奇富科技精准
从小白到进阶：解锁linux与c语言高级编程知识点嵌入式开发的任督二脉（1） small_wh1te_coder 嵌入式 linux c 嵌入式硬件算法 c 汇编面试 linux
【硬核揭秘】Linux与C高级编程：从入门到精通，你的全栈之路！第一部分：初识Linux与环境搭建，玩转软件包管理——嵌入式开发的第一道“坎”嘿，各位C语言的“卷王”们！你可能已经习惯了在Windows或macOS上敲代码，用IDE点点鼠标就能编译运行。但当你踏入嵌入式开发的大门，尤其是涉及到那些跑着Linux系统的“大家伙”（比如树莓派、工控机、智能路由器），你就会发现，一个全新的世界在你面前展
数据结构--单链表
数据结构基础（3）文章目录数据结构基础（3）单链表的定义：不带头结点的单链表：带头结点的单链表：单链表的插入操作：按位序插入（带头结点）：按位序插入（不带头结点）：指定结点的后插操作：指定结点的前插操作：按位序删除（带头结点）：按位查找：按值查找：求表的长度：单链表的建立--尾插法单链表的建立--头插法单链表的定义：带头结点不带头结点顺序表：优点：可随机存取，存储密度高缺点：要求大片连续空间，改变
Linux报错解决——导入了gcc版本，但是还是显示原来的gcc版本的解决办法 William.csj 报错解决 Ubuntu linux 运维服务器
一、问题描述我想要切换gcc版本，于是我用sudo安装了gcc-11，接着我在终端运行了：exportCC=/usr/bin/gcc-11exportCXX=/usr/bin/g++-11运行gcc--version还是显示：gcc(Ubuntu13.3.0-6ubuntu2~24.04)13.3.0二、原因分析即使你exportCC=/usr/bin/gcc-11，但gcc--version还是
模块化汽车基础设施的正面交锋---区域架构与域架构汽车电子实验室车载电子与软件框架汽车架构 OEM怎么掌握软件开发能力 ZEVonUDS-J1979 车载通信网络槪述 HPC软件架构
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
LRU Cache Mr_Xuhhh c++c语言算法开发语言 python
LRUCache定义缓存算法（LeastRecentlyUsed)核心思想最近最少使用或最久未使用。当缓存空间不足时，它会优先淘汰最长时间没有访问的数据项类比：图书馆的书架管理，经常被借阅的书放在最前面方便取用，而长期无人问津的书会被移到后面或下架数据结构选择与设计1）双向链表1.用于维护元素的访问顺序，最近访问的元素放在链表头部，最久未被访问的放在尾部2.支持O（1）时间复杂度的任意位置插入和删
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

NLP入门（九）词义消岐（WSD）的简介与实现

词义消岐简介

词义消岐实现

获取语料

实现算法

测试

总结

你可能感兴趣的:(NLP入门（九）词义消岐（WSD）的简介与实现)