我的脚步声

基于投影学习的负采样改进型上位词关系提取（翻译学习使用）

原标题：Negative Sampling Improves Hypernymy ExtractionBased on Projection Learning

原作者们（感谢国际友人）：Dmitry Ustalov†, Nikolay Arefyev§, Chris Biemann‡, and Alexander Panchenko

致谢！

源论文下载查看

以下翻译依据google翻译，百度翻译，bing 翻译以及鄙人仅有的四级水平综合而成，不通顺之处，建议看会小电影就好了。

附件：Ruiji Fu（付瑞吉）baseline 模型的论文

本论文的github 代码托管：github代码

建议：看完baseline 模型论文，再看本文的优化模型

基于投影学习的负采样改进型上位词关系提取

摘要：我们提出了一种新的提取方法。基于单词嵌入和投影技术的上位学习单词提取算法。相反以分类为基础的方法，基于投影的方法不需要上下位关系候选项（根据词向量计算出来）。而很自然地使用正面和负面的监督关系抽取样本，对上位词预测中负样本的影响至今没有研究。在本文中，相比较于现今最好的模型效果（傅等人（2014）关于三种不同语言的数据集实验）我们确实证明了负样本用于正则化的模型性能显著提高。

1，引言

上位词在很多自然语言处理任务中很有用，从分类的构建到查询扩展和问题回答。自动从文本中提取上位词已经成为人工构建高质量资源的一个活跃的研究领域，因为WordNet不适用于许多域-语言对。hypernymy（上位词，下同）模式提取方法的缺点是它们的稀疏性。依赖于词对分类嵌入方法的目的是解决这个缺点, 但他们需要候选上位对。我们探索一种不需要候选对的 hypernymy 提取方法。相反, 该方法在词嵌入的基础上执行上下位词的预测。

本文的贡献是一种新的方法基于投影的 hypernymy 提取学习.即我们提出了一个改进al. (2014) 提出的模型的版本,使用正反两面训练实例强制执行不对称投影.所提出的模型是通用的,可以直接用于其他关系正向和负两种提取任务。最后, 我们是首先成功应用投影学习在形态丰富的 hypernymy 提取语言.我们的具体实验做法和预先训练好的模型可在网上获得.

2，相关工作

hypernymy 提取的路径方法依靠上下位的句子发生在特殊的上下文, 例如,"奔驰和奥迪等汽车"赫斯特 (1992)建议使用手工制作的词法-句法模式从这种环境中提取上位。雪等 al. (2004) 介绍了一种学习方法基于自动模式上下位对。进一步例子路径方法包括 (Tjong 金桑和霍夫曼, 2009) 和 (纳维格利和 Velardi,2010). 路径的内在局限性导致稀疏问题的方法是义和上位必须发生在同一句话。

基于分布向量的方法, 如使用 word2vec 工具箱 (Mikolov et al., 2013b) 生成的算法, 目的是克服这一稀疏问题, 因为它们不需要在一个句子中同时出现上下位词。这种方法以单个词的表示作为输入来预测它们之间的关系。

到目前为止, 依赖于词向量表示的两个方法应运而生。

基于词对分类的方法采用有序对字嵌入 (候选义-上位对) 作为输入, 输出二进制标签, 表示单词之间存在 hypernymy 关系。通常, 二进制分类器在输入词嵌入向量的串联或减法上进行训练。这些方法的进一步例子包括 (Vylomova et al., 2016)。

HypeNET (Shwartz et al., 2016) 是一种混合方法, 也是基于分类器, 但除了两个字嵌入到第三矢量使用。它表示使用 LSTM 模型 (Hochreiter 和 Schmidhuber, 1997) 编码的路径语法信息。它们的结果显著优于以前基于路径的方法。

分类方法的固有局限性是它们需要候选词对的列表。这些都是在评估数据集中给出的,如BLESS数据集, 一个全语料库的关系分类将需要分类所有可能的单词对, 这是计算昂贵的大词汇量。此外, 利维等 al. (2015) 发现了这种方法的词汇记忆倾向, 阻碍了模型的泛化。

基于投影学习的方法: 以一个本位词向量作为输入, 在上位词向量的拓扑附近输出一个词向量。将其扩展到词汇表中, 每个单词只有一个这样的投影。Mikolov et al. (2013a) 用于双语词汇翻译的投影学习。Vulic 和 Korhonen (2016) 前´ sented 系统地研究了四类学习双语嵌入的方法, 包括基于投影学习的语言。

傅 et al. (2014) 首次应用投影学习上位提取。他们的方法是学习一个本位词的仿射向量转换成一个上位的词向量。采用随机梯度下降的方法对模型进行训练。利用 k-均值聚类算法将训练关系划分为若干组。一个变革为每个小组学会, 可能解释关系的投射取决于子空间的可能性。这种最先进的方法是我们实验的基线。纳亚克 (2015) 根据分类-阳离子和投影方法对离散的上位提取物进行了评价 (但在不同的数据集上, 因此这些方法不能直接比较)。本实验提出的最佳基于体系结构是 fourlayered 前馈神经网络。没有使用关系聚类。作者在模型中采用了负样本, 在损失函数中加入了正则化项。然而, 从词汇表中抽取出的负面例子却阻碍了表现。相比之下, 我们的方法使用手动创建的同义词和下位作为负样得到了显著的改进。

山根等人。（2016）介绍了福氏等人的模型的一些改进。（2014）。他们的模型通过在训练中动态添加新的集群共同学习预测和聚类。它们还通过正则化项在损失函数中自动生成负实例。相反，纳亚克（2015），阴性样品的选择不是随机的，但最近的邻居之间的预测关系。他们的方法比较有利（福等人，2014），但负面样本的贡献没有研究。关键的区别我们的方法从（山根et al.，2016）是（1）使用明确的而不是自动产生的负样本，（2）通过执行重新投影投影矩阵的不对称。而我们的实验则是基于福氏等人的模型。（2014）、我们的正则化可以直截了当地集成到山根等人的模型中。（2016）。

3，通过正规投影学习 Hypernymy 提取

3.1 baseline 方法

在我们的实验中, 我们使用傅 et 的模型al. (2014) 作为基线。在这种方法中,投影矩阵Φ得到类似于线性回归问题, 即对于给定行词向量 x 和 y 相应地代表本位词（下位词）和上位词, 矩阵Φ适合于正样本对 P 的训练集:

公式 |P |是培训实例的数量和 ||xΦ − y||一对行向量 xΦ和 y 之间的距离。在原方法中, 使用 L2 距离。为了提高性能, k 投影矩阵Φ是

学习一个为每个集群的关系在训练集中。一个示例由本位词-上位偏移表示。使用 k-均值算法 (MacQueen, 1967) 进行聚类。

3.2 语言制约

使用分布词向量生成的近邻往往包含同义词、上位、下位词和其他相关词的混合 (Wandmacher, 2005;Heylen et al., 2008;十月, 2011)。为了明确提供与

模型不受欢迎的关系的例子, 我们提出了两个改进的基线模型的版本:

1，不对称正规化, 使用反向关系为负的例子, 和2，邻居正规化使用的关系其他类型作为阴性例子。

为此, 我们在损失函数中添加一个正则化项:

λ是控制正则化项R的重要性的常数。

非对称正则化。作为上位关系是非对称关系，我们的第一种方法强制执行投影矩阵的非对称性。应用对预测相同的转化关系
向量XΦ不应该提供矢量相似（·）的初始义词向量X。注意，正则化只需要正样本P：

邻居正规化。这种方法依赖于负抽样, 通过显式提供义 x 的语义相关单词 z 的例子, 该示例对矩阵进行惩罚, 以生成类似于它们的向量:

请注意, 此 regularizer 需要负样本 N。在我们的实验中, 我们使用下位的同义词作为 N, 但其他类型的关系也可以使用, 如反义词或下位词等。某些单词在

训练集中可能没有同义词。在这种情况下, 我们用 x 代替 z, 优雅地减少到以前的变化。否则, 在每个训练的时代, 我们抽样一个给定的词的随机同义词。

无需重新投影正则化。除了上述的两种正则化，依靠下义词向量投影（xΦΦ）（本人不知道啥是xΦΦ，感觉是上位词聚类的结果），我们还测试了两种正则化重新投影，记为xΦ。在这个变化的邻居化定义如下：

在我们的情况下, 这 regularizer 惩罚的相关性预测的上位 xΦ到同义词 z。无投影的非对称 regularizer 是以类似的方式定义的。

3.3 模型的训练学会被考虑的模型的参量我们使用了Adma方法 (Kingma 和 Ba, 2014) 与使用默认参数meta-parameters 在 TensorFlow 框架上(阿巴迪 et al., 2016). 我们跑了700训练迭代次数，批次大小1024进行模型训练。我们使用正态分布 N (0, 0.1) 初始化每个投影矩阵的元素。

4，实验结果

为了评估模型的质量, 我们采用了 al. (2013) 提出的 hit@l 措施, 该方法最初用于图像标注。对于在测试集 P 中由义 x 和上位 y 组成的每个包容对 (x、y), 我们为投影的上位 xΦ∗计算最近的邻居。如果金上位 y 出现在最近邻 NNl (xΦ∗) 的计算列表中, 则该配对被视为匹配。为了获得质量分数, 我们平均在测试集 P 中的匹配项:

其中 1 (·) 是指示器函数。也考虑正确的答复的等级, 我们计算区域在曲线测量之下作为区域在 L−1梯形之下:

4.2 实验 1: 俄语

数据说明：在这个实验中, 我们使用的词嵌入作为一部分的俄语分布词库 (十月 et al., 2016b) 其训练在129亿块俄国书片段。嵌入词向量训练了使用n-skip模型 (Mikolov et al., 2013b) 与500维度和上下文窗口设置为10词大小。

我们实验中使用的数据集由两个来源组成。我们使用 Wikokit 工具箱 (Krizhanovsky 和斯米尔诺夫, 2013) 从 Wiktionary3 中提取同义词和上位。为了丰富数据集的词法覆盖率, 我们使用 PatternSim 工具箱 (十月 et al., 2012) 从同一个语料库中提取了来自同一语料的额外上位. 4 过滤噪声提取, 我们只使用关系提取超过100次。正如 al. (2015) 所建议的, 我们将训练和测试集分开, 这样每个包含一个不同的词汇, 以避免过拟合。这将导致 25 067 训练、8 192 验证和 8 310 测试示例。验证和测试集包含上位从维基词典, 而培训集是由上位和同义词来自两个来源。

讨论结果。图 1 (左侧) 显示了验证集上三投影学习设置的性能: 基线方法、非对称正则化方法和相邻的正规化方法。两种正则化策略都能在不同簇大小的 non-regularized 基线 (Fu et al., 2014) 上得到一致的改进。该方法达到了 k = 20 簇的最佳性能。表1提供了此设置的性能指标的详细比较。我们的方法基于规范化使用同义词作为负样品胜过基础模型 (所有区别在基线和我们的模型之间是重要的关于 t 测试)。根据所有的指标, 但 hit@1 的结果可与 xΦ, 投影 (xΦΦ) 改善的结果。

4.3 实验 2: 英语

我们对两个数据集进行了评估。评估数据集。在这项评估中, 单词嵌入词向量由维基百科, ukWaC (Ferraresi et al., 2008), Gigaword (格拉夫, 2003), 和新闻语料库从莱比锡集合 (Goldhahn et al., 2012) 组成的63亿token 文本集合。我们使用的 skipgram 模型的上下文窗口大小为8令牌和300维向量。

我们使用EVALution数据集 (Santus et al., 2015) 来训练和测试模型, 它由 1 449 上位和520同义词组成, 其中上位分为944训练、65验证和440测试对。同样地, 在第一个实验中, 我们用赫氏模式提取了额外的训练上位, 但与俄语相比, 他们并没有显著改善结果, 所以我们把它们留给了英语。这种差异的一个原因可能是更复杂的俄语形态学系统, 其中每个词有更多的形态学变体相比, 英语。因此, 俄语需要额外的训练样本 (俄语嵌入在 non-lemmatized 语料库上进行训练)。组合数据集。为了在配置中显示我们的方法的健壮性, 此数据集有更多的训练实例、不同的嵌入以及同义词和 co-hyponyms 作为负样本。我们使用上位, 同义词和 cohyponyms 从四常用的数据集: 评估, 祝福 (菜和伦奇, 2011), ROOT09 (死 et al., 2016) 和 K 和 H + N (Necsulescu et al., 2015)。获得的 14 528 关系被分成 9 959 训练、1 631 验证和 1 625 测试上位;1 313 同义词和 cohyponyms 作为阴性样品使用。我们使用的标准300维嵌入训练的1000亿令牌谷歌新闻语料库 (Mikolov et al., 2013b)

结果讨论。图 1 (右) 显示, 与俄语相似, 两种正则化策略导致了对 non-regularized 基线的一致改进。表2给出了两个英文数据集的详细结果。与第一个实验相似, 我们的方法在不同的配置中持续地改进结果。随着我们改变簇的数量, 嵌入的类型, 训练数据的大小和用于负采样的关系类型, 使用我们的方法的结果要优于基线。与 re-projected 版本 (xΦΦ) 相比, 无投影 (xΦ) 的 regularizers 在大多数配置中获得较低的结果。总体而言, 与非对称正则化相比, 邻域正规化的结果略好。我们把这归因于一些同义词 z 是接近原始的义 x, 而其他可能是遥远的事实。因此, 相邻正则化能够在训练过程中得到更稳健的模型。这也是为什么两个 regularizers 的性能相似的原因: 不对称正规化使 re-projected 向量不属于本义词的语义邻域。这正是邻居正规化达到的。那邻居经常化要求明确消极例子。

5，结论

本研究提出了一种基于分布词向量投影的 hypernymy 关系提取新模型。该模型包含了由其他类型的关系 (如同义词和 co-hyponyms下位词) 表示的显式负训练实例的信息, 并强制执行投影操作的不对称性。我们在英语和俄语 hypernymy 上位词预测任务的背景下进行的实验表明, 在没有负抽样的情况下, 所提出的方法在最先进的模型上有了显著的改进。

致谢：

我们感谢德意志 Forschungsgemeinschaft (DFG) 基金会在 "联合 T" 项目下的支持, 凯撒 Akademischer Austauschdienst (DAAD), 俄罗斯基础研究基金会 (RFBR) 在16-37-00354 摩尔 a 项目下, 以及俄罗斯人文基础项目 16-04-12019 "RussNet 和纱线词表一体化"。我们还感谢微软提供的计算资源在微软 Azure 研究奖。最后, 我们感谢本杰明 Milde, 安德烈库图佐夫, 安德鲁 Krizhanovsky 和马丁 Riedl 有关这项研究的讨论和建议。

搭建个人AI知识库：RAG与本地模型实践指南 ai开发知识库
引言你是否想过拥有一个私人订制的AI助手，能够随时为你提供最个性化的信息？本文将带你一步步搭建一个基于本地模型和RAG技术的个人知识库。搭建本地模型环境os:archlinux内存:32gcpu:6核12线程python:3.12.7docker27.3.1+docker-compose向量库:milvus2.4.13+attu2.4(客户端)ollamapacman-Sollamasystemc
农夫过河——python贪心算法实现贝桑不止学Python
1.问题描述：一个农夫在河的西岸带了一匹狼、一只羊和一棵白菜，他需要把这三样东西用船带到河的东岸。然而，这艘船只能容下农夫本人和另外一样东西。如果农夫不在场的话，狼会吃掉羊，羊也会吃掉白菜。2.问题分析：由于整个过程涉及四个对象，多个步骤，而各个步骤中各个对象所处位置相对不同，因此可以定义一个二维数组，分别存储对象及初始状态——initial_state[0][0]，[1][0]，[1][1]，[
python元组+字典学IT的那些年 python
#案例#访问元组#aTuple=(23,35,56,34,11,21)#下标为2#print(aTuple[2])#索引值不存在#print(aTuple[20])#查询个数#aTuple=('b','c','d','e','f','g')#print(aTuple.count('d'))#查询索引#print(aTuple.index('d',0,4))#无对应元素#print(aTuple.i
Python的元组和字典汤姆666 测试工具测试软件测试 python
1.元组Python的元组与列表类似，不同之处在于元组的元素不能修改。元组使用小括号，列表使用方括号。格式：变量名=（，，，，）案例aTuple=(23,35,56,34,11,21)1.1访问元组通过索引取数据索引值存在aTuple=(23,35,56,34,11,21)print(aTuple[2])结果561.2查询个数count查询出现的个数aTuple=('b','c','d','e',
第4篇：使用ChatterBot构建基本聊天机器人 Python测试之道聊天机器人机器人人工智能
在这一篇文章中，我们将实际构建一个简单的聊天机器人，展示如何使用ChatterBot库进行基本的对话交互。我们将集中讨论代码实现，并介绍一些有用的功能扩展。4.1创建聊天机器人4.1.1编写聊天机器人代码首先，创建一个新的Python文件，例如chatbot.py，并输入以下代码：fromchatterbotimportChatBotfromchatterbot.trainersimportLis
Python中的元组和字典 DuADC python
Python中的元组和字典1.元组什么是元组（tuple）元组是容器型数据类型；将()作为容器的标志，里面多个文件用逗号隔开(元素1,元素2,…)元组不可变(只能查)元组有序-支持下标操作元素：和列表一样只有一个元素的元组-唯一的元素后面必须加逗号list1=[12]print(list1,type(list1),len(list1))#[12]1t2=(12)print(t2,type(t2))
python中系统找不到指定文件怎么办,Python“系统找不到指定的文件” 许早早
我正在尝试编写一个OpenDyslexic字体的安装程序。我已经在https://github.com/kirbyfan64/OpenDyslexic-Installer上有一个Linux版本，但是Windows版本(显然)目前还不太好用。这是UAC问题吗？我想不出别的办法了。有两个奇怪的部分：程序正在通过else子句和filecmp找到了第一个文件。我有一种感觉，执行else是因为与filecm
python获取当前文件路径 weixin_33877885 python
python获取当前文件路径学习了：https://www.cnblogs.com/strongYaYa/p/7200357.htmlhttps://blog.csdn.net/heatdeath/article/details/78070832https://www.cnblogs.com/WonderHow/p/4403727.htmlimportosprint(os.getcwd())#fo
python笔记(一)获取当前目录路径和文件（抄录） z-pan python
一、获取当前路径1、使用sys.argv[0]importsysprintsys.argv[0]#输出#本地路径2、os模块importosprintos.getcwd()#获取当前工作目录路径printos.path.abspath('.')#获取当前工作目录路径printos.path.abspath('test.txt')#获取当前目录文件下的工作目录路径printos.path.abspa
‘urllib‘ has no attribute ‘urlencode‘ 计算机辅助工程 linux 运维服务器
报错解释：在Python3.x中，urllib库已经被分解为几个子模块，urllib.parse中包含了urlencode函数，用于将字典或者字节序列转换为URL编码的查询字符串。但是在Python3.x中直接使用urllib.urlencode()会导致这个错误，因为urllib模块中不存在urlencode这个属性。解决方法：你需要从urllib.parse模块中导入urlencode函数，并
/usr/bin/env: “python\r“: 没有那个文件或目录一只小团子 Error
报错：/usr/bin/env:"python\r":没有那个文件或目录/usr/bin/env:"python\r":Nosuchfileordirectory原因：在windows下从github中gitclone下来可能创建多了\r字符。#!/usr/bin/envpython在ubuntu会变成#!/usr/bin/envpython\r而\r会被shell当成参数。Windows文本文件
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_74825223 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
基于 Python 的机器学习模型部署到 Flask Web 应用：从训练到部署的完整指南 m0_74825223 python 机器学习 flask
目录引言技术栈步骤一：数据预处理步骤二：训练机器学习模型步骤三：创建FlaskWeb应用步骤四：测试Web应用步骤五：模型的保存与加载保存模型加载模型并在Flask中使用步骤六：Web应用的安全性考量示例：简单的输入验证示例：自定义错误处理示例：使用Flask-JWT-Extended进行认证结论参考资料引言在当今数据驱动的时代，机器学习模型已经广泛应用于各行各业，从金融、医疗到教育等领域。然而，
Python数据分析与程序设计-番外：在vscode中使用Jupyter Notebook 想当糕手 python 数据分析 vscode jupyter
前言在系列文章的第二篇中，我们介绍了使用“if__name__=="__main__":”来模拟c语言中的main函数+封装测试函数的方法来提高代码可读性。当然，这并不是最佳的选择，本篇博客为您将介绍更为高效便捷的工具，希望能对你有所帮助！关于JupyterNotebookJupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它是
【2024年华为OD机试】(C/D卷,200分)- 5G网络建设（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od c语言 5G python javascript java 网络
一、问题描述题目描述现需要在某城市进行5G网络建设，已经选取N个地点设置5G基站，编号固定为1到N。接下来需要各个基站之间使用光纤进行连接以确保基站能互联互通。不同基站之间假设光纤的成本各不相同，且有些节点之间已经存在光纤相连。请你设计算法，计算出能联通这些基站的最小成本是多少。注意：基站的联通具有传递性，比如基站A与基站B架设了光纤，基站B与基站C也架设了光纤，则基站A与基站C视为可以互相联通。
使用Python进行后端开发 code_welike python 开发语言后端
在现代的Web应用程序中，后端开发扮演着至关重要的角色。后端是负责处理数据、逻辑和业务规则的部分，它与前端交互并提供必要的功能和服务。Python是一种广泛使用的编程语言，具有丰富的库和框架，非常适合用于后端开发。本文将介绍如何使用Python进行后端开发，并提供一些示例代码。安装Python和相关工具首先，我们需要安装Python和一些常用的后端开发工具。你可以从Python官方网站（https
《利用python进行数据分析》——3.1数据结构和序列——元组、列表、字典、集合——读书笔记 pillow_L python数据分析
第3章Python的数据结构、函数和文件3.1数据结构和序列Python中常见的数据结构可以统称为容器。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。1.元组——tuple元组是一个固定长度，不可改变的Python序列对象。元组与列表一样，也是一种序列，唯一不同的是元组不能被修改（字符串其实也有这种特点）元组Tuple，一经初始化，就不能修改，没有列表List中的appe
chatgpt赋能python：Python当前文件目录：了解Python中的文件路径 atest166 ChatGpt python chatgpt 机器学习计算机
Python当前文件目录：了解Python中的文件路径Python是一个流行的编程语言，用于开发各种类型的应用程序。在Python中，文件路径是一个非常重要的概念，特别是在操作文件和文件夹时。在本篇文章中，我们将深入探讨Python当前文件目录及其相关概念。什么是当前文件目录？当前文件目录是指当前正在运行的Python文件的位置。在Python中，我们可以使用“os”模块中的函数轻松获得当前文件目
Python进阶实战：利用元组作为字典键的巧妙策略 Yori_22 Python编程 python 开发语言
在Python编程中，字典（dictionary）是一种非常强大且灵活的数据结构，它允许我们通过键（key）来快速访问和存储值（value）。通常，字典的键可以是任何不可变的数据类型，如整数、浮点数、字符串或元组。在这篇文章中，我们将深入探讨如何利用元组作为字典键的巧妙策略，特别是在处理复杂数据时，这种策略能够带来意想不到的便利和效率。一、元组作为字典键的基础在Python中，元组（tuple）是
Python基础06（字符串格式化/操作方法） XYX的Blog Python python 开发语言
字符串在Python中，字符串属于不可变有序序列，使用单引号、双引号、三单引号或三双引号作为定界符，并且不同的定界符之间可以互相嵌套。除了支持序列通用方法（包括双向索引、比较大小、计算长度、元素访问、切片、成员测试等操作）以外，字符串类型还支持一些特有的操作方法，例如字符串格式化、查找、替换、排版等等。字符串属于不可变序列，不能直接对字符串对象进行元素增加、修改与删除等操作，切片操作也只能访问其中
Python基础02（Python序列结构/列表/元组/集合/字典/序列解包） XYX的Blog Python python
Python序列结构序列结构的分类：1.有无顺序（是否可以通过索引访问序列结构的元素）：有序：列表，元组，字符串无序：字典，集合2.是否可变（是否可以增加或删除元素）：可变：列表，字典，集合不可变：元组，字符串1.List列表列表（list）是最重要的Python内置对象之一，是包含若干元素的有序连续内存空间。在形式上，列表的所有元素放在一对[]中，元素之间使用逗号分隔。在Python中，同一个列
【java小灶课】详解java与python的不同之处 wit_@ python java big data web
以下是一篇详细的博客，全面介绍了Java与Python在多方面的区别，包括语法、类型系统、内存管理、面向对象特性、并发编程以及常见应用场景等，希望能帮助你深入理解这两门语言的异同，为学习或实际应用提供指导。目录语言概述语法对比类型系统内存管理与垃圾回收面向对象特性函数式编程与Lambda表达式异常处理标准库与第三方库生态并发和多线程运行效率与性能优化常见应用场景学习曲线与社区支持总结1.语言概述J
华为OD机试E卷 --找数字--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述小扇和小船今天又玩起来了数字游戏，小船给小扇一个正整数n（1≤n≤1e9），小扇需要找到一个比n大的数字m，使得m和n对应的二进制中1的个数要相同，如：4对应二进制1008对应二进制1000其中1的个数都为1个现在求m的最小值。输入描述输入一个正整数n（1≤n≤1e9）输出描
【Python】成功解决ValueError: zero-size array to reduction operation minimum which has no identity 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决ValueError:zero-sizearraytoreductionoperationminimumwhichhasnoidentity个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、
Numpy基础01（Jupyter基本用法/Ndarray创建与基本操作） XYX的Blog 数据分析与可视化 numpy jupyter
内容一：Jupyter开发环境IPython是一个增强型的Python交互式解释器，提供了自动补全、命令历史、魔法命令等功能。它支持与操作系统命令交互、内联绘图和多语言扩展，并可与JupyterNotebook集成，适用于数据分析和科学计算。IPython还支持远程访问、包管理和插件扩展，是一个功能强大且灵活的开发工具。JupyterNotebook是IPython的开发环境。1.1Jupyter
Python魔法方法__call__深入详解图灵学者 python精华 python 开发语言
目录1、魔法方法__call__初探‍♂️1.1什么是__call__?1.2基础用法演示1.3自定义行为与参数传递2、实现轻量级装饰器模式️2.1装饰器概念回顾2.2利用__call__构建装饰器2.3深入理解装饰器应用场景3、类实例变身函数调用3.1类似函数的行为模拟3.2动态执行与灵活性提升3.3实战案例：日志记录器4、实现状态机模式4.1状态机概念回顾4.2通过__call__管理状态转换
Python魔法参数：深入解析*args和**kwargs的强大用途图灵学者 python精华 python java linux
目录引言基础概念解析*args：处理位置参数**kwargs：处理关键字参数*args和**kwargs的实际应用场景1.函数装饰器中使用*args和**kwargs2.类构造函数中使用*args和**kwargs3.API调用中使用**kwargs与其他参数类型的结合使用结合默认参数位置参数与关键字参数的混合使用高级技巧和注意事项参数解包与重打包性能考量调试技巧案例研究场景描述实现步骤实际应用案
机器学习：scikit-learn 和 Jupyter Notebook（推荐初学者使用google colab） wyc9999ww 机器学习 scikit-learn jupyter 人工智能 python
对于初学者来说，scikit-learn是一个理想的机器学习入门工具。不仅提供了丰富的算法和功能，还通过一致的API设计，确保能够快速上手并进行各种机器学习任务。通过使用scikit-learn，可以专注于理解和实践机器学习的核心概念，而不必过多担心底层实现细节。所以scikit-learn能轻松实现从数据预处理到模型训练和评估的完整流程。此外在推荐一个适合初学者的深度学习平台工具googleco
python封装成exe文件 wenangou python
这篇文章主要介绍了一个有趣的事情，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Python打包exe文件方法汇总【4种】Python作为解释型语言，发布即公开源码，虽然是提倡开源但是有些时候就是忍不住想打包成exe，不仅仅是为了对代码进行加密，而是为了跨平台。防止有些没有安装py环境的电脑无法运行软件小神猪。目录对python代码打包成
使用Python解决数独谜题的实用指南 werf456456asddd python 开发语言
在这篇文章中，我们将探讨如何编写一个Python函数来解决数独谜题。这个函数将接收一个9x9的数独网格作为输入，并使用回溯算法来解决谜题。如果谜题无法解决，函数将返回None。此外，我们还会确保输入网格是一个有效的数独谜题。技术背景介绍数独是一种经典的逻辑游戏，目标是填满一个9x9的网格，使每列、每行和每个3x3的子网格都包含1到9之间的数字。在计算机科学中，数独可以通过回溯算法来求解，这是一种尝
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

基于投影学习的负采样改进型上位词关系提取 （翻译学习使用）