马小雨

PYInfer: Deep Learning Semantic Type Inference for Python Variables Python类型推断

Abstract

在本文中，提出了端到端的PYInfer，基于深度学习的类型推断工具，可自动生成Python变量的类型注释。推断变量类型时上下文代码语义非常重要。对于每一个变量的使用，在它的上下文范围内收集一些tokens,然后设计神经网络预测变量类型。由于很难去收集高质量的人工标定的数据集，采用已有的静态分析工具对源码中的变量生产ground truth.

将类型推断作为一个分类问题，PyInfer能处理用户自定义类型以及为每个变量推断类型概率。

Introduction

变量类型不一致是动态语言中常见的错误，由于Python的动态属性，解释器无法和静态编程语言编译器一样去检查类型的不一致性，Python的类型检查器利用注释检查类型的一致性。这些工具都需要使用开发者手动写入的类型注释，这个其实很难提供。

为方便用户编程和检查类型错误，变量类型推断是一个必要的步骤。深度学习已经应用到使用TypeScript进行JavaScript的类型推断，从而产生包含大量精确注释的语料库。Python和JavaScript数据集的质量相差较多。

应用静态分析或动态分析的类型推断工具分析时不需要对其进行标记注释类型推断。然而，它们是不精确的，并且忽略了源代码中丰富的自然语言语义。

本篇论文提出PyInfer,对Python变量类型进行推断，因为人工标定的变量数据集不可用，因此采用PySonar2对Python GitHub项目自动产生初始类型注释，然后我们使用一系列的数据清洗技术改进数据集的质量，我们进一步提供注释和上下文信息用来训练深层神经网络的信息，它有效地为每种类型的概率排序。

注释数据集的收集

分析变量类型的源码上下文语义需要大量标注的数据集，我们使用PySonar2生成的包含大量数据类型结果的数据集并使用数据清洗技术提高数据集的质量。

用户自定义类型

由于Python的灵活性，类型可以是用户自定义的并且可以在运行时改变，我们把Python的类型推断作为一个分类任务，在500多个普通类型中覆盖了用户自定义类型。作为一个分类任务，我们的模型为每一个类型提供了置信度。

源码嵌入

源码中包含了大量的变量名和变量使用的语义信息和类型信息，这对类型推断很有帮助。之前的工作使用了word embedding(词嵌入)，这些嵌入方式可能会产生OOV问题(超出词表问题),为了解决这个问题，我们使用了BPE算法(字节对编码算法).

上下文代码语义

我们的方法的一个主要观点就是为变量类型推断使用上下文代码语义。我们假设在一个确定的上下文margin内有相关的语义信息来描述变量，我们的方法能够分析变量的语义以及结构语法和语法信息。margin的设置如图所示

对于每一个变量，在它的上下文范围内收集它的源码序列，采用基于attention mechanism(注意力机制)的GRU(门神经网络)分析上下文语义。

把以上集成到一起，我们发明了一个端到端的，高质量的，高效的框架静态推断Python的变量类型。我们的框架还可以扩展到function argument推断，因为我们的方法是基于语义而不是图结构，它可以很容易扩展到其他动态类型语言的变量注释以及检测语义错误。

PyInfer框架

PyInfer模型框架示意图：

把类型推断看作一个分类问题，我们测试了基于出现频率排名的前500种类型，并在一个确定的范围内分析了上下文语义，BPE算法用来获取向量表示，进而使用这些向量嵌入到基于注意力机制的门神经网络中，从上下文中抽取代码语义。然后使用softmax层为每种类型进行概率分类。PyInfer包含四个组件：数据收集与生成，源码嵌入，设计模型，训练模型

A：数据收集与生成

为了将变量类型分类，我们需要一个足够大的标注了类型的数据集。人工标注不可取，使用PySonar2产生初始类型注释，因为PySonar2的分析比较保守，我们忽略了所有不能进行类型推断的变量，并假设剩下的变量的结果就是ground truth,我们也分析了typeshed,probPY和TypeWriter数据集。

表I展示了数据集 Original和Valid表示了在数据清洗及去重之前和之后的数量，typePY是从4577个Github库中收集的源码数据集，probPY是Xu et al工作中提到的数据集，typeshed是人工标定的数据集，只包含了function参数和return values的注释。

我们通过注释top-star的github仓库的Python源码收集typePy,对每一个变量，我们保存它的仓库链接，文件名，变量名，开始和结束的token位置，类型注释以及相关源码。为了获得类型注释，我们采用PySonar2推断每个变量类型。收集数据之后进行数据清洗，消除所有无意义的类型，比如”question mark“,和”None“类型，并且去重。最终获取到42560876种有效注释。

对于probPY数据集，我们利用PySonar2的结果和动态分析相结合的数据，propPY数据集提供了变量名，注释和源码来生成适用于我们的模型的上下文信息。

typeshed数据集包含对Python标准库和第三方包的人工标定的类型注释，然而它只包含function parameters和返回值类型的注释，并且因为频繁的代码更新而没有上下文信息，我们提取参数的注释去评估我们的模型的上下文代码语义的重要性，在合并第三方库和标准库的注释时，对【变量名，类型注释】pairs去重

B：源码嵌入

传统的嵌入方法是对频繁使用的tokens建立一个字典，对词表中的每个token生成嵌入表示，这种方法保证了输入到模型时，每个token都保持完整。许多已经存在的方法，如对word进行表示的Word2Vec和Global Vectors(GloVe)，为每个token计算向量表示。然而，词嵌入(word embedding)方法并不适合源码，因为有大量的用户定义的变量名和function名，这些方法会出现超出词表问题，训练数据观察不到的一些稀有词，OOV问题使得模型不能获取到词表之外的token信息，一种方法是使用<UNK>表示未知词，但这样不合适，会丢失语义信息。

为了获取变量和函数名的语义，使用BPE算法生成源码嵌入。BPE算法是以压缩算法得名并在很多使用神经网络的程序分析中很有效，这个算法通过合并最经常出现的字节对成为一个新的字节来解决OOV问题。以一个单个字符开始，我们把用户自定义tokens分割成小块放入字典中，采用自下而上的聚类方法，初步生成所有字符的单字符,然后迭代计算字符出现的频率，然后使用一种贪婪近似法最大化模型的似然估计，从而为最频繁出现的字节对生成新的字节。

我们在源码语料库上训练BPE模型，并得到了19,995个不同的base word,和传统的嵌入方法比较，BPE嵌入充分利用了上下文代码语义。使用蛇形命名法和驼峰命名法的变量名可使用BPE有效嵌入。

C：设计模型

这个工作的一个主要亮点是把上下文信息带入模型中。源码中的上下文不仅携带了有意义的语义信息，还传达一些变量功能性的信息。我们设置范围m来表示有多少上下文信息应该被考虑，对于每一个变量，i ∈ [1..n],我们把当前变量所在的处理为当前行，标记为，在当前行之前有m个tokens,标记为，当前行之后的m个tokens,标记为，当前变量名记作，上下文信息提供了变量的局部语义，这已经足够对变量类型进行推断，BPE算法为，最终变量的嵌入向量为

我们特意在嵌入的最后一部分设置了变量名，这个设置能使我们通过在GRU网络的抽取最后一层的模式来获取语义表示。为了更清晰地表示向量特征，我们采用门控循环单元(GRU)---一个循环神经网络，和双向循环神经网络有相似性能但具有更低的计算复杂度，对于每一个变量，GRU结合变量名分析上下文信息的特征，它能够每t步时使用递推公式处理向量序列。最初，当t=0时有一个输出向量，假设嵌入之后的变量的tokens数量为，每一个输入源码token,在嵌入向量中，则

是带有上下文信息的输入嵌入向量，是变量的输出向量，是更新门，是重置门，W,U,b是模型中的参数，代表激活函数(sigmoid函数)，代表双曲正切函数，为了使模型具有更好的表现力，还加入了注意力机制。因为变量名加入到了嵌入向量的最后一个位置，我们可以在输出向量抽取最后一层来描述变量，向GRU中添加dropout层(dropout layer)，这个设计是为了解决过度拟合的问题(Dropout技术是通过随机减少神经网络中相互连接的神经元的数量来实现的。在每一个训练步骤中，每个神经元都有可能被排除在外(从连接的神经元中被剔除)。在某种意义上，层内的神经元学习的权重值不是基于其相邻神经元的协作)。最后我们对GRU的输出添加一个全连接层(fully connected layer)增加模型学习上下文语义的灵活性。

我们把Python类型推断作为一个分类问题解决用户自定义类型，为了获取每一个类型的概率，我们在GRU模型的输出中所提取的特征上使用softmax回归函数。对于GRU神经网络的输出，

argmax是返回最大概率位置的函数，是每一个变量的每一种可能类型的概率集合，这个函数用来近似一个目标整数，代表类别数量，softmax函数

产生一个带有每种类型的概率的标量输出。

有了softmax层，我们可以生成每个变量的带有类型分布概率的类型注释。PyInfer基于具有最大概率的类型来注释变量类型，返回的是，我们能够对置信度添加一个阈值，随着置信度的增加，模型的精确度也会随之增加。

D：训练模型

此模型中，采用交叉熵作为损失函数，使用对数softmax(前文提到的P())函数推导类型推断的置信度，在softmax结果上添加最大似然代价函数(NLLLoss),因此，损失函数为

代表模型的损失函数，通过计算每种类型注释损失的叠加，常量n是注释的数量，代表分类数量，变量的ground truth 类型由表示，当变量的注释为时，设置= 1，否则， = 0。定义了变量的所属类别的对数softmax结果。

EVALUATION

这一部分，我们通过以下几个问题评估PyInfer

RQ 1: PyInfer在推断正确类型注释时效率如何？

RQ 2: 分类的数量对PyInfer有重要影响吗？

RQ 3: 阈值是如何影响PyInfer模型的？

RQ 1：模型有效性及baseline比较

1）数据集及实验配置

分析typePy数据集中500个常用类型，除了所有python中的内置类型，也考虑了大量的用户自定义类型，整体的数据语料库按60%，20%，20%的比例随机分成训练数据，验证数据以及测试数据。

所有实验都在

Intel i7-9700k CPU, 32GB RAM, 和一个单独的 NVIDIA RTX 2070 Super GPU上进行。

2）实现细节和结果

我们以下表中的参数训练模型得出测试结果

为了分析上下文语义信息，我们通过分析源码中每一部分带有margion进行分割的上下文语义，通过抽取以变量名作为最后一部分的GRU神经网络的最后一层获取向量表示。

我们添加了一个dropout层来解决过拟合问题。上表中参数和代表了GRU神经网络隐藏层(把输入数据的特征，抽象到另一个维度空间)的大小，设置超参消除一些特别长的嵌入，这通常是一段源代码包含大量看不见的token的情况。我们也收集了嵌入长度的分布，数据集中99.9%的注释的嵌入长度在1000以内，因此我们可以采用有长度限制的注释来训练模型。

使用上述所有设置，我们微调参数和将准确性用作我们模型的评估矩阵之一。精确度计算为：

代表当前待处理的嵌入，代表变量的ground truth类型，返回概率最大的注释。我们的模型最终在测试数据上有81.195%的精确度。

因为每一种类型的分布是不均匀的，我们也使用加权精度和召回率评估我们的模型，以及根据它们计算f-1分数。

3)Baseline Analysis and Insights

4)和TypeWriter比较

TypeWriter使用神经网络从包含部分已经注释的代码库中有效地推断function级别的类型，参数类型和返回值类型，它在源码的参数名，参数使用，function级别的comments的tokens的类型信息上使用LSTM.对于数据集，TypeWriter和Github上的mypy依赖一样使用内部代码库，它处理了1137个Github库，预测了16492个返回值类型注释和21215个参数类型注释。

和TypeWriter相比，我们的目标略有不同并且应用了不同的框架。TypeWriter推断函数参数类型及返回值类型，然而PyInfer针对Python变量。在方法层，TypeWriter采用传统的Word2Vec嵌入，然而PyInfer采用BPE嵌入获取上下文代码语义。关于神经网络的设计，TypeWriter在源码的tokens和function comments上使用LSTM模型,而PyInfer使用基于注意力机制的GRU神经网络来解决局部语义问题。

我们的工作和TypeWriter是互补的。TypeWriter采用全局的function级别的特征，function源码，注释，和参数使用去推断返回值和参数类型。这些全局特征对完整的function提供了一个全面的视角，从而更容易推断function级别的类型。TypeWriter相比于NL2Type和DeepTyper对于参数的类型预测性能有所提升，但是很难推断function内部的变量类型，而这些变量级别的信息是非常有效的。而PyInfer使用包含确定范围的源码语义提供变量级别的注释更有竞争力。主要的原因是PyInfer模型利用了局部的变量级别的特征，即特定范围内的变量名和上下文语义。对于变量和参数的类型推断，局部特征更重要，因为它们表明了变量是如何定义及使用的。

RQ 2：基本类型或更多类型

经观察，Python内置类型：[str, int, dict, bool, flfloat, list, tuple, object, complex, set, type]

对这11种类型进行分类会更易于管理，比500种更精确，但是很多用户自定义类型无法被预测到，考虑了500种类型的模型覆盖了大多数的用户自定义类型，使其可泛化为实际场景。

RQ 3：阈值

因为模型提供了带有概率的类型注释，因此在置信度上测试不同的阈值。从0.1到0.9，我们提供了注释数量，准确率和召回率，f-1 score。可以将阈值设置为合理值，以实现我们想要获得的注释数量和所希望拥有的准确性之间的平衡。

ANALYSIS

这一部分，有以下两个问题

RQ 4：上下文信息如何影响PyInfer的表现？

RQ 5：BPE嵌入比其他基于学习的嵌入突出吗？

RQ 4: 上下文语义的消融分析

对上下文数据进行消融实验，研究没有上下文语义的PyInfer。没有上下文的特征，我们的模型只能利用变量名，省略变量的使用及上下文的逻辑关系，上下文信息在表征源码语义中起着关键作用。结果如表所示，效果差。

为了更近一步的研究上下文语义重要性，对人工标定的typeshed数据集进行实验，一个特定格式的pyi文件中包含着类型信息，这广泛用于类型检查和类型推断中。一个pyi文件中包含函数参数和返回值的类型注释。如下图，为变量safe提供了_Str和AnyStr两种类型，因为没有上下文语义，不能确定具体的类型。

RQ 5: 源码嵌入的优势

除了上下文信息和类型，我们的模型采用BPE嵌入也有优势。源码中包含大量用户自定义变量和function名，BPE算法充分利用上下文语义信息解决OOV问题。

DISCUSSION

A：PyInfer的优势和劣势

PyInfer比其他类型推断工具突出的原因主要是我们拥有足够大的已经标注了类型的数据集，并且把变量的上下文语义信息编码到了深度学习模型中。margin的设置会影响PyInfer的表现。

PyInfer也有一些限制。尽管PyInfer能够处理用户自定义类型，但是和内置类型对比，因为有限的用户自定义类型的训练数据导致一些推断结果是不正确的。和许多静态分析器一样，PyInfer要求访问源码，这有时候可能因为机密问题而不太现实。

B：与PySonar2相比的优势

RELATED WORK

A：Python类型推断

B：动态类型语言的类型推断

已存在的基于学习的类型推断的工具主要是针对JavaScript的，它的类型信息可以通过TypeScript获得。LambdaNet使用图神经网络预测类型，其中包含涉及上下文提示的命名和变量使用。它定义了类型依赖关系图并在图神经上传播类型信息。LambdaNet 探索使用图神经网络嵌入进行类型推断的潜力。和图嵌入相比，生成基于token的源码更高效。它可以利用源代码语义以及更容易应用于其他语言。NL2Type提出基于学习的方法预测有自然语言支持的function的类型特征。.Hellendoorn等人的工作中使用300个维度的词嵌入的深度学习模型推断JavaScript类型。

C：基于学习的源码分析

Raychev等人提出了JSNice预测JavaSript的标识符名称和类型注释。

C：基于学习的源码嵌入

基于token的源码嵌入：word2vec，doc2vec，BPE

基于图嵌入：Code2Vec，基于路径的表示，类型依赖图。这些嵌入首先考虑源码结构，

hehe

【1】Elasticsearch 30分钟快速入门不知名美食探索家 ES快速学习 es elasticsearch
文章目录一、Elasticsearch基本概念及工作原理（一）基本概念（二）工作原理二、Elasticsearch原生RESTful方式的增删改查（一）创建索引（二）插入文档（三）查询文档（四）更新文档（五）删除文档（六）删除索引三、PythonSDK实现增删改查（一）安装ElasticsearchPythonSDK（二）连接到Elasticsearch（三）插入文档（四）查询文档（五）更新文档（
智能化河流水位与流量监测系统：提升水资源管理与环境保护 DX_水位流量监测数据分析信息可视化安全运维自动化人工智能
随着全球气候变化和水资源短缺问题的加剧，科学有效地监测水体状况，尤其是河流的水位和流量，成为了水资源管理与环境保护的重要环节。传统的人工测量方法虽然有效，但存在一定的局限性，如人工误差、监测频率低以及对突发事件反应慢等问题。智能化河流水位与流量监测系统应运而生，通过集成物联网、大数据、云计算和人工智能等技术，不仅提高了监测的精准度和实时性，也提升了水资源管理和环境保护的效率。一、智能化河流水位与流
【华为OD-E卷 - 求字符串中所有整数的最小和 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-求字符串中所有整数的最小和100分（python、java、c++、js、c）】题目输入字符串s，输出s中包含所有整数的最小和。说明：字符串s，只包含a-zA-Z±合法的整数包括1）正整数：一个或者多个0-9组成，如0230021022）负整数：负号–开头，数字部分由一个或者多个0-9组成，如-0-012-23-00023输入描述包含数字的字符串输出描述所有整数的最小和用例用例一
MongoDB Atlas与YoMio.AI近乎完美适配:推理更快速、查询更灵活、场景更丰富
人工智能（AI)世界正在以闪电般的速度发展，各种应用层出不穷，其中包括目前最为炫酷的新AI聊天机器人之一：角色AI。角色AI可以进行有趣的对话，帮助学习一门新语言，或者创建用户自己的聊天机器人。YoMio.AI是一家专注角色AI的天使轮初创公司，聚焦AI娱乐，致力于从各方面让AI成为人类的陪伴。YoMio.AI目前主要开发了AI原生娱乐产品Rubii，并围绕Rubii构建了一整套产品矩阵，将Rub
【华为OD-E卷 - 通过软盘拷贝文件 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python javascript c++
【华为OD-E卷-通过软盘拷贝文件100分（python、java、c++、js、c）】题目有一名科学家想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到软盘中，做到软盘中文件内容总大小最大。已知该软盘容量为14
Python 装饰器暮色尽染 Python python 开发语言
Python装饰器是一种强大且优雅的工具，它允许我们在不修改原始函数代码的情况下，增加或改变函数的功能。装饰器的使用可以显著提高代码的复用性和可读性，是Python编程中不可或缺的一部分。装饰器的基本概念装饰器本质上是一个函数，它接受一个函数作为参数并返回一个新的函数。通过装饰器，我们可以在函数执行前后添加额外的逻辑，而不需要修改函数本身的代码。这种特性使得装饰器非常适合用于日志记录、性能测试、事
【华为OD-E卷 - 服务失效判断 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-服务失效判断100分（python、java、c++、js、c）】题目某系统中有众多服务，每个服务用字符串（只包含字母和数字，长度relPairs=split(relInput,',');//将依赖关系解析为Pair对象的列表List>rels=newArrayListp=split(pStr,'-');rels.add(newPairfails=split(failInput,
搭建个人AI知识库：RAG与本地模型实践指南 ai开发知识库
引言你是否想过拥有一个私人订制的AI助手，能够随时为你提供最个性化的信息？本文将带你一步步搭建一个基于本地模型和RAG技术的个人知识库。搭建本地模型环境os:archlinux内存:32gcpu:6核12线程python:3.12.7docker27.3.1+docker-compose向量库:milvus2.4.13+attu2.4(客户端)ollamapacman-Sollamasystemc
在Python中，文本查找和替换的常用操作 python正则表达式
1.使用字符串方法进行查找和替换Python的字符串类(str)提供了简单的查找和替换方法，如find()、replace()等。示例：text="Hello,world!"#查找子字符串的位置position=text.find("world")print(position)#输出:7#替换子字符串new_text=text.replace("world","Python")print(new_
合作升级！携手共建国际数据中心新生态人工智能
8月26日，九章云极DataCanvas公司与三家国际知名科技公司：印度尼西亚电信运营商数据中心TelkomDataEkosistem（又名NeutraDC，印尼电信运营商TelkomIndonedia子公司），服务器提供商HewlettPackardEnterprise(HPE)Indonesia，以及人工智能云服务商Cirrascale正式达成战略合作。作为印度尼西亚最大的数据中心服务提供商，
Python3 利用正则转化参数化表达式（qbit）正则表达式
前言技术栈Python3.11regex2023.5.5案例测试代码#encoding:utf-8#author:qbit#date:2024-04-24#summary:利用正则转换参数化表达式importregexline1='owner=x_111ANDdoc_type=%x%_222ORauthor=x_333ORorgan=x_444AND(NOTpub_year=x_555)'dic=
基于SpringBoot的物业管理系统计算机学姐 Java精选实战项目源码 SpringBoot源码 Vue源码 spring boot 后端 java mysql vue.js spring intellij-idea
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Java+SpringBoot+Vu
Javascript(turfjs)等值线图绘制前端空间计算mapbox
使用气象、环境类空间数据绘制等值线通常是由NCL、Python来做，在一些场景中：你只是想在WEB端做一些简单的绘制你的后端只有Node.js环境你纯粹是个前端工程师你也许需要使用纯Javascript来做这件事。本文尝试根据空间中的一组散点来绘制等值线图（或色斑图）。1.准备工作turfjs，空间分析（geospatialanalysis）工具包，支持在浏览器和Node.js环境中运行，空间数据
Python入门：3.Python的输入和输出格式化平凡程序猿~ Python python 开发语言
引言在Python编程中，输入与输出是程序与用户交互的核心部分。而输出格式化更是对程序表达能力的极大增强，可以让结果以清晰、美观且易读的方式呈现给用户。本文将深入探讨Python的输入与输出操作，特别是如何使用格式化方法来提升代码质量和可读性。一、输入操作Python提供了简单而强大的输入功能，通过内置函数input()可以从用户那里获取字符串形式的输入。以下是一些基本用法和注意事项：1.基本用法
后端开发技术后端
在当今数字化和互联网化的时代背景下，后端开发技术作为连接前端和用户的重要桥梁，正以前所未有的速度发展和演进。后端开发的核心技术通常包括主流服务器端语言如Java、Python、Node.js等；关系型或非关系型数据库如MySQL、MongoDB等；容器编排工具如Docker、Kubernetes等。以Python为例，其简洁明了的语法受众多开发者青睐，适合快速原型开发和敏捷项目交付。随着云计算的普
探索后端的无尽魅力：构建强大而高效的服务器世界后端
在当今数字化的时代，后端技术犹如一座坚实的桥梁，连接着用户和丰富多彩的互联网世界。后端是默默耕耘的力量，在互联网舞台上，前端吸引眼球，而后端是支撑舞台的坚实支柱。它负责处理数据、管理服务器、确保系统的稳定性和安全性，没有后端，前端的华丽展示将无从谈起。随着技术发展，后端领域迎来诸多热点，如人工智能、大数据、云计算等新兴技术崛起，为后端开发带来无限可能，但也带来新挑战，如在海量数据中实现高效处理和存
python头歌实验五作业_3.1(hbut) 树先生. python 开发语言
第1关：判断火车票座位##第1关：判断火车票座位seat=input()try:letter=seat[-1]line=int(seat[:len(seat)-1])ifline17or(letternotin['A','a','B','b','C','c','D','d','F','f']):print("输入错误")elifletterin['A','a','F','f']:print("窗口
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe