慌慌的F同学

强化学习和知识图谱实体对齐

《Deep Reinforcement Learning for Entity Alignment》精读

在本文中，作者将实体对齐建模为一个顺序决策任务，其中agent(智能体)根据实体的表征向量顺序地决定两个实体是匹配还是不匹配。所提出的端到端的基于强化学习（Reinforcement Learning, RL）的实体对齐（end-to-end RL-based entity alignment, RLEA）框架可以灵活地适应大多数给予嵌入的实体对齐方法。
文章链接

1 强化学习的组成

在强化学习里有两大基本组成模块：Environment和Agent。Environment指外部环境，如果在游戏中就是游戏环境。Agent指智能体，如果在游戏中就是玩家，在本文中就是作者写的算法。
其中Environment具备State(状态)和Reward（回馈）属性， Agent具备Action(行动)的能力。整个训练过程大致是：Agent通过一套策略（Policy）输出一个action作用到Environment, Environment则反馈State和Reward到Agent，同时Environment会转移到下一个State。如此不断循环，直至Agent最终找到一个最优策略，使得可以尽可能多的获得来自Environment的Reward。整个过程可参见链接：强化学习训练流程

2 实体对齐任务

实体对齐任务旨在寻找两个知识图谱之间指向真实世界同一现实对象的实体对，以便将不同知识图谱链接起来（可以链接分布式知识）以更好支持下游应用程序。作者并不直接使用实体嵌入的相似度作为两个实体是否对齐的判断依据，而是把嵌入作为输入，训练一个策略网络（Policy Network）使其能够寻找到尽可能多的对齐实体对，以实现最大回馈（Reward）。

3 方法

3.1 Preliminaries

定义源知识图谱和目标知识图谱分别为：

所提出的RLEA框架包括两个module: environment和agent。基于嵌入实体对齐模型的输出作为agent的输入，训练集是一组已知的实体对齐对。在每一个训练episode中，states和actions由environment和agent以交替顺序生成。定义state s为由environment所给予的任意实体对，其中
分别来源于各自的知识图谱,就是说environment的初始state是分别来自两个知识图谱的实体组成的实体。action 代表着agent的decision，判断实体对是匹配还是不匹配。每一个state（实体对）本身还有一个label ，代表着正确的决策（即真值）。当action的值不等于实体对的label值时，这个action的值仍然可能具有积极的影响，比如说一个不正确的match动作也能排除掉2个错误的实体。
： true mismatch, : false match
: false match, : true match

3.2 Agent

State: 初始state 是由environment提供的。作者考虑以下特征：（1）两个实体的嵌入；（2）两个实体的邻居嵌入；（3）实体的对手实体嵌入集。实体的k近邻候选对齐实体，当然排除，被称为的对手实体。这些对手实体能提供附加信息，用来接受或拒绝输入的实体对。

Action: 一个action a 被二进制成0或1. 这种二进制机制的好处是：（1）相应的最优Policy能被近似成一个简单的函数；（2）二进制机制使得agent能暂停当前的候选对。举个例子，如果agent选择了mismatch, 源知识图谱中的source entity在下一个交互中仍然有正确匹配的机会。但是在分类任务中，agent必须选择出来一个entity作为最终的选择。
Policy Network: 对于Policy Network的输入，除了输入实体和候选实体，作者还选择了额外k个与输入实体接近的实体（即的Opponent entities）作为context信息（可以用来拒绝当前匹配）。对于每个实体，作者使用图神经网络（Graph Neural Networks, GNN）模型同时编码其和其邻居向量以得到中间表征，再馈送到输出层。在输出层，除了线性层用来组合以外，还考虑了实体对间的互信息。最后综合两个评估器得到最终的action分布函数：

，即通过计算action的数值来判断两个源自不同知识图谱的实体是匹配或不匹配。

Reward: 定义environment的reward为r: 。agent的最终目标是最大化全局的Reward。（正确的对齐实体对的数量应该等于true match的数量。）
Optimization: 使用策略梯度算法：REINFORCE，去训练策略网络的参数集合，以产生较大的Overall Reward。

3.3 Environment

Dependency: Agent的输出action可能会改变Environment后面的state。对于顺序实体对齐，一个true match不仅会产生正确的实体对齐对，还会排除一些可能的候选者，从而提高Environment的overall Reward。即使是一个false match也有过滤掉两个错误实体的价值。因此应该考虑长期依赖。
设定Environment维护了一个实体对序列：其中来自源知识图谱，
来自目标知识图谱。在训练的第i步，如果Environment抛出了一个候选实体对作为，并且它从Agent接受到的action为，那么所有包括或的候选实体对都会从sequence中去除。

Dynamics: Environment通常是动态的。State-Action序列在不同的情节中是不同的。动态Environment使Agent能够捕获到游戏的一般规则，这对于避免过度拟合至关重要。为了保证动态特性，作者设置了一个跳跃概率ps 。Environment以概率ps随机跳过一个候选实体对，然后pop出下一个实体对。因此，Environment中候选实体对的长度和元素在每个episode中都会发生变化。

Difficulty: 通常，随着级别的增加，游戏的难度会逐渐提高。例如，视频游戏中敌人的生命值和速度通常会随着游戏时间的增加而增加。对于实体对齐case，Environment中一个候选实体对的难度可以基于两个实体之间的嵌入表征余弦相似度和它们的label进行评估：

Environment可以按照难度升序顺序对候选实体对进行排序，这样Agent就能从相对容易的State开始。但是这种操作不适合实体对label信息未知的测试集，因此作者提出了课程学习策略。即不直接按照难度分数对候选实体对进行排序，而是先根据实体对间的嵌入余弦相似度对它们进行排序，并通过归一化难度分数对每个实体对的skip 概率ps重新加权。因此，在每一个episode,Agent都会从相似度高的候选实体对开始，困难度越高的实体对会以更大的概率被跳过不再馈送到策略网络做匹配判断。随着策略被优化，应该逐步降低ps以使训练环境接近测试环境。即是最终测试阶段的实体对序列应该具有与测试阶段的实体对类似的排列。

课程学习策略（Curriculum Learning）：通过一系列难度递增的学习片段来从易到难的分解复杂知识。本文中作者采用Curriculum Learning策略，在强化学习训练过程中逐步增加难度，避免因任务复杂性而导致学习失败。

策略网络与环境的互动： 在Environment中维护了一个实体对序列（排序方法为实体对间的嵌入表征相似度，以保证在测试阶段该序列仍然可用）。如前文所述，嵌入表征相似度高的实体对未必真正匹配，因此在训练过程中首先通过对比一个实体对的实际label与相似度信息来判断一个实体对匹配的难易程度。并且根据当前的训练轮数，一些匹配难度较高的实体对将有更大的概率直接不被训练。在一个Episode中，Environment所给出的实体对将被策略网络一一判断，一旦一个实体对被认为匹配，Environment中所有设计这些实体的实体对就会被Environment排除，这一过程一直持续，指到实体对序列终止或所有实体均被匹配。

4 实验

4.1 数据集

策略网络的输入，即实体嵌入表征的数据集可以从OpenEA project获得。OpenEA又包括四个子数据集： EN-FR， EN-DE，D-W和D-Y。其中前两个是跨语言数据集，EN、FR、DE 分别表示 DBpedia 的英语、法语和德语版本。后两个是跨源数据集， D、W、Y 分别表示 DBpedia、WikiData 和 Yago。作者使用的是与原始KG具有相似分布的“V1”数据集。OpenEA的source code见链接。

4.2 baselines

作者选定JAPE, SEA, RSN, RDGCN作为baselines。为了方便比较，作者还设计了一个名为Seq的序列策略，并按照BootEA中使用的算法来实现它, 不涉及强化学习。Seq将相似度高于预定义阈值的实体对视为匹配，或根据余弦相似度随机选择actions。

4.3 主要结果

作者设计的RLEA算法在OpenEA全部四种数据集上的performance均相较原有方法有明显提升。

表中的Orig代表目前采用的贪心策略，Hits@1是知识图谱常用指标，该指标越大越好。

4.4 候选实体对number对performance的影响

出于性能和效率的考虑，作者决定在实际实现中使用前10个候选实体对。

4.5 互信息估计器(MIE)的有效性

MIE提供的估计有助于Agent快速找到最佳Policy，这在应用于更大的数据集时至关重要。

4.6 RLEA和BootEA的对比

BootEA迭代地将可能的实体对齐标记为训练数据。与RLEA一样，BootEA认为候选实体不应对齐两次。AlignE是BootE的一种变体，没有bootstrapping过程。虽然BootEA在提高AlignE的性能方面有更好的效果，但是Seq和RLEA仅使用经过训练的嵌入作为输入，不修改嵌入或训练过程。因此，它们更具可扩展性并适用于任意 EEA 方法。

4.7 RLEA和传统方法的对比

作者还和传统实体对齐方法进行了对比。在此之前，尽管基于知识图谱嵌入的方法具有许多优点，但在绝对性能上与基于字符匹配等技术的传统方法有着较大差距。作者所提出的基于强化学习的方法不但缩小了这一差距，并且在一些数据集上（如D-Y）显著优于传统方法。

5 RLEA代码

参见链接，建议python版本不低于3.7，graph-tool使用最新版（安装见官网链接）。

参考

（1）https://hub.baai.ac.cn/view/15419
（2）https://zhuanlan.zhihu.com/p/150336780
（3）https://blog.csdn.net/weixin_39910711/article/details/124428444

你可能感兴趣的:(python,机器学习,人工智能,自然语言处理,知识图谱)

Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
基于 Python 的网站信息探测工具设计与实现计算机毕业设计指导 python 网络服务器
基于Python的网站信息探测工具设计与实现摘要在渗透测试与网络安全评估中，信息探测是最基础且关键的一步。通过对目标网站的操作系统、服务器、CMS、端口、目录结构等信息进行自动化探测，可为后续攻击路径识别提供基础数据支撑。传统工具如WhatWeb、FOFA等虽功能强大，但在定制化与扩展性方面受限。本文设计并实现了一款基于Python的轻量级网站信息探测工具，支持URL/IP扫描、开放端口探测、CM
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
Python成第四个支持CUDA的编程语言
Python成第四个支持CUDA的编程语言3月19日NVIDIA的GTC2013图形技术大会将开幕，在此之前会有很多宣传造势内容，其中最重大也是最主要的就是NVIDIA老总黄仁勋的开幕词了，其他合作伙伴也会发布各自的演讲。ContinuumAnalytics联合NVIDIA宣布将会引入新的PythonCUDA编译器——NumbaPro，Python也成为继C、C++以及Fortan之后的第四个支持
Python FastMCP：让你的AI工具链飞起来
PythonFastMCP：让你的AI工具链飞起来FastMCPFastMCP是什么？1.工具(Tools)：赋予LLM执行能力2.Resources（资源）：安全数据通道3.Prompts（提示模板）：标准化LLM交互4.组件协同：构建项目AI工具链5.部署架构与性能优化博主热门文章推荐：官方文档：FastMCP官方文档：https://gofastmcp.com/MCP协议规范：https:/
Python 解析 PDF 文件的基础方法电脑维修员xy python pdf 前端
```htmlPython解析PDF文件的基础方法Python解析PDF文件的基础方法在现代数据处理和信息提取任务中，PDF文件是一种常见的文档格式。然而，PDF文件的结构复杂且难以直接解析，尤其是当需要从中提取文本或数据时。幸运的是，Python提供了多种强大的库来帮助我们轻松地解析PDF文件。1.PyPDF2库PyPDF2是一个功能强大的Python库，用于处理PDF文件。它可以读取、分割、合
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他