Tom Hardy

搞懂Transformer结构，看这篇PyTorch实现就够了

作者丨Alexander Rush

来源丨哈工大SCIR

编辑丨极市平台

下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。

搞懂Transformer结构，看这篇PyTorch实现就够了_第1张图片

"Attention is All You Need"[1] 一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量，还为许多NLP任务提供了新的结构。虽然原文写得很清楚，但实际上大家普遍反映很难正确地实现。

所以我们为此文章写了篇注解文档，并给出了一行行实现的Transformer的代码。本文档删除了原文的一些章节并进行了重新排序，并在整个文章中加入了相应的注解。此外，本文档以Jupyter notebook的形式完成，本身就是直接可以运行的代码实现，总共有400行库代码，在4个GPU上每秒可以处理27,000个tokens。

想要运行此工作，首先需要安装PyTorch[2]。这篇文档完整的notebook文件及依赖可在github[3] 或 Google Colab[4]上找到。

需要注意的是，此注解文档和代码仅作为研究人员和开发者的入门版教程。这里提供的代码主要依赖OpenNMT[5]实现，想了解更多关于此模型的其他实现版本可以查看Tensor2Tensor[6] (tensorflow版本) 和 Sockeye[7](mxnet版本)

Alexander Rush (@harvardnlp[8] or [email protected])

0. 准备工作

# !pip install http://download.pytorch.org/whl/cu80/torch-0.3.0.post4-cp36-cp36m-linux_x86_64.whl numpy matplotlib spacy torchtext seaborn

搞懂Transformer结构，看这篇PyTorch实现就够了_第2张图片

内容目录

准备工作

背景

模型结构

- Encoder和Decoder

- Encoder

- Decoder

- Attention

- Attention在模型中的应用

- Position-wise前馈网络

- Embedding和Softmax

- 位置编码

- 完整模型

（由于原文篇幅过长，其余部分在下篇）

训练

- 批和掩码

- 训练循环

- 训练数据和批处理

- 硬件和训练进度

- 优化器

- 正则化

- 标签平滑

第一个例子

- 数据生成

- 损失计算

- 贪心解码

真实示例

- 数据加载

- 迭代器

- 多GPU训练

- 训练系统附加组件：BPE，搜索，平均

结果

- 注意力可视化

结论

本文注解部分都是以引用的形式给出的，主要内容都是来自原文。

1. 背景

减少序列处理任务的计算量是一个很重要的问题，也是Extended Neural GPU、ByteNet和ConvS2S等网络的动机。上面提到的这些网络都以CNN为基础，并行计算所有输入和输出位置的隐藏表示。

在这些模型中，关联来自两个任意输入或输出位置的信号所需的操作数随位置间的距离增长而增长，比如ConvS2S呈线性增长，ByteNet呈现以对数形式增长，这会使学习较远距离的两个位置之间的依赖关系变得更加困难。而在Transformer中，操作次数则被减少到了常数级别。

Self-attention有时候也被称为Intra-attention，是在单个句子不同位置上做的Attention，并得到序列的一个表示。它能够很好地应用到很多任务中，包括阅读理解、摘要、文本蕴涵，以及独立于任务的句子表示。端到端的网络一般都是基于循环注意力机制而不是序列对齐循环，并且已经有证据表明在简单语言问答和语言建模任务上表现很好。

据我们所知，Transformer是第一个完全依靠Self-attention而不使用序列对齐的RNN或卷积的方式来计算输入输出表示的转换模型。

2. 模型结构

目前大部分比较热门的神经序列转换模型都有Encoder-Decoder结构[9]。Encoder将输入序列映射到一个连续表示序列。

对于编码得到的z，Decoder每次解码生成一个符号，直到生成完整的输出序列：。对于每一步解码，模型都是自回归的[10]，即在生成下一个符号时将先前生成的符号作为附加输入。

搞懂Transformer结构，看这篇PyTorch实现就够了_第3张图片

Transformer的整体结构如下图所示，在Encoder和Decoder中都使用了Self-attention, Point-wise和全连接层。Encoder和decoder的大致结构分别如下图的左半部分和右半部分所示。

搞懂Transformer结构，看这篇PyTorch实现就够了_第4张图片

2. Encoder和Decoder

Encoder

Encoder由N=6个相同的层组成。

搞懂Transformer结构，看这篇PyTorch实现就够了_第5张图片

我们在每两个子层之间都使用了残差连接(Residual Connection) [11]和归一化 [12]。

搞懂Transformer结构，看这篇PyTorch实现就够了_第6张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第7张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第8张图片

每层都有两个子层组成。第一个子层实现了“多头”的 Self-attention，第二个子层则是一个简单的Position-wise的全连接前馈网络。

搞懂Transformer结构，看这篇PyTorch实现就够了_第9张图片

Dncoder

Decoder也是由N=6个相同层组成。

搞懂Transformer结构，看这篇PyTorch实现就够了_第10张图片

除了每个编码器层中的两个子层之外，解码器还插入了第三种子层对编码器栈的输出实行“多头”的Attention。 与编码器类似，我们在每个子层两端使用残差连接进行短路，然后进行层的规范化处理。

搞懂Transformer结构，看这篇PyTorch实现就够了_第11张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第12张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第13张图片

3. Attention

搞懂Transformer结构，看这篇PyTorch实现就够了_第14张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第15张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第16张图片

“多头”机制能让模型考虑到不同位置的Attention，另外“多头”Attention可以在不同的子空间表示不一样的关联关系，使用单个Head的Attention一般达不到这种效果。

搞懂Transformer结构，看这篇PyTorch实现就够了_第17张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第18张图片

4. Attention在模型中的应用

Transformer中以三种不同的方式使用了“多头”Attention：

1) 在"Encoder-Decoder Attention"层，Query来自先前的解码器层，并且Key和Value来自Encoder的输出。Decoder中的每个位置Attend输入序列中的所有位置，这与Seq2Seq模型中的经典的Encoder-Decoder Attention机制[15]一致。

2) Encoder中的Self-attention层。在Self-attention层中，所有的Key、Value和Query都来同一个地方，这里都是来自Encoder中前一层的输出。Encoder中当前层的每个位置都能Attend到前一层的所有位置。

3) 类似的，解码器中的Self-attention层允许解码器中的每个位置Attend当前解码位置和它前面的所有位置。这里需要屏蔽解码器中向左的信息流以保持自回归属性。具体的实现方式是在缩放后的点积Attention中，屏蔽（设为负无穷）Softmax的输入中所有对应着非法连接的Value。

5. Position-wise前馈网络

搞懂Transformer结构，看这篇PyTorch实现就够了_第19张图片

6. Embedding和Softmax

搞懂Transformer结构，看这篇PyTorch实现就够了_第20张图片

7. 位置编码

搞懂Transformer结构，看这篇PyTorch实现就够了_第21张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第22张图片

搞懂Transformer结构，看这篇PyTorch实现就够了_第23张图片

我们也尝试了使用预学习的位置Embedding，但是发现这两个版本的结果基本是一样的。我们选择正弦曲线版本的实现，因为使用此版本能让模型能够处理大于训练语料中最大序了使用列长度的序列。

8. 完整模型

下面定义了连接完整模型并设置超参的函数。

搞懂Transformer结构，看这篇PyTorch实现就够了_第24张图片

END. 参考链接

[1] https://arxiv.org/abs/1706.03762
[2] https://pytorch.org/
[3] https://github.com/harvardnlp/annotated-transformer
[4] https://drive.google.com/file/d/1xQXSv6mtAOLXxEMi8RvaW8TW-7bvYBDF/view?usp=sharing
[5] http://opennmt.net
[6] https://github.com/tensorflow/tensor2tensor
[7] https://github.com/awslabs/sockeye
[8] https://twitter.com/harvardnlp
[9] https://arxiv.org/abs/1409.0473
[10] https://arxiv.org/abs/1308.0850
[11] https://arxiv.org/abs/1512.03385
[12] https://arxiv.org/abs/1607.06450
[13] https://arxiv.org/abs/1409.0473
[14] https://arxiv.org/abs/1703.03906
[15] https://arxiv.org/abs/1609.08144
[16] https://arxiv.org/abs/1608.05859
[17] https://arxiv.org/pdf/1705.03122.pdf

原文：http://nlp.seas.harvard.edu/2018/04/03/attention.html

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

你可能感兴趣的:(算法,编程语言,python,机器学习,人工智能)

python 多线程拍照 NO1212 python 开发语言
相机为basler，logicbalser相机识别条码，进行拍照args[0]为logging的参数保证log实时传输到GUI界面调用方法:main_process(args[0]).camera_run()importsysimporterrnoimportcv2importnumpyasnpimportjsonimportloggingimportthreadingimportlogging.
python实现精确的四舍五入 mocobk
由于计算精度的问题，python无法实现真正的四舍五入round四舍五入时是遵循靠近0原则，所以-0.5和0.5进行0位四舍五入，返回的都是0round(2.135,2)-->2.13round(number[,ndigits])Returnthefloatingpointvaluenumberroundedtondigitsdigitsafterthedecimalpoint.Ifndigits
【Python】线程—GIL—asyncio 2401_84139049 程序员 python 开发语言
它们的特点和适用场景：工具特点适用场景Lock最基本的互斥锁，一次只允许一个线程访问共享资源不可重入，即同一线程再次获取会导致死锁简单的线程同步需求需要确保一段代码同一时间只能被一个线程执行RLock可重入锁，同一线程可以多次获取锁并释放允许同一线程多次调用acquire()复杂的递归线程同步需求某些情况下需要允许同一线程多次获取和释放锁Semaphore允许一定数量的线程同时访问共享资源控制并发
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
python的多线程无法并行只能并发，why？
标题python的多线程无法并行只能并发，why？python的多线程无法并行只能并发，why？在Python中，特别是使用CPython解释器时，由于存在全局解释器锁（GIL），即使在多核处理器上，只有一个线程在同一时刻可以执行Python字节码。GIL会导致CPU密集型任务的线程不能真正并行执行，即使在多核机器上。这种情况下，即使你创建多个线程，CPU也会轮流为每个线程分配执行时间。只有涉及到
图灵python从入门到实践浮点数_Python编程从入门到实践-图灵出品-pdf 巴黎巨星岬太郎
封面简介本书是一本针对所有层次的Python读者而作的Python入门书。全书分两部分：首部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python2D游戏开发，如何利用数据生成交互式的信息图，以及创建
python从菜鸟到高手电子书下载_PYTHON从菜鸟到高手清华大学出版社逐码追风
推荐序...1前言...3本书配套资源...5第一篇Python基础知识第1章初识Python.31.1Python简介...31.2搭建Python开发环境...81.3第一个Python程序...261.4调试Python程序...261.5小结...291.6实战与练习...29第2章Python语言基础...302.1Python程序中的基本要素...302.2数字...342.3获取用户
Python从入门到高手9.1节-Python中的字典类型大神薯条老师 Python从入门到高手 python 数据分析机器学习爬虫网络爬虫深度学习
目录9.1.1理解字典类型9.1.2字典的类型名9.1.3字典的定义9.1.4字典的主要性质9.1.5好好学习，天天向上9.1.1理解字典类型在日常生活中，我们常常会接触到“字典”这种数据类型，例如一本书籍的目录结构，在目录结构中，通过查找页码，就可以快速翻到指定的页面。如果没有这样的页码，那么我们必须从书籍的第一页开始，一页一页地查找。有了页码以后，直接翻到指定的页面。在Python中，可以通过
Github 2024-06-07开源项目日报 Top10
根据GithubTrendings的统计，今日(2024-06-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目3C++项目3JavaScript项目2JupyterNotebook项目1TypeScript项目1Vue项目1比特币核心：开源比特币软件创建周期：4919天开发语言：C++协议类型：MITLicenseStar数量：76760个F
AI原生应用领域多租户的技术架构剖析 AI天才研究院 AI-native 架构人工智能 ai
AI原生应用领域多租户技术架构深度剖析元数据框架标题：AI原生应用多租户技术架构：从隔离性到智能化的分层设计与实践关键词：AI原生应用、多租户架构、数据隔离、模型共享、云原生租户管理摘要：本文系统解析AI原生应用场景下多租户技术架构的核心设计逻辑，覆盖从数据层到模型层的全栈隔离与共享机制。通过第一性原理推导，结合云原生、机器学习生命周期管理（MLOps）等技术范式，提出包含租户上下文管理、动态资源
LangGraph 教程：初学者综合指南（1）背太阳的牧羊人 langgraph langchain langgraph
关键概念图结构LangGraph设计的核心是基于图形的应用程序工作流程表示。该图包含两个主要元素：节点-工作的构建块：LangGraph中的每个节点代表应用程序中的一个不同的工作或操作单元。这些节点本质上是封装特定任务的Python函数。此任务可能涉及多种操作，例如：与LLM直接沟通，进行文本生成、摘要或其他基于语言的任务。与外部工具和API交互以获取数据或在现实世界中执行操作。通过格式化、过滤或
我们大多在食用二次知识――论知识的阶级性 Yo有灵L0
不论是《美丽新世界》，还是《未来简史》，对人类未来的预计都没有很美好。这其中包含了太多集权的观点。即：人类的绝大多数资源被极少数人所掌控，而绝大多数人沦为平庸。在《美丽新世界》里，阶级的划分直接由人为控制出生来决定；在《未来简史》里，当人们把越来越多的事情交给算法去处理之后，人类自身则降至被动的地位。这些看起来和知识不搭边？不，知识这条路，竟然也存在着阶级划分。这种阶级划分，有自身的因素，也有环境
Python 应用程序分发全指南：从基础到高级工具与实践面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言在现代软件开发中，Python因其简洁的语法和强大的生态系统而广受欢迎。然而，将Python应用程序从开发者手中传递给最终用户并非总是简单的过程。分发Python应用程序涉及到诸多挑战，例如依赖管理、跨平台兼容性以及用户环境的多样性。如果分发不当，用户可能面临安装失败或运行错误等问题，从而影响软件的使用体验。本文将深入探讨Python应用程序分发的各种方法，从最基础的源代码分享到现代标
轻松拿捏Anaconda安装，Python开发快人一步奔跑吧邓邓子必备核心技能 python 开发语言 Anaconda 科学计算
目录一、Anaconda是什么1.1包管理与环境管理1.2预装丰富的科学计算库二、为什么选择Anaconda2.1简化依赖管理2.2避免版本冲突2.3丰富的库资源2.4适合的应用场景三、安装前准备3.1确认系统要求3.2下载安装包四、Windows系统安装步骤4.1运行安装程序4.2许可协议4.3选择安装类型4.4选择安装路径4.5高级选项4.6安装完成五、MacOS系统安装步骤5.1下载安装包5
mavlink python 彩云的笔记 linux 无人驾驶 mavlink
frompymavlinkimportmavutil#Createtheconnectionm=mavutil.mavlink_connection('udpin:0.0.0.0:14550')dir(m.mav)['_MAVLink__callbacks','_MAVLink__parse_char_legacy','_MAVLink__parse_char_native','__class__
《用上位机控制无人机：Python+MAVLink协议飞行实验》欧振芳 python
1.实验目标-通过Python编写的上位机程序，基于MAVLink协议控制无人机（如PX4/ArduPilot固件的无人机）。-实现基础飞行指令：解锁、起飞、悬停、降落。-探索MAVLink消息的构造与解析机制。2.实验环境准备硬件-无人机硬件：支持MAVLink协议的飞控（如Pixhawk系列）。-通信链路：USB直连、数传电台（3DRRadio）或WiFi（如通过UDP）。-安全环境：空旷无干
一次Python与STK12.2联合仿真
（一）软件准备：STK12.2是在某宝上花钱买的。我个人在安装软件上，更偏向于能用钱解决的就用钱解决，无论是商家远程安装还是自己按照商家的步骤安装，效率都更高，而自己从网上找免费的渠道安装软件费时费力还不一定能成功。Python是自己按照版本对应关系下载的，我使用的Python版本是3.10.9。我是在PycharmCommunityEdition2023.1.1上进行编程。（二）STK12与Py
《Python 项目 CI/CD 实战指南：从零构建自动化部署流水线》清水白石008 课程教程学习笔记开发语言 python ci/cd 自动化
《Python项目CI/CD实战指南：从零构建自动化部署流水线》一、引言：为什么Python项目需要CI/CD？在现代软件开发中，CI/CD（持续集成/持续部署）已成为不可或缺的工程实践。它不仅提升了开发效率，还显著降低了部署风险。对于Python项目而言，CI/CD的价值尤为突出：✅自动化测试确保代码质量✅快速部署加速产品迭代✅与云平台、容器技术无缝集成✅支持多版本、多环境的灵活发布Python
使用python调用STK12.2并实现霍曼转移 AndyVictory python 开发语言
使用STK的PythonAPI和Astrogator模块来创建一个简单的霍曼转移轨道场景（从近地轨道转移到地球同步轨道）:1、创建一个新的场景并添加一个卫星。2、定义卫星的初始状态（近地轨道的参数）。3、传播近地轨道。4、使用目标序列和DV1机动将卫星转移到转移椭圆轨道。5、传播转移椭圆轨道到远地点。6、使用目标序列和DV2机动将卫星转移到外部轨道（地球同步轨道）。7、传播外部轨道。8、运行任务控
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
python坦克大战名难取aaa python pygame 开发语言贴图
文章目录前言资源获取一、项目介绍1.pygame是什么？2.操作指南3.项目演示二、项目实现1.安装库2.引入库3.项目代码3.1主逻辑类3.2背景类3.3基类3.4坦克类3.5MyTank类3.6EnemyTank类3.7子弹类3.8爆炸类3.9墙壁类3.10水晶类3.11音乐类4.项目打包参考文档总结前言《坦克大战》，1985年由日本开发商南梦宫（Namco）开发，是第一款可以双打的红白机游戏
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
【Pycharm虚拟环境下载模块】阿斯达使 python
Pycharm虚拟环境下载模块优点步骤优点模块安装在虚拟环境中，不会污染全局Python，并且不同项目可以使用不同版本的模块。步骤使用cmd打开命令提示符，进入项目路径。·C:\\>D:·D:>cd\Pycharm\Rician\venv\Scriptsactivate进行激活使用pipinstall下载需要的模块通过piplist查看当前环境中已安装的模块使用deactivate退出虚拟环境
python基础项目实战-PyQt5制作俄罗斯方块春风抚微霞 python项目实战 python pygame 开发语言
之前已经使用pygame制作了一款简易的俄罗斯方块，最近学习了python的GUI编程，也就进行了实操了一下，用PyQt5制作了一下。1.俄罗斯方块的形状：S、Z、T、L、反向L、直线、方块，每个形状都由4个方块组成，方块最终都会落到屏幕底部。2.操作:左键:左移右键:右移上键:向左旋转下键:向右旋转D键:加速下落空格键:直接掉落到底部P键:暂停3.完整代码如下:#!/usr/bin/python
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
基于Python的Google Patents专利数据爬取实战：从入门到精通 Python爬虫项目 2025年爬虫实战项目 python 开发语言爬虫 scrapy selenium
摘要本文将详细介绍如何使用Python构建一个高效的GooglePatents专利爬虫，涵盖最新技术如Playwright浏览器自动化、异步请求处理、反反爬策略等。文章包含完整的代码实现、性能优化技巧以及数据处理方法，帮助读者全面掌握专利数据采集技术。1.引言在当今知识经济时代，专利数据已成为企业技术研发、市场竞争分析的重要资源。GooglePatents作为全球最大的专利数据库之一，收录了来自全
Python游戏开发实战：打造高仿俄罗斯方块掌机坦克大战
引言在那个电子游戏刚刚兴起的年代，俄罗斯方块掌机上的坦克大战承载着无数玩家的童年记忆。简单的像素画面、紧张刺激的战斗、精准的操作反馈，这些元素构成了一个经典的游戏体验。今天，我们将用Python和pygame库来重新诠释这个经典游戏，不仅要还原其精髓，更要在技术实现上进行创新和优化。这个项目不仅仅是一个简单的游戏复刻，更是一次完整的游戏开发实践。从游戏架构设计到用户体验优化，从碰撞检测算法到动态难
Python 代码生成 LaTeX 数学公式：latexify 示例 examples
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。latexify示例本notebook提供了多个使用latexify的示例。更多细节请参阅官方文档。如有任何疑问，请在issuetracker中提出。安装latexify#运行下方示例前请先重启运行时。%pipinstalllatexify-pyCollectinglatexify-pyDownloadi
fdata = fp.read()ValueError: read of closed file 什么意思 whale fall python进阶 python
这个错误提示ValueError:readofclosedfile意味着你尝试从一个已经关闭的文件对象中读取数据。在Python中，当你打开一个文件后，文件需要保持打开状态才能进行读取或者写入操作。如果你关闭了文件（例如使用file.close()或者文件对象自动关闭），再尝试读取就会触发这个错误。要避免这个错误，可以确保在文件关闭之前读取文件，或者使用with语句来自动管理文件的打开和关闭。例如
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他