EasonChanz

Training端深度学习框架（tensorflow和pytorch）

Training端深度学习框架

文章目录

Pytorch VS Tensorflow
- Google 的 Tensorflow
- Facebook的Pytorch
Pytorch
- Pytorch更“Python”化
- 有用的库
- 轻松实现数据并行
- 移动开发就绪
- 易于调试
- 支持ONNX
- 支持动态计算图
- 强大的社区支持
TensorFlow
- 高度灵活性
- 可移植性
- 科研、产品紧密相联
- 自动求微分
- 多语言支持
- 性能最优化
对比
- 上手时间 -- PyTorch上手快
- **创建图和调试** -- PyTorch
- 覆盖度 -- TensorFlow
- **序列化（serialization）** -- TensorFlow
- 部署 -- TensorFlow
- 数据加载 -- PyTorch
- 设备管理 -- TensorFlow
- **自定义扩展** -- PyTorch
总结

Pytorch VS Tensorflow

Google 的 Tensorflow

TensorFlow 是谷歌的开发者创造的一款开源的深度学习框架，于 2015 年发布。官方研究发布于论文《TensorFlow：异构分布式系统上的大规模机器学习》。

论文地址：http://download.tensorflow.org/paper/whitepaper2015.pdf

TensorFlow 现已被公司、企业与创业公司广泛用于自动化工作任务和开发新系统，其在分布式训练支持、可扩展的生产和部署选项、多种设备（比如安卓）支持方面备受好评。

Facebook的Pytorch

PyTorch 是由 Facebook 的团队开发，并于 2017 年在 GitHub 上开源。有关其开发的更多信息请参阅论文《PyTorch 中的自动微分》。

论文地址：https://openreview.net/pdf?id=BJJsrmfCZ

PyTorch 很简洁、易于使用、支持动态计算图而且内存使用很高效，因此越来越受欢迎。

PyTorch是Torch框架的表亲，Torch是基于lua开发的，在Facebook公司里被广泛使用。然而，PyTorch的出现并不是为了支持流行语言而对Torch进行简单的包装，它被重写和定制出来是为了得到更快的速度和本地化。
TensorFlow由谷歌开发，并且在谷歌公司中广泛地应用于研究和生产需求。它的前身是闭源的DistBelief。

比较这两个框架最好的方法就是用它们编写代码。我专门为这篇文章写了一个jupyter笔记，你可以在这里找到代码，文章涉及到的所有的代码都有。

Pytorch

与 PyTorch 相比，TensorFlow 的学习曲线相对较徒。Python 程序员需要较少的时间即可使用 PyTorch，因为对他们来说，PyTorch 更像是 Python 框架的扩展。简单的调试和一套优秀的简单 API 就能使程序员轻松驾驭 PyTorch。PyTorch 是研究人员的神器，因为事实证明，开发框架的研究人员至少有 70% 都在使用 PyTorch。尽管 TensorFlow 是业界领先的应用开发选择，但它在这方面还没有赶上 PyTorch。这背后的一个原因可能是 PyTorch 的简单易用性和更好的性能。在 TensorFlow 的世界里， PyTorch 能够凭借自己的强项坚守自己。下面是 PyTorch 的一些亮点，解释了为什么 PyTorch 适合深度学习项目。

Pytorch更“Python”化

PyTorch 是一个实用框架，它可以让我们以更 “Python 化” 的方式编写代码。此外，它是使用朴素的 Python 代码所支持的那种动态特性。

与任何其他库相比，PyTorch 更倾向于 Python。这是因为 PyTorch 相对容易理解，而且感觉更自然、更原生，和 Python 代码一致。对于任何使用过 PyTorch 的人来说，比如损失函数、优化器、转换、数据加载器以及更多的类都是非常容易实现的。

每个 PyTorch 示例（计算机视觉和自然语言处理）的代码都有一个共同的结构：

data/
experiments/
model/
    net.py
    data_loader.py
train.py
evaluate.py
search_hyperparams.py
synthesize_results.py
evaluate.py
utils.py

model/net.py：指定神经网络架构、损失函数和评估指标。
model/data_loader.py：指定数据应如何馈送到网络。
train.py：包含主训练循环。
evaluate.py：包含用于评估模型的主循环。
utils.py：用于处理超参数/日志/存储模型的实用功能。

有用的库

pro_gan_pytorch：利用 ProGAN 功能。
BoTorch：使用贝叶斯优化。
ParlAI：用于共享、训练和测试对话模型。
OpenNMT-py：用于实现神经机器翻译系统。
MUSE：用于多语言词嵌入。
skorch：用于将 scikit-learn 代码与 PyTorch 融合。

轻松实现数据并行

PyTorch 中的数据并行（Data Parallel）非常高效，可以将数据分成若干批，然后发送到多个 GPU 进行处理。使用这种技术，PyTorch 可以将很大一部分工作负载从 CPU 转移到 GPU。为了实现数据并行，它使用了 torch.nn.DataParallel 类。

Distributed Data-Parallel（分布式数据并行）是 PyTorch 的一项特性，你可以将其与 Data-Parallel（数据并行）结合使用来处理需要大型数据集和模型的用例，这些数据集和模型对单个 GPU 来说过于庞大。当 GPU 池上的所有任务完成之后，结果将被收集、合并，再由 Data-Parallel 发回给你。

def get_cnn(self, arch, pretrained):
        """Load a pretrained CNN and parallelize over GPUs
        """
        if pretrained:
            print(("=> using pre-trained model '{}'".format(arch)))
            model = models.__dict__[](pretrained=True)
        else:
            print(("=> creating model '{}'".format(arch)))
            model = models.__dict__<a href="">arch

        if arch.startswith('alexnet') or arch.startswith('vgg'):
            model.features = nn.DataParallel(model.features)
            model.cuda()
        else:
            model = nn.DataParallel(model).cuda()

        return model
</a href="">

移动开发就绪

从版本 1.3 开始，PyTorch 就增加了对 Android 和 iOS 设备部署的支持。这一特性，为边缘设备带来了 PyTorch 的所有优势，以满足需要较低延迟的应用。PyTorch mobile 背后的目标是通过支持移动平台的基础 API 来缩短开发周期，从而无需导出到诸如 Caffe2 之类的移动框架。这样可以大大减少设备上的占用空间。此外，为了更好地控制，还增加了对构建脚本的精确调优的支持。

PyTorch Mobile 入门：

Android：https://pytorch.org/mobile/android
iOS：https://pytorch.org/mobile/ios

易于调试

当你可以选择访问每一行，并在每一行后打印的常规方式，PyTorch 调试起来很容易。锦上添花的是，PyTorch 中的对象和操作包含了实际的数据而不是符号引用。PyTorch 的一些标准调试器是：

ipdb
pdb
PyCharm

例如，你可以使用 pdb 的 pdb.set.trace() 函数在代码中放置断点，从而深入到错误的根源。此外，PyTorch 的动态计算图允许在代码执行时进行动态修改和快速调试。

支持ONNX

开放神经网络交换格式（Open Neural Network Exchange，OONX）作为人工智能的开源生态系统，为人工智能程序员提供了一个共同的平台，让他们可以在各种框架、工具和库上进行互换工作。ONNX 通过提供可跨多个框架和硬件工作的标准文件格式来实现这一目标。PyTorch中，ONNX 内置了对 PyTorch 和其他一系列框架的支持，如 Caffe2、MXNet、TensorFlow 等等。ONNX 使开发人工智能的程序员更容易导出和迁移他们的 PyTorch 模型，使之成为其他框架可以集成的开放格式。

import torch.onnx
import torchvision

  dummy_input = torch.randn(1, 3, 224, 224)
  model = torchvision.models.alexnet(pretrained=True)
  torch.onnx.export(model, dummy_input, "alexnet.onnx")

支持动态计算图

通过将每个模型视为有向无环图，PyTorch 提供了一种定义计算图的动态方法。虽然其他框架也允许静态图定义，但 PyTorch 还支持创建动态计算图，你可以随时对其进行操作。从 PyTorch 的动态特性中获益最多的一个元素是递归神经网络。

强大的社区支持

PyTorch 还提供了优秀的社区支持。PyTorch 的主页上就有关于它每个特性的详细文档。对库的所有最新更新都作了很好的解释。对于每个新添加的内容，都可以找到辅导教程和相关资源，易于上手。

下面是一些 PyTorch 开发人员社区、资源和教程，你可以通过这些资源和教程来贡献、学习和解惑：

● PyTorch Discuss form

● PyTorch Slack Community

● PyTorch Examples

● PyTorch Docs

● Github Pytorch Tutorials

● PyTorch Beginner Cheatsheet

● PyTorch Release Notes

● Deep Learning With Pytorch : A 60 Minute Blitz

● Using Tutorial data from Google Drive in Colab

● Docs and Tutorials in Chinese

● Tutorials in Korean

TensorFlow

张量：可理解为一个 n 维矩阵，所有类型的数据，包括标量、矢量和矩阵等都是特殊类型的张量。

TensorFlow 支持以下三种类型的张量：

常量constant：常量是其值不能改变的张量。
变量variable：当一个量在会话中的值需要更新时，使用变量来表示。例如，在神经网络中，权重需要在训练期间更新，可以通过将权重声明为变量来实现。变量在使用前需要被显示初始化。另外需要注意的是，常量存储在计算图的定义中，每次加载图时都会加载相关变量。换句话说，它们是占用内存的。另一方面，变量又是分开存储的。它们可以存储在参数服务器上。
占位符placeholder：用于将值输入 TensorFlow 图中。它们可以和 feed_dict 一起使用来输入数据。在训练神经网络时，它们通常用于提供新的训练样本。在会话中运行计算图时，可以为占位符赋值。这样在构建一个计算图时不需要真正地输入数据。需要注意的是，占位符不包含任何数据，因此不需要初始化它们。

高度灵活性

TensorFlow 不是一个严格的“神经网络”库。只要你可以将你的计算表示为一个数据流图，你就可以使用Tensorflow。你来构建图，描写驱动计算的内部循环。我们提供了有用的工具来帮助你组装“子图”(常用于神经网络)，当然用户也可以自己在Tensorflow基础上写自己的“上层库”。定义顺手好用的新复合操作和写一个python函数一样容易，而且也不用担心性能损耗。当然万一你发现找不到想要的底层数据操作，你也可以自己写一点c++代码来丰富底层的操作。

可移植性

Tensorflow 在CPU和GPU上运行，比如说可以运行在台式机、服务器、手机移动设备等等。想要在没有特殊硬件的前提下，在你的笔记本上跑一下机器学习的新想法?Tensorflow可以办到这点。准备将你的训练模型在多个CPU上规模化运算，又不想修改代码?Tensorflow可以办到这点。想要将你的训练好的模型作为产品的一部分用到手机app里?Tensorflow可以办到这点。你改变主意了，想要将你的模型作为云端服务运行在自己的服务器上，或者运行在Docker容器里?Tensorfow也能办到。

科研、产品紧密相联

过去如果要将科研中的机器学习想法用到产品中，需要大量的代码重写工作。那样的日子一去不复返了!在Google，科学家用Tensorflow尝试新的算法，产品团队则用Tensorflow来训练和使用计算模型，并直接提供给在线用户。使用Tensorflow可以让应用型研究者将想法迅速运用到产品中，也可以让学术性研究者更直接地彼此分享代码，从而提高科研产出率。

自动求微分

基于梯度的机器学习算法会受益于Tensorflow自动求微分的能力。作为Tensorflow用户，你只需要定义预测模型的结构，将这个结构和目标函数(objective function)结合在一起，并添加数据，Tensorflow将自动为你计算相关的微分导数。计算某个变量相对于其他变量的导数仅仅是通过扩展你的图来完成的，所以你能一直清楚看到究竟在发生什么。

多语言支持

Tensorflow 有一个合理的c++使用界面，也有一个易用的python使用界面来构建和执行你的graphs。你可以直接写python/c++程序，也可以用交互式的ipython界面来用Tensorflow尝试些想法，它可以帮你将笔记、代码、可视化等有条理地归置好。当然这仅仅是个起点——我们希望能鼓励你创造自己最喜欢的语言界面，比如Go，Java，Lua，Javascript，或者是R。

性能最优化

比如说你有一个32个CPU内核、4个GPU显卡的工作站，想要将你工作站的计算潜能全发挥出来?由于Tensorflow 给予了线程、队列、异步操作等以最佳的支持，Tensorflow 让你可以将你手边硬件的计算潜能全部发挥出来。你可以自由地将Tensorflow图中的计算元素分配到不同设备上，Tensorflow可以帮你管理好这些不同副本。

对比

上手时间 – PyTorch上手快

PyTorch 本质上是支持 GPU 的 NumPy 替代，配备了可用于构建和训练深度神经网络的更高级的功能。所以如果你熟悉 NumPy、Python 和常用的深度学习抽象（卷积层、循环层、SGD 等），那 PyTorch 就很容易学。
另一方面，则可以将 TensorFlow 看作是一种嵌入 Python 的编程语言。当你编写 TensorFlow 代码时，它会被 Python「编译」成图（graph），然后由 TensorFlow 执行引擎运行。我看到过有些 TensorFlow 新手难以理解这额外增加的间接一层工序。同样因为这个原因，TensorFlow 还有一些需要额外学习的概念，比如会话（session）、图、变量范围和占位符。要让基本的模型跑起来也需要更多样板代码。上手 TensorFlow 的时间肯定会比 PyTorch 长。

创建图和调试 – PyTorch

创建和运行计算图可能是这两个框架差别最大的地方。在 PyTorch 中，图结构是动态的，也就是说图是在运行时创建的。在 TensorFlow 中，图结构是静态的，也就是说图在「编译」之后再运行。举个简单例子，在 PyTorch 中，你可以使用标准的 Python 句法写一个 for 循环：

而且 T 可以在这段代码的执行之间改变。在 TensorFlow 中，这需要在构建图时使用控制流操作（control flow operations），比如 tf.while_loop。TensorFlow 确实有 dynamic_rnn 可用于更常见的结构，但创建自定义的动态计算也更加困难。

PyTorch 简单的图构建方式更容易理解，但也许更重要的是也更容易调试。调试 PyTorch 代码就跟调试 Python 代码一样。你可以使用 pdb，并且可以在任何地方设置断点。调试 TensorFlow 则没这么容易。它有两个选择，一是从会话中请求你想检查的变量，而是学会使用 TensorFlow 调试器（tfdbg）。

覆盖度 – TensorFlow

随着 PyTorch 的发展，这两者之间的差距会缩小至零。但是，TensorFlow 仍然支持一些 PyTorch 并不支持的功能。PyTorch 目前还不具备的特性包括：

沿维度方向的张量翻转（np.flip、 np.flipud、 np.fliplr）
检查张量是否为 NaN 和无穷大（np.is_nan、np.is_inf）
快速傅立叶变换（np.fft）

而 TensorFlow 支持所有这些。另外比起 PyTorch，TensorFlow 的 contrib 包也有远远更多更高级的函数和模型。

序列化（serialization） – TensorFlow

在这两种框架中，保存和加载模型都很简单。PyTorch 有一个非常简单的 API，既可以保存模型的所有权重，也可以 pickle（加工）整个类。TensorFlow 的 Saver 对象也很容易使用，而且也为检查点提供了更多选择。

TensorFlow 在序列化方面的主要优势是整个计算图都可以保存为 protocol buffer。这既包括参数，也包括运算。然后这个图可以用其它支持的语言（C++、Java）加载。对于不支持 Python 的部署环境来说，这是非常重要的功能。而且理论上，这个功能也可以在你修改模型的源代码，但又想运行旧模型时为你提供帮助。

部署 – TensorFlow

对于小型服务器（比如 Flask 网页服务器）上的部署，两种框架都很简单。

TensorFlow 支持移动和嵌入式部署，而包括 PyTorch 在内的很多深度学习框架都没有这个能力。在 TensorFlow 上，要将模型部署到安卓或 iOS 上需要不小的工作量，但至少你不必使用 Java 或 C++ 重写你模型的整个推理部分。

对于高性能服务器上的部署，还有 TensorFlow Serving 可用。对于严重依赖机器学习的服务，TensorFlow Serving 可能就是继续使用 TensorFlow 的充分理由。除了性能方面的优势，TensorFlow Serving 的另一个重要特性是无需中断服务，就能实现模型的热插拔。

数据加载 – PyTorch

PyTorch 的数据加载 API 设计得很好。数据集、采样器和数据加载器的接口都是特定的。数据加载器可以接收一个数据集和一个采样器，并根据该采样器的调度得出数据集上的一个迭代器（iterator）。并行化数据加载很简单，只需为数据加载器传递一个 num_workers 参数即可。
TensorFlow 还没有非常有用的数据加载工具（读取器、队列、队列运行器等等）。部分原因是要将你想并行运行的所有预处理代码加入到 TensorFlow 图中并不总是那么简单直接（比如计算频谱图）。另外，TensorFlow 的 API 本身也更加冗长，学习起来也更难。

设备管理 – TensorFlow

TensorFlow 的设备管理的无缝性能非常好。通常你不需要指定任何东西，因为默认的设置就很好。比如说，TensorFlow 假设如果存在可用的 GPU，你就希望在 GPU 上运行。而在 PyTorch 中，你必须在启用了 CUDA 之后明确地将所有东西移到 GPU 上。

TensorFlow 设备管理的唯一缺陷是它会默认占用所有可用的 GPU 上的所有内存，即使真正用到的只有其中一个。但也有一种简单的解决方案，就是指定 CUDA_VISIBLE_DEVICES。有时候人们会忘记这一点，就会让 GPU 看起来很繁忙，尽管实际上它们啥也没干。

在使用 PyTorch 时，我发现我的代码需要更频繁地检查 CUDA 的可用性和更明确的设备管理。尤其是当编写可以在 CPU 和 GPU 上同时运行的代码时更是如此。另外，要将 GPU 上的 PyTorch Variable 等转换成 NumPy 数组也较为繁琐。

自定义扩展 – PyTorch

这两种框架都可以构建或绑定用 C、C++ 或 CUDA 写的扩展。TensorFlow 还是需要更多样板代码，尽管有人认为它能更简单清晰地支持多种类型和设备。在 PyTorch 中，你只需要简单地为每个 CPU 和 GPU 版本写一个接口和对应实现即可。这两种框架对扩展的编译都很直接，不需要下载 pip 安装之外的任何头文件或源代码。

总结

TensorFlow是一个非常强大非常成熟的深度学习库，具有非常强大的可视化功能，以及有多个可供选择的框架来进行高级模型开发。它具有用于生产的部署选项，以及对移动平台的支持。

开发生产模型
开发需要部署在移动平台上的模型
需要良好的社区支持和齐全的文档
想要各种形式的丰富的学习资源
想要或需要使用Tensorboard（可视化工具）
需要大规模的分布式模型训练

PyTorch仍然是一个年轻的框架，但其发展速度越来越快。它可能会比较适合：

用于研究，或者是用于生产的非功能性需求并不是很苛刻
需要更好的开发和调试体验
所有Python化的东西

python中的dict与set “光光” python
python内置字典：dict支持key-value存储方式，在放进去的时候，必须根据key算出value的存放位置，这样取出来的时候才能根据key拿到value。由于一个key只能对应一个value,所以，多次对一个key放入value,后面的值会将前面的值覆盖掉。如果key不存在，dict就会报错要避免key不存在的错误，有两种方法：1）通过in判断key是否存在>>>d=｛'a':'1'｝>
Python基础---Dict（字典） grace666 Python
1.字典以键值对组成，包含在{}中，字典的键必须为hashable，即不可变（字符串、元组、数字），并且唯一；值可以是任何类型#dict1={[1]:1}#报错：TypeError:unhashabletype:'list'#dict1={{1}:1}#报错：TypeError:unhashabletype:'set'dict1={(1,):1}print(dict1)#{(1,):1}dict1
Markdown 到 PowerPoint 转换工具——md2pptx 伍盛普Silas
Markdown到PowerPoint转换工具——md2pptxmd2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptxmd2pptx是一个开源项目，它可以将Markdown格式的文本转换为PowerPoint演示文稿。该项目主要使用Python编程语言实现。项目基础介绍md2pptx是一个
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
Pytorch实现论文之一种基于扰动卷积层和梯度归一化的生成对抗网络这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能机器学习生成对抗网络神经网络计算机视觉深度学习
简介简介：提出了一种针对鉴别器的梯度惩罚方法和在鉴别器中采用扰动卷积，拟解决锐梯度空间引起的训练不稳定性问题和判别器的记忆问题。论文题目：APerturbedConvolutionalLayerandGradientNormalizationbasedGenerativeAdversarialNetwork（一种基于扰动卷积层和梯度归一化的生成对抗网络）会议：20244thInternationa
Pytorch实现之在LSGAN中结合重建损失这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能 python
简介简介：这篇论文在LSGAN的基础上结合了重建损失来产生通过传统不良数据检测（BDD）机制的人工测量。这篇博客的主要内容是关于实现了重建损失与LSGAN的结合。论文题目：FalseDataInjectionAttacksBasedonLeastSquaresGenerativeAdversarialNetworkswithReconstructionLoss（基于重构损失最小二乘生成对抗网络的虚
Pytorch实现论文：利用推土机距离与梯度惩罚在ACGAN中训练。这张生成的图像能检测吗优质GAN模型训练自己的数据集 pytorch 人工智能深度学习 gan 机器学习生成对抗网络
论文简介论文：ACWGAN-GPformillingtoolbreakagemonitoringwithimbalanceddata（ACWGAN-GP用于铣削工具断裂监视的数据不平衡数据）出处：RoboticsandComputer-IntegratedManufacturing论文摘要：铣削操作过程中的刀具破损监测(TBM)对于确保工件质量和最大限度减少经济损失至关重要。在训练数据充足、分布均
Pytorch实现论文之三元DCGAN生成RGB图像用于红外图像着色生成这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集人工智能 python 生成对抗网络深度学习 pytorch 机器学习计算机视觉
简介简介：采用了三次DCGAN单独生成单通道图像之后进行组成RGB图像放入鉴别器中检测，并在鉴别器和生成器的损失训练中采用梯度方法来提升或者降低权重。该方法将用于获得红外图像着色的生成。论文题目：InfraredImageColorizationbasedonaTripletDCGANArchitecture（基于三元DCGAN架构的红外图像着色）会议：2017IEEEConferenceonCo
python 山脊图_（数据科学学习手札98）纯Python绘制满满艺术感的山脊地图 weixin_39780255 python 山脊图
1简介下面的这幅图可能很多读者朋友们都看到过，这是英国摇滚乐队JoyDivision在1979年发行的其第一张录音室专辑UnknownPleasures的封面，由艺术家PeterSaville基于射电脉冲星信号的数据图创作而成，成为了一种流行文化的符号标志。图1类似图1的风格，在地图制作中也存在着一种山脊地图，基于记录地表海拔信息的高程数据，我们可以利用水平方向上的基于实际位置海拔高度的曲线，来对
【Python 学习 / 5】函数详解（定义、参数、作用域、lambda、内置函数）卜及中 Python基础 python 学习开发语言
文章目录一、函数1.定义函数1.1基本函数定义1.2带参数的函数1.3带返回值的函数2.参数传递2.1位置参数2.2默认参数2.3可变参数2.3.1使用`*args`2.3.2使用`**kwargs`2.4参数的混合使用3.作用域3.1局部和全局变量3.2`global`关键字输出：3.3`nonlocal`关键字输出：4.lambda表达式4.1基本用法4.2与`map()`、`filter()
leetcode简单(181-200)python 九日火 leetcode python
762.PrimeNumberofSetBitsinBinaryRepresentation(e-181)GiventwointegersLandR,findthecountofnumbersintherange[L,R](inclusive)havingaprimenumberofsetbitsintheirbinaryrepresentation.(Recallthatthenumberofs
PaddleOCR面板恢复python脚本--针对pdf的面板恢复 zsh669 paddlepaddle ocr 百度 python pdf
问题在做一个项目的时候，使用PaddleOCR提供的模型，实现对图片或者pdf进行面板恢复，并保存为.docx文档。但是，官方的文档只提供了针对图片进行面板恢复的python脚本，没有提供pdf进行面板恢复的python脚本，官方只提供了pdf面板恢复的命令行使用方法，因此，我去看了PaddleOCR的源码，将命令行方法转换为python脚本准备工作环境配置和文档请参考：\ppstructure/
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
一文读懂！深度学习 + PyTorch 的超实用学习路线 a小胡哦深度学习 python pytorch
深度学习作为人工智能领域的核心技术，正深刻改变着诸多行业。PyTorch则是深度学习实践中备受青睐的框架，它简单易用且功能强大。下面就为大家详细规划深度学习结合PyTorch的学习路线。一、基础知识储备数学基础数学是很重要的！！！线性代数、概率论与数理统计、微积分是深度学习的数学基石。熟悉矩阵运算、概率分布、梯度计算等概念，能帮助理解深度学习模型的原理。例如，在神经网络中，矩阵乘法用于神经元之间的
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
用conda虚拟环境解决py+torch环境问题 SevenZS Note anaconda python
要事先安装wheelpipinstallwheelcondainstallnb_conda安装nb_conda这样可以在shell切换虚拟环境启动jupyternotebook后切换到虚拟环境创建虚拟环境condacreate-npython36python=3.6condaactivatepython36加载后再pip安装torch1.4+cu101所有版本torch放在某个文件夹，比如桌面后p
【报错】ImportError: cannot import name ‘get_refined_artifact_map‘ from ‘basicsr.losses.loss_util‘ 之群害马 python 深度学习 pytorch
ImportError:cannotimportname'get_refined_artifact_map'from'basicsr.losses.loss_util'(xxx/lib/python3.10/site-packages/basicsr/losses/loss_util.py)解决办法：找到basicsr库网站缺失的部分如下，补充到原来的xxx/lib/python3.10/site
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
【自学笔记】机器学习基础知识点总览-持续更新 Long_poem 笔记机器学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录机器学习重点知识点总览一、机器学习基础概念二、机器学习理论基础三、机器学习算法1.监督学习2.无监督学习3.强化学习四、机器学习处理流程五、机器学习常见问题与解决方法六、机器学习应用领域总结机器学习重点知识点总览一、机器学习基础概念定义：机器学习是一种人工智能技术，通过对数据的学习和分析，让计算机系统自动提高其性能。本质：找到
解锁机器学习核心算法 | 逻辑回归：不是回归的“回归” 紫雾凌寒 AI 炼金厂机器学习算法逻辑回归深度学习 python scikit-learn matplotlib
引言前面一篇文章我们介绍了机器学习算法中我们最先会接触到的算法——线性回归：机器学习的基石。今天我们继续学习机器学习中的另一个算法模型——逻辑回归（LogisticRegression）。一、逻辑回归：不是回归的“回归”在机器学习的庞大算法体系中，逻辑回归（LogisticRegression）虽然名字中带有“回归”，但却是一位不折不扣的“分类高手”，主要用于解决二分类问题，在众多领域发挥着关键作
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
采用分布式部署deepseek 慧香一格 AI 学习分布式 deepseek
分布式部署DeepSeek涉及使用多个计算节点来加速模型训练或提升推理效率。下面是一个基本的指南，帮助您了解如何进行分布式部署。1.环境准备硬件需求：确保您的集群环境中有足够的GPU资源，并且所有机器之间可以通过高速网络互联。软件依赖：安装必要的库和工具，如PyTorch、Transformers等。特别地，对于分布式训练，还需要安装torch.distributed或者类似的库支持，例如Horo
深入解析 Poetry：Python 项目依赖管理的新宠，安装、使用及最佳实践潘智祥 python java 人工智能
在Python的世界里，管理项目依赖和虚拟环境一直是一个令人头疼的问题。虽然有pip和virtualenv这样的工具，但随着项目的复杂性增加，它们的局限性也逐渐显露出来。这时候，Poetry作为一个现代化的依赖管理工具应运而生。它不仅解决了项目依赖管理的问题，同时也集成了虚拟环境管理、发布等功能，成为了Python开发者的新宠。Poetry是什么？Poetry是一个用于管理Python项目依赖和构
【JAVA工程师从0开始学AI】，第二步：从强类型到动态语言：Java工程师的Python语法避坑指南架构默片 JAVA工程师从0开始学AI python java windows
这是一篇介绍Python语法与JAVA语法区别文章，让我们以对比的方式，来学习一下Python的语法。首先我们看一下下面的Python代码，和具体在java当中分别代表了什么意思numbers=[1,2,3,4,5,6,7,8,9]#①创建数字列表（像Java的ArrayList，但不用写泛型）odd_numbers=[]#②准备装奇数的空列表（类似Java的newArrayListnumbers
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla