百度大脑

截屏就可以转文字？飞桨带您体验OCR超轻量中英文识别模型

【飞桨开发者说】陈千鹤，华中科技大学计算机科学与技术学院大一在读

任务背景

目前很多实用小工具都趋向收费模式，即使免费，不是功能不完整，就是有很多约束条件，在应用时效果无法达到我们的预期。于是我萌生一个想法：结合自己学习的计算机技术和开源的AI算法，尝试动手实现一些常用小工具，而不再仅依赖商业软件的限制。

机缘巧合，我了解到百度飞桨开源了OCR超轻量中英文识别模型，该模型才8.6M，对内存要求小，预测速度快，可以很方便的在CPU上实现模型预测，甚至可实现在手机上部署，于是我决定利用这个模型开发一个截图取字的任务。大体思路如下：

第一步：截取需要识别的图像，作为模型输入。在截图过程中，需要实现鼠标框选区域截图，并将图片以数据流的形式在程序中使用，无需保存文件；
第二步：利用飞桨OCR超轻量中英文识别模型进行预测，它的优势是模型小、精度高；
第三步：将模型预测结果以.txt格式存储，并自动呈现内容。

在实现过程中关键点一是截图，二是对OCR模型的运用。从模型预测效果看，通过OCR模型识别出来的文本信息与源文本基本完全一致，如下图所示。

那什么是OCR呢？对于背景不熟悉的同学，在这里简单给大家背下书。

通常情况下，我们可以根据OCR的应用场景差异将其划分为专用OCR和通用OCR。

专用OCR是指对特定场景进行设计和优化，以达到最好的效果展示，比较典型的应用如：证件识别、车牌识别。

而通用OCR是指在更多、更复杂的场景下，可以拥有比较好的泛性。在这个过程中由于场景的不确定性，如：图片背景丰富、亮度不均衡、光照不均衡、残缺遮挡、文字扭曲、字体多样等等问题，都会给OCR识别会带来极大的挑战。

飞桨开源的OCR模型集成在PaddleHub中，通过chinese_text_detection_db_server或者chinese_text_detection_db_mobile两个OCR中文识别Module，可以实现一键文字识别。更多OCR原理可以参考如下链接：

https://aistudio.baidu.com/aistudio/projectdetail/507159

文字识别任务操作过程

重点来了，下面我将详细介绍下截图取字任务的操作过程，感兴趣的小伙伴可以一起试试。

第一步：图像截取，作为模型输入数据

Python中有很多可以实现截图的库或者函数，如：

Python调用windows API实现屏幕截图：灵活、速度快，但是写法繁琐、不跨平台；
使用PIL的ImageGrab模块：速度慢，不太适合做即时截图；
Selenium截图：仅支持对Web（网页）截图。

但是上述三种方法仅能实现全屏截图或指定区域截图，而我们需要在鼠标框选范围截图，因此我采用重写PyQt5库的部分类实现截图功能。

PyQt5是一套Python绑定Digia QT5应用的框架，可用于Python 2和Python 3。PyQt5做为Python的一个模块，有620多个类和6000个函数和方法，是一个跨平台的工具包。可以运行在所有主流操作系统，如：UNIX、Windows、Mac OS。官网地址如下：

http://www.riverbankcomputing.co.uk/news。

想要实现鼠标框选范围截图，只需要把鼠标框选的起点和终点坐标传给Grab即可。那么如何获取鼠标框选的起点和终点呢？我们可以通过调用PyQt5并继承QWidget实现。

在代码演示前，先介绍下Qwidget的常用操作，如：点击鼠标、拖动&绘制截图框、释放鼠标，对应函数如下：

keyPressEvent(self, event)：键盘响应函数
paintEvent(self, event)：UI绘制函数
mousePressEvent(self, event)：鼠标点击事件
mouseMoveEvent(self, event)：鼠标移动事件
mouseReleaseEvent(self, event)：鼠标释放事件

当然了，这部分有现成的轮子，可以直接使用，获取路径如下：

https://github.com/ianzhao05/textshot?u=5722964389&m=4508439520834016&cu=3655689037

class Snipper(QtWidgets.QWidget):
    def __init__(self, parent=None, flags=Qt.WindowFlags()):
        super().__init__(parent=parent, flags=flags)

        self.setWindowTitle("")
        self.setWindowFlags(
            Qt.FramelessWindowHint | Qt.WindowStaysOnTopHint | Qt.Dialog
        )

        self.setWindowState(self.windowState() | Qt.WindowFullScreen)
        self.screen = QtGui.QScreen.grabWindow(
            QtWidgets.QApplication.primaryScreen(),
            QtWidgets.QApplication.desktop().winId(),
        )
        palette = QtGui.QPalette()
        palette.setBrush(self.backgroundRole(), QtGui.QBrush(self.screen))
        self.setPalette(palette)

        QtWidgets.QApplication.setOverrideCursor(QtGui.QCursor(QtCore.Qt.CrossCursor))

        self.start, self.end = QtCore.QPoint(), QtCore.QPoint()

    def keyPressEvent(self, event):
        if event.key() == Qt.Key_Escape:
            QtWidgets.QApplication.quit()

        return super().keyPressEvent(event)

    def paintEvent(self, event):
        painter = QtGui.QPainter(self)
        painter.setPen(Qt.NoPen)
        painter.setBrush(QtGui.QColor(0, 0, 0, 100))
        painter.drawRect(0, 0, self.width(), self.height())

        if self.start == self.end:
            return super().paintEvent(event)

        painter.setPen(QtGui.QPen(QtGui.QColor(255, 255, 255), 3))
        painter.setBrush(painter.background())
        painter.drawRect(QtCore.QRect(self.start, self.end))
        return super().paintEvent(event)

    def mousePressEvent(self, event):
        self.start = self.end = QtGui.QCursor.pos()
        self.update()
        return super().mousePressEvent(event)

    def mouseMoveEvent(self, event):
        self.end = QtGui.QCursor.pos()
        self.update()
        return super().mousePressEvent(event)

    def mouseReleaseEvent(self, event):
        if self.start == self.end:
            return super().mouseReleaseEvent(event)

        self.hide()
        QtWidgets.QApplication.processEvents()
        shot = self.screen.copy(QtCore.QRect(self.start, self.end))
        processImage(shot)
        QtWidgets.QApplication.quit()


def processImage(img):

    buffer = QtCore.QBuffer()
    buffer.open(QtCore.QBuffer.ReadWrite)
    img.save(buffer, "PNG")
    pil_img = Image.open(io.BytesIO(buffer.data()))
    buffer.close()



if __name__ == '__main__':

    QtCore.QCoreApplication.setAttribute(Qt.AA_DisableHighDpiScaling)
    app = QtWidgets.QApplication(sys.argv)
    window = QtWidgets.QMainWindow()
    snipper = Snipper(window)
    snipper.show()
    sys.exit(app.exec_())

第二步：利用OCR模型进行预测，识别图片文字

在文字识别阶段，我使用飞桨OCR超轻量中英文识别模型。该模型同时支持中英文识别；支持倾斜、竖排等多种方向文字识别。值得推荐的是，当前该模型已经集成到飞桨PaddleHub中，通过预训练模型chinese_ocr_db_crnn_server或chinese_ocr_db_crnn_mobile即可实现一键预测。对于深度学习零基础的用户来讲，在操作上还是非常友好的。

更多OCR模型操作介绍可以参考如下链接：

https://www.paddlepaddle.org.cn/hub/scene/ocr

1. 将截取的图片传入模型。

import os
os.environ['HUB_HOME'] = "./modules"
from PyQt5 import QtCore, QtGui, QtWidgets
from PyQt5.QtCore import Qt
from PIL import Image
import io
import sys
import numpy as np
import paddlehub as hub


class Snipper(QtWidgets.QWidget):
    def __init__(self, parent=None, flags=Qt.WindowFlags()):
        super().__init__(parent=parent, flags=flags)

        self.setWindowTitle("TextShot")
        self.setWindowFlags(
            Qt.FramelessWindowHint | Qt.WindowStaysOnTopHint | Qt.Dialog
        )

        self.setWindowState(self.windowState() | Qt.WindowFullScreen)
        self.screen = QtGui.QScreen.grabWindow(
            QtWidgets.QApplication.primaryScreen(),
            QtWidgets.QApplication.desktop().winId(),
        )
        palette = QtGui.QPalette()
        palette.setBrush(self.backgroundRole(), QtGui.QBrush(self.screen))
        self.setPalette(palette)

        QtWidgets.QApplication.setOverrideCursor(QtGui.QCursor(QtCore.Qt.CrossCursor))

        self.start, self.end = QtCore.QPoint(), QtCore.QPoint()

    def keyPressEvent(self, event):
        if event.key() == Qt.Key_Escape:
            QtWidgets.QApplication.quit()

        return super().keyPressEvent(event)

    def paintEvent(self, event):
        painter = QtGui.QPainter(self)
        painter.setPen(Qt.NoPen)
        painter.setBrush(QtGui.QColor(0, 0, 0, 100))
        painter.drawRect(0, 0, self.width(), self.height())

        if self.start == self.end:
            return super().paintEvent(event)

        painter.setPen(QtGui.QPen(QtGui.QColor(255, 255, 255), 3))
        painter.setBrush(painter.background())
        painter.drawRect(QtCore.QRect(self.start, self.end))
        return super().paintEvent(event)

    def mousePressEvent(self, event):
        self.start = self.end = QtGui.QCursor.pos()
        self.update()
        return super().mousePressEvent(event)

    def mouseMoveEvent(self, event):
        self.end = QtGui.QCursor.pos()
        self.update()
        return super().mousePressEvent(event)

    def mouseReleaseEvent(self, event):
        if self.start == self.end:
            return super().mouseReleaseEvent(event)

        self.hide()
        QtWidgets.QApplication.processEvents()
        shot = self.screen.copy(QtCore.QRect(self.start, self.end))
        processImage(shot)
        QtWidgets.QApplication.quit()


def processImage(img):

    buffer = QtCore.QBuffer()
    buffer.open(QtCore.QBuffer.ReadWrite)
    img.save(buffer, "PNG")
    pil_img = Image.open(io.BytesIO(buffer.data()))
    buffer.close()

    np_images = [np.array(pil_img)]

    results = ocr.recognize_text(
        images=np_images,  # 图片数据，ndarray.shape 为 [H, W, C]，BGR格式；
        use_gpu=False,  # 是否使用 GPU；若使用GPU，请先设置CUDA_VISIBLE_DEVICES环境变量
        output_dir='ocr_result',  # 图片的保存路径，默认设为 ocr_result；
        visualization=True,  # 是否将识别结果保存为图片文件；
        box_thresh=0.5,  # 检测文本框置信度的阈值；
        text_thresh=0.5)  # 识别中文文本置信度的阈值；

    text = []

    for result in results:
        data = result['data']
        save_path = result['save_path']
        for infomation in data:
            print('text: ', infomation['text'], '\nconfidence: ', infomation['confidence'], '\ntext_box_position: ',
                  infomation['text_box_position'])
            text.append(str(infomation['text']) + '\n')

    print(text)

2. 加载预训练模型，进行预测。

if __name__ == '__main__':
    # 加载移动端预训练模型
    # ocr = hub.Module(name="chinese_ocr_db_crnn_mobile")
    # 服务端可以加载大模型，效果更好
    ocr = hub.Module(name="chinese_ocr_db_crnn_server")

    QtCore.QCoreApplication.setAttribute(Qt.AA_DisableHighDpiScaling)
    app = QtWidgets.QApplication(sys.argv)
    window = QtWidgets.QMainWindow()
    snipper = Snipper(window)
    snipper.show()
    sys.exit(app.exec_())

从预测结果看，输出信息中每一行文字的置信度都达到了0.96以上，可见飞桨OCR模型的效果是非常棒的。

第三步：预测结果以.txt形式自动呈现。

    text = []

    for result in results:
        data = result['data']
        save_path = result['save_path']
        for infomation in data:
            print('text: ', infomation['text'], '\nconfidence: ', infomation['confidence'], '\ntext_box_position: ',
                  infomation['text_box_position'])
            text.append(str(infomation['text']) + '\n')

    print(text)
    with open('data.txt', 'w') as f:
        for i in text:
            f.write(str(i))

    os.system(r'data.txt')

从模型预测效果看，通过OCR模型识别出来的文本信息与源文本基本完全一致。

相关参考

结果很有趣吧，大家也可以尝试识别其他图片信息，效果同样值得期待：）在科技的快速发展之下，基于OCR识别技术，则能实现图片文字信息的快速识别。它可以解决综合文字识别、视频文字识别、证件识别、票据识别、车牌Vin码识别、银行卡识别、云识别等多种费时费力的问题，使我们的生活更加便捷。

截图&OCR项目地址：

https://github.com/chenqianhe/screenshot_and_ocr

如果您想使用自定义数据训练超轻量模型，可以参考8.6M超轻量模型的打造方式，从PaddleOCR提供的基础算法库中选择适合自己的文本检测、识别算法，进行自定义的训练。PaddleOCR提供了详细的训练和模型串联指导：

https://github.com/PaddlePaddle/PaddleOCR/blob/develop/doc/customize.md

如在使用过程中有问题，可加入飞桨官方QQ群进行交流：703252161。

如果您想详细了解更多飞桨的相关内容，请参阅以下文档。

更多PaddleOCR的应用方法，欢迎访问项目地址：

GitHub:

https://github.com/PaddlePaddle/PaddleOCR

Gitee:

https://gitee.com/PaddlePaddle/PaddleOCR

官网地址：

https://www.paddlepaddle.org.cn

飞桨开源框架项目地址：

GitHub:

https://github.com/PaddlePaddle/Paddle

Gitee:

https://gitee.com/paddlepaddle/Paddle

END

Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
谷歌Gemini 3大模型发布，AI领域再掀波澜！广拓科技人工智能
在人工智能的浩瀚宇宙中，每一次重大突破都如同一颗璀璨的新星，照亮我们对未来的想象。而近期，谷歌发布的Gemini3大模型，无疑是其中最为耀眼的存在，它在AI领域激起的波澜，迅速蔓延至全球科技圈，引发了广泛关注与热烈讨论。随着AI技术的迅猛发展，我们已经见证了众多令人惊叹的创新成果。从智能语音助手到图像识别技术，从自动驾驶汽车到医疗诊断辅助系统，AI正以前所未有的速度改变着我们的生活和工作方式。在这
数值类型自学引导 Ssaty. python 前端数据库
第1关：计算边长为整数的正方形面积任务描述本关任务：编写一个能计算正方形面积的小程序。相关知识为了完成本关任务，你需要掌握：1.输入函数2.字符串转整数3.数值运算4.输出函数#输入一个正整数，以其数值为正方形的边长，计算并输出正方形的面积width=int(input())print(width**2
JavaScript性能优化指南：聚焦DOM操作优化桃木山人技术杂谈 javascript 性能优化开发语言
引言：性能优化的关键路径在Web应用开发中，JavaScript性能直接影响用户体验。虽然存在多种优化手段，但DOM操作优化往往能带来最显著的性能提升。本文将以DOM操作为核心展开深入分析，并简要概述其他优化方向。核心优化：DOM操作性能提升1.问题根源分析浏览器渲染引擎与JavaScript引擎独立运作，频繁的DOM操作会导致：重排（Reflow）：计算元素几何属性重绘（Repaint）：更新元
大语言模型的潜力是否被高估 dev.null AI #NLP 语言模型人工智能机器学习
关于大语言模型（LLM）的潜力是否被高估，目前学术界和产业界存在显著分歧。以下从技术能力、应用局限性和未来发展方向三个方面综合分析：一、技术能力的争议：潜力与局限并存对现实世界的理解与模拟MIT的研究表明，LLM在训练过程中可能自发形成对现实世界的内部模拟。例如，通过解决卡雷尔编程谜题（KarelPuzzle），模型在没有直接接触环境信息的情况下，正确率从初始的随机指令提升至92.4%，并展现出对
正则表达式大神乔伊工具正则表达式
前言如果你学会了，可以忽略本文章，或去项目经验地图寻找更多答案原则1.找规律2.不要追求完美3.思考：什么开头？什么结束？什么类型？多少位数？什么范围？出现次数？语法一：对象写法letreg=newRegExp(/\d{5}/)letreg=newRegExp("\\d{5}")letstr='我的号码是12345'console.log(reg.test(str))//true二：字面量方式：l
态势感知产品通用的一些安全场景设计 sinfoyou 安全开发语言
互联网网络攻击类类别序号名称互联网络攻击类1识别DDOS攻击2web高频攻击3外网主机发起特定端口扫描4webshell攻击5xss攻击检测6SQL注入检测7网站挂马1.1识别DDOS攻击场景描述DDoS攻击通过大量合法的请求占用大量网络、系统资源，以达到瘫痪网络、系统的目的。这种攻击方式可分为以下几种：通过使网络过载来干扰甚至阻断正常的网络通讯；通过向服务器提交大量请求，使服务器超负荷；阻断某
max_samples，batch_size，gradient_accumulation_steps这三个分别的联系和区别背太阳的牧羊人模型微调 batch 机器学习人工智能
这三个参数都是控制训练数据如何被处理的，它们的作用和区别如下：1.max_samples（最大样本数）定义：限制每个数据集最多使用多少条数据。作用：控制总共参与训练的数据量，减少max_samples可以加快训练速度。你的代码示例：max_samples=300#每个数据集最多用300条样本解释：假设你的dataset里包含：identity数据集有10,000条数据alpaca_en_demo数
LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr 一个处女座的程序猿 CaseCode NLP/LLMs 精选(人工智能)-中级 Colossal LLaMA-2 自然语言处理
LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于jsonl文件中读取新词列表(新中文词汇)→for循环去重实现词表的扩展(中文标记的新词汇)→保存新的分词模型、(init_model.py文件)实现过计算均值来扩展模型的嵌入层以适应新的词汇表，然后保存扩展后的模型、(prepare_pretrain_dataset.py文件)将原始数据集进行处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插一个处女座的程序猿 NLP/LLMs 精选(人工智能)-中级 Colossal-AI LLaMA-2 大语言模型自然语言处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点/Flash-Attention/设置数据类型/是否加载预训练模型/从上一次训练点继续训
论零信任架构在现代网络安全中的变革性作用烁月_o9 安全 web安全网络
论零信任架构在现代网络安全中的变革性作用摘要本文深入探讨零信任架构（ZTA）在网络安全领域的关键地位与创新价值。通过分析传统网络安全模型的局限性，阐述ZTA的核心原则、技术组件及实践应用，揭示其在应对复杂多变的网络威胁时，如何重塑安全理念与防护模式，为保障组织数字资产安全提供前瞻性的策略与方法。一、引言在数字化浪潮席卷全球的当下，网络边界的模糊性使传统基于边界防御的安全模型捉襟见肘。零信任架构应运
Linux安全与密钥登录指南 gkfkfhk linux 安全运维
目录Linux安全概述密钥登录的配置生成密钥对配置SSH密钥登录查看登录日志限制IP访问设置IP封禁允许特定IP访问查看系统可登录的账号1.Linux安全概述Linux系统安全主要依赖于控制访问权限、监控异常行为以及进行安全配置。通过适当的登录方式和访问限制，可以有效避免未经授权的访问。密钥登录是一种更安全的认证方式，避免了明文密码的风险。而登录日志和IP限制则可以帮助我们识别和防御潜在的入侵。2
小凯的疑惑(数论 ) vir02 算法数据结构 c++
#includeusingnamespacestd;typedeflonglongll;intmain(){//请在此输入您的代码lla,b;cin>>a>>b;llN=a*b-a-b;cout<<N;return0;}如果a和b互素，那么a*b-a-b是最大无法被表示的金额
ollama+qwq小试牛刀 llm
序本文主要演示一下ollama运行QwQ-32B模型步骤pullollamapullqwqpullingmanifestpullingc62ccde5630c...100%▕███████████████████████████████████████████████████████████████████████████████████████████████████████▏19GBpulli
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
独立开发经验谈：我是如何借助 Docker 环境变量让客户 1 分钟上线客服系统的
我在业余时间开发了一款自己的独立产品：升讯威在线客服与营销系统。陆陆续续开发了几年，从一开始的偶有用户尝试，到如今线上环境和私有化部署均有了越来越多的稳定用户，在这个过程中，我也积累了不少如何开发运营一款独立产品的经验。我之前写过一篇文章，介绍如何用Docker让潜在客户快速体验你的独立产品。有朋友看到这篇文章之后，试用了产品并且给了我新的建议：用Docker环境变量让试用更方便。在此感谢这位xj
【DuodooTEKr】基于Python+OCR+DeepSeek的英国购物小票识别系统开发实战邹工拆解甲方需求风吟九宵 Odoo18开源 Duodoo开源人工智能物联网制造开源 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月11日本方案从甲方信息化负责人视角，分析梳理现状，并给出代码开发案例。一、行业现状与痛点分析1.英国零售业数字化现状根据英国零售协会（BRC）2023年度报告显示：英国年均纸质小票签发量达78亿张87%的企业仍采用人工录入方式处理小票数据零售业每年因小票管理产生的直接成本超12亿英镑2.传统小票管理痛点数据孤岛问题：门店POS系统、财务系
ARM SVC指令小米人er 我的博客 arm开发
在ARM汇编中，SVC（SupervisorCall）指令用于从用户模式切换到特权模式（如Supervisor模式），以便执行操作系统内核提供的服务。它通常用于系统调用。具体作用触发异常：执行SVC指令时，处理器会进入Supervisor模式，并跳转到异常向量表中的SVC异常处理程序。传递参数：SVC指令后的立即数可作为参数传递给异常处理程序，帮助识别具体的系统调用。语法SVC#是一个24位的立即
Nginx、LVS、HAProxy 的区别和优缺点青年夏日科技 nginx 运维
Nginx、LVS、HAProxy是目前使用最广泛的三种负载均衡软件，本人都在多个项目中实施过，通常会结合Keepalive做健康检查，实现故障转移的高可用功能。1）在四层（tcp）实现负载均衡的软件：lvs------>重量级nginx------>轻量级，带缓存功能，正则表达式较灵活haproxy------>模拟四层转发，较灵活2）在七层（http）实现反向代理的软件：haproxy----
18、企业级服务-JMS 跟着汪老师学编程 java 开发语言 java-ee
JavaMessageService(JMS)一.引言JavaMessageService(JMS)是Java平台上用于实现消息orientedmiddleware（消息中间件）的标准API。它为企业级应用中的异步通信提供了一种高效、灵活且可靠的方式，允许不同的系统组件之间通过发送和接收消息进行通信，而无需直接依赖彼此的实现细节。JMS支持两种主要的消息模型：点对点（Point-to-Point，
在 MacOS 上安装 Flutter：M1、M2 和 M3 芯片指南知识大胖 Flutter开发教程大全 macos flutter
简介Flutter是一个强大的跨平台开发框架，但在搭载M1、M2或M3芯片的Mac上设置它可能比您想象的要复杂得多。在本指南中，我将引导您完成整个过程，重点介绍我最初遇到的步骤，以帮助您避免同样的陷阱。推荐文章《Flutter应用中的GooglePay和ApplePay集成应用中的支付(教程含源码)》权重2，支付类《Flutter技巧之在Flutter中使一行按钮具有相同的宽度》《Flutter教
数据结构与算法——数据结构4 写代码写到手抽筋数据结构与算法数据结构
程序员没有稳定一说，目前学习数据结构，其实不难，最近在学习，系统性的总结下，便于后续复习和使用。主要是把线性表，全名为线性存储结构。使用线性表存储数据的方式可以这样理解，即“把所有数据用一根线儿串起来，再存储到物理空间中”。分为顺序表和单链表。顺序表单链表同时还要知道顺序表和链表的优缺点【待补充】还要知道链表反转，知道迭代法和递归法就可以【】还需要知道单链表相交的思路【】后边了解静态链表的原理静态
（大模型微调大模型学习路线大模型入门）_大模型学习，吹爆！2025最详细的大模型学习路线已整理！手把手带你高效入门，大模型论文全打通！大模型老炮学习人工智能大模型学习 AI 大模型大模型微调大模型教程
一、初聊大模型1、什么是大模型？大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问
牛客练习赛135——小柒的逆序对(2) KyollBM 算法数据结构
这里还得说一下，调换一个排列中任意两个不同的数，该排列的逆序数奇偶会改变题目：思路：这道题的数据给的很大，如果我们用树状数组维护前缀和都没用，但是我们观察到英文字符只有26个，那我们可以开一个二维数组g[i][j]表示ij字符对有多少个如何维护这个数组呢，其实也很简单，遍历s每个字符c，同时开一个数组储存26个字符对于字符c，先遍历26个字符y，将g[y][c]加上y的个数，结束后再将c的数量加一
国产 DeepSeek V3 被秒成“前浪“？谷歌开放最强 Gemini 2.0 全家桶：速度快60倍，上下文还长16倍！ Bryan Ding 人工智能深度学习
谷歌向所有人发布了Gemini2.0——迄今为止谷歌“功能最强大”的人工智能模型套件。1谷歌Gemini2.0向所有人开放去年12月，谷歌发布Gemini2.0Flash的实验版本，正式开启了代理型AI的新时代。Gemini2.0Flash是谷歌为开发者群体打造的高效主力模型，具有低延迟、高性能等优势。今年早些时候，谷歌在GoogleAIStudio中更新了2.0FlashThinkingExpe
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
CESM1.2.1移植使用说明 ༊.枕星＇听光.ঌ 人工智能 linux
文章目录概述环境配置cesm1_2_1配置部分环境软件压缩包改变CLM陆面模式结果文件的输出变量、特征值及频率小结概述记录用户如何在Linux系统上移植CESM1.2.1模型，并且使用CLM4.5模式创建并单点模拟算例I_2000_CLM45。环境配置1.更新系统软件源2.更新系统安装软件安装git、make、python等。3.安装MPI(openmpi4.1.5)//下载并解压进入文件夹wge
C++基础调用堆异常路奇怪 C++基础 c++
目录跨平台（C++23环境下）windows下可以极大地帮助解决在开发人员系统上无法重现的客户问题，并且调用了一个通用函数，您不知道它的调用者，因为它们很多。必须为客户提供一个可执行文件和一个使用该可执行文件构建的pdb，才能获得正确的调用堆栈。pdb文件包含调试符号。您不能提供稍后从同一代码构建的pdb。当我们构建可执行文件时，每个函数都有一个地址偏移量。pdb基于这些偏移量。再次生成二进制文件
[Pytorch] Error:module ‘torch‘ has no attribute ‘logical_and‘ 江南蜡笔小新杂记 pytorch 深度学习神经网络
最近学习的模型用到了这个逻辑与的操作，Pytorch1.3.x报错。查阅官方文档，只有logical_not和logical_xor的实现。但在1.9的文档中有logical_and遂查阅相关更新，得知logical_and在1.5之后的新功能，pytorch更新到>=1.5即可解决问题。1.3.1搜索结果1.5.1搜索结果
一文讲清楚CUDA与PyTorch、GPU之间的关系平凡而伟大. 编程语言人工智能架构设计 pytorch 人工智能 python
CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的一个并行计算平台和编程模型。它允许软件开发人员和研究人员利用NVIDIA的GPU（图形处理单元）进行高性能计算。CUDA提供了一系列API和工具，使得开发者能够编写和优化在GPU上运行的计算密集型任务。CUDA与PyTorch、GPU之间的关系可以这样理解：1.CUDA与GPU：GPU：是一种专门用于
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

截屏就可以转文字？飞桨带您体验OCR超轻量中英文识别模型

第一步：图像截取，作为模型输入数据

你可能感兴趣的:(截屏就可以转文字？飞桨带您体验OCR超轻量中英文识别模型)