中杯可乐多加冰

图像处理黑科技—破解文档识别难题（PS检测、弯曲拉平、切边切片、摩尔纹）

一、文档识别难题

我们通过视觉、听觉、触觉、嗅觉来认知周围环境客观物体。眼睛是我们探测周围物体光线的接收器，它探测了物体的明暗、颜色、形状和空间关系，人类对世界的感知 80% 是通过眼睛获取，相比听觉和触觉来说，视觉更有冲击力。

利用眼睛理解外部事物的过程通常就是视觉感知，视觉感知是人工智能当中特别重要的问题之一，在视觉感知中，文档文字识别是非常重要的计算机视觉技术，因为文字是我们感知这个世界最重要的手段，文字可以说是人类文明的标志，是信息交流的途径，学习知识的重要渠道，是记录历史、思想、文化的载体。

我们把 OCR 比做 AI 技术的一双慧眼，帮助人工智能看清所有需要处理的文字内容、符号信息，然而目前低质文档图像的识别问题似乎已经成为 AI 技术落地中的瓶颈，文档图像作为一种非结构化数据，其分析识别面临一些技术难点：

低质文档图像难以识别：图文混合、区域形状不规则、变形文档质量退化严重，如下图产生了极大的摩尔纹，为图像识别带来极大困难；
场景文本的文字检测及版面分析困难：自然场景图像的背景复杂、光照和拍照视角变化、文本行方向和形状变化、字体风格和颜色变化等,，如下图手机拍照时角度倾斜，视角奇葩，文本准确定位提取非常困难；
无法检测过滤 PS 技术篡改：身份证、护照、行驶证、驾驶证、港澳通信证等证照类别，及增值税发票、普通发票、小票、合同等文档篡改后无法检测出是否真实，PS 智能检测在反欺诈、合规风控等领域意义重大。如下图证件修改过字和有效期数字，这为识别带来了新的困难;

二、技术分析

2.1、切边切片增强

2.1.1、技术介绍

目前自带的数码相机已经成为了手机等移动设备的标准配置，这些数字成像设备经常被用来拍摄各种文本图像，由于拍摄习惯，取景需求等的不同，用户拍摄到的文本图像，一般是包含有背景的，而用户需要的图像，通常是去掉了背景区域的图像。在票据识别、PPT 拍摄、名片识别、文稿备份时就需要用到切边切片技术。如下图所示：切边后图像可以更好的展示并提升下游任务(OCR 识别，信息抽取等)的准确率。

2.1.2、原理分析

对普通图像的切边切片的步骤如下：1.加载图像；2.对图像进行灰度化；3.边缘检测；4.轮廓发现；5.找出符合目标的最大外接矩形，并使用矩形的四个坐标点绘制线；6 切除 ROI（感兴趣区域）；7.显示 ROI 区域。

对旋转图像的切边切片的步骤如下：1.加载原图；2.对图像进行灰度化；3.边缘检测；4.轮廓发现；5.找出图像旋转角度（a.找出旋转矩形的最大宽和最大高 b.找出这个目标矩形的旋转角度及旋转矩形。c.把此矩形绘制出来）；6.根据图片中心点及旋转角度，制作目标旋转矩阵；7.利用仿射变换 + 第 6 步的旋转矩阵实现最终的旋转（仿射变换在图像还原、图像局部变化处理方面有重要意义）；8.显示最终图像。

仿射变换是指在向量空间中进行一次线性变换和一次平移变换到另一个向量空间的过程，仿射变换可以通过一系列的原子变换的复合来实现，包括：平移、旋转和翻折；缩放、错切。没有平移或者平移量为 0 的所有仿射变换都可以叫线性变换，线性变换可以用如下变换矩阵描述：

$\left[\begin{array}{l} x^{\prime} \\ y^{\prime} \end{array}\right]=\left[\begin{array}{ll} a & b \\ c & d \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]$

不同变换对应的 a,b,c,d 约束不同，可以看上式，比如尺度变换的约束 a 就是 α，约束 d 就是 β，b 和 c 为 0，这样 x‘=αx，y’=βy 就是将图像沿着 x 轴放缩 α 倍，沿 y 轴放缩 β 倍。

而为了涵盖平移变换，需要给矩阵加一个维度,如下：

$\left[\begin{array}{l} x^{\prime} \\ y^{\prime} \\ 1 \end{array}\right]=\left[\begin{array}{lll} a & b & c \\ d & e & f \\ 0 & 0 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \\ 1 \end{array}\right]$

对应的约束有:a,b,c,d,e,f，即具有 6 个自由度，不同基础变换的 a,b,c,d,e,f 约束不同。平移变换时，b=0，d=0，a=1，b=1，c=λ，f=θ，那么 x‘=x+λ，y‘=y+θ，就是将图像沿 x 轴平移 λ 位，将图像沿 y 轴平移 θ 位。

为了使图像能够旋转，我们加入了三角函数，最终的矩阵变换我们定义为：

$\left[\begin{array}{ccc} s \cos (\theta) & -s \sin (\theta) & t_{x} \\ s \sin (\theta) & s \cos (\theta) & t_{y} \\ 0 & 0 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \\ 1 \end{array}\right]=\left[\begin{array}{l} x^{\prime} \\ y^{\prime} \\ 1 \end{array}\right]$

最终的仿射变换就是线性变换和平移变换如此叠加而来的，仿射变换能够给予图片放缩、旋转、平移、偏移等几何变换功能。

2.2、弯曲矫正拉平

2.2.1、技术介绍

不同于平面扫描仪获得的文档图像，由手持镜头拍照得到的文档图像往往含有几何形变以及环境背景的干扰。这会使得现有文档信息抽取和内容分析系统的性能下降。如纸张的内容歪斜扭曲，部分纸张本身就不平整，存在过折叠、皱纹的畸变问题且本身厚度造成拍照过程中存在的图像的弯曲畸变。如下图所示形变矫正后图像能够更好的展示，并能显著提升下游任务(OCR 识别，版面分析/还原等)的准确率。

2.2.2、原理分析

DocUNet：具有中间监督的堆叠图像解扭曲网络

DocUNet 依赖于卷积神经网络（CNN）进行端到端图像恢复。模型由两个 U-Net 组成。其中，U-Net 是一个完全卷积网络，它包含一系列下采样层和一系列上采样层。特征图在下采样层和上采样层之间连接。然而，单个 U-Net 的输出无法完成工作，受连续预测和渐进精化工作的启发，文章将另一个 U-Net 作为精化器叠加在第一个 U-Net 的输出端。第一个 U-Net 在最后一个反褶积层之后分裂，而第一个 U-Net 和中间预测 y1 的反卷积特征被连接在一起作为第二个 U-Net 的输入。第二个 U-Net 最终给出精确的预测。

DewarpNet：使用堆叠的 3D 和 2D 回归网络对单图像文档进行解扭曲

DewarpNet 由两个子网络组成：形状网络和纹理映射网络。此外，文章还提出了一个用于光照效果调整的后处理增强细化网络，该模块可以在视觉上改善未旋转的图像。

形状网络：将此回归任务表述为图像到图像的转换问题。形状网络将 I 的每个像素转换为 3D 坐标图，C∈ Rh×w×3，其中每个像素值（X，Y，Z）对应于文档形状的 3D 坐标。在设计形状网络时，文章使用跳连接的 U-Net 型编码器-解码器架构。

纹理映射网络：以三维坐标映射 C 为输入，输出后向映射 B。在纹理映射网络中，采用了一种多 DenseNet 块的编解码结构。

细化网络：作为后处理组件以调整校正图像中的照明效果。该网络不仅提高了结果的感知质量，而且提高了 OCR 性能。文章利用 Doc3D 数据集中的额外地面真实信息（即表面法线和反照率地图）来训练细化网络。细化网络有两个 U-Net 型编码器解码器：一个用于预测曲面法线 N∈ ×3 给定输入图像 I；另一个以 I 和对应的 N 作为输入并估计阴影图 S∈ Rh×w×3.S 描述阴影强度和颜色。

2.3、摩尔纹去除

2.3.1、技术介绍

当感光元件像素的空间频率与影像中条纹的空间频率接近时，可能产生一种新的波浪形的干扰图案，即所谓的摩尔纹，最形象来说，我们用手机拍摄电脑、电视上的画面，或者拍摄条纹和格子的衣服时，拍出来的照片上总是有奇奇怪怪的彩色条纹，这些纹理由摩尔效应引起的。摩尔效应是一种特殊的光学现象，它是两条线或两个物体之间以固定的角度和频率发生干涉后产生的视觉效果。如下图所示：

而摩尔纹去除，可以帮助消除屏幕纹对画质的干扰，提高图像、文字清晰度，如下图运用摩尔纹去除网络后，图像质量明显提升：

2.3.2、原理分析

基于多分辨率卷积神经网络的摩尔纹图像恢复

网络架构如上图所示，其中包括不同分辨率的多个并行分支，图像输入为 2562563，使用非线性激活函数 + 卷积核。可以看到：

（1）网络中不采用池化层，通过步长为 2 的卷积核来代替池化操作。

（2）下采样过程中大量使用 3*3 卷积核，步长为 1。

（3）在反卷积过程中，增大了图像分辨率，生成 3 通道像素图，最后通过叠加完成输出。

顶部的分支以输入图像的原始分辨率处理特征映射，而其他分支处理越来越粗糙的特征映射。每个分支中的前两个卷积层形成一个组，在所有分支的前两个卷积层之后生成的特征图可以堆叠在一起以形成倒置金字塔。金字塔使用非线性“滤波器”（即卷积核 + 非线性激活函数）计算。然后通过将输入图像转换为不同分辨率的多个特征图，在输入图像中显示不同级别的细节。更重要的是，在网络中，每个分辨率都与一个网络分支相关联，其中六个堆叠卷积层保持相同的分辨率。这样的网络分支能够执行复杂的非线性变换（例如去除特定频带内的摩尔纹），并且比 U-Net 中的跳过连接（Skip Connection）更强大。

在每个分支内，前两层的输出特征图被馈送到级联卷积层序列中。这些卷积层保持相同的输入和输出分辨率，并且不执行任何下采样或池操作。他们负责消除与该分支的特定频带相关的莫尔效应的核心任务，另外在这个序列中放置了多个卷积层（通常为 5 个），每个卷积层具有 3×3 个核和 64 个通道。

为了将所有并行分支的变换结果组合到一个完整的输出图像中，需要将级联卷积层生成的特征图的分辨率提高到除第一个分支外的每个分支内输入图像的原始分辨率。在从顶部开始的第 i 个分支中，模型使用一组 i−1 个反卷积层来实现这一目标。每个反卷积层使输入分辨率加倍。在每个分支内的反褶积层之后有一个额外的卷积层。这个额外的层生成一个只有 3 个通道的特征图。该特征图基本上消除了与该分支的频带相关联的摩尔图案（在输入图像中）的分量。最后，来自所有分支的最终 3 通道特征图被简单地相加在一起，以产生去除莫尔纹图案的最终输出图像。

三、黑科技体验

日前举行的 2022 中国图像图形大会《ocr 前沿技术与产业应用》论坛上，合合信息公司自然语言算法研发总监丁凯博士介绍的该公司智能文字识别及图像处理技术，被参加论坛的中科院、北京大学、联想研究院等顶尖科研机构的专家，一致认为是破解难题的“钥匙”。

经过体验，合合信息公司智能文字识别及图像处理技术，通过引入ai（人工智能）技术，能够帮助各应用领域简化下游文档处理任务，提升文字识别效率与准确性。

笔者在研究图像处理时也深入体验了一次他们的黑科技。

3.1、功能介绍

官网提供了高精准度的智能文字识别引擎及场景化产品，支持多种部署方式，可以帮助提升文档处理流程的效率。包括证件识别、图像切边切片、PS 检测、自动擦除手写文章、去除摩尔纹、图像矫正、水印去除、文档转换等等。

下面我们挑选最感兴趣的文档图像切边矫正和 PS 检测进行体验。

3.2、文档图像切边矫正

文档图像切边矫正功能可以智能定位图像中文档主体的边缘，并进行背景切除 (文档提取)，对形变文档进行矫正。

官网提供了 API 调用的接口和文档：

请求 URL：https://api.textin.com/ai/service/v1/dewarp

HTTP 请求方法：HTTP POST

请求头说明（Request Header）

URL 参数

请求体说明（Request Body）

Content-Type: application/octet-stream

要上传的图片，目前支持 jpg, png, bmp, pdf, tiff, 单帧 gif 等大部分格式.

响应体说明（Response Data）

Content-Type: application/json。JSON 结构说明如下：

JSON结构示例

{
    "code": 200,
    "message": "success",
    "version": "0.2.0",
    "duration": 100,
    "result": {
        "image": "iVBORw0KGgoAAAANSUhEUgAAEIAAABYA"
    }
}

于是，我们可以使用 html 代码调用接口：




    
    服务集成演示



上传文件

我们使用一副倾斜角度的图像进行测试：

上传图片后，显示成功调用 API，JSON 对象返回如下，message：success 表示成功，result image 表示的是修正后的图像的 base64 表示。

我们使用

img src="data:image/jpeg:base64,+‘返回的base64字符串’ "

解码 base64 格式的字符串，得到图像，发现调用成功，图像被成功矫正了

3.2、PS 检测

另外一个很牛的就是 PS 检测系统，基于行业领先的自研篡改检测系统，可判断图片是否被篡改，支持身份证、护照、行驶证、驾驶证、港澳通信证等证照类别，及增值税发票、普通发票、小票、合同等文档类别。

网站提供了丰富的 API 调用接口和文档

请求 URL：https://api.textin.com/ai/service/v1/manipulation_detection

HTTP 请求方法：HTTP POST

请求头说明（Request Header）

URL 参数

请求体说明（Request Body）

Content-Type: application/octet-stream

要上传的图片，目前支持 jpg, png, bmp, pdf, tiff, webp, 单帧 gif 等大部分格式

响应体说明（Response Data）

JSON 结构说明如下：

JSON结构示例

{
    "code": 200,
    "message": "success",
    "version": "1.0.1",
    "duration": 100,
    "result": {
        "image_width": 1024,
        "image_height": 1024,
        "image_property": {
            "ps": {
                "image": "/9j/4AAQSkZJRgABAQAAAQABAAD/2wBD",
                "is_tampered": 1,
                "positions": [
                    [
                        38,
                        88,
                        42,
                        8,
                        42,
                        12,
                        38,
                        12
                    ],
                    [
                        48,
                        88,
                        52,
                        8,
                        52,
                        12,
                        48,
                        12
                    ]
                ]
            }
        }
    }
}

这次我们使用 java 代码调用接口：

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.io.IOException;

public class Main {
    public static void main(String[] args) throws Exception {
        // PS检测
        String url = "https://api.textin.com/ai/service/v1/manipulation_detection";
        // 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id
        // 示例代码中 x-ti-app-id 非真实数据
        String appId = "c81f*************************e9ff";
        // 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code
        // 示例代码中 x-ti-secret-code 非真实数据
        String secretCode = "5508***********************1c17";
        BufferedReader in = null;
        DataOutputStream out = null;
        String result = "";
        try {
            byte[] imgData = readfile("example.jpg"); // image
            URL realUrl = new URL(url);
            HttpURLConnection conn = (HttpURLConnection)realUrl.openConnection();
            conn.setRequestProperty("connection", "Keep-Alive");
            conn.setRequestProperty("Content-Type", "application/octet-stream");
            conn.setRequestProperty("x-ti-app-id", appId);
            conn.setRequestProperty("x-ti-secret-code", secretCode);
            conn.setDoOutput(true);
            conn.setDoInput(true);
            conn.setRequestMethod("POST"); // 设置请求方式
            out = new DataOutputStream(conn.getOutputStream());
            out.write(imgData);
            out.flush();
            out.close();
            in = new BufferedReader(
                    new InputStreamReader(conn.getInputStream(), "UTF-8"));
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
            System.out.println("发送 POST 请求出现异常！" + e);
            e.printStackTrace();
        }
        finally {
            try {
                if (out != null) {
                    out.close();
                }
                if (in != null) {
                    in.close();
                }
            } catch (IOException ex) {
                ex.printStackTrace();
            }
        }
        System.out.println(result);
    }
    public static byte[] readfile(String path)
    {
        String imgFile = path;
        InputStream in = null;
        byte[] data = null;
        try
        {
            in = new FileInputStream(imgFile);
            data = new byte[in.available()];
            in.read(data);
            in.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
        return data;
    }

}

同样，我们使用一张被 PS 篡改过后的图像进行测试，调用接口运行后，返回 json 为：

我们打开 imageproperty，查找 ps 中的 is_tampered，代码显示为 1，即表明检测到这幅图像被 PS 修改过，返回 image 图像为检测到修改的地方的图像。

四、总结

经过技术分析，目前低质文档图像的识别问题似乎已经成为 AI 技术落地中的瓶颈，文档图像作为一种非结构化数据，其分析识别确实存在不少技术难点。

合合信息专注于智能文字识别、图像处理、自然语言处理（NLP）、知识图谱、大数据挖掘等技术。基于自主研发的领先的智能文字识别及商业大数据核心技术，为全球 C 端用户和多元行业 B 端客户提供数字化、智能化的产品及服务。

合合信息 C 端产品方面的落地非常成熟，扫描全能王（智能扫描及文字识别 APP）、名片全能王（智能名片及人脉管理 APP）、启信宝（企业商业信息查询 APP）这些耳熟能详的产品覆盖了全球百余个国家和地区的亿级用户；

而 B 端业务如合合旗下智能文字识别服务平台 TextIn，为面向企业客户提供以智能文字识别、商业大数据为核心的服务，形成了包括基础技术服务、标准化服务和场景化解决方案的业务矩阵，满足客户降本增效、风险管理、智能营销等多元需求。

在体验过程中，TextIn 智能文字识别引擎可以从图像和 PDF 文档中提取印刷、手写、印章、公式、表格、图片等富文本信息，支持 50+ 多语言识别，众多文档类型，包括商业文件、发票、账单、收据、名片和海报。在财务共享系统中可以从混贴的发票中切分、分类、提取字段信息，支持发票中错行、倾斜、重叠、遮挡、形变、光照不均等复杂场景；在证件识别系统中支持 13 类国家证件识别，覆盖个人和企业所需的 200+ 种证件识别；在人机结合系统中实现精准 100% 识别，远超越人类的辨识度；此外引擎提供了丰富的方便的 API 调用方法和文档，且在通用场景中平均 1s 处理完一张文本图像，用起来非常便捷迅速。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
鲁西南方言杂谈-麻胡一两茶叶
《汉语词典》给“麻胡”的解释是“拼音máhú，传说中人名。说法不一，以残暴著称。民间习用以恐吓小儿。谓貌丑而多须者。”的意思；《国语辞典》也给出其“传说中的坏人，用来吓唬啼哭中的小孩。也称为‘麻虎子’、‘马虎子’。唐代李匡义《资暇集．卷下．非麻胡》俗怖婴儿曰：‘麻胡来！’不知其源者，以为多髯之神而验刺者，非也。隋将军麻祜，性酷虐，炀帝令开汴河，威棱既盛，至稚童望风而畏，互相恐吓曰：‘麻祜来！’稚童
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?