盼小辉丶

Keras深度学习实战（37）——手写文字识别

- 0. 前言
- 1. 手写文字识别相关背景
- - 1.1 Connectionist temporal classification (CTC)
  - 1.2 解码 CTC
  - 1.3 计算 CTC 损失值
- 2. 模型与数据集分析
- - 2.1 数据集分析
  - 2.2 模型分析
- 3. 实现手写文字识别模型
- - 3.1 数据集加载与预处理
  - 3.2 手写文字识别模型构建与训练
- 小结
- 系列链接

0. 前言

当前越来越多的场景需要将手写体的文字转换为电子格式，手写体识别成为人机交互最便捷的手段之一，拥有广泛的应用前景。在识别图像中手写文字(即转录手写文本图像)的问题中，我们需要同时处理图像数据和顺序数据，这是由于因为图像中的内容需要按顺序进行转录。在本节中，我们使用 Keras 库融合卷积神经网络 (Convolutional Neural Networks, CNN) 和循环神经网络 (Recurrent Neural Network, RNN) 实现深度学习手写识别模型。

1. 手写文字识别相关背景

在传统的手写文字识别方法中，设计的解决方案通常需要人工参与。例如：在图像上使用滑动窗口，窗口大小是字符的平均大小，以便可以检测每个字符，然后输出它检测到的具有较高置信度的字符。然而，窗口的大小或滑动窗口数量需要进行人工确认。因此，这本质上属于一个特征工程问题。
为了使用端到端的方法，降低人工时间成本，我们可以通过卷积神经网络 (Convolutional Neural Networks, CNN) 提取图像特征，然后将这些特征作为输入传递给循环神经网络 (Recurrent Neural Network, RNN) 的各个时间时间戳，以便在各个时间戳提取输出。因此，我们将组合使用 CNN 和 RNN，通过这种方式解决手写文字识别问题，我们不必人工构建特征，只需要优化模型得到 CNN 和 RNN 的最佳参数。

1.1 Connectionist temporal classification (CTC)

使用传统方法，执行手写文字识别或语音转录等监督学习任务时，我们必须提供图像的哪个部分包含某个字符的标签或音频的哪个子段包含某个音素(多个音素组合形成一个单词发音)。
但是，在构建数据集时，为图像中的每个字符或语音中的每个音素提供标签的成本过高，因为在数据集往往需要转录数万个单词或数千小时的语音。
当我们不能提供图像的不同部分与不同字符之间的映射时，使用 Connectionist temporal classification (CTC) 可以方便地解决此问题。接下来，我们将详细介绍 CTC 损失函数。

1.2 解码 CTC

假设我们正在转录包含文本 ab 的图像。示例图像如下，字符 a 和 b 之间的具有不同长度的空格，但输出标签均为 ab：

我们可以将这些图像样本分割为多个时间戳，如下所示，其中每个方框代表一个时间戳，因此可以看到共有六个时间戳：

预测每个时间戳的输出，其中每个时间戳的 softmax 输出是整个词汇表中每个字母的类别概率，则第一张关于 ab 图片的每个时间戳的输出如下：

在上图中的 - 表示空白。此外，如果图像的特征通过双向长短时记忆网络 (Long Short-Term Memory, LSTM) 传递，第 3 和第 4 时间戳的输出可能均为 b，因为在执行双向 LSTM 时，下一个时间戳中的信息也会影响上一个时间戳的输出。在最后一步中，压缩所有在连续时间戳中具有相同值的 softmax 输出，因此此样本最终输出为：-a-b-。
如果图像的标签为 abb，则我们期望在两个 b 之间有一个 -，这样连续的 b 就不会被压缩为一个。

1.3 计算 CTC 损失值

如果要计算 CTC 损失值，我们考虑下图中的情形，图中的圆圈中提供了在给定时间戳内不同字符类别的概率，可以看到，在从 t0 到 t5 的每个时间戳内概率之和均为 1：

为了简单起见，我们考虑以下情况：图片标签为 a 而不是 ab，且输出只有 3 个时间戳而不是 6 个时间戳，输出结果如下所示：

下表列出了在每个时间戳中的经过 softmax 激活函数后的输出概率，我们都可以得到输出标签 a：

每个时间戳的输出	时间戳1中的字符概率	时间戳2中的字符概率	时间戳3中的字符概率	组合概率	最终概率
–a	0.8	0.1	0.1	0.8x0.1x0.1	0.008
-aa	0.8	0.9	0.1	0.8 x 0.9 x 0.1	0.072
aaa	0.2	0.9	0.1	0.2 x 0.9 x 0.1	0.018
-a-	0.8	0.9	0.8	0.8 x 0.9 x 0.8	0.576
a-a	0.8	0.9	0.1	0.8 x 0.9 x 0.1	0.072
a–	0.2	0.9	0.8	0.2 x 0.1 x 0.8	0.016
aa-	0.2	0.1	0.8	0.2 x 0.9 x 0.8	0.144
总概率	-	-	-	-	0.906

从前面的结果中，我们可以获得标签a的总概率为 0.906，·CTC·损失是总概率的负对数，即 $- l o g (0.906) = 0.04$ 。由于在每个时间戳中具有最高概率的字符的组合预测了标签 a，因此 CTC 损失接近于零。

2. 模型与数据集分析

在本节中，我们将学习转录手写图像，以便提取图片中存在的文本。手写图片样本如下所示：

在上图中，手写字符的长宽尺寸并不相同，而图像的尺寸也是不同的，字符之间的间距也是不同的，且图像的清晰度也不尽相同。在本节中，我们将学习如何结合使用 CNN，RNN 和 CTC 损失函数来转录手写文本图片样本。

2.1 数据集分析

本文使用 IAM 手写数据集训练手写文字识别模型，IAM 手写数据集包含手写英文文本，可用于训练和测试手写文本识别模型。该数据集中包含不同类型的手写文本形式，这些文本是 300dpi 分辨率的扫描件，并保存为 256 级灰度 PNG 图像，下图是一些数据集 words.tgz 中的样本图片：

数据集中的字符是使用自动分割算法从扫描件中提取，并经过人工验证。同时，数据集 xml.tgz 中包含 XML 文件，每个 XML 文件都记录了一系列手写文本图片的相关信息，包括文件名、图片中的字符等。
该数据集可从以下链接下载：https://pan.baidu.com/s/1ZzwFs7FI-lcZk0pI0pjjKQ，提取码: 9e4x。

2.2 模型分析

在实现手写文字识别模型前，我们首先介绍用于转录手写文本图片的模型策略流程：

下载手写文字图像数据集：
- 获取上述手写文本图像数据集以及与图像相对应的文本标签
将所有图像调整为相同大小 —— 32 x 128
调整大小时，我们还应确保图片的纵横比：
- 这是为了确保图像看起来不会非常模糊，因为我们首先需要将原始图像的尺寸更改为 32 x 128
- 我们将在不改变纵横比的情况下调整图像大小，然后将其叠加在 32 x 128 空白图像上
反转图像的颜色，使背景变为黑色，手写文本内容转变为白色
缩放图像像素值，使像素值的区间在 0 到 1 之间
对输出标签进行预处理：
- 提取输出中的不重复的字符
- 为每个字符分配一个索引
- 计算输出标签的最大长度，确保我们预测的时间戳数大于输出标签的最大长度
- 通过填充图像标签文本，确保所有输出的输出长度相同
将预处理后的图片传入 CNN 网络，提取到的特征形状为 32 x 256
将 CNN 提取的特征输入到双向 GRU 层(其中 GRU 可以理解为简化版本的 LSTM)，以便可以提取相邻时间戳中的信息
32 个时间戳中的 256 个特征中的每一个都是相应时间戳的输入
输出通过一个全连接层，全连接层的输出值形状等于不同字符的总数，填充值-也是字符集之一，用于表示字符之间的空格或图片空白部分的填充
在 32 个输出时间戳上提取 softmax 值及其对应的输出字符

3. 实现手写文字识别模型

接下来，我们使用 Keras 实现上一小节介绍的手写文字识别策略。

3.1 数据集加载与预处理

首先下载并解压文本图片和 XML 标注数据集，其中包含了手写文本的图像及其相应的标签数据。

(1) 创建用于调整图片大小而不会改变其宽高比的函数，由于我们将图像尺寸统一为 32 x 128，因此需要填充图片，以使所有图片都具有相同的形状：

import os, cv2, xmltodict
import matplotlib.pyplot as plt
import numpy as np
from copy import deepcopy
import collections

def extract_img(img):
    target = np.ones((32,128))*255
    new_shape1 = 32/img.shape[0]
    new_shape2 = 128/img.shape[1]
    final_shape = min(new_shape1, new_shape2)
    new_x = int(img.shape[0]*final_shape)
    new_y = int(img.shape[1]*final_shape)
    img2 = cv2.resize(img, (new_y,new_x ))
    target[:new_x,:new_y] = img2[:,:,0]
    target[new_x:,new_y:]=255
    return 255-target

在以上代码中，我们创建空白图片 target，然后对图片进行了调整以保持其宽高比。最后，我们将缩放后的图片置于空白图像 target 之上，并反转图像颜色，将背景转为黑色。

(2) 读取图片及其标签，并将其存储在列表中：

# 数据集目录
xmls_root ="xml/"
jpegs_root = "words/"

XMLs = os.listdir(xmls_root)

x_train = []
x_new = []
y_train = []
for i in XMLs:
    xml_file = os.path.join(xmls_root, i)
    with open(xml_file, 'rb') as f:
        d = xmltodict.parse(f, xml_attribs=True)
        for line in d['form']['handwritten-part']['line']:
            for word in line['word']:
                if type(word) == collections.OrderedDict:
                    try:
                        text = word['@text']
                        file_id = word['@id']
                        tmp = file_id.split('-')
                        tmp1 = tmp[0]
                        tmp2 = tmp[0] + '-' + tmp[1]
                        file_name = os.path.join(jpegs_root, tmp1, tmp2, file_id)
                        file_name = file_name + '.png'
                        img = cv2.imread(file_name)
                        img = extract_img(img)
                        x_new.append(img)
                        x_train.append(x_new)
                        y_train.append(text)
                    except:
                        continue

在以上代码中，我们读取每张图片，并根据我们定义的函数对其进行预处理，预处理后的图像样本示例如下：

(3) 计算输出标签中不重复的字符数量，打印计算结果，可以看到共有 79 个不同字符：

import itertools
list2d = y_train
charList = list(set(list(itertools.chain(*list2d))))
print(len(charList))
# 79

(4) 创建输出目标标签，将每个字符的索引存储在输出列表中，如果输出尺寸小于 32 个字符，则将其填充使用空白值 - 进行填充，由于不重复字符索引为 0-78，因此可以假设空白值索引为 79；同时，存储实际标签长度(文本标签的实际情况)以及输入长度(大小固定为 32)：

y2 = []
input_lengths = np.ones((num_images,1))*32
label_lengths = np.zeros((num_images,1))
for i in range(num_images):
    val = list(map(lambda x: charList.index(x), y_train[i]))
    while len(val)<32:
        val.append(79)
    y2.append(val)
    # 标签长度
    label_lengths[i] = len(y_train[i])
    # 输出长度
    input_lengths[i] = 32

(5) 将输入和输出转换为 NumPy 数组：

x_train = np.asarray(x_new[:num_images])
y2 = np.asarray(y2)
x_train = x_train.reshape(x_train.shape[0],x_train.shape[1],x_train.shape[2],1)

3.2 手写文字识别模型构建与训练

(1) 定义目标值，首先初始化 32 维全 0 数组，32 为我们将要使用的批大小，我们期望批数据中的每个样本的损失值均为 0：

outputs = {'ctc': np.zeros([32])}

(2) 定义 CTC 损失函数，将预测值、标签、实际标签长度和输出长度作为输入，计算 CTC 损失：

import keras.backend as K
def ctc_loss(args):
    y_pred, labels, input_length, label_length = args
    return K.ctc_batch_cost(labels, y_pred, input_length, label_length)

(3) 定义模型，基于 CNN 将尺寸为 32 x 128 的图片转换尺寸为 32 x 256 特征图：

from keras.preprocessing.text import Tokenizer
from keras.layers import Dense, Input, Activation
from keras.layers import MaxPooling2D,Conv2D, Reshape, GRU, TimeDistributed, Lambda
from keras.models import Model
import random
from keras import backend as K
from keras.layers.merge import add, concatenate

input_data = Input(name='the_input', shape = (32, 128,1), dtype='float32')
inner = Conv2D(32, (3,3), padding='same')(input_data)
inner = Activation('relu')(inner)
inner = MaxPooling2D(pool_size=(2,2),name='max1')(inner)

inner = Conv2D(64, (3,3), padding='same')(inner)
inner = Activation('relu')(inner)
inner = MaxPooling2D(pool_size=(2,2),name='max2')(inner)

inner = Conv2D(128, (3,3), padding='same')(input_data)
inner = Activation('relu')(inner)
inner = MaxPooling2D(pool_size=(2,2),name='max3')(inner)

inner = Conv2D(128, (3,3), padding='same')(inner)
inner = Activation('relu')(inner)
inner = MaxPooling2D(pool_size=(2,2),name='max4')(inner)

inner = Conv2D(256, (3,3), padding='same')(inner)
inner = Activation('relu')(inner)
inner = MaxPooling2D(pool_size=(4,2),name='max5')(inner)

inner = Reshape(target_shape = ((32,256)), name='reshape')(inner)

(4) 接下来，继续定义模型体系结构，将从 CNN 提取的图像特征传递到 GRU：

gru_1 = GRU(256, return_sequences = True, name = 'gru_1')(inner)
gru_2 = GRU(256, return_sequences = True, go_backwards = True, name = 'gru_2')(inner)

mix_1 = add([gru_1, gru_2])

gru_3 = GRU(256, return_sequences = True, name = 'gru_3')(inner)
gru_4 = GRU(256, return_sequences = True, go_backwards = True, name = 'gru_4')(inner)

然后，我们将两个 GRU 的输出串联起来，以便我们同时考虑双向 GRU 和正常 GRU 提取到的特征：

merged = concatenate([gru_3, gru_4])

接下来，我们将 GRU 输出的特征通过一个全连接层传递，并应用 softmax 以获取 80 个可能的类别概率输出，其包含 79 个不重复的字符和 1 个空白填充词：

dense = TimeDistributed(Dense(80))(merged)
y_pred = TimeDistributed(Activation('softmax', name='softmax'))(dense)

在以上代码中，TimeDistributed 可以应用一个 layer 到每个时间戳，例如，上例将 Dense 层应用于每个时间戳上，数据形状由 (batch size, 32, 512) 变为 (batch size, 32, 80)。

(5) 初始化计算 CTC 损失所需的变量，包括预测字符、实际标签、输入长度和实际标签长度，作为 CTC 损失函数的输入：

from keras.optimizers import Adam
Optimizer = Adam()
# 实际标签
labels = Input(name = 'the_labels', shape=[32], dtype='float32')
# 输入长度
input_length = Input(name='input_length', shape=[1],dtype='int64')
# 实际标签长度
label_length = Input(name='label_length',shape=[1],dtype='int64')
# 预测标签
output = Lambda(ctc_loss, output_shape=(1,),name='ctc')([y_pred, labels, input_length, label_length])

(6) 利用以上初始化的输入(需要多个输入)、输出构建模型，并编译：

model = Model(inputs = [input_data, labels, input_length, label_length], outputs= output)

model.compile(loss={'ctc': lambda y_true, y_pred: y_pred}, optimizer = Optimizer)

构建完成的模型架构如下所示：

(7) 创建输入和输出向量：

x_train = np.array(x_train[:num_images])/255
x_train = x_train.reshape(x_train.shape[0],x_train.shape[1],x_train.shape[2],1)
y2 = np.array(y2[:num_images])
y2 = np.asarray(y2)

input_lengths = input_lengths[:num_images]
label_lengths = label_lengths[:num_images]

(8) 在多个 epoch 中拟合模型。每次采样多张照片，将其转换为一个数组后，拟合模型以优化 CTC 损失为 0：

l_train = []
l_test = []

for i in range(5000):
    samp=random.sample(range(x_train.shape[0]-1000),32)

    x3=[x_train[i] for i in samp]
    x3 = np.array(x3)
    y3 = [y2[i] for i in samp]
    y3 = np.array(y3)
    input_lengths2 = [input_lengths[i] for i in samp]
    label_lengths2 = [label_lengths[i] for i in samp]

    input_lengths2 = np.array(input_lengths2)
    label_lengths2 = np.array(label_lengths2)

    inputs = {
        'the_input': x3,
        'the_labels': y3,
        'input_length': input_lengths2,
        'label_length': label_lengths2,
    }

    outputs = {'ctc': np.zeros([32])}
    
    history1 = model.fit(inputs, outputs,
            batch_size = 32,
            epochs=1,
            verbose=1,
            validation_split=0.1)
    if i%10 == 0:
        l_train.append(history1.history['loss'][0])
        l_test.append(history1.history['val_loss'][0])

随着训练 epoch 的增加，训练和测试损失如下：

(9) 预测测试图片的输出，如果某个时间戳的预测字符索引为 79，则丢弃此输出：

model2 = Model(inputs = input_data, outputs = y_pred)

for k in range(-1,-20,-1):

    pred= model2.predict(x_train[k].reshape(1,32,128,1))
    pred2 = np.argmax(pred[0,:],axis=1)
    out = ""
    for i in pred2:
        if(i==79):
            continue
        else:
            out += charList[i]
            #print(charList[i])

    plt.imshow(x_train[k].reshape(32,128), cmap='gray')
    plt.title('Predicted word:  '+out)
    plt.show()

测试样本及其相应的预测结果如下：

小结

手写文字识别是指计算机自动识别手写体汉字、数字、字母和符号等，随着计算机的发展和普及，手写文字识别作为一种高级的人机交互方式在近几十年来引起了人们的广泛关注。本节中，我们介绍了如何组合使用卷积神经网络 (Convolutional Neural Networks, CNN) 和循环神经网络 (Recurrent Neural Network, RNN) 模型解决手写文字识别问题，实现了一个实用的手写英文文字识别系统。

系列链接

Keras深度学习实战（1）——神经网络基础与模型训练过程详解
Keras深度学习实战（2）——使用Keras构建神经网络
Keras深度学习实战（3）——神经网络性能优化技术
Keras深度学习实战（4）——深度学习中常用激活函数和损失函数详解
Keras深度学习实战（5）——批归一化详解
Keras深度学习实战（6）——深度学习过拟合问题及解决方法
Keras深度学习实战（7）——卷积神经网络详解与实现
Keras深度学习实战（8）——使用数据增强提高神经网络性能
Keras深度学习实战（9）——卷积神经网络的局限性
Keras深度学习实战（10）——迁移学习详解
Keras深度学习实战（11）——可视化神经网络中间层输出
Keras深度学习实战（12）——面部特征点检测
Keras深度学习实战（13）——目标检测基础详解
Keras深度学习实战（14）——从零开始实现R-CNN目标检测
Keras深度学习实战（15）——从零开始实现YOLO目标检测
Keras深度学习实战（16）——自编码器详解
Keras深度学习实战（17）——使用U-Net架构进行图像分割
Keras深度学习实战（18）——语义分割详解
Keras深度学习实战（19）——使用对抗攻击生成可欺骗神经网络的图像
Keras深度学习实战（20）——DeepDream模型详解
Keras深度学习实战（21）——神经风格迁移详解
Keras深度学习实战（22）——生成对抗网络详解与实现
Keras深度学习实战（23）——DCGAN详解与实现
Keras深度学习实战（24）——从零开始构建单词向量
Keras深度学习实战（25）——使用skip-gram和CBOW模型构建单词向量
Keras深度学习实战（26）——文档向量详解
Keras深度学习实战（27）——循环神经详解与实现
Keras深度学习实战（28）——利用单词向量构建情感分析模型
Keras深度学习实战（29）——长短时记忆网络详解与实现
Keras深度学习实战（30）——使用文本生成模型进行文学创作
Keras深度学习实战（31）——构建电影推荐系统
Keras深度学习实战（32）——基于LSTM预测股价
Keras深度学习实战（33）——基于LSTM的序列预测模型
Keras深度学习实战（34）——构建聊天机器人
Keras深度学习实战（35）——构建机器翻译模型
Keras深度学习实战（36）——基于编码器-解码器的机器翻译模型

你可能感兴趣的:(深度学习,keras,神经网络)

【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo