摘要: 从地震数据反演速度模型, DL-FWI 涉及一些核心问题 (也称关键科学问题), 它们需要相应的技术来解决.
拟合能力是指: 使用训练数据 D r = { x i , y i } i = 1 n \mathbf{D}^r = \{\mathbf{x}_i, \mathbf{y}_i\}_{i=1}^{n} Dr={xi,yi}i=1n训练网络 (参数用 Θ \Theta Θ 表示) 后, y i ′ = f ( x i ; Θ ) \mathbf{y}_i' = f(\mathbf{x}_i; \Theta) yi′=f(xi;Θ)与 y i \mathbf{y}_i yi ( 1 ≤ i ≤ n ) (1 \leq i \leq n) (1≤i≤n) 的差距有多大. 差距越小, 拟合能力越好.
当 n n n 较小的时候, 容易出现过拟合, y i ′ \mathbf{y}_i' yi′ 受 Θ \Theta Θ 的影响甚至比受 x i \mathbf{x}_i xi 的影响更大. 在某些论文里面, 输入一个斑马的图片, 甚至也能获得所谓的速度模型, 这事儿就不靠谱.
泛化能力是指: 使用训练数据训练网络后, 在测试数据 D t = { x i , y i } i = n + 1 n ′ \mathbf{D}^t = \{\mathbf{x}_i, \mathbf{y}_i\}_{i=n+1}^{n'} Dt={xi,yi}i=n+1n′上 y i ′ = f ( x i ; Θ ) \mathbf{y}_i' = f(\mathbf{x}_i; \Theta) yi′=f(xi;Θ)与 y i \mathbf{y}_i yi ( n + 1 ≤ i ≤ n ′ ) (n+1 \leq i \leq n') (n+1≤i≤n′)的差距有多大. 差距越小, 泛化能力越好.
这里的测试数据很可能与训练数据不服从同一分布: 它们可以来自不同的工区; 甚至训练数据为人工合成, 而测试数据为现场采集. 泛化能力是绝大多数机器学习应用面对的共同问题.
物理约束是指: 速度模型从物理角度具有合理性. 例如: 除了断裂带, 地质应该有较好的分层. 如果速度模型呈现一种雾状, 则物理约束没得到较好的满足.
注: 这里写得不好, 需要进一步理解后重写.
可用性是指: 结果可用于方便地获得地质构造.
Encoder-decoder 结构用于将原始数据 (如地震数据) 编码 (某种意义的特征提取、数据压缩), 然后解码为目标数据 (如速度模型). 这种方案来自于图像处理, 从 DL-FWI 的角度, 可以看作为是从一种风格 (地震数据) 迁移到另一种风格 (速度模型).
UNet 可以看作是基本 Encoder-decoder 的升级版, 它具有跳跃连接等结构, 能够更好地完成源到目标的映射.
GAN 生成器与判别器构成. 生成器试图获得以假乱真的数据, 判别器则作出数据为真或假的判断.
RNN 是处理时序数据的基本网络操作, 相当于处理图片的 CNN (在 Encoder-decoder 中用到).
LSTM 是长短期记忆网络, 可以看作基本 RNN 的升级. 它使用各种门来完成复杂的操作.
Transformer 具有相当复杂的结构, 也是 ChatGPT 的基础, 后者则走向大模型, 具有更好的通用性, 但同时训练成本只有大公司才能承受.
Deep prior 将自然图像训练的模型进行封装, 以用于其它任务. 由于大千世界内在规律的相似性, deep prior 在很多方面获得了出乎意料的应用.
多任务学习使用支线任务辅助主线任务, 达到约束、正则等效果.
迁移学习是指使用一组数据 (可以认为它们服从相同分布) 进行训练后, 在另一组数据上使用少量数据继续训练, 然后测试. 比如, 中国医生到俄罗斯不能直接行医, 而应该进行进一步的训练, 以适应当地人的特点.
无监督阈自适应学习是指在源域训练模型之后, 在目标域不需要标签就可以训练具有更好预测能力的网络. 它与基本迁移学习的区别在于, 并不需要目标阈数据的标签. 在地震数据中, 希望把人造数据 (模拟数据) 作为源域, 真实数据作为目标域.
PINN 通过对物理规律的建模, 约束神经网络满足相应规律.
Encoder-decoder 致力于保障模型的拟合能力, 但基本的 Encoder-decoder 泛化能力可能较弱.
UNet 致力于保障模型的拟合能力、泛化能力.
GAN 生成器与判别器构成. 生成器试图获得以假乱真的数据, 判别器则作出数据为真或假的判断.