mishidemudong

##haohaohao###Keras中无损实现复杂（多入参）的损失函数

本文基于比较古旧的KERAS=2.1.5版本，运用了最新tf2.0以及tf.keras特性的更好版本请移步我的另一篇文章：

Ziyigogogo：Tensorflow2.0中复杂损失函数实现zhuanlan.zhihu.com

前言

Keras中，直接利用API可以快速的实现一些功能简单的自定义损失函数：

model.compile(loss=YOUR_CUSTOM_LOSS_FUNCTION)

然而任何的简单都是有代价的，通过这个内置方法定义的损失函数有且只能有y_true和y_pred两个入参:

def simple_loss(y_true, y_pred):
    pass

由于Keras的目标是让非编码专业的人士也能接触AI，这样的设计也不是没有道理的，因为这样可以在降低初阶用户使用门槛的同时规避一些乱七八糟的Bug。但是，遵照这样的设计理念(Keras团队原话"as designed"），模型中无法直接获取fit_generator()中传入的target(y_true)，导致复杂损失函数在Keras中的实现稍显麻烦（其实也不难）。不过，为了Keras漂亮的进度条，这点麻烦算什么呢?

背景

在复杂的模型设计中，Loss并不能简单的由y_true和y_pred计算出来，这里，我们用近年来著名的Mask-rcnn来帮助理解(细节其实不用多想，只用注意到需求就可以了)：

粗略的来说，Mask-rcnn是由下面三个部分组成的

1. Backbone

前半部分选择Resnet, Xception等任一工作良好的卷积网络用作Feature提取，后半部分利用 Feature Pyramid Network(FPN) 成多尺度的Feature Map

2. Region Proposal Network (RPN)

根据Feature Map来生成感兴趣区域（ROIs）

3. 并行的两个子网络

ROI Classifier和Bounding Box Regressor 根据RPN提供的ROI中判断并生成最终检测目标的类别（class)与边界框（Bounding box）
Mask卷积网络 用于生成最后的Mask

这是一个包含多个子模型的复杂模型，#3子模型 的损失函数的在y_true和y_pred之外还需要 #2子模型 输出的ROIs作为入参。此时，两个入参（y_true, y_pred）的简单损失函数便无法胜任了。

方法

接下来便开始讲解如何无损的用Keras来构造类似def my_loss(y_true, y_pred, another_input_01, another_input_02, ...)这样的复杂损失函数。这里的无损，指的是相较于苏剑林-科学空间中的方法1，本文所介绍的方法不会损失Keras自带Metrics显示。事实上，本文介绍的方法更像是上述连接中方法的一个完善，但由于本人先受到MatterPort的启发找到解决方法以后再看到的这篇Blog，所以这里便不说是以苏神的想法为参考了。

作为例子，我们首先构造一个简单的网络结构以及一个简单的只有2个参数的自定义loss

from keras import layers as KL
from keras import models as KM

def create_simple_model():
    input_img = KL.Input([64, 64, 3])
    branch1 = KL.Conv2D(64, (3, 3), strides=(4, 4), activation="relu")(input_img)
    branch2 = KL.Conv2D(64, (3, 3), strides=(4, 4), activation="relu")(input_img)
    concat1 = KL.Concatenate()([branch1, branch2])
    deconv1 = KL.Deconv2D(1, (3, 3), strides=(4, 4), activation="relu")(concat1)
    output = KL.Conv2D(1, (1, 1), strides=(1, 1), activation="sigmoid")(deconv1)
    return KM.Model(inputs=input_img, outputs=output)

def my_simple_loss(y_true, y_pred):
    # do what you want here
    return binary_crossentropy(y_true, y_pred)

定义随机生成数据的generator:

import numpy as np

def fake_data_generator(num_samples):
    while (1):
        imgs = np.random.random((num_samples, 64, 64, 3)).astype("float32")
        masks = np.random.random((num_samples, 64, 64, 1)).astype("float32")
        yield imgs, masks

编译模型并开始训练：

train_gen = fake_data_generator(10)
val_gen = fake_data_generator(5)

model = create_simple_model()
model.summary()
model.compile(optimizer="adam", loss=my_simple_loss)
model.fit_generator(
    train_gen,
    epochs=10,
    steps_per_epoch=50,
    validation_data=val_gen,
    validation_steps=5
)

然后Keras经典的实时训练的进度条便出现了：

接下来便是重头戏了，多个入参的复杂损失函数如何实现呢？

我们首先定义这样一个函数，分别用网络中不同层deconv1, output的输出与y_pred分别求不同的loss然后相加得到最后总的loss(hint：把不同的loss结合起来求一个总的loss是一个很常用的技巧,可以综合不同loss的优点，在Data Science Bowl 2018中，第一名的获得者就是使用了加权的dice loss和bce loss最终得到了令人惊讶的成绩。当然，本文这里的2个loss结合的例子并没有什么道理，只是为了介绍方法，请勿生搬硬套)。

from keras.losses import mean_squared_error, binary_crossentropy

def my_complex_loss_graph(target, deconv1, output):
    mse_deconv1 = mean_squared_error(target, deconv1)
    bce_output = binary_crossentropy(target, output)
    final_loss = mse_deconv1 + bce_output
    return K.mean(final_loss)

有了3个入参的损失函数，我们的模型也必须做相应的更改：

import tensorflow as tf 

def create_complex_model(mode="train"):
    assert mode in ("train", "predict"), "only 'train' and 'predict' mode supported"

    input_img = KL.Input([64, 64, 3])
    branch1 = KL.Conv2D(64, (3, 3), strides=(4, 4), activation="relu")(input_img)
    branch2 = KL.Conv2D(64, (3, 3), strides=(4, 4), activation="relu")(input_img)
    concat1 = KL.Concatenate(name="concat1")([branch1, branch2])
    deconv1 = KL.Deconv2D(1, (3, 3), strides=(4, 4), activation="relu")(concat1)
    output = KL.Conv2D(1, (1, 1), strides=(1, 1), activation="sigmoid")(deconv1)

    if mode == "train":
        #本文最开始提到过，keras generator中yield input, target的target是无法获取
        #参考github issues:https://github.com/keras-team/keras/issues/11812
        #所以为了取到target,我们必须须把target也当作inputs的一部分传进来即 
        #yield  [input,target], [], 然后再通过KL.Input按顺序获取
        target = KL.Input([64, 64, 1], name="target")
        my_complex_loss = KL.Lambda(
            lambda x: my_complex_loss_graph(*x), name="complex_loss"
        )([target, deconv1, output])
        inputs = [input_img, target]
        outputs = [output, my_complex_loss]
    else:
        #predict阶段，就不用计算loss了所以这里不加入loss层和metric层
        inputs = input_img
        outputs = output

    model = KM.Model(inputs=inputs, outputs=outputs)

    #重点
    model._losses = []
    model._per_input_losses = {}
    #通过add_loss来把之前通过KL.Lambda定义的层加入loss，当添加了多个loss层时，optimizer实际优  
    #化的是多个loss的和
    for loss_name in ["complex_loss"]:
        layer = model.get_layer(loss_name)
        if layer.output in model.losses:
            continue
        loss = tf.reduce_mean(layer.output, keepdims=True)
        model.add_loss(loss)
    #其实这里可以添加的不只loss， 有助于监视模型情况的metrics比如f1 score, iou等等也可以通过   
    #model.metrics_tensors.append()来添加

    return model

别被突然增加的代码吓到，其实原理很简单，把loss的计算图通过Lambda转换为layer然后把layer通过add_loss编译进模型，相应的，generator也需修改一下：

def fake_data_generator_2(num_samples):
    while (1):
        imgs = np.random.random((num_samples, 64, 64, 3)).astype("float32")
        masks = np.random.random((num_samples, 64, 64, 1)).astype("float32")
        inputs = [imgs, masks]
        targets = []
        yield inputs, targets

训练：

train_gen = fake_data_generator_2(10)
val_gen = fake_data_generator_2(5)
model = create_complex_model("train")
model.summary()
model.compile(
    optimizer="adam",
    loss=[None] * len(model.outputs)
)
model.fit_generator(
    train_gen,
    epochs=10,
    steps_per_epoch=50,
    validation_data=val_gen,
    validation_steps=5
)

Keras进度条如下：

最后

当然，如果你如果通过上面代码注释中的方法添加了多个loss和多个metrics的话，你的进度条可能是这样的（这里loss != mask_bce_loss+mask_dice_loss是因为如果把所有loss都显示在进度条上的话会看起来特别凌乱，所以我隐藏了一部分loss，实际上他们还是在工作的）：

唔，真是...赏心悦目啊! Happy tuning!

Tensorflow 2.0自4月初alpha发布以来，引起了广泛关注。其中，谷歌携手@fchollet(Keras作者)及其团队对Keras库做出了大量Tensorflow专属的优化以及改动。再联想到独立(Stand alone)的Keras库最近一次更新2.2.4已经是大半年（2018年10月）以前的事情了，不禁八卦Keras团队的工作重心是不是从独立Keras转向了tf.keras来对抗Pytorch的竞争了呢？

前言

自TF2.0发布以来，我的工作就是把公司之前Tensorflow+Keras(stand-alone)的AI框架转移到Tensorflow2.0中。一方面是希望用到TF2.0的一系列新特性，另一方面，由于之前独立Keras与Tensorflow的工作流程中，遇到过多次版本不匹配带来不易察觉的问题，所以希望能利用上tf.keras来减少环境依赖从而避免这种无谓的坑。

通过数月的持续实践，我惊喜的发现tf.keras并不是直接无脑把独立keras搬进了Tensorflow，谷歌及Keras团队为tf.keras做出的一系列专属优化使得tf.keras无论是在执行性能，模型表现还是易用性上相比独立Keras+Tensroflow的模式都更胜一筹，2个简单的例子：

tf.data在构建数据管道(Input Pipeline)的时候，速度以及稳定性都完爆独立Keras中的DataSequence(实际测试中，良好的调优下tf.data.Dataset在model.fit()中数据准备的效率是DataSequence的4倍以上)
tf.distribute在多GPU训练中相对于独立Keras中的multi_gpu_model函数，在显存占用，训练速度，以及最终模型表现中都明显更优。

于是感受到明显技术进步的我决定写文章来记录我几个月以来对TF2.0使用的一些实践。

在上一篇文章中：

Ziyigogogo：Keras中无损实现复杂（多入参）的损失函数zhuanlan.zhihu.com

我介绍过如何用独立Keras库如何实现复杂的多入参损失函数。对比之前的实现，这篇文章将介绍TF2.0中一种更好的方法，使得我们自定义的复杂损失函数可以更容易的在不同的模型架构中重复使用，下面直接上代码：

以下代码基于tf2.0 beta版本实现，安装方法：

pip install tensorflow-gpu==2.0.0-beta1

首先导包：

import tensorflow as tf
from tensorflow.python.keras import backend as K
from tensorflow.python.keras import layers as KL
from tensorflow.python.keras import models as KM
import numpy as np

接下来利用Subclass自定义一个损失函数层：


class WbceLoss(KL.Layer):
    def __init__(self, **kwargs):
        super(WbceLoss, self).__init__(**kwargs)

    def call(self, inputs, **kwargs):
        """
        # inputs：Input tensor, or list/tuple of input tensors.
        如上，父类KL.Layer的call方法明确要求inputs为一个tensor，或者包含多个tensor的列表/元组
        所以这里不能直接接受多个入参，需要把多个入参封装成列表/元组的形式然后在函数中自行解包，否则会报错。
        """
        # 解包入参
        y_true, y_weight, y_pred = inputs
        # 复杂的损失函数
        bce_loss = K.binary_crossentropy(y_true, y_pred)
        wbce_loss = K.mean(bce_loss * y_weight)
        # 重点：把自定义的loss添加进层使其生效，同时加入metric方便在KERAS的进度条上实时追踪
        self.add_loss(wbce_loss, inputs=True)
        self.add_metric(wbce_loss, aggregation="mean", name="wbce_loss")
        return wbce_loss

可以看到，相对于之前使用Lambda把损失函数包装成Layer的写法，我们现在使用了KL.Layer的Subclass写法，看起来似乎代码行数增加了，但是，使用起来却会方便许多：

def my_model():
    # input layers
    input_img = KL.Input([64, 64, 3], name="img")
    input_lbl = KL.Input([64, 64, 1], name="lbl")
    input_weight = KL.Input([64, 64, 1], name="weight")
    
    predict = KL.Conv2D(2, [1, 1], padding="same")(input_img)
    my_loss = WbceLoss()([input_lbl, input_weight, predict])

    model = KM.Model(inputs=[input_img, input_lbl, input_weight], outputs=[predict, my_loss])
    model.compile(optimizer="adam")
    return model

然后我们构建假的数据来实验一下我们的模型是否工作：

def get_fake_dataset():
    def map_fn(img, lbl, weight):
        inputs = {"img": img, "lbl": lbl, "weight": weight}
        targets = {}
        return inputs, targets

    fake_imgs = np.ones([500, 64, 64, 3])
    fake_lbls = np.ones([500, 64, 64, 1])
    fake_weights = np.ones([500, 64, 64, 1])
    fake_dataset = tf.data.Dataset.from_tensor_slices(
        (fake_imgs, fake_lbls, fake_weights)
    ).map(map_fn).batch(10)
    return fake_dataset


model = my_model()
my_dataset = get_fake_dataset()
model.fit(my_dataset)

然后就是熟悉的keras进度条了：

50/50 [==============================] - 1s 24ms/step - loss: 7.8311 - wbce_loss: 7.8311

# 可以根据需求，把多个自定义loss层加入模型:
554/554 [==============================] - 402s 725ms/step - loss: 0.3199 - wbce_loss: 0.0681 - dice_loss: 0.2518 
# 其中loss的数值就代表多个自定义loss的和: 0.3199 = 0.0681 + 0.2518

可以看到，相比上一篇文章中，在model构建之后手动向model._losses的私有属性中添加loss这种偏hack的方法，现在的实现更加优雅方便，可以说和即插即用相差无几了。但是正如上一篇文章中提到的按照Keras作者的设计：我们依然无法获取fit()中传入的target。所以需要把target和input一起传进来。所以，真正像pytorch中那样完全没有额外步骤的损失函数在这个限制开放以前，是无法在keras中实现的。

结束语

本文介绍了TF2.0中一种比之前更加便捷的复杂损失函数的写法，同时代码中刻意引出了利用tf.data来构建了简易的数据管道的列子。关于tf2.0中tf.data的详细用法以及最佳实践将会在下一篇文章中详细介绍。

Windows 11安装DeepSpeed报错（Unable to pre-compile async_io）已解决 day_day_up1 python 机器学习计算机视觉
Windows11安装DeepSpeed报错（Unabletopre-compileasync_io）问题解决_pipinstalldeepspeed报错-CSDN博客
深度学习中高斯噪声：为什么以及如何使用小白学视觉深度学习人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源：DeepHubIMBA本文约1800字，建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数(PDF)定义：pdf(x)=(1/(σ*sqrt(
智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
KNOWLEDGE UNLEARNING FOR MITIGATING PRIVACY RISKS IN LANGUAGE MODELS 绒绒毛毛雨语言模型人工智能自然语言处理
文章目录摘要1引言2相关工作2.1语言模型的隐私方法2.2机器去学习2.3语言模型中的记忆3语言模型中的知识去学习3.1方法论3.2量化语言模型的隐私风险4实验4.1模型、数据集和配置4.2主要实验4.3知识去学习的分析5结论摘要预训练语言模型（LMs）在初始预训练过程中记忆了大量知识，包括可能侵犯个人隐私和身份的信息。以往针对语言模型隐私问题的研究主要集中在数据预处理和差分隐私方法上，这两者都需
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
Progressive learning yore0531 深度学习人工智能计算机视觉
learnfromRestormer.Restormer:EfficientTransformerforHigh-ResolutionImageRestoration|IEEEConferencePublication|IEEEXploreProgressivelearning在小的croppatches上训练Transformer模型可能无法对全局图像统计进行编码，从而在测试时对全分辨率图像的效
【PLPR】Progressive Learning for Person Re-Identification with One Example 南风楠 Person Re-ID One-shot Learning Few-shot Learning 深度学习机器学习神经网络
【PLPR】ProgressiveLearningforPersonRe-IdentificationwithOneExampleBibtexPublicinformationFieldsCodelinkMainworkKeytechnologyFrameworkDatasetResultsAlgorithmOthers论文下载：关注下方公众号，回复“PLPR”即可获得论文原文Bibtex@art
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
论文阅读：DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection（Deepfake模型快速调参）海拉鲁的小厨娘读论文论文阅读
一、论文信息论文名称：DeepFake-Adapter:Dual-LevelAdapterforDeepFakeDetection作者团队：项目主页：https://github.com/rshaojimmy/DeepFake-Adapter（代码暂未开源）二、动机与创新动机：目前的deepfake检测模型泛化能力差，将其归因于过拟合于低级的伪造模式，现有的deepfake检测方法仅关注低级别的伪
vue项目运行报：SassError: expected selector... 落日弥漫的橘_ 前端 vue.js webpack css
SassError:expectedselector错误通常由于Sass或SCSS文件中存在语法错误或选择器缺失，导致Sass编译器无法解析。Sass语法语法中误用深度选择器语法导致以上问题。/deep/和::v-deep都是用于Vue单文件组件（.vue文件）中的样式穿透选择器;/deep/在Sass中并不被支持，如果是在Vue单文件组件中，并且需要穿透样式，可以使用::v-deep代替/dee
总结：IDEA社区版接入AI代码工具小魏的博客机器学习大语言模型 IDE相关软件 intellij-idea java ide
一、介绍本文主要记录下IDEA工具接入通义灵码、deepseek（深度求索）、豆包的方式。idea社区版（我的具体是：IntelliJIDEA2023.2.5(CommunityEdition)）二、deepseek配置1、首先得去deepseek平台创建个apikey；生成key位置：DeepSeek默认会送500万的tokens，查看tokens用量：DeepSeek2、安装AutoDev插件
springboot接入deepseek深度求索 java 笑发财了1 java spring boot 服务器
以下是在springboot中接入aideepseek的过程。官网并没有java的示例。1.创建APIkeydeepseekAPIkeys点击创建APIkey，把创建的key值复制下来，以后就不能再查看了，只能重新创建。2.封装询问deepseek的工具方法添加key值和询问路径。API_KEY为你创建的key值。privatestaticfinalStringAPI_URL="https://a
python广告点击率预测_常见计算广告点击率预估算法总结 weixin_39850143 python广告点击率预测
欢迎大家前往腾讯云技术社区，获取更多腾讯海量技术实践干货哦~作者：导语：本文讨论了CTR预估模型，包括工业界使用比较广的比较经典模型和学术界最新的结合DeepLearning的一些工作。前言谈到CTR，都多多少少有些了解，尤其在互联网广告这块，简而言之，就是给某个网络服务使用者推送一个广告，该广告被点击的概率，这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样，也可以复杂到拿到
uniapp中使用vant wappp m0_70647189 Web前端经验分享前端前端框架
.custom-button{.van-button{background-color:blue;border-radius:10px;}}如果你的style样式中存在scoped，我们可以利用vue中的语法，加个/deep/进行样式覆盖，如下所示：/deep/.custom-button{.van-button{background-color:blue;border-radius:10px;}
LLM-1-chatglm-安装deepspeed报错愚昧之山绝望之谷开悟之坡 python 开发语言
安装pipinstalldeepspeed报错Lookinginindexes:https://mirror.baidu.com/pypi/simpleCollectingdeepspeedUsingcachedhttps://mirror.baidu.com/pypi/packages/9f/64/4a3643f61b15dbfec1cab0172f4bdae1d45e1ab3cd73bb060
Django学习笔记 mengmwng Django django 学习笔记
学习视频来源：最新Python的web开发全家桶代码仓库：https://gitee.com/m_engmeng/django-learning1.创建项目Django中项目会有一些默认的文件和文件夹1.1在终端打开终端进入某个目录(项目放在哪里)输入命令——创建项目(最后一个参数是项目名)django-adminstartprojectmysite继续输入——创建app（最后一个参数是app所处
Docker多架构镜像构建踩坑记一直学下去 docker 容器 adm64 arm64 多架构
背景公司为了做信创项目的亮点，需要将现有的一套在X86上运行的应用系统迁移到ARM服务器上运行，整个项目通过后端Java，前端VUEJS开发通过CICD做成Docker镜像在K8S里面运行。但是当前的CICD产品不支持ARM的镜像构建，于是只能手工构建ARM镜像。以下是一些踩坑的记录，希望能帮大家少踩坑构建环境本地电脑DeepinLinux23(Windows的WSL和其他的Linux系统都可以）
亲测解决unable to import torch, please install it if you want to pre-compile any deepspeed ops. 狂小虎 Windows 系统学习python Deep Learning python 人工智能 pytorch deepspeed
这个问题是小虎在win上下载deepspeed导致。原因是windows不支持deepspeed。问题背景unabletoimporttorch,pleaseinstallitifyouwanttopre-compileanydeepspeedops.DS_BUILD_OPS=1解决方法windows上面不能使用deepspeed，因为deepspeed用到了linux系统的libaio-dev模
How can I fix my Flask server‘s 405 error that includes OpenAi api? 营赢盈英 AI ai python javascript flask openai api
题意：解决包含OpenAIAPI的Flask服务器中出现的405错误（MethodNotAllowed，即方法不允许）问题背景：I'mtryingtoaddanAPItomywebpageandhaveneverusedanyFlaskserverbefore,IhaveneverusedJavascripttoosothisisacompletelybrandnewlearningexperie
开源生态发展合作倡议操作系统
在信息技术发展的浪潮中，开源已成为全球创新的强劲引擎，深刻影响着各行各业的发展。今天，我们站在新的历史起点上，肩负着推动开源生态发展的重任。在此，开源欧拉（openEuler）、龙蜥（OpenAnolis）、鸥栖（OpenCloudOS）、开放麒麟（openKylin）、深度（deepin）五大操作系统开源社区携手并进，共同发起开源生态发展合作倡议，旨在书写开源生态繁荣的新篇章。在此，我们提出三点
DeepSeek 公开新的模型权重数据分析能量站机器学习人工智能
DeepSeek-V3是一款开源大语言模型，在关键基准测试中超越了Llama3.1405B和GPT-4o，尤其在编码和数学任务中成绩优异。除特定受限应用（军事、伤害未成年人、生成虚假信息等）外，模型权重开源，可在线下载。工作原理混合专家架构（MoE）：DeepSeek-V3是MoE型Transformer模型，有6710亿个参数，运行时370亿参数激活。相比Llama3.1405B，训练时间大幅缩
深度探索 DeepSeek-R1：国产大模型的AGI雏形与创新进展微凉的衣柜科技头条 agi 人工智能
随着人工智能技术的飞速发展，国内外企业纷纷发布了一系列创新的大模型，推动了AGI（通用人工智能）领域的探索。近期，DeepSeek-R1这一模型的发布引起了广泛关注，它不仅标志着国产大模型在智能化上的一次重大突破，还提出了全新的训练方法，解决了过去依赖大量人类数据的问题。本篇文章将详细介绍DeepSeek-R1的核心优势、技术创新以及实际应用案例，揭示它在AGI领域的潜力。1.DeepSeek-R
AI界的拼多多-中国人工智能初创公司DeepSeek如何与硅谷巨头竞争 xidianjiapei001 AI-人工智能与大模型人工智能 AI DeepSeek 大模型
这家公司打造出了一款成本更低且颇具竞争力的聊天机器人，其使用的高端计算机芯片数量少于谷歌和OpenAI等美国巨头企业，这凸显出芯片出口管制的局限性。圣诞节次日，一家名为DeepSeek的中国小型初创公司推出了一款新的人工智能系统，其性能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。仅此一点就堪称一个里程碑。但这个名为DeepSeek-V3系统的研发团队称，他们迈出了更大的一步。在一篇解释该技
tensorlow中tensorboard可视化展示训练过程张登杰踩 tensorflow tensorboard tensorflow mnist 神经网络
importtensorflowastffromtensorflow.examples.tutorials.mnistimportinput_datamax_steps=1000#训练步数learning_rate=0.001#设置学习率dropout=0.9#神经元保留比例data_dir='./MNIST_data'#数据存放路径#minist数据集下载链接:https://pan.baidu
6. 马科维茨资产组合模型+政策意图AI金融智能体(DeepSeek-V3)增强方案（理论+Python实战） AI量金术师金融资产组合模型进化论人工智能金融 python 机器学习算法大数据数学建模
目录0.承前1.幻方量化&DeepSeek1.1Whatis幻方量化1.2WhatisDeepSeek2.重写AI金融智能体函数3.汇总代码4.反思4.1不足之处4.2提升思路5.启后0.承前本篇博文是对上一篇文章，链接:5.马科维茨资产组合模型+政策意图AI金融智能体(Qwen-Max)增强方案（理论+Python实战）的AI金融智能体更改为幻方量化DeepSeek-V3的尝试。唯一区别之处在于
自动驾驶中的虚实迁移学习:降低对真实世界数据的依赖 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,迁移学习,虚实环境,数据效率,深度学习,强化学习1.背景介绍自动驾驶技术作为人工智能领域的重要应用之一，其发展离不开海量真实世界驾驶数据。然而，收集和标注真实世界驾驶数据成本高昂，且存在安全隐患。因此，如何降低对真实世界数据的依赖，提高自动驾驶系统的训练效率和安全性，成为一个亟待解决的关键问题。虚实迁移学习(Virtual-to-RealTransferLearning)作为一种新兴的机
千万年薪招揽AI大牛！罗福莉加盟小米，将如何改变其大模型战略？前端
近年来，人工智能(AI)领域发展迅速，其中大模型技术的突破更是引领着新一轮科技浪潮。AI代码生成器作为AI技术的重要应用，也正逐渐改变着软件开发的模式。1月18日，一则重磅消息震惊业界：DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米，并可能领导小米大模型团队，年薪高达千万级别。这一举动不仅体现了小米对AI大模型技术的重视，也预示着小米在大模型领域的战略布局将迎来新
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
【MotionCap】DROID-SLAM 1 ：介绍及安装等风来不如迎风去 AI入门与实战人工智能 SLAHMR DROID-SLAM
DROID-SLAM：DROID-SLAM:DeepVisualSLAMforMonocularDROID-SLAM：适用于单目、立体和RGB-D相机的深度视觉SLAMStereo,andRGB-DCamerashttps://arxiv.org/abs/2108.10869DROID-SLAM:DeepVisualSLAMforMonocular,Stereo,andRGB-DCamerasfi
DeepMind的新突破：GenCast 新加坡内哥谈技术人工智能大数据语言模型
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/如今，人工智能（AI）在天气预报领域的表现已经可以与传统计算方法媲美。然而，AI模型的训
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

##haohaohao###Keras中无损实现复杂（多入参）的损失函数

背景

方法

最后

你可能感兴趣的:(Deep,Learning)