DeepSeek推理模型架构以及DeepSeek爆火的原因
微学AI
架构LLMdeepseek
大家好,我是微学AI,今天给大家介绍一下DeepSeek推理模型架构以及DeepSeek爆火的原因,DeepSeek推理模型凭借其创新的混合专家(MoE)架构和优化的Transformer架构,融合稀疏注意力机制,实现了高效的计算资源分配与显著降低的推理成本。在训练过程中,DeepSeek广泛应用蒸馏技术,通过生成高质量数据和将大型模型的推理能力迁移至小型模型,大幅提升训练效率与模型性能。Deep
【LLM】大模型基础--大规模预训练语言模型的开源教程笔记
Langchain
笔记人工智能langchainllama大模型产品经理大模型基础
1.引言本文以DataWhale大模型开源教程为学习路线,进行一整个大模型的入门操作什么是语言模型语言模型是一种对词元序列(token)的概率分布,可以用于评估文本序列的合理性并生成新的文本。从生成文本的方式来看,LM(languagemodle)可以简单的分为:自回归模型非自回归模型特点逐字生成文本,每个词的生成都依赖于上文,关联性好一次性生成整个文本序列,不捕捉上文信息优点内容质量高生成速度快
基于顺序存储结构的图书信息表的创建和输出
木制品123
数据结构数据结构算法
1、基于顺序存储结构的图书信息表的创建和输出描述定义一个包含图书信息(书号、书名、价格)的顺序表,读入相应的图书数据来完成图书信息表的创建,然后统计图书表中的图书个数,同时逐行输出每本图书的信息。输入输入n+1行,其中前n行是n本图书的信息(书号、书名、价格),每本图书信息占一行,书号、书名、价格用空格分隔,价格之后没有空格。最后第n+1行是输入结束标志:000(空格分隔的三个0)。其中书号和书名
Altium Designer(AD)仿真实验操作指南
逼子歌
Altium硬件工程师笔试面试题目汇总单片机嵌入式硬件硬件工程师硬件测试笔记AD仿真实验AltiumDesigner
目录1、创建原理图1.1创建原理图1.2点击simulate1.3仿真模块介绍2、绘制原理图2.1二极管半波整流电路仿真为例2.2放置电源模块2.3器件选择2.4放置电器元件2.5连线及GND3、设置参数3.1设置电源参数3.2波形类型3.3电源设置3.4二极管设置3.5电阻设置3.6测试探头3.7测试探头命名4、实验结果4.1运行仿真4.2实验结果4.3OperatingPoint:工作点4.4
模型GPU->NPU(Ascend)迁移训练简述
終不似少年遊*
深度学习人工智能迁移学习GPUNPU华为云
目录一、迁移训练流程图解二、详细流程步骤1.模型训练与日志记录2.跨平台精度对齐对比3.问题定位与修复4.迭代验证三、关键技术点四、常见问题与解决方案一、迁移训练流程图解通过华为云的modelart进行运行环境选型北京四使用GPU进行模型训练,生成gpulog.json文件,记录损失函数等信息。然后,使用ptdbg_ascend工具进行精度收集,生成dump文件,由于文件过大,上传到obs桶。贵阳
python 学习曲线函数_如何使用学习曲线来诊断你的LSTM模型的行为?(附代码)...
weixin_39576066
python学习曲线函数
LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。在自然语言处理、语言识别等一系列的应用上都取得了很好的效果。《LongShortTermMemoryNetworkswithPython》是澳大利亚机器学习专家JasonBrownlee的著作,里面详细介绍了LSTM模型的原理和使用。该书总共分为十四个章节,具体如下:第一章:什么是LSTMs?第二章:怎么样训练
python程序设计案例教程胡国胜第二章答案_Python程序设计案例教程
长发在船头舞蹈
章Python基础知识1.1Python简介1.1.1Python语言特点1.1.2Python版本1.1.3Python语言的实现1.1.4安装Python1.2Python开发环境1.2.1启动IDLE1.2.2Python代码编辑器1.2.3个小程序习题1第2章数据类型2.1数值2.1.1数值类型2.1.2变量章Python基础知识1.1Python简介1.1.1Python语言特点1.1.
翻译Deep Learning and the Game of Go(14)第十二章 采用actor-critic方法的强化学习
idol_watch
围棋与深度学习
本章包括:利用优势使强化学习更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋,最好的改进方法之一是让一个水平更高的棋手给你复盘。有时候,最有用的反馈只是指出你在哪里赢棋或输棋。复盘的人可能会给出这样的评论,“你下了30步后已经远远落后了”或“在下了110步后,你有一个获胜的局面,但你的对手在130时扭转了局面。”为什么这种反馈是有帮助
AcWing中01背包问题
ONEPEICE-ing
算法AcWing
在acwing.com中的题,本次为01背包问题【具体视频可通过www.acwing.com/video/214网站观看(ps:是跟着视频中的老师一起写的,并不是原创~~~)】01背包问题题目:有N件物品和一个容量是V的背包。每件物品只能使用一次。第i间物品的体积是vi,价值是wi,求解将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且总价值最大,输出最大价值。输入格式:第一行两个整数,N
【漫话机器学习系列】041.信息丢失(dropout)
IT古董
漫话机器学习系列专辑机器学习人工智能深度学习
信息丢失(Dropout)Dropout是一种广泛应用于神经网络训练中的正则化技术,旨在减少过拟合(overfitting),提高模型的泛化能力。虽然"信息丢失"(dropout)这个术语在某些情况下可能引起误解,指的并非是数据的丢失,而是训练过程中故意“丢弃”神经网络中的部分神经元。这种做法可以避免模型过于依赖于某些特定的神经元,从而提高模型在新数据上的表现。Dropout的工作原理在神经网络的
第二章:12.3 建立表现基准
望云山190
基准性能水平人工智能机器学习
背景介绍语音识别是一种常见的机器学习应用,用户通过语音输入代替键盘输入,系统需要将语音转换为文本。在这个过程中,算法的性能可以通过训练误差和交叉验证误差来评估。误差定义训练误差(Jtrain):指算法在训练数据集上无法正确转录的音频片段的百分比。在这个例子中,训练误差是10.8%,意味着算法在训练数据上犯了10.8%的错误。交叉验证误差(Jcv):指算法在未见过的数据(交叉验证集)上无法正确转录的
单链表基本操作(C语言版)
邂逅you
数据结构数据结构ptac语言开发语言数据结构算法链表
7-1单链表基本操作分数45作者朱允刚单位吉林大学请编写程序实现单链表插入、删除结点等基本算法。给定一个单链表和一系列插入、删除结点的操作序列,输出实施上述操作后的链表。单链表数据域值为整数。输入格式:输入第1行为1个正整数n,表示当前单链表长度;第2行为n个空格间隔的整数,为该链表n个元素的数据域值。第3行为1个正整数m,表示对该链表施加的操作数量;接下来m行,每行表示一个操作,为2个或3个整数
第二章:12.4 学习曲线
望云山190
深度学习机器学习人工智能
学习曲线的基本概念学习曲线是展示机器学习模型性能如何随着训练数据量增加而变化的图表。它们可以帮助我们理解模型在不同数据量下的表现,以及模型是否过拟合或欠拟合。二阶模型的学习曲线交叉验证错误(Jcv):这条绿色曲线表示模型在未见过的数据上的表现。它反映了模型的泛化能力,即模型对新数据的预测能力。训练错误(Jtrain):这条红色曲线表示模型在训练数据上的表现。它反映了模型对训练数据的拟合程度。学习曲
电路笔记(三极管器件): MOSFET&IGBT
FakeOccupational
硬件和移动端笔记单片机嵌入式硬件
MOSFETvsIGBTMOSFET主要用于低电压和功率系统,而IGBT更适合高电压和功率系统。1.MOSFET(金属氧化物半导体场效应晶体管)优势:高开关速度和响应速度,适合高频应用。(IGBT不适合高频应用,它能在千Hz频率下运行良好。MOSFET适合非常高频的应用,它可以在兆Hz频率下运行良好。)较低的导通压降和导通损耗,功率密度高。适用于低至中功率应用,例如电源开关、调制器、放大器等。实际
机器学习相关基础
星辰瑞云
机器学习
1.预备知识人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能。人工智能学科:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。2.日常生活中的机器学习:①称为RGB(由红色,绿色,蓝色组成),这种是欠拟合欠拟合和过拟合区别:•欠拟合(Underfitting):模型在训练数据上表现不佳,无法很好地捕捉数据中的规律。通
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源?
FF-Studio
DeepSeekR1算法
GRPO,一种新的强化学习方法,是DeepSeekR1使用到的训练方法。今天的这篇博客文章,笔者会从零开始,层层递进地为各位介绍一种在强化学习中极具实用价值的技术——GRPO(GroupRelativePolicyOptimization)。如果你是第一次听说这个概念,也不必慌张,笔者会带领你从最基础的强化学习背景知识讲起,一步步剖析其来龙去脉,然后再结合实例讲解GRPO在实际应用中的思路和操作示
【二分搜索 C/C++】洛谷P1024 一元三次方程求解
仟濹
算法学习笔记c语言c++算法
2025-02-13-第52篇作者(Author):郑龙浩/仟濹(CSND)【二分搜索】P1024一元三次方程求解题目描述有形如:ax3+bx2+cx+d=0ax^3+bx^2+cx+d=0ax3+bx2+cx+d=0这样的一个一元三次方程。给出该方程中各项的系数(a,b,c,da,b,c,da,b,c,d均为实数),并约定该方程存在三个不同实根(根的范围在−100-100−100至1001001
AIMv2:多模态自回归预训练的视觉新突破
人工智能
AIMv2:多模态自回归预训练的视觉新突破阅读时长:19分钟发布时间:2025-02-17近日热文:全网最全的神经网络数学原理(代码和公式)直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】导言视觉模型在人工智能领域的地位愈发重要,从图像识别、目标检测到多模态理解,其应用场景不断拓展。在大规模数据集上进行预训练,能助力模型学习丰富的视觉特
Audio-Visual Speech Enhancement(视听语音增强)领域近三年研究进展与国内团队及手机厂商动态分析
AndrewHZ
深度学习新浪潮智能手机算法计算机视觉硬件架构硬件工程智能硬件
一、视听语音增强领域近三年研究进展多模态融合与模型轻量化多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识蒸馏技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果。此外,中科院声学所提出基于泰勒展开的模型架构,将幅度-相位解耦与空间-谱域解耦重新建模,提升算法可解释性并优化性能。轻量化模型设计:中国科大与腾讯天籁实验室
开发者关心的那些事
圣子足道
ios游戏编程apple支付
我要在app里添加IAP,必须要注册自己的产品标识符(product identifiers)。产品标识符是什么?
产品标识符(Product Identifiers)是一串字符串,它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息,标识符只能包含大小写字母(A-Z)、数字(0-9)、下划线(-)、以及圆点(.)。你可以任意排列这些元素,但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比
bijian1013
nginxF5
对于数据流量过大的网络中,往往单一设备无法承担,需要多台设备进行数据分流,而负载均衡器就是用来将数据分流到多台设备的一个转发器。
目前有许多不同的负载均衡技术用以满足不同的应用需求,如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number
Cwind
javaAlgorithm题解LeetCodeMath
原题链接:#9 Palindrome Number
要求:
判断一个整数是否是回文数,不要使用额外的存储空间
难度:简单
分析:
题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间,O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转,然后与原数字进行比较。
注:没有看到有关负数是否可以是回文数的明确结论,例如
画图板的基本实现
15700786134
画图板
要实现画图板的基本功能,除了在qq登陆界面中用到的组件和方法外,还需要添加鼠标监听器,和接口实现。
首先,需要显示一个JFrame界面:
public class DrameFrame extends JFrame { //显示
linux的ps命令
被触发
linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照,就是执行ps命令的那个时刻的那些进程,如果想要动态的显示进程信息,就可以使用top命令。
要对进程进行监测和控制,首先必须要了解当前进程的情况,也就是需要查看当前进程,而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器 下一曲 连续跳几首歌
肆无忌惮_
android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调
player.setOnCompletionListener(new OnCompletionListener() {
@Override
public void onCompletion(MediaPlayer mp) {
mp.reset();
Log.i("H
java导出txt文件的例子
知了ing
javaservlet
代码很简单就一个servlet,如下:
package com.eastcom.servlet;
import java.io.BufferedOutputStream;
import java.io.IOException;
import java.net.URLEncoder;
import java.sql.Connection;
import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度
矮蛋蛋
scalasbt
原文地址:
http://segmentfault.com/a/1190000002894524
sbt下载速度实在是惨不忍睹, 需要做些配置优化
下载typesafe离线包, 保存为ivy本地库
wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip
解压r
phantomjs安装(linux,附带环境变量设置) ,以及casperjs安装。
alleni123
linuxspider
1. 首先从官网
http://phantomjs.org/下载phantomjs压缩包,解压缩到/root/phantomjs文件夹。
2. 安装依赖
sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6
3. 配置环境变量
vi /etc/profil
JAVA IO FileInputStream和FileOutputStream,字节流的打包输出
百合不是茶
java核心思想JAVA IO操作字节流
在程序设计语言中,数据的保存是基本,如果某程序语言不能保存数据那么该语言是不可能存在的,JAVA是当今最流行的面向对象设计语言之一,在保存数据中也有自己独特的一面,字节流和字符流
1,字节流是由字节构成的,字符流是由字符构成的 字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流
类 FileInputStream
Spring基础实例(依赖注入和控制反转)
bijian1013
spring
前提条件:在http://www.springsource.org/download网站上下载Spring框架,并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口
package com.bijian.spring.base3;
public interface Weapon {
void kil
HR看重的十大技能
bijian1013
提升能力HR成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度,也取决于他所能支配的资源以及制定的事业目标,拥有过硬技能的人有更多的工作机会。但是,由于经济发展前景不确定,掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。 一、解决问题的能力 每天,我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装
bit1129
thrift
什么是Thrift
The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件
bit1129
mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在)牵头开发的。 开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的(使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景),因此Hadoop MapReduce集成Avro也就是自然而然的事情。
这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计,然后将计算结果
nginx定制500,502,503,504页面
ronin47
nginx 错误显示
server {
listen 80;
error_page 500/500.html;
error_page 502/502.html;
error_page 503/503.html;
error_page 504/504.html;
location /test {return502;}}
配置很简单,和配
java-1.二叉查找树转为双向链表
bylijinnan
二叉查找树
import java.util.ArrayList;
import java.util.List;
public class BSTreeToLinkedList {
/*
把二元查找树转变成排序的双向链表
题目:
输入一棵二元查找树,将该二元查找树转换成一个排序的双向链表。
要求不能创建任何新的结点,只调整指针的指向。
10
/ \
6 14
/ \
Netty源码学习-HTTP-tunnel
bylijinnan
javanetty
Netty关于HTTP tunnel的说明:
http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description
这个说明有点太简略了
一个完整的例子在这里:
https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别
coder_xpf
jqueryjsonmapval()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别
数据库查询出来的map有一个字段为空
通过System.out.println()输出 JSONUtil.serialize(map): {"one":"1","two":"nul
Hibernate缓存总结
cuishikuan
开源sshjavawebhibernate缓存三大框架
一、为什么要用Hibernate缓存?
Hibernate是一个持久层框架,经常访问物理数据库。
为了降低应用程序对物理数据源访问的频次,从而提高应用程序的运行性能。
缓存内的数据是对物理数据源中的数据的复制,应用程序在运行时从缓存读写数据,在特定的时刻或事件会同步缓存和物理数据源的数据。
二、Hibernate缓存原理是怎样的?
Hibernate缓存包括两大类:Hib
CentOs6
dalan_123
centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块:yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果
dcj3sjt126com
JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术,它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果,改变了一直以来只能通过点击下一页来翻页这种常规做法。
无限滚动自动翻页技术的鼻祖是微博的先驱:推特(twitter),后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术,于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明
dcj3sjt126com
imagebutton
在ImageButton中载入图片后,很多人会觉得有图片周围的白边会影响到美观,其实解决这个问题有两种方法
一种方法是将ImageButton的背景改为所需要的图片。如:android:background="@drawable/XXX"
第二种方法就是将ImageButton背景改为透明,这个方法更常用
在XML里;
<ImageBut
JSP之c:foreach
eksliang
jspforearch
原文出自:http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html
<c:forEach>标签用于通用数据循环,它有以下属性 属 性 描 述 是否必须 缺省值 items 进行循环的项目 否 无 begin 开始条件 否 0 end 结束条件 否 集合中的最后一个项目 step 步长 否 1
Android实现主动连接蓝牙耳机
gqdy365
android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型,这篇文字只讨论如何与蓝牙耳机连接。
大致可以分三步:
一、扫描蓝牙设备:
1、注册并监听广播:
BluetoothAdapter.ACTION_DISCOVERY_STARTED
BluetoothDevice.ACTION_FOUND
BluetoothAdapter.ACTION_DIS
android学习轨迹之四:org.json.JSONException: No value for
hyz301
json
org.json.JSONException: No value for items
在JSON解析中会遇到一种错误,很常见的错误
06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享:从零开始学编程 系列汇总
justjavac
编程
程序员总爱重新发明轮子,于是做了要给轮子汇总。
从零开始写个编译器吧系列 (知乎专栏)
从零开始写一个简单的操作系统 (伯乐在线)
从零开始写JavaScript框架 (图灵社区)
从零开始写jQuery框架 (蓝色理想 )
从零开始nodejs系列文章 (粉丝日志)
从零开始编写网络游戏 
jquery-autocomplete 使用手册
macroli
jqueryAjax脚本
jquery-autocomplete学习
一、用前必备
官方网站:http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/
当前版本:1.1
需要JQuery版本:1.2.6
二、使用
<script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改
超声波
oracleplsql
在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库,常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错,什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之:极限存储--历史拉链表
superlxw1234
极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中,经常会遇到这样的需求:
1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间内,更新过几次等等; 4. 变化的比例和频率不是很大,比如,总共有10
10点睛Spring MVC4.1-全局异常处理
wiselyman
spring mvc
10.1 全局异常处理
使用@ControllerAdvice注解来实现全局异常处理;
使用@ControllerAdvice的属性缩小处理范围
10.2 演示
演示控制器
package com.wisely.web;
import org.springframework.stereotype.Controller;
import org.spring