Takoony

126篇殿堂级深度学习论文分类整理从入门到应用（上）

如果你有非常大的决心从事深度学习，又不想在这一行打酱油，那么研读大牛论文将是不可避免的一步。而作为新人，你的第一个问题或许是：“论文那么多，从哪一篇读起？”

本文将试图解决这个问题——文章标题本来是：“从入门到绝望，无止境的深度学习论文”。请诸位备好道具，开启头悬梁锥刺股的学霸姿势。

开个玩笑。

但对非科班出身的开发者而言，读论文的确可以成为一件很痛苦的事。但好消息来了——为避免初学者陷入迷途苦海，昵称为 songrotek 的学霸在 GitHub 发布了他整理的深度学习路线图，分门别类梳理了新入门者最需要学习的 DL 论文，又按重要程度给每篇论文打上星星。

截至目前，这份 DL 论文路线图已在 GitHub 收获了近万颗星星好评，人气极高。雷锋网感到非常有必要对大家进行介绍。

闲话少说，该路线图根据以下四项原则而组织：

从大纲到细节

从经典到前沿

从一般到具体领域

关注最新研究突破

作者注：有许多论文很新但非常值得一读。

1 深度学习历史和基础

1.0 书籍

█[0] Bengio, Yoshua, Ian J. Goodfellow, and Aaron Courville. "Deep learning." An MIT Press book. (2015). [pdf] (Ian Goodfellow 等大牛所著的教科书，乃深度学习圣经。你可以同时研习这本书以及以下论文) ★★★★★

地址：https://github.com/HFTrader/DeepLearningBook/raw/master/DeepLearningBook.pdf

1.1 调查

█[1] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444. [pdf] (三巨头做的调查) ★★★★★

地址：http://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

1.2 深度置信网络 (DBN，深度学习前夜的里程碑)

█[2] Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. "A fast learning algorithm for deep belief nets." Neural computation 18.7 (2006): 1527-1554. [pdf] (深度学习前夜) ★★★

地址：http://www.cs.toronto.edu/~hinton/absps/ncfast.pdf

█[3] Hinton, Geoffrey E., and Ruslan R. Salakhutdinov. "Reducing the dimensionality of data with neural networks." Science 313.5786 (2006): 504-507. [pdf] (里程碑，展示了深度学习的前景) ★★★

地址：http://www.cs.toronto.edu/~hinton/science.pdf

1.3 ImageNet 的进化（深度学习从此萌发）

█[4] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012. [pdf] (AlexNet, 深度学习突破) ★★★★★

地址：http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

█[5] Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014). [pdf] (VGGNet，神经网络变得很深层) ★★★

地址：https://arxiv.org/pdf/1409.1556.pdf

█[6] Szegedy, Christian, et al. "Going deeper with convolutions." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. [pdf] (GoogLeNet) ★★★

地址：http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

█[7] He, Kaiming, et al. "Deep residual learning for image recognition." arXiv preprint arXiv:1512.03385 (2015). [pdf](ResNet，特别深的神经网络, CVPR 最佳论文) ★★★★★

地址：https://arxiv.org/pdf/1512.03385.pdf

1.4 语音识别的进化

█[8] Hinton, Geoffrey, et al. "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE Signal Processing Magazine 29.6 (2012): 82-97. [pdf] (语音识别的突破) ★★★★

地址：http://cs224d.stanford.edu/papers/maas_paper.pdf

█[9] Graves, Alex, Abdel-rahman Mohamed, and Geoffrey Hinton. "Speech recognition with deep recurrent neural networks." 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013. [pdf] (RNN) ★★★

地址：http://arxiv.org/pdf/1303.5778.pdf

█[10] Graves, Alex, and Navdeep Jaitly. "Towards End-To-End Speech Recognition with Recurrent Neural Networks." ICML. Vol. 14. 2014. [pdf] ★★★

地址：http://www.jmlr.org/proceedings/papers/v32/graves14.pdf

█[11] Sak, Haşim, et al. "Fast and accurate recurrent neural network acoustic models for speech recognition." arXiv preprint arXiv:1507.06947 (2015). [pdf] (谷歌语音识别系统) ★★★

地址：http://arxiv.org/pdf/1507.06947

█[12] Amodei, Dario, et al. "Deep speech 2: End-to-end speech recognition in english and mandarin." arXiv preprint arXiv:1512.02595 (2015). [pdf] (百度语音识别系统) ★★★★

地址：https://arxiv.org/pdf/1512.02595.pdf

█[13] W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, G. Zweig "Achieving Human Parity in Conversational Speech Recognition." arXiv preprint arXiv:1610.05256 (2016). [pdf] (最前沿的语音识别, 微软) ★★★★

地址：https://arxiv.org/pdf/1610.05256v1

研读以上论文之后，你将对深度学习历史、模型的基本架构（包括 CNN, RNN, LSTM）有一个基础的了解，并理解深度学习如何应用于图像和语音识别问题。接下来的论文，将带你深入探索深度学习方法、在不同领域的应用和前沿尖端技术。我建议，你可以根据兴趣和工作/研究方向进行选择性的阅读。

2 深度学习方法

2.1 模型

█[14] Hinton, Geoffrey E., et al. "Improving neural networks by preventing co-adaptation of feature detectors." arXiv preprint arXiv:1207.0580 (2012). [pdf] (Dropout) ★★★

地址：https://arxiv.org/pdf/1207.0580.pdf

█[15] Srivastava, Nitish, et al. "Dropout: a simple way to prevent neural networks from overfitting." Journal of Machine Learning Research 15.1 (2014): 1929-1958. [pdf] ★★★

地址：http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdf

█[16] Ioffe, Sergey, and Christian Szegedy. "Batch normalization: Accelerating deep network training by reducing internal covariate shift." arXiv preprint arXiv:1502.03167 (2015). [pdf] (2015 年的杰出研究) ★★★★

地址：http://arxiv.org/pdf/1502.03167

█[17] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. "Layer normalization." arXiv preprint arXiv:1607.06450 (2016). [pdf] (Batch Normalization 的更新) ★★★★

地址：https://arxiv.org/pdf/1607.06450.pdf?utm_source=sciontist.com&utm_medium=refer&utm_campaign=promote

█[18] Courbariaux, Matthieu, et al. "Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to+ 1 or−1." [pdf] (新模型，快) ★★★

地址：https://pdfs.semanticscholar.org/f832/b16cb367802609d91d400085eb87d630212a.pdf

█[19] Jaderberg, Max, et al. "Decoupled neural interfaces using synthetic gradients." arXiv preprint arXiv:1608.05343 (2016). [pdf] (训练方法的创新，研究相当不错) ★★★★★

地址：https://arxiv.org/pdf/1608.05343

█[20] Chen, Tianqi, Ian Goodfellow, and Jonathon Shlens. "Net2net: Accelerating learning via knowledge transfer." arXiv preprint arXiv:1511.05641 (2015). [pdf] (改进此前的训练网络，来缩短训练周期) ★★★

地址：Accelerating Learning via Knowledge Transfer

█[21] Wei, Tao, et al. "Network Morphism." arXiv preprint arXiv:1603.01670 (2016). [pdf] (改进此前的训练网络，来缩短训练周期) ★★★

地址：[1603.01670] Network Morphism

2.2 优化 Optimization

█[22] Sutskever, Ilya, et al. "On the importance of initialization and momentum in deep learning." ICML (3) 28 (2013): 1139-1147. [pdf] (Momentum optimizer) ★★

地址：http://www.jmlr.org/proceedings/papers/v28/sutskever13.pdf

█[23] Kingma, Diederik, and Jimmy Ba. "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014). [pdf] (Maybe used most often currently) ★★★

地址：http://arxiv.org/pdf/1412.6980

█[24] Andrychowicz, Marcin, et al. "Learning to learn by gradient descent by gradient descent." arXiv preprint arXiv:1606.04474 (2016). [pdf] (Neural Optimizer,Amazing Work) ★★★★★

地址：https://arxiv.org/pdf/1606.04474

█[25] Han, Song, Huizi Mao, and William J. Dally. "Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding." CoRR, abs/1510.00149 2 (2015). [pdf] (ICLR best paper, new direction to make NN running fast,DeePhi Tech Startup) ★★★★★

地址：https://pdfs.semanticscholar.org/5b6c/9dda1d88095fa4aac1507348e498a1f2e863.pdf

█[26] Iandola, Forrest N., et al. "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 1MB model size." arXiv preprint arXiv:1602.07360 (2016). [pdf] (Also a new direction to optimize NN,DeePhi Tech Startup) ★★★★

地址：http://arxiv.org/pdf/1602.07360

2.3 无监督学习/深度生成模型

█[27] Le, Quoc V. "Building high-level features using large scale unsupervised learning." 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013. [pdf] (里程碑, 吴恩达, 谷歌大脑, Cat) ★★★★

地址：http://arxiv.org/pdf/1112.6209.pdf&embed

█[28] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [pdf](VAE) ★★★★

地址：http://arxiv.org/pdf/1312.6114

█[29] Goodfellow, Ian, et al. "Generative adversarial nets." Advances in Neural Information Processing Systems. 2014. [pdf](GAN，很酷的想法) ★★★★★

地址：http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf

█[30] Radford, Alec, Luke Metz, and Soumith Chintala. "Unsupervised representation learning with deep convolutional generative adversarial networks." arXiv preprint arXiv:1511.06434 (2015). [pdf] (DCGAN) ★★★★

地址：http://arxiv.org/pdf/1511.06434

█[31] Gregor, Karol, et al. "DRAW: A recurrent neural network for image generation." arXiv preprint arXiv:1502.04623 (2015). [pdf] (VAE with attention, 很出色的研究) ★★★★★

地址：http://jmlr.org/proceedings/papers/v37/gregor15.pdf

█[32] Oord, Aaron van den, Nal Kalchbrenner, and Koray Kavukcuoglu. "Pixel recurrent neural networks." arXiv preprint arXiv:1601.06759 (2016). [pdf] (PixelRNN) ★★★★

地址：http://arxiv.org/pdf/1601.06759

█[33] Oord, Aaron van den, et al. "Conditional image generation with PixelCNN decoders." arXiv preprint arXiv:1606.05328 (2016). [pdf] (PixelCNN) ★★★★

地址：https://arxiv.org/pdf/1606.05328

2.4 递归神经网络（RNN） / Sequence-to-Sequence Model

█[34] Graves, Alex. "Generating sequences with recurrent neural networks." arXiv preprint arXiv:1308.0850 (2013). [pdf] (LSTM, 效果很好，展示了 RNN 的性能) ★★★★

地址：http://arxiv.org/pdf/1308.0850

█[35] Cho, Kyunghyun, et al. "Learning phrase representations using RNN encoder-decoder for statistical machine translation." arXiv preprint arXiv:1406.1078 (2014). [pdf] (第一篇 Sequence-to-Sequence 的论文) ★★★★

地址：http://arxiv.org/pdf/1406.1078

█[36] Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014. [pdf] (杰出研究) ★★★★★

地址：http://papers.nips.cc/paper/5346-information-based-learning-by-agents-in-unbounded-state-spaces.pdf

█[37] Bahdanau, Dzmitry, KyungHyun Cho, and Yoshua Bengio. "Neural Machine Translation by Jointly Learning to Align and Translate." arXiv preprint arXiv:1409.0473 (2014). [pdf] ★★★★

地址：https://arxiv.org/pdf/1409.0473v7.pdf

█[38] Vinyals, Oriol, and Quoc Le. "A neural conversational model." arXiv preprint arXiv:1506.05869 (2015). [pdf] (Seq-to-Seq 聊天机器人) ★★★

地址：http://arxiv.org/pdf/1506.05869.pdf%20(http://arxiv.org/pdf/1506.05869.pdf)

2.5 神经网络图灵机

█[39] Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural turing machines." arXiv preprint arXiv:1410.5401 (2014). [pdf] (未来计算机的基础原型机) ★★★★★

地址：http://arxiv.org/pdf/1410.5401.pdf

█[40] Zaremba, Wojciech, and Ilya Sutskever. "Reinforcement learning neural Turing machines." arXiv preprint arXiv:1505.00521 362 (2015). [pdf] ★★★

地址：https://pdfs.semanticscholar.org/f10e/071292d593fef939e6ef4a59baf0bb3a6c2b.pdf

█[41] Weston, Jason, Sumit Chopra, and Antoine Bordes. "Memory networks." arXiv preprint arXiv:1410.3916 (2014). [pdf] ★★★

地址：http://arxiv.org/pdf/1410.3916

█[42] Sukhbaatar, Sainbayar, Jason Weston, and Rob Fergus. "End-to-end memory networks." Advances in neural information processing systems. 2015. [pdf] ★★★★

地址：http://papers.nips.cc/paper/5846-end-to-end-memory-networks.pdf

█[43] Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." Advances in Neural Information Processing Systems. 2015. [pdf] ★★★★

地址：http://papers.nips.cc/paper/5866-pointer-networks.pdf

█[44] Graves, Alex, et al. "Hybrid computing using a neural network with dynamic external memory." Nature (2016). [pdf] (里程碑，把以上论文的想法整合了起来) ★★★★★

地址：https://www.dropbox.com/s/0a40xi702grx3dq/2016-graves.pdf

2.6 深度强化学习

█[45] Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv preprint arXiv:1312.5602 (2013). [pdf]) (第一个以深度强化学习为题的论文) ★★★★

地址：http://arxiv.org/pdf/1312.5602.pdf

█[46] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533. [pdf] (里程碑) ★★★★★

地址：https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf

█[47] Wang, Ziyu, Nando de Freitas, and Marc Lanctot. "Dueling network architectures for deep reinforcement learning." arXiv preprint arXiv:1511.06581 (2015). [pdf] (ICLR 最佳论文，很棒的想法) ★★★★

地址：http://arxiv.org/pdf/1511.06581

█[48] Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." arXiv preprint arXiv:1602.01783 (2016). [pdf] (前沿方法) ★★★★★

地址：http://arxiv.org/pdf/1602.01783

█[49] Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971 (2015). [pdf] (DDPG) ★★★★

地址：http://arxiv.org/pdf/1509.02971

█[50] Gu, Shixiang, et al. "Continuous Deep Q-Learning with Model-based Acceleration." arXiv preprint arXiv:1603.00748 (2016). [pdf] (NAF) ★★★★

地址：http://arxiv.org/pdf/1603.00748

█[51] Schulman, John, et al. "Trust region policy optimization." CoRR, abs/1502.05477 (2015). [pdf] (TRPO) ★★★★

地址：http://www.jmlr.org/proceedings/papers/v37/schulman15.pdf

█[52] Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489. [pdf] (AlphaGo) ★★★★★

地址：http://willamette.edu/~levenick/cs448/goNature.pdf

2.7 深度迁移学习 /终生学习 / 强化学习

█[53] Bengio, Yoshua. "Deep Learning of Representations for Unsupervised and Transfer Learning." ICML Unsupervised and Transfer Learning 27 (2012): 17-36. [pdf] (这是一个教程) ★★★

地址：http://www.jmlr.org/proceedings/papers/v27/bengio12a/bengio12a.pdf

█[54] Silver, Daniel L., Qiang Yang, and Lianghao Li. "Lifelong Machine Learning Systems: Beyond Learning Algorithms." AAAI Spring Symposium: Lifelong Machine Learning. 2013. [pdf] (对终生学习的简单讨论) ★★★

地址：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.696.7800&rep=rep1&type=pdf

█[55] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015). [pdf] (大神们的研究) ★★★★

地址：http://arxiv.org/pdf/1503.02531

█[56] Rusu, Andrei A., et al. "Policy distillation." arXiv preprint arXiv:1511.06295 (2015). [pdf] (RL 领域) ★★★

地址：http://arxiv.org/pdf/1511.06295

█[57] Parisotto, Emilio, Jimmy Lei Ba, and Ruslan Salakhu★★★tdinov. "Actor-mimic: Deep multitask and transfer reinforcement learning." arXiv preprint arXiv:1511.06342 (2015). [pdf] (RL 领域) ★★★

地址：http://arxiv.org/pdf/1511.06342

█[58] Rusu, Andrei A., et al. "Progressive neural networks." arXiv preprint arXiv:1606.04671 (2016). [pdf] (杰出研究, 很新奇的想法) ★★★★★

地址：https://arxiv.org/pdf/1606.04671

2.8 One Shot 深度学习

█[59] Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. "Human-level concept learning through probabilistic program induction." Science 350.6266 (2015): 1332-1338. [pdf] (不含深度学习但值得一读) ★★★★★

地址：http://clm.utexas.edu/compjclub/wp-content/uploads/2016/02/lake2015.pdf

█[60] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "Siamese Neural Networks for One-shot Image Recognition."(2015) [pdf] ★★★

地址：http://www.cs.utoronto.ca/~gkoch/files/msc-thesis.pdf

█[61] Santoro, Adam, et al. "One-shot Learning with Memory-Augmented Neural Networks." arXiv preprint arXiv:1605.06065 (2016). [pdf] (one shot 学习的基础一步) ★★★★

地址：http://arxiv.org/pdf/1605.06065

█[62] Vinyals, Oriol, et al. "Matching Networks for One Shot Learning." arXiv preprint arXiv:1606.04080 (2016). [pdf] ★★★

地址：https://arxiv.org/pdf/1606.04080

█[63] Hariharan, Bharath, and Ross Girshick. "Low-shot visual object recognition." arXiv preprint arXiv:1606.02819 (2016). [pdf] (通向更大规模数据的一步) ★★★★

地址：http://arxiv.org/pdf/1606.02819

蓝桥杯真题 - 公因数匹配 - 题解 ExRoc 蓝桥杯算法 c++
题目链接：https://www.lanqiao.cn/problems/3525/learning/个人评价：难度2星（满星：5）前置知识：调和级数整体思路题目描述不严谨，没说在无解的情况下要输出什么（比如nnn个111），所以我们先假设数据保证有解；从222到10610^6106枚举xxx作为约数，对于约数xxx去扫所有xxx的倍数，总共需要扫n2+n3+n4+⋯+nn≈nln⁡n\frac{
蓝桥杯真题 - 子树的大小 - 题解 ExRoc 蓝桥杯算法 c++
题目链接：https://www.lanqiao.cn/problems/3526/learning/个人评价：难度2星（满星：5）前置知识：无整体思路整体将节点编号−1-1−1，通过找规律可以发现，节点iii下一层最左边的节点编号是im+1im+1im+1，最右边的节点编号是im+mim+mim+m；用l,rl,rl,r分别标记当前层子树的最小节点编号与最大节点编号，每次让最左边的节点往下一层的
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
【JVM】—G1 GC日志详解一棵___大树 JVM jvm
G1GC日志详解⭐⭐⭐⭐⭐⭐Github主页https://github.com/A-BigTree笔记链接https://github.com/A-BigTree/Code_Learning⭐⭐⭐⭐⭐⭐如果可以，麻烦各位看官顺手点个star~文章目录G1GC日志详解1G1GC周期2G1日志开启与设置3YoungGC日志4MixedGC5FullGC关于G1回收器的前置知识点：【JVM】—深入理解
NLP 中文拼写检测纠正论文-04-Learning from the Dictionary 后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
【已解决】ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory 小小小小祥 python
问题描述：按照tensorrt官方安装文档：https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-tar安装完成后，使用python测试导入tensorrtimporttensorrt上述代码报错：Traceback(mostrecentcalllast):File“main.py”,li
ASPICE 4.0引领自动驾驶未来：机器学习模型的特点与实践亚远景aspice 机器学习自动驾驶人工智能
ASPICE4.0-ML机器学习模型是针对汽车行业，特别是在汽车软件开发中，针对机器学习（MachineLearning,ML）应用的特定标准和过程。ASPICE（AutomotiveSPICE）是一种基于软件控制的系统开发过程的国际标准，旨在提升软件开发过程的质量、效率和可靠性。ASPICE4.0中的ML模型部分则进一步细化了机器学习在汽车软件开发中的具体要求和流程。以下是对ASPICE4.0-
利用Python运行Ansys Apdl ssssasda ansys apdl 流处理批处理 python
Ansys流处理1.学习资源2.版本要求3.pymapdl安装流程4.初始设置和本地启动mapdl5.PyMAPDL语法6.工具库7.与window的交互接口1.学习资源Ansys官网：https://www.ansys.com/zh-cnAnsysAcademic（Ansys学术）:https://www.ansys.com/zh-cn/academicAnsysLearningForum（An
DeepSeek V3：新一代开源 AI 模型，多语言编程能力卓越 that's boy 人工智能 chatgpt openai claude midjourney deepseek-v3
DeepSeekV3横空出世，以其强大的多语言编程能力和先进的技术架构，引发了业界的广泛关注。这款最新的AI模型不仅在性能上实现了质的飞跃，还采用了开源策略，为广大开发者提供了更广阔的探索空间。本文将深入解析DeepSeekV3的技术原理、主要功能、性能表现及应用场景，带您全面了解这款新一代AI模型。DeepSeekV3的核心亮点DeepSeekV3是一款基于混合专家（MoE）架构的大型语言模型，
深度剖析 DeepSeek V3 技术报告：架构创新与卓越性能表现微凉的衣柜科技头条人工智能大模型语言模型
随着人工智能（AI）技术的不断发展，各种大规模语言模型（LLM）层出不穷，DeepSeekV3作为其中的一员，凭借其出色的性能表现和创新的架构设计，吸引了广泛关注。本文将通过对官方发布的DeepSeekV3技术报告的深入解析，从多个维度剖析DeepSeekV3如何通过先进的技术手段，在保持性能卓越的同时优化计算和内存开销。一、性能卓越，超越同行DeepSeekV3在多个权威基准测试中展现了强大的性
【机器学习：三十二、强化学习：理论与应用】 KeyPan 机器学习机器学习机器人人工智能深度学习数据挖掘
1.强化学习概述**强化学习（ReinforcementLearning,RL）**是一种机器学习方法，旨在通过试验与反馈的交互，使智能体（Agent）在动态环境中学习决策策略，以最大化累积奖励（CumulativeReward）。相比监督学习和无监督学习，强化学习更关注长期目标，而非简单地从标签中学习。核心概念智能体（Agent）：进行学习和决策的主体。环境（Environment）：智能体所在
第三讲隐语架构 huang8666 人工智能
第三讲隐语架构产品层白屏黑屏两大模块通过可视化产品，降低终端用户的体验和演示成本通过模块化API降低技术集成商的研发成本隐语产品SecretPad：轻量化安装快速验证POC可定制集成SecretNote：Notebook形式交互式建模多节点一站式管理和交互运行状态跟踪算法层PSI/PIR、DataAnalysis、FederatedLearningPSI（PrivateSetIntesection
DeepSeek V3 ChatGPT 国产AI他来啦 Ag大雨人工智能 ai
国产开源之光app：DeepSeekV3强势出圈！各位技术爱好者们，今天必须给大家安利DeepSeekV3，它堪称开源AI领域横空出世的超级新星！研发团队以卓越智慧，用极低的成本打造出这一世界级AI，惊艳全球，让无数业内大佬都为之侧目，妥妥的“国产骄傲”。它的功能堪称全能，日常写作、翻译、问答轻松拿捏，独特的“深度思考”模式加上联网搜索，在编程、解题、文献解读等复杂任务里也游刃有余，推理思考能力一
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
YOLOv10-1.1部分代码阅读笔记-base.py 红色的山茶花 YOLO 笔记深度学习
base.pyultralytics\data\base.py目录base.py1.所需的库和模块2.classBaseDataset(Dataset):1.所需的库和模块#UltralyticsYOLO,AGPL-3.0licenseimportglobimportmathimportosimportrandomfromcopyimportdeepcopyfrommultiprocessing.
AUTOSAR汽车电子嵌入式编程精讲300篇-智能网联汽车CAN总线-基于电压信号的CAN总线入侵检测系统设计与实现格图素书汽车网络
目录前言入侵检测系统研究现状入侵检测系统建模CAN总线入侵检测威胁模型DeepSVDD模型入侵检测系统方案设计挑战和解决方案差分信号的采集与处理差分信号的特征提取入侵检测模型的设计入侵检测系统性能评估实验环境设置不同的车辆状态不同数量的攻击目标不同发送频率的攻击消息DeepSVDD模型与SVDD模型的比较本文篇幅较长，分为多篇，文章索引详见智能网联汽车CAN总线-发展现状智能网联汽车CAN总线-智
Windows 11安装DeepSpeed报错（Unable to pre-compile async_io）问题解决 happy coding windows gpt
Windows11安装DeepSpeed报错（Unabletopre-compileasync_io）问题解决报错如下Preparingmetadata(setup.py)...errorerror:subprocess-exited-with-error×pythonsetup.pyegg_infodidnotrunsuccessfully.│exitcode:1╰─>[17linesofout
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
PLUTO：突破基于模仿学习的自动驾驶规划极限硅谷秋水机器学习自动驾驶人工智能自动驾驶人工智能机器学习计算机视觉
24年4月来自香港科技大学的论文“PLUTO:PushingtheLimitofImitationLearning-basedPlanningforAutonomousDriving”。PLUTO，突破基于模仿学习的自动驾驶规划极限。改进来自三个关键方面：一种纵向横向感知模型架构，可实现灵活多样的驾驶行为；一种创新的辅助损失计算方法，可广泛应用且可高效地进行批量计算；一种利用对比学习的训练框架，采
拿下美赛M奖之必备软件和网站！东方建模. 数学建模
目录前言：一.题目翻译与理解：DeepL+知云文献翻译二.查找文献：国内外平台结合使用三.论文撰写：Word或LaTeX+Overleaf四.公式输入与思维导图：MathType+XMind五.阅读文献与文献管理：AdobeReader+Zotero六.模型求解与编程：MATLAB+Python+Lingo七.图形绘制与结果可视化：MATLAB+Python+Origin八.流程图与示意图：亿图图
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
【机器学习】主动学习-增加标签的操作方法-样本池采样（Pool-Based Sampling） IT古董机器学习机器学习学习人工智能
Pool-BasedSamplingPool-basedsampling是一种主动学习（ActiveLearning）方法，与流式选择性采样不同，它假设有一个预先定义的未标注样本池，算法从中选择最有价值的样本进行标注，以提升模型的性能。这种方法广泛应用于需要人工标注的场景，例如文本分类、图像识别等。核心思想预先准备一个未标注数据池（UnlabeledDataPool）。使用初始标注数据训练一个模型
deepin 中 apt 与 dpkg 安装包管理工具的区别慵懒的猫mi linux deepin 运维
在Linux系统中，尤其是基于Debian的发行版如Ubuntu和Deepin，apt和dpkg是两种常用的包管理工具。它们在功能和使用场景上有一些显著的区别。本文将详细介绍这两种工具的主要区别以及它们的常用命令。1.主要区别1.1dpkg功能：dpkg侧重于本地软件包的管理。它主要用于安装、删除和查询本地的.deb文件。依赖管理：dpkg不会自动处理依赖关系。如果安装的包有依赖，需要手动安装这些
DeepSeek Artifacts：前端开发的新利器人工智能
DeepSeekArtifacts：前端开发的新利器人工智能领域创新不断，DeepSeekV3便是其中备受瞩目的工具之一。这款轻量级模型凭借在大语言模型（LLM）排行榜上的优异表现，以及亲民的价格和卓越的性能，在人工智能社区中广受关注。然而，它的姊妹工具DeepSeekArtifacts却因截然不同的缘由引发了热议。在本文中，我们将深入探究DeepSeekArtifacts。这是HuggingFa
6850亿参数混合专家(MoE)架构开源大模型！Deepseek V3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平！是卓越还是拉胯？真能超越Claude还是言过其实？ AI超元域 ai AI编程
本篇笔记所对应的视频：6850亿参数混合专家(MoE)架构开源大模型！DeepseekV3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平！是卓越还是拉胯？_哔哩哔哩_bilibiliDeepseek发布了最新Deepseekv3大模型，现在在huggingface上可以下载模型的权重文件了。而且我们还可以在Deepseek的官方直接使用v3模型。由于官方还没有发布详细的参数介绍，
peewee 怎么实现 count(*) mysqlsql
问题：peewee的.count方法是必须要加参数的，不加参数就会翻译成count()，是非法的SQLSQL的count必须加*或者具体的字段而peewee的count方法直接加.count('')是不行的，会被翻译成count('')，也是非法的SQL合法的SQL是count(*)解决办法回到问题「peewee怎么实现count(*)」问了3个ai：chatgpt、deepseekv3、gemi
《C++ 赋能强化学习：Q - learning 算法的实现之路》 c++人工智能深度学习
在当今科技飞速发展的时代，人工智能无疑是最热门的领域之一，而强化学习作为其中的重要分支，正逐渐改变着我们解决复杂问题的方式。Q-learning算法作为强化学习中的经典算法，在众多领域如游戏、机器人控制、资源管理等有着广泛的应用前景。本文将深入探讨如何用C++实现强化学习中的Q-learning算法，带您领略C++在人工智能领域的强大魅力。一、强化学习与Q-learning算法概述强化学习是一种通
【列表复制】详解python中list列表复制的几种方法（赋值、切片、copy()，deepcopy()）有梦想的程序星空 Python开发教程 python 开发语言
在Python编程领域，列表是一种极为常用的数据结构，用于存储多个元素的有序集合。当涉及到对列表进行复制操作时，浅拷贝和深拷贝是两种重要的概念与技术手段，它们在处理列表数据的过程中有着截然不同的行为和影响，深刻理解二者的差异与应用场景对于编写高效、准确且健壮的Python代码至关重要。1、浅拷贝和深拷贝浅拷贝复制指向某个对象的地址（指针），而不复制对象本身，新对象和原对象共享同一内存。深拷贝会额外
2024年大数据最全【ES专题】ElasticSearch集群架构剖析_es集群 kenzsoft 程序员大数据 elasticsearch 架构
IngestNode：数据前置处理转换节点，支持pipeline管道设置，可以使用ingest对数据进行过滤、转换等操作MachineLearningNode：负责跑机器学习的Job，用来做异常检测TribeNode：TribeNode连接到不同的Elasticsearch集群，并且支持将这些集群当成一个单独的集群处理以下是一个多集群业务架构图：1.2.1.1MasterNode主节点的功能Mas
黑客发现新漏洞：Windows容器隔离框架可助其绕过端点安全真想骂* windows 安全
近期，网络安全领域再次传来令人担忧的消息。DeepInstinct的安全研究员DanielAvinoam在DEFCON安全大会上揭示了一项惊人的发现：黑客可以利用Windows容器隔离框架的漏洞，绕过端点安全系统，从而执行恶意操作。这一发现无疑为全球的网络安全防护提出了新的挑战。Windows容器隔离框架，作为Microsoft容器架构的重要组成部分，其设计初衷是通过动态生成的映像将文件系统从每个
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

126篇殿堂级深度学习论文分类整理 从入门到应用（上）