learn deep learning

大数据时代工程师如何应对–今日头条走进硅谷技术讲座

下面就是杨先生的演讲实录：

大数据下记录“样本=总体”

先给大家讲网上段子。我们把大数据比作什么呢?高中生的初夜!问问大家，有谁的初夜是在高中的呢?凡是举手的人都有做大数据的潜力，现在每个人都在讨论大数据，就像高中生都在讨论性，你做过吗?没有人做过，每个人都以为自己做过，每个人都声称自己做成，这是一个很有意思的事情，用这个来比喻大数据非常的恰当。

其实从一点就能感知大数据在身边，我们每个人都在使用手机，手机上的传感器是越来越多，也越来越快，除了录拍照，医疗的传感器加入后就可以知道你的心跳、地理位置等都会被记录下来。

而我们要把以前没有办法记录的数据都要记录下来，以前无法分析的数据都要去进行分析。比如大家的点击行为，所有的交互行为，所有行为的时长，都记录下来。之前采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候，它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变，但我们的方法和思维却没有跟上这种改变。但是在很多领域，从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话，我们会收集所有的数据，即“样本=总体”。

再给大家举一个例子，这是一个按钮平均触摸的时间分布，差不多是在44-112毫秒，每个按钮触摸时间是不一样的，大家觉得这个信息有用吗?也许没有什么用，但有一个研究机构表明，从一个用户接触的时间和面积的分布，我们可以推断用户按这个按钮时的情况。比如说一篇文章放了一个按钮，通过这个按钮的行为就知道有多少人是喜欢还是讨厌，像这样的记录很多人是之前没有想过的。

还有个美国的研究机构实验，通过手指来按压摄像头，就是把手机做在线的课程，手机的背后都有LED灯，把灯打开之后用手指遮挡住摄像头和灯可以记录你的心跳，甚至知道血液颜色的变化，间接获得心跳图。这样就可以知道学生是否在看这个图，是不是感兴趣还是开小差。

大数据的收益

回到今日头条，对于阅读行为，我们以前会记录每篇文章在头条阅读的时间，而现在我们换一种记录方法去看某一页停了多少秒，又停留了多少秒，我们会把这个序列记录下来，可以推断这个用户是否读懂这个文章。这些行为的记录都是非常有价值的，在新的时代大家要去知道以前不能够记录的东西，没有用的东西，当这些都记录下来，未来某一天都会很有用的。

我们的分析的方法发生了变化，主要两方面因素，第一，产品应用越来越广泛了，有场景能够去用到这些数据;第二，我们分析数据的方法也越来越多。举例：搜索展示量与点击数是千亿量级的，在早期大家怎么样来用?就是要点击调权，如果说一个问题点击的次数很高就往前排，当分析方法没有那么进步的时候我们就用这种方法来做，这个方法有局限性，对于这一块有效，但是对于频次低的就没有效了。

现在随着神经网络算法发展，系统可以去训练100亿、甚至1000亿的用户浏览、点击行为数据，去主动学习用户查询与文章题目的内在关联，我们取得的收益是什么呢?整个团队34%的收益来自与这个项目，这是非常重大的改进，就是通过了计算方法的变化，使得我们能够去分析这么大规模的数据。

数据爆炸和硬件红利结束

再举一个今日头条阅读时长变化的数据，我们为什么可以改进阅读时长呢?我们通过数据的分析，把用户的行为数据全部都记录下来了，我们知道用户点了什么内容，将用户的行为和行为特征进行组合，最后仅30天的数据就达到了1.5PB，这样的数据对今日头条来说需要大量计算资源才能够处理。

通过充分的对数据的使用提高了用户的使用时长，更多的数据、更多的分析方法和应用的领域，这些就构成了大数据时代。

我们来看一下系统的硬件在最近几年的变化。2005年到2015年CPU在计算性能的提升区域，从2010年开始性能提升的曲线没有那么的高了。单靠CPU能耗比的提升速度是在显著衰减的，所以说摩尔定律已经宣告失效了，工程师依靠硬件红利的时代已经结束了。

如何迎接大数据挑战?

数据越来越多，应用越来越多，硬件进步的趋势减慢，这就构成了大数据时代工程师面临的挑战。如何面对?

我的应对思路是，工程师要变成一个个全栈研发，要通过更加广泛的学习，成为全栈研发才是未来的解决之道。当局部可以大幅度的改进时，更细的分工才会显示出优势，否则只有全栈综合考量才能找到突破点。

成为全栈研发的学习建议

在之前IT时代，有人去做CPU，有人去做UI的改进，大家的分工非常的细，比如说像以前做手机，从硬件，芯片，操作系统，交互，应用每一个都要去关注和打磨，这种很细的分工还能前进是因为每一块都有大幅提升空间。而现在CPU过一年就淘汰了，手机一年已经更新换代了，如果我们还是保持更细的分工不能够把握整体提高，这要求我们必须要不断学习才能够带来突破。

从CPU指令集到操作系统，从Hadoop到统计原理，从机器学习到产品应用，只有通过学习才能够找到突破点。下面举三个例子来详细说明。

(一)系统工程和细节的交叉点

第一个例子，先介绍背景：今日内容推荐很重要的一部分就是针对你可能感兴趣的候选集进行排序，这部分核心就是建模，将用户各种组合偏好记录下来。哪些keyword表达了该用户的特点。

头条的推荐算法分两层。最上面一层，一个大的推荐模型，就是说模型做决策依据的维度，包括性别、年龄、兴趣等都是维度，我们有数百亿特征，涵盖你能想到的一切可以帮助做判断的信息，这个还在不断的增加，还有一层就是推荐召回模型。

那如何解决特征爆炸的问题。这个问题在机器学习领域解决思路有多种，比如通过Sample数据，1 可以L1正则，2 稀疏化特征，3 特征过滤，4 Hash，5 做16 bit的压缩。

这里讲特征过滤怎么做：我们有3T的Uniq Key，任务就是去统计并过滤掉频次在8次以下的Key。很直观的方法就是使用Hadoop去掉低频的，因为你偶尔看到一个词，大量的都是低频的，而劣势就是无法流式计算，当把这个做完，就超过了模型的时间。

我们来看第二个方案，内存的HASH表，当走过一遍数据，维护一个内容的表。每次去查一下，如果说出来6次了，现在第7次了，我们把超过了7次的全部都统计下来，其他的都扔掉，这里有一个就是规模问题，一个HASH的结构，一个Key要占用40 bytes，40 bytes会有指针消耗和对齐问题。如果我们有200台机器，单机需要600G的内存，现在很多的机器都不支持这个内存，那么怎么样来做?

方案三是谷歌在用的一个方法，使用的是Bloom Counter，不要求完全精准过滤。其实就是用多bit的Bloom Filter，我们又叫做Counting Filters。频次是小于等于7，需要3bit，在冲突率约1.5%的情况下，需要6次探测，单bit bloom filter大约是8.66bit。但我不喜欢Bloom Counter 这个结构，因为它对CPU非常不友好，大范围随机访问，远远大于真正计算的时间。有没有更好的做法呢?

我们用了很简单的方法，效果非常好。就是开放地址的Hash ，但不是冲突了之后直接放下一个，基本情况是最大的填充率50%，Key大小 16bit，单机30G内存，冲突率和Bloom Counter想到。这里需要注意一下，我们去查一个东西的时候，就是一个表的指针，之后用第二个函数来算，如果说找到冲突之后，我们就用到一个Hash。这个HASH函数与普通的不同，是一个有损的HASH ，这个有多大的好处呢?它是Bloom Counter性能的6倍，因为它只需要一次访存，这个事情就使得我们对模型训练的时间，总体提高到了原来的2倍，当我们在万兆的网卡上，不到20个小时都可以传完，而这些都和工程相结合起来，找到结合点的时候就把规模进行提升，这些提升所带来的效果是很大的。

(二)理论研究和实践的结合

第二个例子是理论研究和实践的结合。

特别是做在线学习，应用LR(Logistic Regression)是最广泛的。但是批量处理超大规模的数据集和在线数据流时就遇到了问题，离线机器学习方法在每次迭代计算的过程中，需要把全部的训练数据加载到内存中计算(计算全局梯度)，传统batch算法中每次迭代对全体训练数据集进行计算(计算全局梯度)，优点是精度和收敛还可以，缺点是无法有效处理大数据集(此时全局梯度计算代价太大)，且没法应用于数据流做在线学习。

对于一个LR Model来讲，使用不同的学习速率、正则项系数导致收敛的效果是不同的。这当中初始的学习速率还是会带来很大的影响。除了Weight的参数之外，还有学习率、L1等的超参数。总之手工调参是非常困难的问题。

由于头条的训练样本很大，不同特征之间的频次相差非常大，有多大的?会相差7个数量级，有些频次是几千万次，而有的出现频次只有20、30次。所以针对不同类型的特征我们有不同的超参数。特征的类型我们是按照特定的规则来分有上百个，每个特征的类型都有正则率和特征参数，这样我们就几百个参数，这个是没有办法调整的，这个事情是不能够训练的，这是一个很痛苦的问题，有什么解决的方法呢?

在这一块我们是有创新的。大家想一下，超参数的本质是什么?就是要去寻找过拟合和训练不足之间的最佳的平衡点，我们训练是在一个训练集之中去做优化，在线上的集合之中去测试，而这两个数据集的分布是不同的，超参数优化主要用在自动搜索模型的参数，要做到在上线的情况下最优。我们把数据分为训练集验证集和测试集，我们在训练集之中去优化参数，在验证集中去优化超参数，目标是降低验证集的Loss(简单的在线梯度下降很难产生真正稀疏的解，稀疏性在机器学习中是很看重的事情，尤其我们做工程应用，稀疏的特征会大大减少predict时的内存和复杂度)，这是更加的接近线上的分布，我们找到最优点，同时这个方法是服务做好的。

在FTRL(Follow-The-Regularized-Leader 算法由Google在2013年KDD上发表)下，超参是可以导的，这是最有意思的事情。这个L1正则项梯度，这个是可以求出来的，对L2的正则项也是可以求出来的，所以我们就有自动调参的流程，来算出更新，然后在验证集中去验证，用到这些相应的方法，如何去把验证集去进行训练，这是有讲究的，如果验证集太近和太远都是不好的，这些都是细节的问题。

学习中的验证怎么调?

做这一块最头痛的事情就是调参，但是我可以把几百个参数变成只有几个——参数可以调了，这个事情我们已经把它实现了并且在头条上全面的上线了，取得了什么效果呢?就是我们的离线评估AUC有2.2个绝对百分点的收益，在线的CTR有7.5个相对百分点的收益，这是非常重大的改进。

这个项目不仅仅有一个很好的实际效果，在算法的领域上也有一定的突破，我们之后也打算把这个整理一下，在期刊上去发一个Paper。

(三)算法和产品，UI的结合

第三个例子，算法和产品，UI的结合。头条不仅仅有文章还有视频，视频的低质内容的控制是很重要的，我们有很多的办法去改进这个问题，比如一些账号去评级，通过账号订阅的比例，效果都不好，之后我们用了一个很简单办法，效果会大幅度的提升，我们在视频播放的列表页放出了顶踩按钮，通过简单的加入顶踩的数据的统计，会对低质的打击效果明显提高。这就是一个很简单的，就是和产品结合，技术的方案就是要解决问题。你有简单的方法去解决问题这才是更有意义的创新。

大数据实验方法 A/B 测试

就是做A/B测试，把实验对象随机分组，把一个或多个测试组的表现与对照组比较，进行测试。

怎么做A/B测试，第一步我们线上流量进行分流，正常用户还是走正常的流量，一部分流量我们要保证样本无偏，通过科学方法去划分出一些流量做实验，还要进行分组，分出对照组和实践组，对照组和线上的策略完全一样，实验组我们做一些小小的改变。

比如头条网页版的首页，新版加了一个链接，老版加了一个任务评论。我们看哪个好呢?通过A/B测试的方式，一部分人看到新版的结果，一部分是老版效果。事后统计分析，看到底哪个版本效果好。

还有叫做双盲交叉验证。它是说在评估一项数据的时候，我可以把一部分样本抽样，让其他人再评估一下。根据抽样数据评估的一致性来判断该评估的可靠性怎么样，比如你审一些黄色反动的文章，机器做得再好，必须有人来把关。

我们看一下交叉验证在头条是怎么实现的。交叉验证用的最多的场景涉及到人工运营的场景，在头条刚才提到有些业务需要人工的评估。因为你文章如果分类分不准的话，可能就会影响你的推荐。有很多东西要人去审的，审核和评估都有一个问题，什么问题呢?它依赖人。

大家印象中人比机器靠谱的，从大的面上来说，机器比人更靠谱，机器不求回报。在互联网公司，审核和评估投入这块肯定比工程师低很多，这就造成两个后果，第一个就是审核人员敬业或者他的能力上可能跟工程师相比，他会有一定的差距，这是客观存在的。因为我们的人力成本也比较低。

第二个就是他的流动性可能比较大，另外标准经常变来变去。我们一定要用机器去监控人的工作怎么样，需要有一个预警。这块我们需要引入一个双盲的交叉验证，帮助我们去看这些运营同学他们工作的稳定性怎么样，同时去激励不断提升自己的判断力，得到机器更好的评估。

数据实验是怎么分析的?

数据实验是怎么分析的，先把数据拿过来，再做日志处理，存到日志，发到服务端，这需要一个很好的数据可视化的系统，因为出来数字，大家看着也不方便。给产品经理给高层老板看一堆数字很烦，看曲线就好了。

最后在大数据领域还有哪些技术可以交叉呢?

比如说硬件的交叉，在新的硬件领域还有非常多创新的点。比如说现在的传感器的技术，比如说神经网络很多的做法是嵌入到芯片之中去的，分布式架构和机器学习算法的交叉，商业智能分析与新算法的交叉，这是一种用语言来画图做引擎，和我们做一些编译器和新的语言都有关系，有一些交叉。

这些交叉是诞生新想法非常重要的一部分。最重要的一个交叉就是什么呢?把技术和人们的需求的痛点相结合，进而产生更多的产品，所以每个创业者是更棒的创新家。在大数据的时代下，有太多的需要学习的，现在最难的就是找到优秀的工程师，这说明工程师的不可替代性和行业的繁荣，我想这就是工程师的时代也是在座每一个人的机会!

参考资料： >

http://zhuanlan.zhihu.com/dataman/20447450

今日头条曹欢欢：3亿用户每天的头条各不一样，靠数据是怎么做到的？

今日头条刘思齐：数据是未来最重要的生产资料营销透明化/个性化/场景化

“今日头条”怎么计算：“网络爬虫+相似矩阵”技术运作流程

End.

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

大数据时代工程师如何应对–今日头条 走进硅谷技术讲座