AITIME论道

清华、中科院、百度、阿里等大佬共论人工智学术生态与产业创新--中国科技峰会系列活动青年科学家沙龙（AI TIME承办）...

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

作为地球上最高级的智慧生命，人类始终对构建一种与自己高度类似的智能形式充满着热情。自 1956 年的达特茅斯会议起，人工智能已发展为了一门枝繁叶茂的朝阳学科。尤其是进入新千年后，随着计算能力的提升与深度学习理论的逐渐成熟，人工智能技术在各个研究领域大放异彩，并在巨大商业价值的驱动下，走进了千家万户。然而，随着人工智能研究走进深水区，传统的基于深度学习的「感知」技术已经逐渐无法满足学术研究和产业应用的需求，人们对于研发更准确、更鲁棒、更具可解释性、更安全的人工智能技术的呼声日益高涨，并期待其在自动驾驶、智慧金融、电子商务、交通物流等领域有更加深入的应用。

2020 年 9 月 25 日-9 月 26 日，「2020 中国科技峰会系列活动青年科学家沙龙—人工智学术生态与产业创新」, 活动由中国科协主办，清华大学计算机系、AI TIME以及智谱·AI承办；为了迎接人工智能下一个十年的重大挑战，本次沙龙活动旨在打造有利于创新的学术生态、繁荣创新文化开展研讨、搭建青年科技工作者交流对话平台、促进青年成长成才。本次沙龙共包含 17 场精彩的学术、产业报告，还有两场非常精彩的AI TIME论道，论道嘉宾在现场进行了精彩的思辨，与线上观众互动频繁。

本次学术沙龙的主席、国家杰青、清华大学计算机系唐杰教授首先带来了题为《认知推理——人工智能的下一个浪潮》的主题报告，指出如今人工智能领域的研究正处于从「感知」走向「认知」的重要转型时期，这一思想也始终贯穿于本次学术沙龙各位各位讲者的精彩报告中。

在本次演讲中，唐杰教授首先从多跳问答系统引入，回顾了面对较为复杂的问题时，人脑会采取迭代式的的认知推理过程，并将这一过程与基于预训练语言模型的「黑盒」机器学习方法进行了对比，说明现有的人工智能技术存在「缺乏可解释性」的弊端，从而指出了将外部知识与概念融入到机器学习模型中的重要性。

图 1：认知图谱

为了实现这一目标，唐杰教授团队基于双通道理论提出了迭代式的「认知图谱」学习范式，即通过 System 1（例如，预训练的 BERT、XLNet 等模型）模拟直觉式的知识扩展过程，而 System 2（例如，基于图神经网络的知识推理）则负责对 System 1 抽取的信息价值作出判断，并将有用的信息放入 System 1 进行下一轮迭代，直到 System 2 找到令人满意的答案为止。

基于「认知图谱」范式开发的 CogQA 模型的性能在 HotpotQA 竞赛中曾持续占据榜首达 3 个月之久。实验表明，该方法的推理优势在跳数较多的问答系统中尤为凸显，且可以显示地输出推理链条，具有很强的可解释性与纠错能力。

图 2：人工智能的发展趋势

自上世纪 50 年代至今，人工智能研究经历了从「计算」、「感知」，走向「认知」的研究趋势。为了实现 System 1 的快速语义匹配，唐杰教授团队近期在图数据的自监督学习方面进行了深入的研究。对于 System 2 而言，目前大多数工作仍然着眼于提升图神经网络的决策能力，其推理能力仍有待进一步加强。

图 3：第三代人工智能

在认知智能时代，为了实现统计与知识推理、脑认知的融合计算，我们仍面临着缺乏超大规模知识图谱、以及对知识的理解能力等重大挑战。为此，以 Yoshua Bengio 为代表的一大批研究人员正探索将符号推理与深度学习相结合的计算方法。

在唐杰教授看来，人工智能下一个十年的研究主旋律是从大数据到知识，再到智能的认知推理过程。而从更长远的时间尺度上看，人工智能在未来三十年的发展方向也许是从认知推理到记忆，产生计算机的自我意识。唐杰教授从认知心理学中的全局工作理论（GWT）的角度对以上研究思路进行了高度凝练的升华与统一。

唐杰教授的精彩报告为本次学术沙龙奠定了基调，也起到了抛砖引玉的作用，指出了一系列未来人工智能研究领域亟待解决的问题：如何更好地将人类知识应用于人工智能系统？如何构建刻画物体及其之间关系的世界模型？如何实现更具可解释性的人工智能？如何提高对数据样本的利用率？如何实现大规模、安全的商业人工智能系统？本次学术沙龙中各位讲者精彩的报告则一一针对这些问题给出了自己的解决方案。

一、知识的力量：从感知到认知

在迈向强人工智能的道路上，提取人类知识并将其注入给机器系统是十分关键的一步。世界顶级学术期刊《Science》曾在 2015 年发文指出，目前深度学习在知识建模方面仍然需要更多的研究与发现。

本次学术沙龙的另一位主席、清华大学计算机系刘知远副教授，在其报告《知识指导的自然语言处理》中，通过基于 Hownet 义元知识的词嵌入与基于知识图谱的世界知识嵌入的相关工作说明，数据驱动的「感知」深度学习技术并不是人工智能的终点，人类语言及其它领域的知识对于提升深度学习系统的性能、可解释性都有着重要的意义。

图 4：知识指导的自然语言处理

在本次学术沙龙举办的《论道自然语言处理的瓶颈与曙光》圆桌讨论中，百度人工智能技术委员会主任何中军、中科院计算所研究员兰艳艳等人也就「结合知识常识发展自然语言处理非技术」这一话题展开了讨论。根据何中军老师多年从事机器翻译工作的经验来看，仅仅基于传统的统计方法和神经网络方法得到的句子翻译结果往往缺乏逻辑性，经常违背常识，而百度在未来也将积极探索将知识融入到预训练的语言模型中，从而解决上述问题。兰艳艳研究员也持类似的观点，在她看来，除了向自然语言处理模型中引入知识与常识之外，还应该结合图像、视频等多模态信息，与语言文字互为补充，达到「认知语言」的状态。

图 5：《论道自然语言处理的瓶颈与曙光》圆桌讨论掠影

而作为目前最流行的知识表征范式，知识图谱其本身也存在着巨大的有待研究的空间。来自中国人民大学信息学院的张静副教授在其报告《知识图谱融合中歧义性与异质性问题的讨论》中，首先简要对知识图谱的定义、表示方式、应用场景进行了介绍，并针对动态多源知识图谱融合的歧义性与异质性问题展开了讨论，介绍了他们如何在动态的开放学术图谱上将论文链接到已存在的作者上，以及融合异质多语言知识图谱两个方面的工作。

二、建模之王：图神经网络

图是一种人们用来表示世界中物体及其之间关系的最自然的方式。近年来，GCN、GraphSage、GAT 等一大批图神经网络方法由于其强大的建模、表征、推理能力，逐渐成为了人工智能研究领域中的「明星」。实际上，在本次学术沙龙活动的多位讲者的演讲中都可以寻觅到图神经网络技术的身影。

其中，浙江大学计算机学院杨洋副教授的报告《Time2Graph：从图视角出发的时间序列建模》与北京交通大学计算机学院万怀宇副教授的报告《时空交通数据预测方法及应用》体现了他们将图神经网络应用于特殊时序场景的独到心得。

杨洋副教授在报告中，针对用户窃电行为预测等实际问题，利用 Shapelets（具有代表性的时序子序列）表征了具有特定意义的时序信号片段，并针对 Shapelets 在不同时间点意义不同、Shapwlets 会发生演化的问题，分别提出了基于「局部因子+全局因子」、「图神经网络」的解决方案。

图6：Time2Graph 架构示意图

万怀宇副教授在报告中，针对公路、铁路、民航网络等数据，自然地运用了图来描述交通网络的空间结构，并且从时间、空间两个维度上刻画了信号的特征，尝试了利用图卷积捕获时空关系结构。基于构建的时空图预测模型，万怀宇副教授等人完成了航班的需求预测、高速公路收费定价、滴滴用户需求预测等任务。

图7：时空图卷积

三、数据当先：迁移与增强

如今，基于深度学习的人工智能技术是典型的数据驱动型技术，具有良好泛化性能的模型高度依赖于大量的、标注质量高的训练样本。然而，获取数据并进行大规模的数据标注是一件成本极高的工作。为此，来自哈尔滨工业大学的车万翔教授与清华大学自动化系的黄高副教授分别从迁移学习与数据增强两个不同的角度试图解决数据缺乏的问题。

在车万翔教授的报告《基于迁移学习的任务型对话系统研究》中，他针对任务型对话场景，指出目前深度学习技术所要求的大量高质量标注数据无法满足，并试图通过迁移学习的方法，将利用源任务训练的模型学习到的知识迁移到目标任务上，从而在目标任务上获得较好的模型性能。具体而言，车万翔教授从多任务学习、跨领域迁移学习、跨语言迁移学习三个角度分别介绍了他们在该方向的研究工作。

图8：基于迁移学习的任务型对话系统

在黄高副教授的报告《图像数据的语义层扩增方法》中，他则是选择了对数据做加法，在「深度特征插值」技术的启发下，开发了一套隐式语义增强方法，实现了自动、多样化的数据扩增。

图9：隐式语义数据增强

四、安全至上：人工智能隐私保护

现有的深度学习技术极易受到对抗性样本、逆向工程、下毒攻击等手段的攻击从而泄露用户的信息，为了将人工智能技术大规模应用于医疗、金融、生物信息等对隐私保护要求较高的场景，一大批研究人员开展了对人工智能安全的研究。

来自清华大学交叉信息研究院的马雄峰副教授带来了题为《量子密钥分发网络优化及安全性》的报告，简要地介绍了量子通讯在密码学中的应用，指出了量子密钥分发的广阔应用空间。

图10：量子密码学在瑞士大选中的应用

来自微众银行的AI资深研究员刘洋带来了题为《联邦学习金融领域的应用》的报告。微众银行是在联邦学习领域处于国际领先地位的企业，该公司的首席人工智能官杨强教授是联邦学习领域的开创者之一。在报告中，刘洋研究员介绍了微众银行为解决数据隐私保护、数据孤岛等问题在联邦学习方面的研究进展，重点说明了该技术在金融领域的应用方法。

图11：联邦学习系统架构

在本次学术沙龙举办的《论道推荐系统之“效率”》圆桌讨论中，北京邮电大学计算机学院程祥副教授认为，除了可以从技术的角度达到推荐效果与用户隐私保护之间的平衡，未来还应该积极推进相关法律法规的建设，从非技术的角度充分保护用户的隐私。

五、人工智能应用与人机交互

随着智能理论和相关计算技术的发展，将人工智能技术大规模应用于商业场景，并实现个性化、体验良好的人机交互，为人工智能下一个十年的研究注入了不竭的活力。

来自清华大学计算机系的喻纯副教授带来了题为《智能人机交互》的报告，针对人机交互的核心问题——「自然动作交互的意图理解」，介绍了他们团队在「自然动作的交互动作感知」、「自然动作意图编码」、「自然动作数据理解」方面的相关工作。

作为目前最火热、前进最光明的应用领域之一，无人驾驶技术的发展得到了学术界持续的关注和资本的青睐。小马智行联合创始人兼 CTO 楼天城博士在报告《无人驾驶——一场技术主导的「登月之旅」》中，回顾了小马智行在构建「信息收集」、「物体感知」，「决策」、「控制」等多个模块相互配合的全体系无人驾驶架构方面的努力。他指出，我们仍然处于无人驾驶研发的「上半场」（即原型车验证等可行性探索），而无人驾驶研发的「下半场」将关注如何将该技术产品化、规模化。他畅想道，在真正实现自动驾驶的时候，人、车、路的关系将被彻底改变和颠覆，车会变成人类生活的一部分，成为一种终端平台。而要想实现这一宏伟的设想，首先必须做到的是「全无人化」与「规模化量产」。

图12：「汽车大脑」示意图

除了无人驾驶，电子商务也是当下人工智能最重要应用的应用场景之一。来自新加坡国立大学的冯福利老师在报告《因果推理赋能推荐系统初探》中，针对现有的机器学习独立同分布学习假设难以满足的问题，指出需要将因果推理技术引入推荐系统模型，从而消除数据的偏差，并带来更可靠的可解释性。冯福利老师认为，在双系统理论中，System 1 的任务是学习实用工具，System 2 的任务则是学习制造工具，并且需要通过额外的循环引入因果关系，从而指导模型的训练。

来自阿里巴巴集团的高级算法专家周畅在报告《认知智能与推荐系统》中，介绍了他们受认知系统中记忆机制、知识的形成与传播机制的启发，理解用户行为，对用户进行建模，并生成个性化推荐的相关工作。

图13：受认知智能启发的推荐系统

在本次学术沙龙举办的《论道推荐系统之“效率”》圆桌讨论中，清华大学计算机系张敏副教授也发表了与阿里巴巴集团周畅博士相类似的观点，在她看来，在「知识图谱+推荐系统」研究领域中，图结构的复杂程度、问题的规模、算法的效率、有限的算力等因素极大制约着图模型的训练效果，研究人员不妨从脑认知科学领域寻求破局之法，找到质效皆优的训练方法。

此外，智谱·AI CTO 张鹏在报告《AI 驱动的智慧人才技术体系》中，就人工智能技术在人才挖掘、人才引进、人才利用、人才评价等方面的应用，介绍了如何构建 AI 驱动的智慧人才技术体系架构；学堂在线 CEO 王帅国在报告《AI 让教育更智慧》中，讨论了知识图谱、问答系统、推荐系统等人工智能技术在在线教育场景下的广阔使用场景；北京彩智科技有限公司 CEO 徐剑军在报告《DKnow深知智能——一个真正有用的行业chatbot》中，介绍了聊天机器人在工业界的具体应用，以及相关的工程经验；达闼科技研发副总裁赵开勇在报告《基于自学习的机器人决策系统》中，讨论了机器人控制中实际遇到的学习问题，并就如何提高机器人的决策能力、如何利用仿真环境进行开发等问题展开了讨论。

结语

立足学术前沿，深耕产业应用，在「2020 中国科技峰会系列活动青年科学家沙龙—人工智学术生态与产业创新」活动中，来自中科院、清华大学、北京大学、浙江大学、中国人民大学、哈尔滨工业大学等院校的青年科学家，以及来自阿里巴巴、百度、微众银行、学堂在线等企业的青年企业家们，以主题报告和圆桌论坛的形式，围绕认知智能、自动驾驶、自然语言处理、计算机视觉、人机交互、推荐系统、量子计算、联邦学习、知识图谱、智慧人才等AI领域最前沿的学术发展和产业前沿展开了讨论。

人工智能研究已经迈进了一个新的十年，从基于「感知」的深度学习研究时代走来，越来越多的研究者们将目光投向了基于知识、因果推理、图模型等新技术的「认知」人工智能研究领域，人工智能技术在无人驾驶、电子商务、智慧金融等领域的应用也逐渐往个性化、大规模化等方向纵深发展。这是人工智能研究的黄金年代，我们期待新一代的青年科学家、企业家勇立潮头，在这个崭新的时代里书写下新的科学诗篇！

AI Time欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你，请将简历等信息发至[email protected]！

微信联系：AITIME_HY

AI Time是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

更多资讯请扫码关注

（点击“阅读原文”查看直播回放）

python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
Deepseek：多轮对话与上下文拼接 chilavert318 熬之滴水穿石 ai
今天的内容，应该很好理解。我们先从场景切入来理解。首先，你回想一下，有没有遇到过这样的情况：和朋友聊天时，聊了一会儿，突然朋友说起之前的某个话题，你却有点反应不过来，得努力回忆之前说了啥。人工智能之所以“智能”，因为它就不可能这么健忘。在和Deepseek聊天，在多轮对话中，Deepseek就像一个记忆力超强的小伙伴，能清楚记得你们聊过的每一个重要细节，让对话一直顺顺畅畅。这背后呀，藏着Deeps
MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
Python编程实战：爬虫与数据可视化的全过程草莓味儿柠檬
本文还有配套的精品资源，点击获取简介：本项目通过Python编程实现网络数据爬取和数据可视化，适合初学者深入了解Python。我们将涵盖基础语法、网络爬虫技术、数据处理、可视化技术、文件操作和错误处理等关键知识点，最终完成从爬取各省降水量数据到可视化展示的全过程。1.Python基础语法使用Python作为一门流行的编程语言，因其简洁和易读性被广泛应用于网络爬虫、数据处理和可视化等领域。本章将帮助
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
hexo php推送百度,Hexo站点主动推送百度-基于Flow.ci 数数科技 hexo php推送百度
写在前面：下面是链接提交方式的对比：如何选择链接提交方式1、主动推送：最为快速的提交方式，推荐您将站点当天新产出链接立即通过此方式推送给百度，以保证新链接可以及时被百度收录。2、自动推送：最为便捷的提交方式，请将自动推送的JS代码部署在站点的每一个页面源代码中，部署代码的页面在每次被浏览时，链接会被自动推送给百度。可以与主动推送配合使用。3、sitemap：您可以定期将网站链接放到sitemap中
baidusitemap.php,生成百度sitemap站点地图的php类墨墨张
简介：/**SiteMap接口类*/classSitemapActionextendsAction{privatestatic$baseURL='';//URL地址privatestatic$askMobileUrl='http://m.xxx.cn/ask/';//问答移动版地址privatestatic$askPcUrl="http://www.xxx.cn/ask/";//问答pc地址pri
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
BaiduSitemap - Typecho站点地图生成与多搜索引擎推送插件独立开发者阿乐原创 javascript 云计算自动化大数据数据分析
文章目录BaiduSitemap-Typecho站点地图生成与多搜索引擎推送插件✨功能特点插件架构核心模块文件结构安装方法方法一：手动安装方法二：Git克隆⚙️配置说明站点地图基本设置搜索引擎配置百度搜索引擎必应（Bing）搜索引擎谷歌（Google）搜索引擎使用指南站点地图访问手动操作站点地图包含内容高级功能图片索引优化推送状态监控技术实现详解站点地图生成流程搜索引擎推送机制缓存机制❓常见问题站
TDengine 运维全攻略：五种备份与恢复方法深度解析（2025 最新版） TDengine （老段） TDengine 运维 tdengine 运维大数据涛思数据物联网时序数据库数据库
备份与还原是数据库运维的核心环节，TDengine提供了五种主流数据备份方法，覆盖不同场景需求。本文将详细解析各方法的特性与操作要点。1.taosdump介绍taosdump是TDengine社区版首选的数据备份工具（企业版同样支持），其核心特点是操作简便、支持多线程处理，且备份文件采用ApacheAvro格式（大数据领域通用数据交换格式），便于向其他系统共享数据。工具支持跨平台连接远程服务器执行
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
大数据智能风控核心：模型 johnny233 读书笔记大数据
概述模型线性判别分析方法，SirRonaldFisher最早提出模型评分的概念。个人FICO模型信用分。巴塞尔委员会发布巴塞尔Ⅱ协议，推出内部评级法（InternalRatingBasedApproach，IRB）。IRB综合考虑客户评级和债项评级，通过违约概率(ProbabilityofDefault,PD)、违约损失率(LossGivenDefault,LGD)、违约风险暴露(Exposure
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
Python爬虫实战：研究Bleach库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 Bleach
1.引言在大数据时代，网络内容采集已成为信息获取的重要手段。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网页爬虫开发的首选语言。然而，从互联网获取的内容往往包含恶意脚本、不安全标签等安全隐患，直接使用可能导致XSS(跨站脚本攻击)、数据泄露等风险。Bleach作为专业的HTML净化库，通过白名单机制提供了可靠的内容安全过滤方案。本文将结合实际案例，详
Python爬虫实战：研究untangle库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 untangle
1.引言在大数据时代，网络数据已成为重要的信息资源。XML和HTML作为互联网上最常用的数据表示格式，广泛应用于API接口、网站结构和数据交换等场景。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网络数据采集的首选语言。然而，从复杂的XML/HTML文档中提取结构化数据仍然面临诸多挑战，如文档结构多样性、动态内容渲染和数据格式转换等问题。Untangl
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
【头歌】MapReduce基础实战答案 Seven_Two2 头歌大数据实验答案 c#开发语言
本专栏已收集大数据所有答案第1关：成绩统计编程要求使用MapReduce计算班级每个学生的最好成绩，输入文件路径为/user/test/input，请将计算后的结果输出到/user/test/output/目录下。答案：需要先在命令行启动HDFS#命令行start-dfs.sh再在代码文件中写入以下代码#代码文件importjava.io.IOException;importjava.util.S
机器学习中的数学：数学建模常用知识点-1 数字化与智能化机器学习中的数学机器学习凸函数泰勒公式 Jensen 不等式
一、凸函数1、凸函数讲解设函数f(x)是定义在区间X上的函数，若对于区间上任意两点x1、x2和任意实数��∈(0,1)，总有如下表达式成立：则称为f(x)是X上的凸函数；反之，如果下式成立：则称为f(x)在X上的凹函数。如图所示：Python实现凸函数：importnumpyasnpimportmatplotlib.pyplotasplt#定义凸函数defconvex_function(x):re
2025年AI编程工具推荐小猴崽 AI编程 AI编程 ai编程
以下基于2025年权威技术报告、开发者社区评测及厂商白皮书，对当前主流AI编程工具进行客观综述与推荐。数据来源包括IDC《2025中国生态告》、信通院《AI辅助编程技术成熟度评》、StackOverflow开发者调查及头部企业实测案例。一、国际主流AI编程工具GitHubCopilotX核心能力：基于GPT-4模型升级，支持37种编程语言（Python/Java/JS等），可解析数万行代码库的全局
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
智能体综述和参考资料整理木鱼时刻大模型人工智能
目录总体介绍核心组件记忆系统工具系统计划与推理开发框架Single-AgentMulti-Agent智能体平台技术实现通信协议角色系统对话记忆MCP协议参考链接总体介绍智能体（AIAgents）是人工智能领域的重要发展方向，它们能够通过传感器感知环境并通过执行器对环境采取行动。根据罗素和诺维格在《人工智能：一种现代方法》（2016年）中的定义，AIAgent是任何可以通过传感器感知其环境并通过执行
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

清华、中科院、百度、阿里等大佬共论人工智学术生态与产业创新--中国科技峰会系列活动青年科学家沙龙（AI TIME承办）...

你可能感兴趣的:(人工智能,百度,大数据,编程语言,机器学习)