weixin_34075551

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

大数据时代，中大型企业数据的爆发式增长，几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张，导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的融合数仓，从海量数据中快速获取有效信息，从而洞察机遇、规避风险。

在这样的现状下，CarbonData 诞生了，作为首个由中国贡献给Apache社区的顶级开源项目，CarbonData 提供了一种新的融合数据存储方案，以一份数据同时支持多种大数据应用场景，并通过丰富的索引技术、字典编码、列存等特性提升了 IO 扫描和计算性能，实现了PB数据级的秒级响应。

为了帮助开发者深入了解并学习这项大数据开源技术，华为 CarbonData PMC 陈亮牵头，携手技术社区的核心开发者及合作伙伴，举办了一场Apache CarbonData+Spark 主题的技术交流会，就 CarbonData+Spark 的重要特性和使用介绍，做了全面而细致的分享，本文简单整理了其中的部分精彩内容，同时，作为本次活动的承办方，InfoQ整理上传了所有讲师的演讲PPT，感兴趣的同学可以下载讲师PPT获取完整资料。

Spark SQL的发展史概述（讲师PPT下载）

来自美国Databricks公司的范文臣首先讲述了Spark SQL的发展史，范文臣同时也是Apache Spark PMC member，主导 Spark SQL 一些主要功能的设计和研发，定期审计项目代码质量等。现场，他将Spark SQL过去的发展分为四个阶段：

2009年，著名的Spark框架诞生。它是一个围绕速度、易用性和复杂分析构建的大数据处理框架，由伯克AMP实验室创建。相比于当时流行的Hadoop，Spark提供了更高效的MapReduce模型，减少数据落地，也降低了编程难度。\\t
2011年，Spark团队将Hive的底层物理执行模块从Hadoop切换成Shark，启动了Shark项目。然而，由于Hive自身的代码复杂性以及和Hadoop MapReduce的耦合，Shark的开发举步维艰，进展缓慢。\\t
2014年，Spark团队舍弃Shark，重新建立了一套完整的查询框架Catalyst。Catalyst利用了函数式风格的不可变特性，使Query Plan不可变，优化器通过遍历优化策略生成新的 Query Plan。这样优化规则之间的影响更容易理解，提升了代码的可读性和可维护性，也方便了新特性的开发。下图为Spark SQL控制框架：\

2015年，Spark团队提出了钨丝计划，通过建立Tungsten格式、后端优化、代码生成等手段，将Spark的查询性能和执行速度提升到了一个新的台阶。\\t
2017年，持续探索中……\

那么，沿着查询性能这条路，Spark的未来还会有哪些优化方向？范文臣在最后的演讲中总结到：Spark的愿景是管理各种不同性质数据集和数据源的大数据处理的需求。Spark这样一个角色，只关注于计算层，快速查询处理是Spark唯一的衡量标准，也是未来不变的发展方向。也因此，在之后的Spark2.3里面，在计算框架下如何更快的和储存系统桥接、Spark代码生成都是未来着重关注的方向。

CarbonData应用实践+2.0新技术规划介绍（讲师PPT下载）

CarbonData诞生之初是希望以一份数据去满足企业各种各样的场景需求，包括详单过滤和海量数仓以及数据集式操作等。那么，开发者该如何正确使用CarbonData技术？华为CarbonData总设计师李昆结合实际案例，详细讲解了CarbonData应用实践+2.0新技术规划。

CarbonData大数据生态

Carbondata在数据查询方面选择和Spark结合，据李昆现场介绍，Carbondata+Spark可以打造一个相对于传统系统来说，更好的交互分析体验，目前Carbondata和Spark1.5、1.6、2.1，Hive，Presto都做了集成，未来还将对Spark2.2做支持；在接口方面，Carbondata提供SQL接口，也支持Spark DataFrame API；在操作方面，支持查询、数据管理如批量入库、更新、删除等操作。

随后，李昆就CarbonData索引建立、CarbonData表格与物理存储、SQL引擎对接、数据管理过程等技术内容做了详细介绍。由于篇幅限制，本文不在此介绍，感兴趣的读者可以下载讲师PPT对CarbonData的存储原理进行深入了解。

成功案例介绍

随后，李昆通过电信详单分析场景的举例介绍，详细说明CarbonData如何以一份数据支持多种应用场景的。李昆表示，在电信跟金融领域经常需要明细数据分析，优化之前，老的系统需要用Impala和Hbase两个系统，建立4个二级索引才可以完成业务需要的性能。这其中，Impala用来做报表输出，Hbase做关键维度查询。这两个系统有各自存在不足：Impala没有办法很好的扩展，HBase要做很多二级索引，无法使用yarn统一资源管理，只能是一个个集群单独维护。

用Carbondata+Spark数据优化后，可以解决既要点查又要处理报表的情况。下图是一个从2000亿到1万亿的性能测试数据，Q1是过滤查询，Q2也是过滤查询，Q1跟Q2数据查询因为用了Carbondata索引，需要扫描的数据不会增长很多，数据量增长5倍，查询时间增长不到1倍。第三个查询是full scan查询，主要考察的是spark和carbon的可扩展性，测试过程中发现扩展性是非常线性的，scalability很好。

CarbonData2.0未来规划

现在，Carbondata的主要特性是对多场景的支持，不过在大数据时代，更多的场景正扑面而来。包括SQL分析、时间序列分析、位置轨迹、文本检索、图查询和机器学习等。这就需要Carbondata2.0在各领域的应用上有更多的准备。包括：

入库方面，需要考虑实时事件的流式入库、历史事件的批量入库等；\\t
存储方面分三层，一层是界面，每一个领域有自己的术语，会针对领域常见操作做些SQL上的扩展；二是数据组织层，对不同领域做不同的分区、索引和预处理等，以便于它更高效地存储领域数据；三是存储格式层，Carbondata目前是列存，为了支撑更多查询和分析，数据格式本身也需要具有扩展能力，比如行存、时序、面向AI的格式等；\

Spark 2.2 核心特性CBO介绍（讲师PPT下载）

在Spark SQL的Catalyst优化器中，许多基于规则的优化技术已经实现，但优化器本身仍然有很大的改进空间。Spark 2.2在Spark SQL引擎内添加了一个基于成本的优化器框架，此框架通过可靠的统计和精确的估算，能够在以下领域做出好的判定：选择散列连接操作的正确构建端，选择正确的连接算法，调整连接的顺序等等，这个基于成本的优化器就是CBO。据华为研究工程师王振华介绍，CBO的目标是希望优化器能够自动为用户选择最优的执行计划，要达到这件事情，需要以下三个步骤：

第一步收集、推断和传播关于源/中间数据的表/列统计信息。用户运行 ANALYZE TABLE 命令会收集表格信息比如表的行数、大小，列的统计信息比如最大值、最小值、不同值个数等，并将这些信息存储到metastore里面。

第二步Cardinality Estimation，根据收集到的信息，计算每个操作符的成本，包括输出行数、输出大小等。如做filter时写一个过滤条件，给定的条件会基于条件里面涉及列的统计信息，估算过滤条件执行完了以后，Operator有多少数据。

如下图，为一个A小于等于某数字的估算，如果A的value比A的最小值更小，或者是比A的最大值更大，那么过滤率肯定是0或者100%，当落在定义域中间的时候，假设是均匀分布，概率则是A.min到B的区间所占A的定义域的百分比，这个是Filter条件最终的selectivity，有了selectivity，即可再相应的更新filter以后的统计信息。

第三步根据成本计算，选择最优的查询执行计划。通过建造方选择（Build Side Selection）、散列连接实现：广播与洗牌（Hash Join Implementation: Broadcast vs. Shuffle）、多路连接重新排序（Multi-way Join Reorder）、连接成本计算公式（Join Cost Formula）四个方面阐述了最优计划的选择过程。

其中，在多路连接重新排序方法上，采用了动态规划算法。以四表连接为例，首先，将所有项(基本连接节点)放到0级；然后，从第0级的计划中构建所有的两表连接；第三，从以前的层级(单节点和两表连接)中构建出可能的三表连接；最后，构建所有的4路连接，并在其中选出最优的计划。而在构建m-路径连接时，只需保留同一组m项的最佳计划(最优子解决方案)。如，对于A、B、C的三表连接顺序，只保留三个候选计划:(A J B)J C，(A J C)J B和(B J C)J A 当中最优的计划。

Join cost计算方式如下，首先Cost一般来说传统的数据库里是基于CPU和IO，这两个Cost是线性加合。在Spark中，用Cardinality模拟CPU的开销，用size模拟IO的开销。

王振华最后介绍到，华为在2016年7月份开始将CBO贡献给Spark社区，并建立了umbrella ticket - SPARK-16026。截至目前为止，创建了超过40个sub-tasks、提交了50余个pull requests并被合入，同时吸引了十余个社区贡献者的参与。

CBO的第一个版本已经在Spark 2.2中发布，感兴趣的开发者和使用者，如要使用CBO，可以在收集统计信息之后，打开spark.sql.cbo.enable来使用CBO。

Partition 功能详解+上汽实践分享（讲师PPT下载）

CarbonData的partition特性将在Apache CarbonData 1.2.0版本里正式发布，此特性将显著提升大数据查询性能。上汽集团大数据将CarbonData作为平台基础组件，以应对迅猛增长的数据量，那么上汽集团在使用CarbonData过程中遇到了哪些问题？上汽集团大数据平台开发经理曹鲁就CarbonData的partition特性以及上汽集团在CarbonData项目的实践和测试数据做了分享。

曹鲁首先介绍了文件结构，索引生成过程，初次性能测试等主题内容，引出Partition特性带来改变，主要包括两点：1、数据将基于Partition列更为集中存储，查询时可过滤掉大量block，减少spark task数量；2、可以使其他列在排序中更靠前，提升查询性能。

Partition Table的数据加载及查询过程详解

随后，曹鲁详细介绍了CarbonData Partition相关的DDL语法，如Create Partition Table、Show Partition等，以及CarbonData Partition Table的数据加载以及查询过程。下图可以很清晰的看到CarbonData Partition的整个数据加载过程。

关于CarbonData Partition Table查询过程，大概分为两个部分：

之后，曹鲁就Partition的新增(add)、拆分(split)及删除(drop)功能的语法和实现过程展开了分析，其中重点区分了Drop Partition但保留数据RangePartition/ListPartition两种Drop Partition类型的不同语法与实现，感兴趣的读者可以下载讲师PPT深入了解。

上汽在CarbonData项目的实践分享

在案例分享环节，曹鲁以上汽的数据作为测试数据，分析了CarbonData Partition table和非Partition table条件下的加载性能和查询性能对比。并给出了CarbonData Partition的性能调优建议。本文为大家展示其中的无排序维度列作为过滤条件，有partition列上的范围过滤条件的聚合查询情况的对比结果，如图不难看出，原始查询方式的耗时是添加partition性能查询方式耗时的25倍。

曹鲁给出的CarbonData Partition的性能调优建议：1、选择最合适的Partition列；2、尽可能的使用Partition列作为过滤条件，例如Partition列为A，开发者根据业务需求在Column B上有筛选条件，但注意到A与B列之间存在某种固定的mapping关系，这时就可以根据B列的过滤条件再新增一个partition列的过滤条件，以提高查询效率。

现场精彩问答整理

Q：客户在使用Spark时不愿意编写代码，更喜欢给他一个页面能能够直接生成SQL，Spark后面会不会更多的偏向于业务人员做一些更易应用的东西出来，比如可以直接出来一个页面？

\
A：Spark本身不会往这方面走，因为Spark只专注于做计算这层，这个模式一般是另外一个项目，比如有项目zpplin是专门做供应GIU的，可以在zpplin上面调Spark的一些接口，这些会单独立项，而不是在Spark里面做。
\

Q：刚才提到carbon有一个目标，能够尽量多的支持各种场景，目前我们也做过一些测试，某些特定情况下，不同的场景可能在响应速度和并发性上有比较大的差距，这一点后面有没有改善？

\
A：这方面需要跟Spark一起联合做优化，因为Spark是端到端的，从元数据查询到SQL优化到DAG调度执行，有很多中间过程处理会耗时，建议你做一下打点分析，看主要瓶颈是哪一块，同时carbon和spark我们也可以做一些联合优化，相信基于社区的努力后面会有改善。
\

Q：如果有新的数据添加进来，CarbonData统计信息如何更新？

\
A：有两种方式，一种是比较简单的，每次数据表更新重新计算增量，这样比较精确但是会比较慢，另外一种方式是增量的更新统计信息，这种方式较前一种可能会稍微复杂一些。
\

Q：在用Spark写Carbondata Partition的时候，并行比较高，导致每个分区下出现很多小文件，这样有什么好的解决办法？

\
A：在CarbonData中每一个Block的大小是可以设置的，Blocklet也可以设置的，在load数据的时候，写满一个block的默认大小就会重新再写一个文件，所以可以设置Block大小来解决这个问题。另外定期使用CarbonData的compaction功能也可以合并一些小文件，当然后面我们也会考虑开发merge partition的功能来给用户提供更多选择。
\

主流数据库语言语法对比两圆相切数据库
以下是五大数据库（MySQL、PostgreSQL、Oracle、SQLServer、SQLite）核心语法对比，涵盖DDL、DML、查询、函数、事务等全场景，包含底层原理差异和实用示例。##一、数据一、类型深度对比分类MySQLPostgreSQLOracleSQLServerSQLite整数TINYINT,INT,BIGINTSMALLINT,INT,BIGINTNUMBER(10)TIN
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
Jfinal +Swagger zhanghe687 java java
使用Jfinal[版本3.6]+Swagger实现前后端开发时接口文档管理步骤1:1.下载jfinal-swagger-1.0.0.jar下载地址:live.autujfinal-swagger1.0.0步骤2:2.下载swagger-ui,放入项目中,存放目录如下:下载地址:https://gitee.com/zhanghe687/jfinal_swagger_ui.git步骤3:修改jfina
工业大模型应用报告：新机遇、挑战与未来展望花生糖@ AIGC学习资料库大模型人工智能应用扩展屏应用开发 AI 机器学习
大模型在工业智能化发展中的新机遇、挑战与展望。以下是报告的核心内容概述：大模型为工业智能化发展带来新机遇大模型开启人工智能应用新时代，推动技术创新和应用。大模型有望成为驱动工业智能化的引擎，提高研发效率、拓展生产制造智能化应用边界、提升经营管理水平。大模型应用落地需要深度适配工业场景，解决行业知识和企业特定环境的理解问题。大模型和小模型在工业领域将长期并存小模型应用呈现倒U型分布，主要集中在生产制
后仿之debug记录风之子npu 后仿单片机嵌入式硬件
在此记录一下在实际工作中碰到的在后仿过程中碰见的一些问题：1.数据采样失败原因1：iodelay增加不足；解决办法：根据sdc修正iodelay数值，同时参考后端PR的timingreport，修正delay；原因2：glitch导致采样失败，zerodelay期间，虽然在波形中看到信号变化时瞬时的，但是同一个timingslot中因为器件自身的原因，导致信号在同一个timingslot中其实变化
AI时代的弯道超车之第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳 Hebron_Deb AI时代-弯道超车-逆袭人生人工智能
在这个AI重塑世界的时代，你还在原地观望吗？是时候弯道超车，抢占先机了！李尚龙倾力打造——《AI时代的弯道超车：用人工智能逆袭人生》专栏，带你系统掌握AI知识，从入门到实战，全方位提升认知与竞争力！内容亮点：AI基础+核心技术讲解职场赋能+创业路径揭秘打破信息差+预测行业未来第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳我们终于来到了第十七章，也是这本人物传记中该领域的最后一章。前面我们讲到了李飞飞
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
认知革命牧羊少年的时间之旅
看完人类简史后产生了一个想法，人类经过几万年的演化从采集时代，农业社会，再到工业革命和最近的科技革命，每一次的演变升级都是对传统认知的一次革新。但是我们现在的科技发展是如此的迅速，但是认知的进步却非常缓慢。克隆人，基因设计，人工智能，生化科技，量子计算等很多领域都是传统文化所无法理解和接受的，但是这些却依然有条不紊在进行中。所以人类目前急需一次认知的革命才能追上科技的脚步，不然一定会造成认知和现实
全栈Todo应用实战：从零到一的本地部署与深度解析
全栈Todo应用实战：从零到一的本地部署与深度解析前言在现代Web开发中，全栈应用已成为主流。本文将以一个经典的Todo（待办事项）应用为例，详细记录从项目下载、环境配置、后端启动、数据库交互到前端运行的完整流程。我们将深入探讨在此过程中遇到的一个典型问题——CORS与API请求失败，并提供从“快速修复”到“最佳实践”的解决方案。这不仅是一份操作指南，更是一次宝贵的实战经验总结。你将从本博客中学到
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
毕业设计基于python + flask +mysql + Layui新闻系统项目源码 love0everything flask python 课程设计
毕业设计基于python+flask+mysql+Layui新闻系统项目源码介绍该项目采用Flask框架开发，数据库采用mysql。这是一个作业项目。该项目采用Flask框架开发的一个新闻、论坛、博客系统。。前端采用的是layui框架，后端模板是X-admin下载地址：毕业设计基于python+flask+mysql+Layui新闻系统项目源码模块版本PyMysql1.0.2Flask1.1.2M
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
前后端数据交互，关于表单数据传输问题 Trust yourself243 json
表单提交varformData=newFormData();//添加每个事故ID作为单独的参数accidentIds.forEach(id=>formData.append('accidentIds',id));formData.append('status',statusText);$.messager.confirm('确认','确定要将事故记录标记为'+statusText+'吗？',fun
Keepalived + VIP 高可用架构设计与实践详解：实现 Nginx 入口层的高可用要阿尔卑斯吗. nginx 运维分布式架构 java
一、背景与目标在大型网站或企业系统中，“高可用性（HighAvailability,HA）”是衡量系统稳定性的关键指标之一。任何一个节点故障都不应影响整体服务的可达性。问题背景举例：Tomcat部署了集群（后端高可用）Redis配置了主从+Sentinel（缓存高可用）数据库使用了主备或分库分表（存储高可用）但入口Nginx只有一个……Nginx宕机=全站瘫痪为了解决这个“最顶层的单点问题”，我们
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
通过 Docker 和 Kubernetes 部署前后端代码到服务器
目录通过Docker和Kubernetes部署前后端代码到服务器一、准备工作二、创建Docker镜像三、部署到Kubernetes四、访问应用程序五、总结在现代软件开发中，Docker和Kubernetes已成为部署应用程序的强大工具。它们提供了一种可靠、可扩展和高效的方式来将前后端代码部署到服务器上。本文将介绍如何使用Docker和Kubernetes来部署前后端代码。一、准备工作安装Docke
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
AI应用服务 SUPER5266 人工智能
AI大模型--AI应用，该如何和前端交互，呈现llm模型答复内容呢？向LLM大模型提问后，系统得先识别问题，再从数据网络找信息，接着推理出正确结果，还得防止模型“胡编乱造”（控制模型幻想）。有时多个智能体（agent）要一起处理，结果还得融合。这些步骤都是异步进行的，没法像传统应用接口那样实时出结果。为减少大模型结果延迟、提升用户体验，我们提供以下方案。方案1、轮询后端pedding结果到db或其
后端如何接收数据？详解8种HTTP请求方式及SpringBoot代码实现 Xxtaoaooo http spring boot 网络协议 java
人们眼中的天才之所以卓越非凡，并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。————马尔科姆·格拉德威尔目录一、RequestPayload（JSON/XML等结构化数据）二、QueryStringParameters（URL参数）三、FormData（表单数据）四、PathVariables（路径参数）五、Headers（请求头）六、Cookies七、
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比