tiger119

用友华表任少斌：三面突围大数据存储

正在学习大数据相关的知识，发现用友的一篇文章不错，可以当作入门科普。

当然，我不清楚他讲的方案是不是合理的，但确实很易懂，也能学到不少知识。

转自：http://www.enet.com.cn/article/2012/0702/A20120702130582.shtml

大数据时代给传统数据仓库架构带来了一系列的冲击和挑战，仅从源数据采集和存储层面，就让仓储的构建者不得不重新认真地思考：数据在哪里？这个问题的答案改写了企业数据仓库对数据源的既有定义，同时也传递了两方面的焦虑，一是数据规模急速增长，现有的单节点或者共享磁盘架构能否适应海量数据的存储；二是数据结构复杂多样，现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。

　　面对企业大数据的挑战，用友华表作为一家提供商业分析产品的供应商，在技术上我们将如何解决大数据的问题呢？目前面对大数据给现有仓库存储架构带来的量的冲击和数据种类增加的挑战，不同的公司会选择不同的技术路线，我们最初试图通过一个大而全的存储架构来解决海量数据和多种数据类型的问题。但结过一段时间反复研究，我们认为大而全的存储架构不是解决大数据的最佳方案，我们目前决定采用的技术路线是让不同种类的数据存储在最适合他们的存储系统里，然后再将不同的数据类型进行融合，企业在融合的数据基础上做商业分析。

　　本文我将从用友华表的技术思路、存储方案、存储之后的数据如何融合三个层次来阐述我们如何应对大数据的挑战。

　　分而治之三面突围

　　第一，有“容”乃大。“容”，即有足够的容量来存储数据。对于大规模数据，我们将采用分而治之的思想，构建分布式存储系统，并且做到易扩展。保证系统可以方便的增加节点，当企业的数据快速增加时，可以使数据分布始终保持在平衡状态；

　　第二，有“荣”乃大。即兼用多种存储引擎。大数据因结构复杂多样使得数据仓库要采集的源数据种类无比“繁荣”，因此新的仓储架构也要改变目前以结构化为主体的单一存储方案的现状，针对每种数据的存储特点选择最合适的解决方案：对非结构化数据采用分布式文件系统进行存储，对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎，对海量的结构化数据采用shared-nothing的分布式并行数据库系统存储；

　　第三，有“融”乃大。如上所述可以兼用多种分布式存储引擎来解决“容”和“荣”的挑战，但企业存储多元化数据的一个重要目标是集成分析，而多种类型数据孤立存储对后续的集成分析会带来极大不便。因此我们还需要构建分布式数据库系统和分布式文件系统之间的连接器，使得非结构化数据在处理成结构化信息后，能方便的和分布式数据库中的关系型数据快速融通，保证大数据分析的敏捷性。

　　存储方案各不同

　　上面提到针对大数据规模大、种类多的特点，我们可以采用“容”、“荣”的方案，兼用多种分布式存储引擎分而治之。那么我们就拿非结构化、半结构化和结构化这三大类数据的存储方案分别举例说明，以便让大家更清楚的了解到不同类型的海量数据通常都是通过哪些方式来进行存储的。由于谈到的都是业界普遍使用的开源或商业方案，因此不做深入讨论。

　　首先，适合存储海量非结构化数据的分布式文件系统。

　　HDFS（Hadoop Distributed File System），是鼎鼎大名的开源项目Hadoop的家族成员，是谷歌文件系统GFS（Google File System）的开源实现。HDFS将大规模数据分割为多个64兆字节的数据块，存储在多个数据节点组成的分布式集群中，随着数据规模的不断增长，只需要在集群中增加更多的数据节点即可，因此具有很强的可扩展性；同时每个数据块会在不同的节点中存储3个副本，因此具有高容错性；因为数据是分布式存储的，因此可以提供高吞吐量的数据访问能力，在海量数据批处理方面有很强的性能表现。

　　其次，适合存储海量无模式的半结构化数据的分布式Key/Value存储引擎。

　　HBase（Hadoop Database），也是开源项目Hadoop的家族成员，是谷歌大表Bigtable的开源实现。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，它不同于一般的有模式的关系型数据库，HBase存储的数据表是无模式的，特别适合结构复杂多样的半结构化数据存储。此外，HBase利用HDFS作为其文件存储系统，利用MapReduce技术来处理HBase中的海量数据。

　　第三，适合存储海量结构化数据的分布式并行数据库系统。

　　Greenplum是基于PostgreSQL开发的一款MPP（海量并行处理）架构的、shared-nothing无共享的分布式并行数据库系统。采用Master/Slave架构，Master只存储元数据，真正的用户数据被散列存储在多台Slave服务器上，并且所有的数据都在其它Slave节点上存有副本，从而提高了系统可用性。

　　Greenplum最核心的技术就是，大表数据分片存储，可以应对海量数据；基于大表的查询语句在经过Master分析后可以分片发送到Slave节点进行并行运行，所有节点将中间结果返回给Master节点，由Master进行汇总后返回给客户端，大大提高了SQL的运行速度。

　　“三融合一”--Xnet数据交换网络

　　各种复杂而大量的数据犹如一张立体的大网，三类数据是网里三种不同的结点，前面提到的三类分布式存储引擎可以将不同的结点有序的安排在网上，并且每种相同的结点都可以直接用线相互连接起来。但此时只是三个孤立的面，就如同三类数据间存在的孤岛。若要把这三个面也相互连接起来，形成一张可以从点到面，从点到点，从面到面的大网，则需要构建一个方便、快速的数据交换组件，它是一个连接器，可以实现“三融合一”，满足大数据存储有“融”乃大的特性。

　　下面先介绍一下数据交换网络Xnet（Exchange Net）的一些基本构思，它是一个可以完成分布式文件系统和分布式数据库之间海量数据快速交换的组件。

　　上图仅是一个简化的逻辑图，在实际的物理部署中，HDFS集群和并行数据库集群共用一个服务器集群，即在服务器集群的每个节点上既有HDFS数据节点也有并行数据库的数据库单实例。处于中间融通两方数据的蓝色部分就是我们本节要探讨的分布式、可并行运行的高速连接器Xnet。

　　Xnet实际就是运行在Hadoop集群上的一系列Mapreduce任务，它要完成从HDFS读取源数据、处理中间结果集、最后写入分布式数据库的若干作业，这些作业对调用者而言是完全透明的，仅需要配置简单的业务信息，调用Xnet就可自动完成：

　　·源数据文件：需要同步至分布式数据库的HDFS文件

　　·文件头：源数据的列分隔符、以及与目标表列名的映射

　　·目标表：要写入的数据库表

　　·过滤条件：选择写入的数据行条件

　　·散列键：根据散列键的值和哈希算法确定数据要写入分布式数据库的节点，对数据进行分片保证数据均衡分布

　　Xnet组件的主要功能设计如下：

　　第一，拆分列表。将源数据文件符合过滤条件的面向行的记录拆分为多个列表，并存入如下的目录结构中：

　　一级目录为表名，二级目录为列名，这样方便后续的基于列的数据传输、装载以及基于列的统计信息采集，其Mapreduce过程可以模拟如下：

　　Map阶段：

　　a、源数据文件被splitable接口分割为多个数据段，对每个段Jobtracker会启动一个Mapper检索每一行记录，根据Xnet的配置信息得到符合过滤条件的记录

　　b、根据Xnet配置信息得到每条记录的散列键，结合哈希算法计算出该记录的散列值HK

　　c、根据Mapper处理的数据段号和当前处理的行号产生一个行标识RID

　　d、Mapper结合Xnet的配置信息对当前记录的每一列都产生输出，数据格式为HK:(Cn;RID;Cv)，其中HK为散列值，Cn为列名，RID为行标识，Cv为列值

　　Reduce阶段：

　　a、Reducer远程读取Mapper产生的中间数据集，通过实现定制化的MultipleOutputFormat接口并根据记录中Cn即列名，将记录写入如上的树结构目录中，数据格式为HK:(RID;Cv)。

　　第二，散列列表。将拆分得到的列表数据文件根据每条记录的散列值HK汇聚到相应的数据库实例节点，进行排序等操作，并行加载入分布式数据库中，其Mapreduce过程模拟如下：

　　Map阶段：

　　a、Mapper从对应的二级目录结构中读取每个列表的数据文件

　　Reduce阶段：

　　a、Mapper产生的中间数据集根据散列值HK进行Partition汇聚到不同的Reducer进程

　　b、Reducer对数据集按照列值即Cv进行排序操作，并通过实现定制化的MultipleOutputFormat接口将数据通过分布式数据库的装载接口写入相应的数据库实例中

　　第三，统计信息。该功能主要是以单位列表为对象进行全量或者抽样计算，产生列级统计信息，利用Xnet的数据交换过程进行统计信息采集，减轻分布式数据库后续分析表的相关运算。这些统计信息有助于分布式数据库的查询引擎做出最合理的执行计划，提高用户的数据分析效率。

　　我们将统计信息采集的操作实现为独立的算子，嵌入到Xnet的数据交换过程中，保证代码的独立性，可以方便的控制何时进行统计信息的采集。主要算子描述如下：

　　·StatisticsGather

　　简单的聚集统计采集，如空值数、记录数，最大最小值等

　　·HistogramGather

　　等高直方图、常用值统计等

　　·SampleGather

　　数据采样算子，在采样统计情景下，将命中的记录传给其它两个算子进行统计

　　下面通过举例看看统计信息采集的处理过程。

　　首先，准备阶段。Mapreduce过程要对输入的数据进行分割split操作，在统计信息的采集过程中不用对所有的splits都进行统计分析，每次采集任务只选择指定数量的split进行。这些数量值需要在统计信息任务里进行配置，如采样的splits数量num_sample_splits,采样的记录数num_sample_records。

　　采样的选择方法：

　　·如果num_sample_splits大于splits总数，那么所有splits都需要进行采样，每个split采样的记录数为num_sample_records / total_splits

　　·如果num_sample_splits小于splits总数，计算splits挑选的间隔sample_step = total_splits / num_sample_splits，按照sample_step的间隔从splits列表中选出num_sample_splits个split，每个split需要采样的任务数为num_sample_records / num_sample_splits

　　其次，采样算子。在海量数据中，对每个字段统计一个精确的直方图信息的代价太大，而且也没有意义。因此采用采样的手段来统计每个字段的直方图信息比较可取，下面描述两种采样方式，如果能清楚知道每个分割文件的记录数目那么直接采用采样算法Algorithm S或者Algorithm R是最好的，具体采样算法这里不做讨论。

　　·顺序读取：SampleGather接收需要处理的记录，如果达到配置的采样数目则跳过不做任何操作；如果没有达到则传递给HistogramGather进行统计分析

　　·估值读取：SampleGather统计前n条记录的平均长度，根据平均长度和当前分割文件的总长度，估算当前包含的总记录数。有了总记录数N就可进行采样算法如Algorithm S或者Algorithm R，将采样命中的记录传递给HistogramGather进行统计分析

　　第三，MR流程。在此模拟统计信息采集的Mapreduce过程，包括字段记录总数、空值记录比例、常用值统计和等高直方图统计。

　　Map阶段：

　　a、Mapper从文本文件中解析得到的一行记录，并传递给StatisticsGather和SampleGather

　　b、StatisticsGather的处理：统计记录数num_all加1，如果该字段同时为空则num_null加1

　　c、SampleGather进行采样后，将采样的记录传递给HistogramGather进行直方图统计（在Map阶段直方图统计包括常用值统计和等高直方图统计）

　　d、常用值统计：将该字段放入HashTable进行去重操作，统计该字段的重复类；HashTable中按照值出现的次数排序，并且保证HashTable的大小在指定的范围内，比如250个Key

　　e、等高直方图统计：直接将所有采样到的所有记录输出到Reduce阶段，因为等高直方图需要一个全局的采样统计

　　Map阶段输出：

　　a、StatisticsGather输出：该split中包含的总记录数num_all，该字段的空值数量num_null

　　b、HistogramGather输出：常用值（MCV）统计输出，HashTable中key的数目，key的列表，以及每个key在split中占有的数量；等高直方图统计输出，采样得到的所有记录

　　Reduce阶段：

　　a、StatisticsGather输出：累加每个Map输出的num_all，得到总记录数；累加每个Map输出的字段的空值数量，并与总记录数相除，得到空值比例

　　b、HistogramGather的常用值统计输出：利用Mapper和Reducer的Sort机制，对常用值出现次数进行累加统计。基于常用值统计可以进一步产生更多的统计信息，如遍历常用值的HashTable，统计出现次数大于1的键值，如果该值为0，则说明该字段具有唯一性。还可以利用常用值输出计算该列的离散度等，这里不再赘述。

　　c、HistogramGather的等高直方图统计输出：利用Mapper和Reducer的Sort机制，将每个Mapper输出的采样记录进行排序。根据配置的直方图箱个数，将这些值分到不同的bin中，记录每个bin的起始值和结束值。输出等高的直方图。（如下图所示，得到等高直方图的例子）

工作多年，我常用到的那些git命令 IT大混子 git
前言：git是日常开发中必不可少的版本管理工具，git的命令比较多，但是日常的工作掌握常用的命令即可满足大部分工作场景，下面列出我工作中能用上的命令，如果你对开发工具很熟悉，基本上用ide的git可视化操作也能满足日常工作场景。git自学的参考资料：Git教程|菜鸟教程参考书籍：通过网盘分享的文件：Git相关链接:https://pan.baidu.com/s/1n9QbyMJ9JA4hfAHYJ
C++类的友元函数详解 _越谷小鞠 c++开发语言
一、什么是友元函数？在C++中，类的友元函数是被类声明为“朋友”的函数。友元函数可以直接访问类的私有成员和保护成员，而无需通过公有成员函数进行访问。友元函数可以是：普通的非成员函数。另一个类的成员函数。全局函数。通过使用友元函数，我们能够方便地解决某些类之间的耦合问题，使代码更简洁高效。二、友元函数的定义与声明友元函数需要在类的内部使用关键字friend进行声明，具体格式如下：class类名{fr
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
AWTK：一键切换皮肤，打造个性化UI ZLG 致远电子个人开发
想让你的应用在不同场景下都能完美呈现吗？皮肤切换功能必不可少！本文将介绍AWTK，一款强大的GUI框架，它通过内置资源管理和优化缓存，轻松实现皮肤切换功能。前言当今的UI应用中，为了满足不同使用场景和用户的个性化需求，许多软件都加入了切换皮肤的功能。例如，当夜晚使用手机时，屏幕亮度可能会让人感到刺眼，此时用户可以将APP切换为夜间模式；而在户外强光环境下，则需要切换到高亮度
2025年最值得关注的资产管理系统盘点（附选型新趋势） Moriyu_elk_ 企业信息化管理固定资产管理软件企业数字化转型资产管理 IT管理管理工具推荐
企业资产管理已进入智能化、云端化和精细化时代。面对资产数量不断增长、盘点难、流转慢等挑战，各类资产管理系统推陈出新。下面为您盘点2025年表现突出的几款资产管理系统，结合各自最新亮点和适配场景，助您选型不踩坑。1.用友资产管理系统产品特点用友作为国内ERP和企业数字化管理领域的龙头企业，其固定资产管理模块定位于企业集团和大型组织。系统基于用友U8、NC等平台，能够实现固定资产采购、入库、调拨、转移
在新设备上部署Git：完整教程与常见问题分析马里马里奥- git git容易见的一些问题
在现代软件开发中，Git是必不可少的版本控制工具。无论是个人项目还是团队协作，在新设备上快速部署Git都能提高效率。本博客将提供一份结构清晰的教程，指导你如何在新设备上完成Git部署，并分析部署过程中可能遇到的常见问题。教程基于标准实践，适用于Windows、macOS和Linux系统。让我们一步步来！1.引言Git是一个分布式版本控制系统，用于跟踪代码变更、协作开发。在新设备上部署Git包括安装
互换性与标准化念致达互换性与技术测量机电专业必修课程
互换性与标准化一、互换性定义分类作用主要内容二、标准化一、互换性定义机械产品中的同一规格的一批零件或部件，任取其中一件，不需作任何挑选、调整或辅助加工就能进行装配，并能保证满足机械产品的使用性能要求的一种特性。分类分类几何参数互换零部件的尺寸、形状、位置、表面质量等几何参数具有互换性功能互换零部件的物理性能、化学性能和力学性能具有互换性按互换性程度分：完全互换性（绝对互换性）零件在装配或更换时，不
SpringCloud系列（41）--SpringCloud Config分布式配置中心简介
前言：微服务意味着要将单体应用中的业务拆分成一个个子服务，每个服务的粒度相对较小，因此系统中会出现大量的服务，但由于每个服务都需要必要的配置信息才能运行，所以—套集中式的、动态的配置管理设施是必不可少的，为此SpringCloudConfig就是一套集中式管理的技术解决方案。1、什么是SpringCloudConfigSpringCloudConfig为微服务架构中的微服务提供集中化的外部配置支持
【LLaMA 3实战】6、LLaMA 3上下文学习指南：从少样本提示到企业级应用实战无心水 LLaMA 3 模型实战专栏 llama LLaMA 3实战 LLaMa 3上下文 AI入门程序员的AI开发第一课人工智能 AI
一、上下文学习（ICL）的技术本质与LLaMA3突破（一）ICL的核心原理与模型机制上下文学习（In-ContextLearning）的本质是通过提示词激活预训练模型的元学习能力，使模型无需微调即可适应新任务。LLaMA3的ICL架构通过以下机制实现突破：任务抽象：从示例中提取输入输出映射规则，如情感分析中的正负向判断模式模式泛化：将规则迁移到新输入，支持跨领域知识迁移动态适应：实时调整注意力分布
程序和进程和线程的区别是什么？小白之歌 Java
程序和进程和线程的区别是什么？进程是操作系统资源分配的基本单位，线程是任务调度执行基本单位（CPU的基本调度单位）,程序是静态的指令集合，而进程是运行中的指令集合。进程：程序的一次执行，答法1：进程间切换代价大，线程间切换代价小进程拥有资源多，线程拥有资源少多个线程共享进程的资源进程是分配资源的基本单位，而线程是独立运行和调度的基本单位。任意时刻，一个CPU只能运行一个进程，进程获得资源后进行分配
进程与线程的联系和区别？ Owen_Xp JavaEE java 面试开发语言
1、线程的基本概念概念：线程是进程中执行运算的最小单位，是进程中的一个实体，是被系统独立调度和分派的基本单位，线程自己不拥有系统资源，只拥有一点在运行中必不可少的资源，但它可与同属一个进程的其它线程共享进程所拥有的全部资源。一个线程可以创建和撤消另一个线程，同一进程中的多个线程之间可以并发执行。好处：（1）易于调度。（2）提高并发性。通过线程可方便有效地实现并发性。进程可创建多个线程来执行同一程序
[特殊字符] Git团队协作实战指南真实的菜 git git elasticsearch 大数据
Git团队协作实战指南让多人开发不再是噩梦！从菜鸟到大神的团队协作进阶之路快速导航为什么团队协作这么重要？⚔️代码冲突？别慌！代码审查：让Bug无处遁形团队规范：统一江湖️神器推荐：工欲善其事沟通艺术：话说三分权限管理：该给的给，该收的收CI/CD：让机器替你干活问题追踪：一个都不能少新人培训：从零到英雄最佳实践：前人栽树常见坑点：踩坑指南实战案例：真刀真枪工具箱：装备升级为什么团队协作这么重要？
python abc模块
面向对象的设计中，抽象类，接口这些必不可少的东西，在python中是如何提现的呢？python作为一个动态语言，没有强类型的检查，而是以鸭子类型的方式提现，在执行的时候python不严格要求你必须是继承指定的父类而来，只要在调用的时候你有相应的方法和属性就可以了，长的像鸭子你就是鸭子。也正是基于python这样的特性，python中没有interface的概念，有说interface并不是普遍存在
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
如何选择适合初创企业的腾讯云轻量云服务器配置 Clownseven 腾讯云服务器云计算
更多云服务器知识，尽在hostol.com初创企业面临的最大挑战之一就是成本管理。在早期阶段，企业通常没有足够的资金用于大规模的硬件投资和复杂的基础设施部署。因此，如何通过智能的技术选择在保证业务发展的同时降低成本，是每个初创企业必不可少的战略考虑。云计算作为一种新兴的技术解决方案，提供了按需付费、灵活部署和可扩展性等优势，使企业能够以更低的成本，快速获得计算、存储和网络资源。其中，腾讯云轻量云服
设计模式（二）醇醛酸醚酮酯设计模式设计模式
迪米特法则（最少知识原则）：定义、核心思想与实践解析一、迪米特法则（LoD）的核心定义迪米特法则（LawofDemeter,LoD），又称“最少知识原则（LeastKnowledgePrinciple）”，是面向对象设计的经典指导原则之一。其核心思想是：一个对象应当尽可能少地与其他对象发生相互作用，只与“直接的朋友”通信，避免与“陌生人”产生直接交互。二、关键概念：“直接的朋友”与“陌生人”直接的
C++实现一个基于多态的职工管理系统（附源码） loveCC_orange C/C++c++面试华为后端开发多态
之前为了找实习，学了Python，刷了五六十道算法题，然后就开始投简历面试了，结果就是各个大厂一轮游，要Python开发的岗位又少的可怜。但所幸华为的实习面试通过了~本来以为这样就可以等着拿offer了，结果泡池子失败，今年华为的RAN研究部offer数量缩水，由于没在前四之列，所以就被pass掉了。然后又重新开始海投简历找实习。在无数次碰壁之后，深感自己才疏学浅，学的东西还是太少了。于是继续刷题
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
Redis——》双写一致性
思考：项目为什么要用redis?redis配置集群了吗？怎么配的？几台机器？单台redis的压力多少？一、我们为什么引入redis？一定要根据业务场景来，首先分析读写情况，再来考虑要不要引入redis读少写多：不要引用redis读多写多：适当引用redis（可以减少mysql数据库压力，如果不引用，可以使用数据库的主从复制，读写分离）读少写少：不要引用redis（根本没有必要）读多写少：可以引用r
Markdown 叶子202422 Python学习记录 python
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mark
SQLserver数据库学习笔记溪衡学习
小记1：1.newid()我觉得是一个生成唯一键的好方法，不用自增控制主键，可以用这个试试，注意不做处理的话，需要36位。例如：在数据库中直接使用语句selectnewid()2.nolock按我的理解是“不上锁的”，所谓的脏读，大多用的都是这个东西，据说可以提高查询速度。3.go批处理语句，将前面的代码作为一批处理。4.内连接与简单多表在数据量少的时候查询速度差距并不明显。5.删除和更新数据时，
python与anaconda安装（先安装了python后安装anaconda，基于python已存在的基础上安装anaconda）——逼死强迫症、超详解苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
版权声明：本文为CSDN博主「牛斌帅」的原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/qq_43529415/article/details/100847887目录一、安装python（python3.7.4）1、下载(1)下载1(32位)(2)下载2(64位)2、安装3、配置python环境变量4、检验pytho
Markdown编辑器写文章方法 Joel Jin 笔记
Markdown编辑器欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mar
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
vue el-date-picker 直接赋值时控件失效梓暮 IT vue.js 前端 elementui
项目场景：前端vueel-date-picker控件无故失效问题描述本人是主打后端，新进的公司要求前后端全干，然后又因为前端做得少，所以经常碰到一些奇怪的问题，比如以下操作，是给vue前端el-date-picker这个时间控件赋值，但是发现，数据是赋值上去了，但是控件失效了，怎么点都没用if(resData.batchEntity.manage_scene_start_time!=null&&r
破局与重构：IT从业者生存困境与行业发展新生态
破局与重构：IT从业者生存困境与行业发展新生态文章目录一、技术迭代漩涡中的个体焦虑二、需求迷宫中的项目失控三、加班文化：用生命燃烧代码的可持续性困境四、质量与速度的辩证困境五、年龄歧视阴影下的职业发展天花板六、薪资与付出的价值失衡七、协作壁垒：团队智商低于个体智商之和八、技术选型的西西弗斯困境九、业务理解的技术近视症十、远程协作：打破物理边界的组织重构十一、竞争压力：行业内卷与个人突围十二、破局之
C# WPF自定义窗口 XMJ2002 wpf
C#WPF自定义窗口书接上文，我们已经实现了如何利用百度智能云实现文字OCR功能，WPF制作文字OCR软件(一)：本地图片OCR识别，最后整体的效果是要呈现在一个窗口上的，而WPF的默认窗口并不能符合我们的需求，能够自己定义的内容少，所以这篇文章将介绍如何自定义窗口。整体实现效果如下：一、自定义标题栏首先需要在窗口定义的时候加上WindowStyle="None"AllowsTransparenc
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

用友华表任少斌：三面突围大数据存储

你可能感兴趣的:(用友华表任少斌：三面突围大数据存储)