一线券商教你如何保障大数据质量

作者简介：

刘宏霞

平安证券大数据测试组负责人

2014年加入平安证券，正值互联网金融潮流兴起，组织并参与大数据自动化以及监控体系的搭建、应用和优化。熟悉券商核心业务，对数据有着浓厚的兴趣，并把相关的技术应用到数据质量上，不断地探索券商数据质量之路。

前言

这两年对于大数据来讲，大家看到有很多产品出来，很多公司也在利用数据做些东西，包括现在的一些电影。

前两天的时候，同事给我推荐一部叫做《庭审专家》的美剧，大概花了一天时间把它看完，故事讲的很简单：在美国庭审当中包含陪审团概念，通过大数据分析陪审团行为模式，然后预测他们的想法。这样来讲，大数据应用完全掌握在拥有数据的人身上。

那如果数据质量本身存在问题，就会导致数据分析出现误差，甚至错误的预测或者误导性的描述。所以今天我给大家分享的主题是券商的大数据保障之道。

在分享券商大数据保障之道之前，我们先看一下平安证券在大数据方面都做了哪些。

1、平安大数据做些什么

经常使用平安证券 APP 炒股的人会发现，我们平安证券 App 过去一年变化非常大，在刚刚过去不久，由证券日报主办的第十二届证券市场年会中，我们平安证券 App 被评为最佳金融 App 大奖。

我们为用户提供个性化的服务，比如 App 功能上有一些千人千面，猜你喜欢的内容，推送的一些功能。其中包括资产收益的功能，这些数据是来自用户大数据，帮助更好为用户推荐产品，也帮助用户更方便获取信息。

在行情方面我们也会做一些股价预警，智能选股等等，可以帮助用户化繁为简，准确操盘。另外是我们的资讯，炒股人都知道，资讯很重要，帮助用户获取最新、最全的金融资讯。

我们还有大数据产品，比如牛人牛股，帮助用户追踪牛人们在买卖什么股票。还有收益类的计算器，辅助客户进行投资决策。

另外比如客户不知道要买股票还是买基金，或者买其他产品，我们也会提供智能化服务，这些都是为客户提供个性化的服务，这是一些大数据相关的产品。

除此之外，我们平安证券还会利用大数据为我们的业务人员做一些科学的决策，依据自动化的数据平台。

比如自动化报表平台，大数据自助分析平台等。我们做了这么多事情，最大的问题是怎么保障这些数据的准确性。

我首先给大家介绍一下系统，我们大数据的组成部分，其次我们在测试数据中面临哪些挑战，之后是我们解决思路是什么，最后是总结以及未来的规划。

2、平安大数据系统的组成部分

先看一个最简单的情况，比如我现在有一个需求，西红柿炒鸡蛋，可能大家都比较熟悉这个场景， 我给你一个需求是西红柿炒鸡蛋，你怎么做？

一种方式直接拿了西红柿和鸡蛋放锅里炒，那这是不是西红柿炒鸡蛋，是的。但是你吃的时候可能有蛋壳和西红柿皮。
另外一种方式通过各种工序，鸡蛋和西红柿清洗干净，鸡蛋加点盐打散，西红柿去到蒂部，切成块，锅里放油，加入材料，也是一盘西红柿炒鸡蛋；

大家会吃哪盘西红柿炒鸡蛋也就一目了然了。

同样的道理，平安证券自己常用的系统大概在50个左右，另外还有数据来源于平安旗下其他子公司。如果每个分析人员都根据自己的需求直接取源数据，你会发现同一个需求不同的人做，结果都不对等的。

另外比如重复的工作量、低效的工作，无法快速响应业务需求等等问题，为了解决这些问题，我们实现了统一底层，对各个系统提供的数据都来自于统一底层。由统一底层来保障数据的质量。

看下我们统一底层的框架，从下往上看，最底层是数据源，数据源来自平安证券的所有系统（比如账户系统、交易系统、基金系统、个股期权、融资融券等等）以及部分平安旗下其他子公司的数据。

RAW 层
所有数据的处理都由统一底层进行，统一底层分为四层，最底层是raw层，也是数据同步层，数据采集过来会放到raw，raw层的数据与源数据一样，不做任何的操作。
MID 层
数据采集完成后，会到 MID 层，MID 层是数据的清洗层，MID 层会根据源数据的特性做相应的清洗，比如：日期类型的转换、身份证15位到18位的转换、空格、null 值等处理。在清洗层对于常用的清洗方式，我们会通过自定义的函数进行清洗，以保证不同的开发人员清洗后的结果一致。
BASE 层
数据清洗完成后，就到我们的 base 层，base 层是业务流水层，base 层根据主题进行设计，比如客户主题，交易主题，产品主题等等。
FACT&VIEW层
Fact 层和 view 层是业务实现层，在这个层级上根据业务的需求进行指标的产生、指标的聚合、汇总等等。固化的业务数据在fact层，未固化业务数据在view层。

我们当前已完成指标有8万多个，这些指标是指以客户为方向，每个客户涉及标签有8万多个，每天还有不断新增的指标。

我们重点关注的是中间这部分，因为我们只有保证这部分数据准确性，我们才能保证对外提供的数据准确。

3、实施大数据面临的挑战

那我们怎么保证中间这一层数据准确性呢？同样我们也面临着很大的挑战。

挑战一：指标繁多

8万多指标，仅仅用一年把它全部加进去的，对于我们测试人员来讲，8万多个指标涉及到业务，涉及到底层的很多表，那我们怎么进行处理，这是我们面临的挑战。

挑战二：数据的准确性

如果数据错了，我们往外提供的数据就是有问题的，如果每天都有业务人员跟你讲，指标好像有问题，如果把所有精力都在回答大家的问题，根本没有精力做测试。

挑战三：数据稳定性

大家可能会看到，对于大数据来讲，每个指标都是数据，这个指标你测试之前可能它都是正确的，但是如果某一天有新的数据进来，因为每天都会有新的数据在进来的过程中，你还能保证你的指标结果的正确性吗，怎么保证这是我们需要考虑的。

挑战四：口径一致性

因为我们业务人员很多，每个业务人员口径都是不一样的，比如场外基金，对于有些业务人员指的场外基金就是场外基金，有些业务人员认为场外基金就是场外的公募基金，所以我们怎么保证对外提供的口径的一致性。

挑战五：规模化服务

8万多指标，如果不对外提供服务，其实它都是一堆死的东西，没有任何意义的，你要让它产生效益，就要对接平安所有的平台。

挑战六：人力

我们平安证券测试团队有一百多人，看起来人力还是很多的，但是我们这些人力都分散在各个子系统下，比如交易系统、基金系统，这些都是一个个的子系统，这些人力都分散在各个子系统上，对于统一底层仅有十个人力，十个人力要对接8万多个指标，这是我们当前面临的挑战。

4、我们的解决思路和方案

4.1 我们的解决思路

为了解决这些问题，我们的解决思路是：围绕数据本身，需要相关的规范和流程去保证每个环节的准确性，规范和流程需要工具去管控。

规范、流程、工具应用到开发、测试、监控各个环节来保证最后指标数据的准确性。

在数据开发平台会有 DSP 数据服务平台，和 CM 公共服务平台，这两个平台保证开发过程中数据的准确性；然后数据到自动化测试平台。

我们团队最初的时候，三个人力测试一百张底表，几乎花了一周时间。最后我们状态是什么，所有人把表分析完了，再也不想看数据了，因为那个数据看的自己都想吐的过程。

所以通过自动化平台减少我们的重复劳动，把精力花在分析数据上。数据上线后，通过监控系统来每天监控数据的准确运行。

我们先看一下在开发平台当中怎么保证数据一致性的，在我们平台每天会运行几千个脚本，那怎么保证所有开发人员它的操作是同步一致性的，我们是从这几个方面保证的。

4.2 DSP数据服务平台解决方案

所有开发人员在创建调度会保证创建调度一致性，调度创建之后开发人员进行执行，执行之后会进行比对，比对完成之后会由相关人员进行审核，审核完成之后，这些数据才能合并到主表当中。

4.3 创建调度如何保证

创建调度这个环节我们是怎么保证的呢？我们主要分成下面几个层面来处理。

DB 到 RAW 层
数据从 DB 到 RAW 层，也就是同步层，我们会看一下我们的数据来源于哪个数据库，因为我们有几十个数据库。这时大家都可以选择相应的数据库和模式，输入表名，会自动检测出来这张表当中有多少字段，以及这些字段转化的类型，数据到 RAW 层的时候，类型是需要处理的。有些开发人员可能会发现，生成的字段类型不符合预期，是可以修改的。
RAW 层到 MID 层
创建都是自动的，只需要点击一个按钮就可以自动生成 MID 层，并且生成相应的清洗 sql,对于一些常用的字段会有一些自定义函数，生成的 sql 会自动套用自定义函数。

比如日期类型等。在我们 MID 层，会统一处理成一样的方式，比如客户是十五位身份证，需要把这些身份证做18位转化，这些都是我们通过自定义函数在 MID 层做清洗的。

有些开发人员可能会觉得有些字段清洗方式还不够的情况下，你可以在外围增加清洗的方式，但是不能更改当前的清洗方式，这是流程会监控到的。
BASE 层
然后是 BASE 层，BASE 完成之后到 fact 层，对于指标系统，我们会涉及到对应的指标，以及我需要对这些指标做一些相应的聚合、汇总或者求一些值，这些都是在相应系统里自动配置，然后生成相应的脚本，是不存在人工处理的方式。

4.4 测试如何执行

我们在创建调度环节，通过自动化的方式，来保证我们在开发过程当中，所有的生成的调度是一样的。

这时候调度创建成功了，需要进行验证，也就是我们测试执行的过程，在这个过程当中，我们开发人员需要进行自测，因为这个版本是待上线版本，需要验证，选择执行的日期，比如一些存量表要执行一天。

对于增量表可能需要执行很多天，执行以后这些数据会放在临时位置上，需要对临时数据进行校验。

4.5 测试如何比对

我们还有一个测试比对环节，在测试比对环节所有模板都已设置，在模板当中我们会完成哪些功能呢？

第一，我们字段里表结构，这些最基本的，我们会进行全面的验证。

第二，一些 count、max、min、sum，还有空值、空格、NULL 值，长度、频度诊断，还有数据比对。

这样我们在整个开发流程当中，可以保证 RAW、MID 层不用再转测试，BASE 层和 fact 层，因涉及业务逻辑，需要测试人员进行验证。

4.6 我们的测试方法

在我们测试的时候，常用的方法有很多，最重要的一点是我们需要对源数据进行分析，这就是数据诊断过程。

我们会进行 DT 分布诊断，比如对于全量表，dt 分布应该是曲线上升的，如果某天变成曲线波动，就说明出现了问题。
我们会做重复观测诊断，重复观测诊断可以判断，来确定这张表的组件是什么，如果数据主键存在重复数据的情况下，就要确认这张表是不是迁移的时候就有问题还是源数据有问题，这是需要分析的。
单变量诊断，这里有频度、长度、截取前XX位的。
数据类型分布诊断，有 sum、均值、标准差、max、min、分位数、中位数等。

其次，我们会做业务诊断。我们对业务诊断过程中，大家会发现对于底层表可能有几十个，我们需要分析字段和字段之间存在一对一，还是一对多，还是多对一的关系，避免数据虚增；

数据关系映射，表间映射关系，诊断通过哪些字段进行关联；

另外我们还会进行表间 HITRATE 诊断，不同表间 ID 类字段的匹配率，来确定哪张表是主表。

只有通过诊断，才能发现哪些数据或者业务存在问题，不是说业务告诉我什么样子就是什么样的情况。大家可能会很奇怪，你们做这么多诊断，你们在项目中是怎么做的。

举个例子，经常使用平安证券 App 的人会知道，我们页面上会有收益额，比如收益额 = 期末市值 - 期初市 + 卖出 - 买入。

因为交易处理方式是不一样的，比如晚上我们要做清算，可能有些公司不是这样的情况，我们要跟交易所做清算，跟 TA 公司做清算等，这些清算规则也是不一样的，不同基金清算方式不一样的。

并且我们数据来自不同系统，比如账户系统、交易系统、基金系统、融资融券等。

我们看算一个收益指标是怎么做的。

DT分布
先是 RAW 层和 MID 层，这两个层的数据基本与原数据保持一致的，唯一不同是我们的清洗层会对相应数据进行处理，比如 dt 分布诊断。可以判断每天的数据是不是存在问题。

另外还可以判断底层为了上层进行汇总的时候，第一天数据起始日期是否一致，因为数据来源于不同系统，而且我们所有系统开始日期都是不一样的。

比如交易股票，可能很早之前就有数据了，但是我们场外基金是最近几年才有的，如果拉历史数据少拉一年或者少拉一天数据，算出客户最终收益都是不对的。

只有把底表历史数据拉出来以后看开始日期是不是正确的，这样才能保证上层汇总的数据是不是正确的。
重复观测
重复观测，比如一个客户同一天有多笔交易，需要判断客户是因为买了这么多次交易，还是因为交易流水本身出现问题，客户是否是一模一样的交易记录，这两种方式最终处理方式是不一样的。
单变量的诊断
我们会做单变量的诊断，一般情况下，业务人员或者研发人员会告诉你市值从哪里获取，但是获取的时候会发现市值有空的情况，那就要分析这个客户有没有股票，如果客户有股票，市值为空的话，那就是有问题，就需要重新在判断。
数据诊断
数据诊断，如果说不对数据进行诊断，就不清楚这个业务什么样子，可能有些人会认为，业务人员都很资深的，对这些都很了解，那是否还知道十年前的数据是什么样的吗，只有通过深入分析，才能对数据上层进行汇总，保证它的质量。

以我的资金为例，可以看到这个客户的资金流水是在哪个范围之内，才能确保上层汇总出来的数据是否正确。如果已经对客户总资产算出来一个范围，在上层汇总的时候，发现明显有大的变化，那只能说明在实现业务的过程中数据数出现了问题。
业务诊断
业务诊断，另外还有根据业务的行为，确认上层怎么进行汇总。经过诊断之后，才能根据这样的情况做上层，就是 BASE 层，BASE 会根据客户和产品粒度进行汇总，比如客户买了哪支股票，他的收益额是什么情况，或者不同的股票，不同的基金等等。

BASE 层汇总，还是一样要做相关的数据诊断和业务诊断，我们也会根据原始业务诊断结果，确定上层业务场景是不是做了全部覆盖。

BASE 层之后是业务实现层，这时候就比较简单了，我们可以根据客户粒度进行汇总，客户收益是什么样的，这种情况下，除了做诊断之外，还会做一些比较，只有这样才能算出真正收益是什么样的。

只有在不同层级保证之后，才能保证最顶层数据是不是正确的。那要做这么多数据诊断，纯粹靠人工做是不现实的事情。

所以搭建了自动化平台，会对 RAW、MID、BASE 层做各种诊断，把相应的诊断sql录入到自动化平台，后续所有执行都是由自动化平台执行的，执行出来的结果再作分析。比如现在有一个新的指标，需要对哪些字段进行相应诊断的时候，只要运行下自动化脚本，看一下结果图就可以了。

这样大大方便了测试人员，降低了手工测试成本，只需要维护测试脚本就可以了。在运行结果之后，可以看到这次运行多少个，失败多少个，看下失败的是什么造成的。

5、平安大数据监控平台

除了测试，数据是要进行上线的，上线之后不可能每天再进行测试，也没有那么多精力，对已经上线的指标通过监控平台进行监控数据运行情况。

监控平台主要从几个方面进行监控。

我们会对每个层级进行监控，监控主要分为几个部分。

一是，调度监控，因为所有大数据实现的业务逻辑都是通过调度实现的，我们就会对调度进行监控。

二是，数据相关的监控指标，对数据指标进行监控。

三是，还有业务口径相关的监控指标，这个是IT人员业务口径。

四是，还有是业务人员自己要监控的一些业务指标，通过设置要监控的参数，放到监控平台里面。

如果说每天跑完之后，有异常数据，会由告警平台发出相关邮件，通知大家要进行相应的处理。

我们现在看一下调度监控都会监控哪些东西？

5.1 任务状态运行的监控

目前我们运行的调度大概在1300多个，每天都会监控运行的情况，还有一部分存在依赖关系的调度，如果之前调度没有运行完的话，会定时发送邮件告诉开发人员调度是延时了，这是业务运行状态进行监控。

可能很多人会觉得，一个调度运行一个小时，两个小时觉得是很正常的事情。但在我们平台上，一个调度运行超过十分钟就要分析，这个调度的代码是否是有问题的。

有些开发人员可能说写的结果是对的，它能够跑出结果就可以。但是调度运行时间长了，往往会影响到后面整个运行的过程，那就会导致今天一天数据可能都没有办法算完。

所以我们对于每个脚本运行时间是有限制的，如果超过十分钟，开发人员就要检测是不是代码是否存在问题。

5.2 依赖关系监控

我们还有一种监控，就是依赖关系监控，大家可以看出，我们一个调度可能你的上层依赖很多调度，你的下层也依赖很多调度，那调度和调度之间是存在依赖关系的，一个调度失败可能会影响到其他调度的失败。

那么怎么监控？我们会监控到你上层依赖多少调度，下层依赖多少调度，因为这个脚本比较特殊，依赖特别多，原因它是我们最后一个调度，它需要向我们数据库推送8万个指标的，所以它的依赖特别大。

在我们调度依赖会有一些设置，如果它依赖的上层调度或者下层调度存在问题的话，就会立即停止运行，由运维人员进行处理。

5.3 数据规则监控

另外是对于数据规则的监控，一个是基本规则的监控，第二自定义规则监控，基本规则监控相对比较简单，大家在测试和开发过程当中会做的一些长度诊断或者频度诊断等，这是作为基本功能的监控。

我们会在监控平台进行设置，还有一些是测试人员，或者我们业务人员他有自己的想法，他不想按照常规的方式，可能常规方式也不符合需求，因为这是大体上的监控，并不能保证里面的数据是不是存在问题。

5.4 自定义监控

在自定义监控上，开发人员和业务人员可以根据自己的需求设置相应的指标，这个平台相对而言，它灵活性比较高一些，可以被我们所有相关人员进行使用，根据需求进行监控。

除了数据监控之外，我们业务人员会根据自己的需求，从业务角度制定相关的监控。比如一些核心指标，可以在监控平台进行设置，也可以通过报表的方式进行监控，关注了哪些指标，这是业务人员可以根据自己的方式进行相关监控。

6、总结

最后总结下，我们是从开发阶段、测试阶段、监控阶段，来保证大数据的数据准确性，在开发阶段主要是一站式服务，从创建到执行，到比对，开发阶段完成之后，才能够转测试，在测试阶段，我们会进行数据诊断，自动化测试。

自动化测试完成后确认脚本没有问题之后，可以上线，测试人员评审，评审通过之后，就意味着调度是可以进行上线的，就发布到预上线过程，通知运维人员调度已经完成测试，可以进行上线，后面的操作就会由运维人员进行处理。

上线之后监控平台监控调度、数据、业务是否存在问题，如果存在问题，就会快速通知到相关的开发人员或者运维人员进行相应的处理，这是目前已经实现的情况。

对于未来我们有什么考虑呢？第一我们会考虑平台互通，目前我们开发平台、测试平台、监控平台，都是相对独立的。

目前开发平台和监控平台之间还有一些关联关系，但是我们自动化平台是没有跟它们进行打通的。后面会考虑，比如说开发完一个调度之后，自动到自动化平台进行运行，可以快速保证，完成测试的过程。

另外还有一个部分，我们会考虑自动化平台和监控平台打通，打通的目的比如一个指标出现问题，可能并不清楚是哪个客户指标出现问题了，如果和监控打通的话，快速知道是哪个客户的指标出现问题。

第二部分，我们会对我们的平台进行丰富，后续我们会把很多东西加入到自动化平台来，真正的产品化。另外是监控体系，目前监控体系有一部分是由数据分析人员分析出来一些值和数据提供给我们，进行监控。

但是这些是被动的，我们后期会把一些统计分析其机器学习方法运用到监控当中，丰富监控指标。

另外当前我们做的数据都是离线数据，每天晚上交易结束之后，会把数据进行迁移，对于实时数据目前没有验证，后续我们也要考虑怎么保证实时数据的准确性。

近期好文：

《一套高实用性基础架构，专治电商运维各种痛点》

《我是运维，我就这样挽救了800万用户》

《爱奇艺在搭建集群时遇到的那些“坑”》

《腾讯上万节点大规模集群的跨城自动迁移》

《腾讯游戏这么赚钱，他们的运维服务是什么样的？》

《我是一个普通运维，我就这样拯救了一个百亿互金平台》

GOPS · 深圳站， 运维人实现运维梦

GOPS2017·深圳站

GOPS

用运维的视角

创造运维的世界

会议地点：南山区圣淘沙酒店（翡翠店）
会议时间：2017年4月21日-22日

您可点击 “阅读原文”，享受特惠折扣购票

你可能感兴趣的:(dev)

如何实现具备自动重连与心跳检测的WebSocket客户端 FFF-X websocket 网络协议网络
本文介绍如何通过原生WebSocketAPI封装一个具备自动重连、心跳检测、错误恢复等能力的稳健客户端。适用于需要长连接的实时通讯场景（如聊天室、实时数据监控等）。核心功能亮点自动重连机制-指数退避策略重连心跳保活-双向检测连接活性消息可靠性-失败消息自动重发异常处理-错误分类处理机制状态管理-精准控制连接生命周期关键优化点说明事件监听优化改用addEventListener替代onopen等属性
JS基础-事件模型(事件&事件流&自定义事件&事件冒泡/代理) LYFlied html&浏览器 javascript 事件模型事件流前端面试
文章目录一、事件与事件流二、事件模型1.DOM0级模型2.IE事件模型3.DOM2级模型4.DOM3级事件处理方式三、事件对象四、事件绑定与解除1.事件绑定1.1对象.on事件名字=事件处理函数1.2.对象.addEventListener("没有on的事件名字",事件处理函数,false)3.对象.attachEvent("有on的事件名字",事件处理函数);2.解除绑定五、EventWrapp
Android 中蓝牙Profile与UUID jaylkh android bluetooth
在Android中，常用的几种BluetoothProfile分别为：SPP(SerialPortProfile)、A2DP(AdvancedAudioDistributionProfile)、AVRCP(Audio/VideoRemoteControlProfile)、HID(HumanInterfaceDeviceProfile)、HFP(Hands-FreeProfile)。其中Media相
langchain4j+Tika小试牛刀 llm
序本文主要研究一下langchain4j结合ApacheTika进行文档解析步骤pom.xmldev.langchain4jlangchain4j-document-parser-apache-tika1.0.0-beta1examplepublicclassTikaTest{publicstaticvoidmain(String[]args){Stringpath=System.getPrope
PyTorch核心基础知识点 niuTaylor 编程区 pytorch 人工智能 python
PyTorch核心基础知识点，结合最新特性与工业级实践，按优先级和逻辑关系分层解析：▍核心基石：张量编程（TensorProgramming）1.张量创建（8种生产级初始化）#设备自动选择（2024最佳实践）device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
autojs之乐旅商城自动报名自动约恶猫 javascript 前端开发语言 autojs 安卓脚本
之前用的。现在能不能用不知道了啊。自己测试吧。//一键亮屏device.wakeUp();device.wakeUpIfNeeded();sleep(1000);//滑开swipe(device.width/2,device.height*0.8,device.width/2,device.height*0.1,2000);sleep(2000);//一键开微信launchApp("微信");sl
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
linux脚本怎么访问http,如何使用现有的tcp连接从bash脚本访问http服务器？玲珑阁玉韦 linux脚本怎么访问http
在bashshellscipt中,我使用几个命令行工具(wget,curl,httpie)来测试我的http服务器.当使用例如curl调用GET请求,我看到tcp连接打开到我的服务器并在http通信完成后立即关闭.$curlhttp://10.5.1.1/favicon.ico-o/dev/null为了更好地测试我的服务器的保持活动行为,我想在多个http请求/响应周期中保持tcp连接打开.我可以
A Software as a Service (SaaS) W_X_99515681 数据结构
IntroductionThisfinalprojectisacomprehensiveassignmentdesignedtoassessyourmasteryofwebdevelopmentconceptscoveredthroughoutthecourse.Itisasignificantundertakingthatwillrequiresubstantialtimeanddedicati
如何在 Bash 中不依赖 curl 或 wget 发出 HTTP 请求并实现文件传输——/dev/tcp的妙用 vortex5 bash http tcp/ip
1.前言在Bash脚本编程中，发送HTTP请求通常依赖于像curl或wget这样的外部工具。然而，Bash本身隐藏着一个鲜为人知的功能：通过内置的/dev/tcp或/dev/udp伪设备，可以直接与网络进行交互，而无需额外安装任何工具。这个特性最初由KornShell(ksh)引入，后来被Bash继承，其设计初衷是为了方便用户通过网络发送数据，例如生成报告或执行简单的网络操作。然而，这个功能也因其
zynq设计学习笔记2——GPIO之MIO控制LED实验墨漓_lyl FPGA之zynq设计学习笔记嵌入式 fpga
vivado软件操作步骤与学习笔记1——helloworld差不多，这里不再过多赘述，不同点是在zynq的设置中添加上GPIO的设置即可。进入SDK软件后，程序如下：#include"stdio.h"#include"xparameters.h"#include"xgpiops.h"#include"sleep.h"#defineGPIO_DEVICE_IDXPAR_XGPIOPS_0_DEVIC
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
hive服务启停脚本热爱技术的小陈大数据 hive 大数据 hadoop
hive.sh#!/bin/bashHIVE_LOG_DIR=$HIVE_HOME/logs#创建日志目录if[!-d$HIVE_LOG_DIR]thenmkdir-p$HIVE_LOG_DIRfi#检查进程是否运行正常,参数1为进程名,参数2为进程端口functioncheck_process(){pid=$(ps-ef2>/dev/null|grep-vgrep|grep-i$1|awk'{p
os.environ[‘CUDA_VISIBLE_DEVICES‘] = 的用法 @锦瑟五十弦深度学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录os.environ['CUDA_VISIBLE_DEVICES']=单值作用os.environ['CUDA_VISIBLE_DEVICES']=多值的作用os.environ[‘CUDA_VISIBLE_DEVICES’]=单值作用一定要在importtorch之前定义这句话importosos.environ['CUDA
Midscene.js自然语言驱动的网页自动化全指南 Hello.Reader 前端技术人工智能 javascript 自动化开发语言
一、概述网页自动化在数据抓取、UI测试和业务流程优化中发挥着重要作用。然而，传统工具如Selenium和Puppeteer要求用户具备编程技能，编写复杂的选择器和脚本维护成本高昂。Midscene.js通过自然语言接口革新了这一领域，用户只需描述任务（如“点击登录按钮”或“提取产品价格”），AI即可自动执行，大幅降低技术门槛。Midscene.js由web-infra-dev团队开发，开源于Git
Linux内核网络设备注册与地址族协同机制深度解析 109702008 #C语言编程网络网络人工智能 c语言
在Linux网络子系统中，网络设备注册与地址族（AddressFamily）的协同工作机制是构建高性能网络应用的核心基础。本文将以IPoIB（InfiniBandoverIP）驱动为例，深入解析register_netdev函数在设备注册中的作用，地址族的选择对网络通信的影响，以及如何通过自定义协议实现灵活的网络控制。一、网络设备注册机制解析1.1register_netdev的核心作用regis
Nginx核心知识100讲 janthinasnail linux
详见：作者网站：http://www.taohui.pub/视频原网站：https://time.geekbang.org/course/intro/138?device=geekTime.android视频地址：https://www.bilibili.com/video/BV1w7411v74u文档地址：https://github.com/russelltao/geektime-nginx
Midscene.js 简介有个人神神叨叨 javascript ai 人工智能
名称：Midscene.js口号：JoyfulAutomationbyAI（通过AI实现愉悦的自动化）官网：https://midscenejs.com/项目地址：https://github.com/web-infra-dev/midscene社区链接：Twitter：https://x.com/midscene_aiDiscord：https://discord.gg/2JyBHxszE4La
软件工程课程作业 cfjybgkmf 软件工程课程作业软件工程
一、什么是DevOps?DevOps中的Dev指的是Development（开发），Ops指的是Operations（运维）DevOps包含了三个部分：开发、测试和运维，是一组过程、方法与系统的统称，用于促进开发、技术运营和质量保障部门之间的沟通、协作与整合。DevOps是为了填补开发端和运维端之间的信息鸿沟，改善团队之间的协作关系；突出重视软件开发人员和运维人员的沟通合作，通过自动化流程来使得软
mac npm run dev报错 error:0308010C:digital envelope routines::unsupported 大波V5 macos npm 前端
并且提示Unsupportedengine{npmWARNEBADENGINEpackage:'@achrinza/[email protected]',npmWARNEBADENGINErequired:{node:'8||10||12||14||16||17'},npmWARNEBADENGINEcurrent:{node:'v18.18.0',npm:'9.8.1'}npmWARNEBADENGI
vite项目中vite.config.js使用.env.development文件中的配置数据初遇你时动了情 vite react vue3 javascript ecmascript vite
如下图.env和vite.config.js配置同级目录loadEnv就可以获取.env配置信息import{defineConfig,loadEnv}from"vite";importreactfrom"@vitejs/plugin-react-swc";import{resolve}from"path";importvitePluginImpfrom"vite-plugin-imp";impo
Secure PDF Documents CRACK SEO-狼术 Delphi net Crack pdf
SecurePDFDocumentsCRACKSecurePDFby/nsoftwareenablesuserstosign,verify,encrypt,anddecryptfileswithintegrationintoexistingworkflows.SecurePDFby/nsoftwareisapowerfuldevelopmentlibrarydesignedtoprovideent
2023年全国职业院校技能大赛（高职组）“云计算应用”赛项赛卷10（公有云）忘川_ydy 云计算云计算 kubernetes openstack docker python ansible k8s
#需要资源（软件包及镜像）或有问题的，可私聊博主！！！#需要资源（软件包及镜像）或有问题的，可私聊博主！！！#需要资源（软件包及镜像）或有问题的，可私聊博主！！！模块三公有云（40分）企业选择国内公有云提供商，选择云主机、云网络、云硬盘、云防火墙、负载均衡等服务，可创建Web服务，共享文件存储服务，数据库服务，数据库集群等服务。搭建基于云原生的DevOps相关服务，构建云、边、端一体化的边缘计算系
Git如何将一个分支上的修改转移到另一个分支风继续吹.. Git 基本指令 git
在我们使用git进行版本控制时，当代码写错分支，怎么将这些修改转移到正确的分支上去呢？这时，我们可以使用gitstath命令来暂存我们的修改，然后再切换到其他分支未commit（提交）操作时1.先将修改存入暂存区gitadd.2.把暂存区内的修改存储起来gitstash3.切换到正确的分支gitcheckoutdev4.将存储的修改取出来gitstashpop已commit（提交）操作时需要撤回c
Linux当中解决apt-get install E: 无法定位软件包问题 wt-cai linux
最近遇到一些问题，记录一下。也给其他人参考解决方案。主要参考该博客：https://blog.csdn.net/qq_36698189/article/details/115607886注意：更换清华源的时候一定要跟自己ubuntu版本相对应，不然可能会有其他问题。还有其他问题，如：1.Linux中使用apt/apt-get时报错：libc6-dev:破坏（依赖）:libgcc-9-dev(＜9.
java工程师常用开发工具 Monika Zhang 开发工具 java
背景：最近换新电脑，记录下本岗位需要安装的软件，也顺便给大家参考，欢迎各位留言补充1JDK（JavaDevelopmentKit）JDK是Java程序员开发Java应用程序所必需的软件包。下载地址：JavaDownloads|Oracle安装配置教程：window下win10jdk8安装与环境变量的配置（超级详细）_jdk8环境变量配置-CSDN博客目前主流的JDK版本还是JAVA8查看版本命令：
sudo apt-get install package时出现E：无法定位软件包 God.v ubuntu linux centos
sudoapt-getinstallpackage时出现E：无法定位软件包在Ubuntu上安装openssl-devel时遇到无法定位软件包的问题，查阅文章，大多是换源和在“软件和更新”中更换下载地址的方法，而我尝试过后并无卵用，如果接下来的方法不适用你的情况，你也不妨考虑以上两种办法。其实很简单，区分centos和Ubuntu等在安装文件时的名称差别，对于这两种图形界面来说，将openssl-d
ROS开发疑难杂症持续更新流浪的567 ROS 机器人 c++
一、Eigen相关1、fatalerror:Eigen/Dense:没有那个文件或目录4|#include|^~~~~~~~~~~~~1.1、安装Eigensudoapt-getinstalllibeigen3-dev1.2、检查Eigen头文件是否存在于/usr/include/eigen3/或/usr/local/include/目录下ls/usr/include/eigen3/Eigen#应
shell 脚本搭建apache 好多知识都想学 apache
#!/bin/bash#SetApacheversiontoinstall##author:yuan#检查外网连接echo"检查外网连接..."pingwww.baidu.com-c3>/dev/null2>&1if[$?-eq0];then echo"外网通讯良好！"else echo"网络连接失败，请检查你的网络设置！" exit1fisleep5#检查并安装APR库echo"检查并安装
在 Linux 系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）冷冷清清中的风风火火 linux 运维服务器
在Linux系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）**是管理存储的基础。以下是详细的区分方法和操作示例：一、通过设备命名规则区分Linux中磁盘和分区的命名遵循特定规则：类型命名格式示例说明磁盘/dev/sdX/dev/sdasd表示SCSI/SATA磁盘，X为字母（a,b,c…）。/dev/nvmeXnY/dev/nvme0n1nvme表示NVMe磁盘，X为控制器编号
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&