hellozhxy

数据中台

原文地址：https://miaowenting.site/2020/03/24/%E5%85%B3%E4%BA%8E%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%8F%B0%E7%9A%84%E6%80%9D%E8%80%83%E4%B8%8E%E6%80%BB%E7%BB%93/

数据中台

数据汇聚

数据汇聚是数据中台必须提供的核心工具，把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储，为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等；从汇聚的时效性来分，有离线批量汇聚和实时采集。

数据采集工具

Canal、DataX、Sqoop

数据开发

数据开发模块主要面向开发人员、分析人员，提供离线、实时、算法开发工具。

离线开发

作业调度

•依赖调度：所有父作业运行完成后，当前作业才能开始运行。图64中的作业B，只有父作业A和C运行完成后，才能开始被调度。•时间调度：可指定作业的调度开始时间。图64中的作业B，只有到达05：00后才能开始被调度。

基线控制

在大数据离线作业中，作业执行时间较长，经常遇到急着用数据发现数据还没出来的情况。采用算法对作业完成时间进行智能预测，根据预测，当作业无法正常产出且动态调整无法完成时，调度中心会及时通过监控告警通知运维值班人员提前介入处理，为大数据作业执行留出充裕的时间。

异构存储

企业内部的存储计算引擎呈多元化趋势。离线开发中心针对每种类型的计算引擎会开发不同的组件，例如，针对Oracle开发Oracle插件，针对Hadoop体系分别开发出Hive、Spark、MR等插件。用户在界面新建各种作业类型，在执行时自动根据作业的类型寻找相应的插件来运行作业。

代码校验

对于常见的SQL任务类型，SQL检查器会做好严格的管控，做到事前发现问题。

多环境级联

通过环境级联的方式灵活支持企业的各类环境需求，方便对资源、权限进行控制和隔离。每个环境有独立的Hive数据库、Yarn调度队列，甚至不同的Hadoop集群。常见的环境如下：

•单一环境：只有一个生产环境，内部管理简单。•经典环境：开发环境中存放脱敏数据、供开发测试使用，上生产环境走发布流程，用于真实数据生产。•任务、资源和函数必须在开发环境下进行新建、修改或删除，再经过提交、创建发布包、同意发布三个操作后，才能同步到生产环境。•复杂环境：企业有外部人员和内部人员，会给外部人员提供一个脱敏管控的环境，外部人员开发完的数据模型经过测试后发布到内部开发环境。

推荐依赖

随着业务的不断深入，数据开发人员需要开发的作业会不断累加。既能保证准确找到需要定位的上游作业，又能保证不会形成环路。

•获取推荐依赖的核心原理在于上下游作业输入和输出的表级血缘依赖图；•通过血缘分析当前作业的输入和输出，找到合适的上游作业；•对合适的作业进行环路检测，剔除存在闭环的作业；•返回合适的节点列表。

数据权限

企业内部计算引擎多样化，数据权限管理面临如下问题：

•部分引擎拥有独立的权限管理系统（例如Oracle、HANA、LibrA），导致权限申请需要到每一种引擎上单独操作，让使用变得复杂。•同一种计算引擎，不同厂商的权限系统有多种，例如Hadoop自身无数据权限系统，由不同厂商各自去实现，目前主要有两种策略：•RBAC（Role-Based Access Control）：如Cloudera用的是Sentry，华为的FI也是类似的机制•PBAC（Policy-Based Access Control）：如Hortonworks用的Ranger•数据权限是由大数据集群或数据库运维人员管理的，开发人员无法直接操作或者接触，所有的权限申请都需要运维人员开通，造成运维人员负担过重。在实际开发中，一般需要运维人员把整个库的权限授权给某个开发负责人，然后库里面的表、字段、函数的权限管理由开发负责人负责就行。•数据权限管理中心提供界面化操作，数据申请方直接在页面上进行各种权限的申请，数据管理方在界面上审核权限，执行同意或拒绝操作。同时，所有权限的申请、审批都会有记录，便于进行权限审计。在统一数据权限服务中，会对接底层的各种权限管理系统，例如Sentry、Ranger、Oracle，同时对数据权限管理中心提供服务，执行权限的申请、授权、撤销等操作。

实时开发

•元数据管理•SQL驱动•组件化开发

智能运维

任务的管理、代码发布、运维、监控、告警等一系列集成工具，方便使用，提升效率。重跑、重跑下游、补数据。

数据体系

有了数据汇聚、数据开发模块，中台已经具备传统数据仓库（后面简称：数仓）平台的基本能力，可以做数据的汇聚以及各种数据开发，就可以建立企业的数据体系。之前说数据体系是中台的血肉，开发、管理、使用的都是数据。

中台数据体系应具备以下特征：

•覆盖全域数据：数据集中建设、覆盖所有业务过程数据，业务中台在数据体系中总能找到需要的数据。•结构层次清晰：纵向的数据分层、横向主题域、业务过程划分，让整个层次结构清晰易理解。•数据准确一致：定义一致性指标，统一命名、统一业务含义、统一计算口径，并有专业团队负责建模，保证数据的准确一致。•性能提升：统一的规划设计，选用合理的数据模型，清晰的定义并统一规范，并且考虑使用场景，使整体性能更好。•降低成本：数据体系的建设使得数据能被业务共享，这避免了大量烟囱式的重复建设，节约了计算、存储和人力成本。•方便易用：易用的总体原则是越往后越能方便地直接使用数据，把一些复杂的处理尽可能前置，必要时做适当的冗余处理。

不同行业的数据体系建设：

地产行业

证券行业

零售行业

制造行业

传媒行业

检务行业

贴源数据层ODS

对各业务系统数据进行采集、汇聚，尽可能保留原始业务流程数据，与业务系统基本保持一致，仅做简单整合、非结构化数据结构化处理或者增加标识数据日期描述信息，不做深度清洗加工。

•表名：ODS_系统简称_业务系统表名•字段名：与业务系统字段名保持一致，字段类型也尽可能保持一致•对于数据量比较大的业务表，采用增量同步的方式，则要同时建立增量表和全量表，增量表命名加后缀：ODS_系统简称_业务系统表名_delta。•对于日志、文件等半结构数据，不仅要存储原始数据，还要存储结构化之后的数据。

使用DataX同步数据步骤：

1）确定业务系统源表与贴源数据层目标表

2）配置数据字段映射关系，目标表可能会增加采集日期、分区、原系统标识等必要信息，业务相关内容不做转换

3）如果是增量同步或着有条件的同步部分数据，则配置数据同步条件

4）清理目标表对应数据

5）启动同步任务，往贴源数据层目标表导入数据

6）验证任务是否可以正确运行，并且采集到准确数据

7）发布采集任务，加入生产调度，并配置相关限速、容错、质量监控、告警机制

统一数仓层DW

•明细数据层DWD•汇总数据层DWS

与传统数据仓库功能基本一致，对全历史业务过程数据进行建模存储。对来源于业务系统的数据进行重新组织。业务系统是按照业务流程方便操作的方式来组织数据的，而统一数仓层从业务易理解的视角来重新组织，定义一致的指标、维度，各业务板块、业务域按照统一规范独立建设，从而形成统一规范的标准业务数据体系。

•标签数据层TDM

面向对象建模，对跨业务板块、跨数据域的特定对象数据进行整合，通过IDMapping把各个业务板块、各个业务过程中的同一对象的数据打通，形成对象的全域标签体系，方便深度分析、挖掘、应用。

应用数据层ADS

按照业务的需要从统一数仓层、标签数据层抽取数据，并面向业务的特殊需要加工业务特定数据，以满足业务及性能需求，向特定应用组装应用数据。

数据资产管理

数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示，以一种更直观的方式展现企业的数据资产，提升企业的数据意识。

数据资产对上支持以价值挖掘和业务赋能为导向的数据应用开发，对下依托大数据平台实现数据全生命周期的管理，并对企业数据资产的价值、质量进行评估，促进企业数据资产不断自我完善，持续向业务输出动力。

数据治理

传统的数据治理通常包含数据标准管理、元数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容。

数据服务体系

前面利用数据汇聚、数据开发建设企业的数据资产，利用数据管理展现企业的数据资产，但是并没有发挥数据的价值。数据服务体系就是把数据变为一种服务能力，通过数据服务让数据参与到业务，快速开发企业的业务中台等。

查询服务

输入特定的查询条件，返回该条件下的数据，以API形式供上层应用调用。

1）支持配置查询标识，底层数据组织一般会对该标识建立索引，以加快查询速度

2）支持配置过滤项

3）支持查询结果配置，包括数据排序规则和分页规则。

分析服务

借助分析组件高效的大数据分析能力，对数据进行关联分析，分析结果通过API形式供上层应用调用。

1）支持多源数据接入：企业的数据经过清洗加工转换成数据资产后，最终通过服务作用于业务系统，基于企业异构存储的现状，要求分析服务能够支持与Hive、ES、Greenplum、MySQL、Oracle、本地文件等多种数据源进行连接。

2）高性能即席查询：随着企业数据爆发式增长，传统的数据分析工具遇到分析能力的瓶颈，也就是对大数据量的分析越来越乏力。因此，这就要求分析服务内置高速计算引擎，以对数据进行高性能的即席计算，实现亿级数据毫秒级（至多秒级）分析和计算，减少用户等待时间。

3）多维数据分析

分析服务除了支持常规的数据分析、上卷下钻、切片切块之外，还应该支持多维的数据分析以及深层次的数据挖掘，发现数据背后的关联关系。

4）灵活对接业务系统

圈人服务

从全量用户数据中，基于标签组合筛选符合指定特征条件的人群，并通过API形式供上层应用调用。

1）支持人群圈选：通过SQL代码或标签取值组合等多种方式，实现人员查找，帮用户找到对的人群

2）支持人群计量：营销部门或者广告公司使用圈人服务圈选出目标人群后，往往还要考虑人群量是否符合预期，因为预算有限，不可能不计成本的对人群进行营销。

3）支持多渠道对接：将人群名单导出到相应的下游系统。最简单的名单导出方式是先下载文件，再由业务人员导入相应的业务系统中。或者直接对接到短信系统、微信投放接口、营销活动系统等。

离线平台

苏宁离线平台产品功能图：

苏宁调度模块功能图：

苏宁离线平台整体架构图：

跨任务流依赖的实现：

FTP事件机制，即在 FTP 服务器上建立标识文件，一个事件对应一个标识文件地址，当 FTP 服务器上的标识文件生成的时候，我们认为业务系统已经完成作业，需要触发平台任务执行。

“华佗”平台，实施任务诊断：

立即触发的任务，放入DelayQueue的队列头部，周期调度的任务，使用Quartz，依赖触发的任务，使用zk，各个子节点监听自己的父节点，所有父节点执行完毕则可触发执行

实时平台

美团点评

使用了Grafana，可以内嵌到自己的平台。

bilibili

•SQL化编程•DAG拖拽编程•一体化托管运维

实时平台由实时传输和实时计算两部分组成，平台底层统一管理元数据、血缘、权限以及作业运维等。实时传输主要负责将数据传入到大数据体系中。实时计算基于 BSQL 提供各种应用场景支持。

如下图所示，实时传输有 APP 日志、数据库 Binlog、服务端日志或系统日志。bilibili 内部的 Lancer 系统解决数据落地到 Kafka 或 HDFS。计算体系主要围绕 Saber 构建一套 BSQL，底层基于 YARN 进行调度管理。

上层核心基于 Flink 构建运行池。再向上一层满足多种维表场景，包括 MySQL、Redis、HBase。状态（State）部分在 RocksDB 基础上，还扩展了 MapDB、Redis。Flink 需要 IO 密集是很麻烦的问题，因为 Flink 的资源调度体系内有内存和 CPU，但 IO 单位未做统一管理。当某一个作业对 IO 有强烈的需求时，需要分配很多以 CPU 或内存为单位的资源，且未必能够很好的满足 IO 的扩展。所以本质上 bilibili 现阶段是将 IO 密集的资源的 State 转移到 Redis 上做缓解。数据经过 BSQL 计算完成之后传输到实时数仓，如 Kafka、HBase、ES 或 MySQL、TiDB。最终到 AI 或 BI、报表以及日志中心。

场景

•AI工程方向，解决了广告、搜索、推荐的流式Joiner和维表Joiner•实时计算的特征支持，支持 Player 以及 CDN 的质量监控。包括直播、PCU、卡顿率、CDN 质量等；•用户增长，即如何借助实时计算进行渠道分析、调整渠道投放效果；•实时 ETL，包括 Boss 实时播报、实时大屏、看板等。

网易

目前网易流计算覆盖了绝大多数场景，包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。

事件管理

对于分布式平台的任务操作而言，当前任务启动过程中只允许一个人操作，而不允许两个人同时操作，这就需要以下几个模块来共同配合：

•Server：事件执行的发起者，接受事件的请求，进行数据校验，拼装，将事件发送给 Kernel 执行。•Kernel：事件具体逻辑的执行者，根据请求向集群发送指令(Shell 脚本方式)。•Admin：事件执行结果的确认者，根据事件类型，获取事件的最终结果，保证结果的正确性。

以启动场景为例：

首先，Server 会接收到来自用户的启动请求，之后会创建一个分布式锁，Admin 会监控这个锁。

然后， Server 向 Kernel 提交任务，提交之后会立即返回，返回之后就会立即更新数据库中的状态，将状态更新为启动中，这样在页面上用户就能够看到任务是启动中的状态了。

接下来，Server 就会等待内核的 Shell 脚本的执行结果，如果 Shell 脚本执行成功了，就会去写 Zookeeper，写完 Zookeeper 之后 Admin 模块就会马上检测到 Zookeeper 节点有状态发生了修改，Admin 会立即去获取 YARN 上的任务状态，如果获取到任务状态是运行中，就将数据库的任务状态更新为运行中，这会在前端看到任务就已经是运行状态了。

最后一步是 Admin 更为完数据库之后，会释放掉 Zookeeper 上的锁，其他人这时候就可以操作这个任务了。

Server、Kernel 和 Admin 这三个模块都是不可靠的，那么如何保证其稳定和高可用呢？Server 可以通过部署多个，水平扩展来实现，Kernel 则会由 Server 来进行监听，当发现 Kernel 挂了，可以由 Server 重新拉起或者重新创建。而 Admin 的高可用则是通过热备来实现的，如果主 Admin 挂掉了，可以马上迁移到备 Admin，备 Admin 可以迅速将元数据以及任务信息全部加载进来接替工作，进而实现高可用。

平台任务状态管理

平台的任务状态主要由 Server 和 Admin 来控制。Server 主要控制初始状态的执行，Admin 则主要负责控制所有与 YARN 相关的状态交互。

任务调试

SQL 类型的任务支持调试功能，用户可以根据不同的 source 表和 dim 表，上传不同的 csv 文件作为输入数据，进行调试。调试执行由指定的 kernel 来完成，sloth-server 负责组装请求，调用 kernel，返回结果，搜集日志。

日志检索

在 YARN 集群的每个节点上面部署 Filebeat，通过 Filebeat 将节点上面的任务日志写入到 Kafka 消息队列中，然后通过 Logstash 进行解析处理，之后写入 ES 集群中。主要用于两个用途，一个是通过界面 Kibana 来提供给开发和运维人员使用，另外一个就是将运行时状态的任务日志直接在界面上展示供用户进行搜索和查看。

监控

在监控方面，使用的是 influxdb metric report 组件对于指标进行监控。时序数据库使用的是网易自研的 ntsdb 时序数据库，其能够支持动态扩展和高可用等功能。监控指标的使用方式有两种：

•一种是通过 Grafana 的界面来查看指标；•另外一种是报警模块会从Ntsdb中获取相关指标数据并进行监控报警。

报警

Sloth 流计算平台支持常见的任务失败，数据滞留延迟，failover 报警，也支持用户自定义规则报警，包括对于输入 QPS、输出 QPS，户自定义延迟的监控等。以输入 QPS 为例，可以设置当连续几个周期内 QPS 低于某一值时就触发报警。此外，报警方式也支持多样化的工具，比如各种网易内部的聊天工具、邮件、电话以及短信等，对于任务调试阶段，为了避免被骚扰，可以设置任务报警抑制时间间隔。

实时数仓

目前网易很多产品已经开始实时数仓的建设了，但仍旧处于持续完善过程中。实时数仓的建设和离线数仓大致相同，只不过实时数仓是经过实时计算平台进行处理的。大致的过程就是首先收集日志、埋点数据等，将其写入到 Kafka 里面，经过实时计算平台进行处理，将 ODS 层中的明细数据抽取出来，在进行汇总以及维度关联等操作，将结果写入到 Redis，Kudu 等，再通过数据服务提供给前端的业务使用。

电商应用-数据分析

实时活动分析、首页资源分析、流量漏斗以及实时毛利计算等。

电商应用-搜索推荐

电商的搜索推荐场景则主要包括用户实时足迹、用户实时特征、商品实时特征、实时 CTR CVR 样本组建、首页 A 区轮播、B 区活动精选等 UV、PV 实时统计等。

网络营销中的常见名词解释：

•CPC (Cost Per Click): 按点击计费•CPA (Cost Per Action): 按成果数计费•CPM (Cost Per Mille): 按千次展现计费•CVR (Click Value Rate): 转化率，衡量CPA广告效果的指标•CTR (Click Through Rate): 点击率•PV (Page View): 流量•ADPV (Advertisement Page View): 载有广告的pageview流量ADimp (ADimpression): 单个广告的展示次数•PV单价: 每PV的收入，衡量页面流量变现能力的指标

离线数仓与实时数仓

从0建设离线数仓

建设数仓

数据仓库定义：在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。

数据仓库目标：数据资产、决策信息。

ETL过程：打通你的任督二脉（离线+实时），让数据在整个环节中流通起来

数据分层：一套低耦合、高内聚的层级，是十分重要的，总不想业务、数据等一变化，数仓像又投胎了一次

数据集成：多业务场景下，打破数据信息壁垒，避免数据歧义，统一数据服务

规范化：良好的流程化、规范化设计，易维护、高扩展

监控与辅助：质量监控、调度管理、元数据管理、信息安全管理

走向服务：对外api服务/自助查询平台/OLAP分析平台

ETL

业务数据往往涉及多种数据源，数据存储也常常会有多种选择。文本数据、日志数据、RMDB、Nosql等。则要求etl工具能够覆盖这些业务场景。

工具有datax/sqoop/kettle/informatica等等。

ETL一般为最开始的部分，凌晨之后的时间点。a：避免集中式的对某个jdbc海量同步，影响业务(部分从库可能提供查询服务)、b：明确调度的时间，应尽可能的在某个时间段内完成(不能仅依靠调度，实现任务流的串行；为后期的大作业空间，占用等待的系统资源)

分层

Stage缓冲层

事务性数据，每日增量方式进行数据同步。需要注意数据同步时的边界问题，避免脏数据。

对于非事务性数据，一般通过快照/全量更新。不对外开放数据查询。

ods层

一般场景下，我们认为该层数据与线上保持一致。实际处理过程中，为了处理时间维度上的数据变化，会记录数据的变化轨迹。对于该部分数据，应该有选择的实施，避免业务处理过程变得复杂和问题发生后难以回溯。

•dim/dw层 (模型层)•dim：维度层•dw：主题事实及业务宽表

在ods基础上，设计一个宽表/模型层，通过维度建模的方式，实现维度数据与事实数据的分离（星型模型）。

da层（应用层）

面向不同的应用，聚合类的数据层。该层对于dim/dw层的使用，是对模型层的一个检视维度。

代码规范

•脚本格式规范：脚本头部注释编码规范、注释规范、sql规范参考goole规范•文件/表命名规范：一个文件中，只应该有一张表，其余只能是临时表；表名称应与文件名相同•字段命名规范：去除多词同义，和同词多义的问题。尤其是在模型层（一般也叫做一致性维度）

区别

•离线数仓主要基于sqoop、datax、hive等技术来构建 T+1 的离线数据，通过定时任务每天垃取增量数据导入到hive表中，然后创建各个业务相关的主题，对外提供T+1的数据查询接口。•实时数仓主要是基于数据采集工具，如canal等原始数据写入到kafka这样的数据通道中，最后一般都是写入到类似于HBase这样的OLAP存储系统中。对外提供分钟级别，甚至秒级别的查询方案。

数据仓库的建设主要包括数据的采集、数据的处理、数据归档、数据应用四个方面。

当前主要的应用场景包括报表展示、即席查询、BI展示、数据分析、数据挖掘、模型训练等方面。

数据仓库的建设是面向主题的、集成性的、不可更新的、时许变化的。

实时数仓的实施关键点：

•端到端数据延迟、数据流量的监控•故障的快速恢复能力•数据的回溯处理，系统支持消费指定时间段内的数据•实时数据从实时数仓中查询，T+1数据借助离线通道修正•数据地图、数据血缘关系的梳理•业务数据质量的实时监控，初期可以根据规则的方式来识别质量状况

其实，你需要的不是实时数仓，需要的是一款合适且强大的OLAP数据库。

在实时数仓的建设中，OLAP数据库的选型直接制约实时数仓的可用性和功能性。

原始层明细层汇总层应用层

•ods：原始数据层，事实数据，存储在kafka中•dwd：数据明细层，可以做一些join等加宽处理，可以存储在kafka和redis中•dim：维度数据，如存储在HBase中的数据•dm：MySQL -> 汇总指标模型；Greenplum -> 明细，多维分析关联；HBase -> 汇总指标(大量并发)；Redis -> 汇总、大列表TopN

数据中台解决方案

零售行业

•RPS (Revenue Per Search): 每搜索产生的收入，衡量搜索结果变现能力指标•ROI：投资回报率（ROI）是指通过投资而应返回的价值，它涵盖了企业的获利目标。利润和投入的经营所必备的财产相关，因为管理人员必须通过投资和现有财产获得利润。又称会计收益率、投资利润率。

你可能感兴趣的:(big,data)

Android Telephony 网络状态中的 NAS 信息 Dic- #Android Telephony #计算机网络网络通信 Telephony 自学笔记 Android 计算机网络移动网络非接入层
引言上层如何拿到NAS信息？那么首先要知道什么是NAS。领域知识术语表通信网络术语英文缩写英文全称中文含义NASNon-AccessStratum非接入层RRCRadioResourceControl无线资源控制层PDCPPacketDataConvergenceProtocol分组数据汇聚协议层RLCRadioLinkControl无线链路控制层MACMediumAccessControl媒体接
OpenDataV：开源拖拽式低代码数据可视化开发平台 ❀͜͡傀儡师低代码信息可视化
OpenDataV是一个拖拽式、#低代码数据#可视化开发平台。它允许用户通过拖拽组件到画布上，快速搭建各种炫酷的数据可视化大屏。不仅内置了丰富的组件库，还支持用户开发自己的组件并将其接入平台，从而满足多样化的业务需求。GitHub：https://github.com/AnsGoo/openDataV官方文档：https://ansgoo.github.io/docs/项目特性：拖拽式操作简单易用
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
Excel文件解析：操作系统与应用程序的分工你一身傲骨怎能输游戏工具链 excel
文章摘要本文介绍了操作系统和应用程序在Excel文件处理中的分工。操作系统仅负责文件存储管理和类型识别，不解析内容；而应用程序则负责解析Excel文件的具体格式。对于.xlsx文件，应用程序会先解压zip包，再解析其中的XML文件（如workbook.xml）重建表格数据。文章以C#的ExcelDataReader库为例，展示了从文件打开到数据读取的具体流程。总结指出：操作系统管文件存取，应用程序
Vue 图片加载失败显示默认图片数字浪儿 vue vue.js 前端 javascript
方法一：通过onerror属性加载默认图片exportdefault{data(){return{img:'',//访问图片的ip地址defaultImg:`this.src='${require('@/assets/images/right/default-person.png')}'`,};},}方法二：通过@error方法加载默认图片exportdefault{data(){return{i
【SQL知识】PDO 和 MySQLi 的区别
目录简介主要区别预处理语句示例比较PDO示例MySQLi示例选择建议简介PDO(PHPDataObjects)和MySQLi(MySQLImproved)都是PHP中用于数据库操作的扩展，都支持预处理语句，但有一些重要区别：主要区别数据库支持PDO：支持多种数据库（MySQL,PostgreSQL,SQLite,Oracle等）MySQLi：仅支持MySQL数据库API风格PDO：提供一致的面向对
论文检索相关网站
在B站或是别的地方搜索到查阅论文，检索资料的网站，方便自己下次查找论文1.中国知网检索-中国知网(cnki.net)2.Scopus.Scopuspreview-Scopus-欢迎使用Scopus3.谷歌学术evtol多旋翼-Google学术搜索4.WebofScienceDocumentSearch-AllDatabases(webofscience.com)5.IEEE工程IEEE-搜索结果6
原生微信小程序响应式数据
原生微信小程序提供两种响应式数据处理方式1、module:value="{{xxx}}"2、setDatamodule:value第一种方式为简易双向绑定，这种双向绑定只能对应data中的简单数据类型，例如：string、number、boolean、null，例如：data:{keyword:''//data中直接定义},页面用module:value="{{keyword}}"直接绑定，这种就
CCE 部署 Mongodb
环境变量MONGO_INITDB_ROOT_USERNAMEadminMONGO_INITDB_ROOT_PASSWORDadmin数据存储主机路径(HostPath)：/xxx/app/mongodb/db挂载路径：/data/db进入mongo容器，新增用户并赋予权限参考如下：[root@192app]#dockerexec-itb3b7e0dc25eebashroot@b3b7e0dc25e
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-split_dota.py 红色的山茶花 YOLO 笔记深度学习
split_dota.pyultralytics\data\split_dota.py目录split_dota.py1.所需的库和模块2.defbbox_iof(polygon1:np.ndarray,bbox2:np.ndarray,eps:float=1e-6)->np.ndarray:3.defload_yolo_dota(data_root:str,split:str="train")->
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-augment.py
augment.pyultralytics\data\augment.py目录augment.py1.所需的库和模块2.classBaseTransform:3.classCompose:4.classBaseMixTransform:5.classCutMix(BaseMixTransform):6.classCopyPaste(BaseMixTransform):7.defv8_transfo
python日记Day17——Pandas之Excel处理石石石大帅 Python笔记 excel python 数据分析
python日记——Pandas之Excel处理创建文件importpandasaspddf=pd.DataFrame({'ID':[1,2,3],'Name':['Tom','BOb','Gigi']})df.to_excel("C:/Temp/Output.xlsx")print("done!")读取文件importpandasaspdpeople=pd.read_excel("C:/Temp
利用Infoway API接入实时股票行情API的方法 kk_stoper 大数据 python java javascript
随着金融科技的发展，越来越多的投资者、交易平台和量化交易团队开始使用股票行情API来获取市场数据。然而，很多人虽然听说过行情API，却并不清楚不同类型的接口之间有何区别，适合用于哪些场景。本文将系统地介绍几种常见的股票行情接口，帮助您建立对行情API的全面理解。一、延迟行情接口（主流平台的默认选择）延迟行情（DelayedMarketData）是最普遍、成本最低的行情接口形式。其核心特征是存在时间
「日拱一码」014 Python常用库——Pandas
目录数据结构pandas.Series：一维数组，类似于数组，但索引可以是任意类型，而不仅仅是整数pandas.DataFrame：二维表格型数据结构，类似于Excel表格，每列可以是不同的数据类型数据读取与写入读取数据pd.read_csv()：读取CSV文件pd.read_excel()：读取Excel文件pd.read_sql()：从数据库读取数据写入数据DataFrame.to_csv()
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
微软：LLM训练数据组织框架DELT 大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：DataEfficacyforLanguageModelTraining来源：arXiv,2506.21545摘要数据是语言模型（LM）训练的基础。最近的研究一直致力于数据效率，其目的是通过选择训练数据的最小或最优子集来最大限度地提高性能。数据过滤、采样和选择等技术在这一领域起着至关重要的作用。为了补充这一点，我们定义了数据效能，它侧重于通过优化训练数据的组织来最大限度地提高性能，目前尚未得
c++实现TCP&UDP
做网络通信作业之前的学习!(>。#include#include#pragmacomment(lib,"ws2_32.lib")intmain(){//windows上使用网络功能需要开始网络权限WSADATAwsaData;WSAStartup(MAKEWORD(2,2),&wsaData);//1.创建socket套接字/*socket(intaf,//协议地址簇ipv4/ipv6对应AF_I
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
python实现数据库两个表之间的更新操作（模糊匹配）示例半吊子的程序狗 python
frompymongoimportMongoClientimportpandasaspd#连接到MongoDB（这里假设MongoDB运行在本地默认端口上）mgclient=MongoClient('localhost',27017)#选择数据库（如果你没有指定数据库，MongoDB会使用默认的'test'数据库）db=mgclient['test']#替换'your_database_name'
linux环境安装达梦数据库一只小菜鸟啊数据库 linux 数据库运维
linux环境安装达梦数据库1安装前准备：1.1安装包准备提前下载达梦的iso安装包下载地址：https://eco.dameng.com/download/1.2新建dmdba用户创建用户组：groupadddinstall创建用户，命令如下：useradd-gdinstalldmdba创建达梦数据库安装目录mkdir-p/dm8/{dminstall,dmdata,dmarch,dabak}将
uniapp 拦截器满楼、前端 uni-app vue.js
exportdefault{config:{baseURL:'https://xxx.xxx.com',header:{},dataType:'json',//#ifndefMP-ALIPAY||APP-PLUSresponseType:'text',//#endif//注：如果局部custom与全局custom有同名属性，则后面的属性会覆盖前面的属性，相当于Object.assign(全局，局部
Gartnet《Solution Path for Implementing Hybrid Cloud Applications With On-Premises Data》学习心得架构师学习成长之路大数据架构
一、引言随着企业数字化转型的深入，混合云架构逐渐成为一种中长期的现实选择。软件架构师们在将应用逻辑迁移到云端的同时，往往面临着数据层难以同步迁移的困境。Gartner的这份报告《SolutionPathforImplementingHybridCloudApplicationsWithOn-PremisesData》为我们提供了一条实施混合云应用的清晰路径，涵盖了从迁移策略的确定、应用与数据层的整
el-cascader 设置可以手动输入也可以下拉选择满楼、 vue.js elementui javascript
el-cascader设置可以手动输入也可以下拉选择稍微修改一下就可食用//datastationNameInput:'',//展示输入框内容isManualInput:false,//判断用户是否在输入//methods//输入框打开CascadertoggleCascader(){constinputEl=this.$refs.cascaderAddr.$el.querySelector('i
MySQL(114)如何进行数据库负载均衡？辞暮尔尔-烟火年年 MySQL 数据库 mysql 负载均衡
为了进行数据库负载均衡，我们可以使用SpringBoot和MySQL，并结合AbstractRoutingDataSource来实现数据源的动态切换。下面的实现包括配置多数据源、定义数据源上下文和实现负载均衡策略（如轮询和随机）。项目依赖首先在pom.xml中添加必要的依赖：org.springframework.bootspring-boot-starter-data-jpamysqlmysql
opencv入门(6) TrackBar调整图片和键盘响应千殃sama opencv 学习笔记
文章目录1创建trackbar2使用userdata传入函数3键盘响应1创建trackbar1.trackbar名称2.创建在哪个窗口上3.拖动trackbar改变的值4.trackBar的最大值5.trackbar改变时的回调函数6.带入回调函数的数据，可以不用带,是一个void指针createTrackbar(“Valuebar”,“亮度调整”,&lightness,max_value,on_
php数据导出pdf文件 Z单单 pdf
一.导出pdf文件，首先要安装相关的类库文件，我用的是dompdf类库。1.安装类库文件：composerrequiredompdf/dompdf2.引入类库文件到你的控制器中，创建方法：publicfunctiongeneratePdf(){//你需要打印的查询内容$data=['name'=>'烦烦烦','content'=>'哈哈哈计划经济','img'=>'https:://www.tup
kafka问题解决笔记 Leo_Hu666 kafka 笔记分布式
1.ERRORShutdownbrokerbecausealllogdirsin/tmp/kafka-logshavefailed(kafka.log.LogManager)修改：/data3/kafka_2.12-3.9.1/config/server.propertieslog.dirs=/tmp/kafka-logs-new
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
golang实现从request请求返回的response中提取网站图标的faviconMMH3, faviconMD5, faviconPath, faviconData, faviconURL
golang实现从request请求返回的response中提取网站图标的faviconMMH3,faviconMD5,faviconPath,faviconData,faviconURL，其中faviconData类型为[]byte，其余为string类型。在Go中提取网站的favicon（网站图标）并计算其MMH3和MD5哈希值，同时获取路径、原始数据和URL，可以通过以下步骤实现：packa
08_Excel 导入 - 用户信息批量导入耀耀_很无聊【后端开发】Java 碎碎念 excel java 开发语言
08_Excel导入-用户信息批量导入1.VO类java复制编辑@Data@AllArgsConstructor@NoArgsConstructorpublicclassUserInfoBatch4ExcelReq{@ExcelProperty(value="用户姓名")@Schema(description="用户姓名")privateStringuserName;@ExcelProperty(
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

数据中台

数据中台

数据汇聚

数据采集工具

数据开发

离线开发

实时开发

智能运维

数据体系

数据资产管理

数据治理

数据服务体系

查询服务

分析服务

推荐服务

圈人服务

离线平台

实时平台

离线数仓与实时数仓

数据中台解决方案

你可能感兴趣的:(big,data)