hf200012

应用实践｜Lifewit 数据平台基于Apache Doris的建设实践

导读：近几年随着跨境电商行业的快速发展，Lifewit 业务达到近十倍的增长，原先的痛点已经严重影响到用户的数据使用体验。技术端需要随着业务的飞速发展不断升级迭代适应业务的增长。Lifewit 规划了从旧数据架构进化成目前基于 Apache Doris 构建的轻量级业财一体化数据平台，来系统化地解决旧架构存在的痛点，打通业务数据和财务数据，构建综合数据平台提供全业务链自助数据分析能力，支撑完善的数据报表体系和高效的数据分析。

作者｜Lifewit 技术中心陈圣强江作家

业务背景

Lifewit 是一家专注于打造全球创新家居场景品牌的企业，通过自主研发、自主设计、品牌策划、技术驱动、垂直供应链、数字化人力资源形成一套“六位一体”化的特色经营体系。Lifewit 拥有自主的 B2C 品牌商城，深耕 Amazon 平台，同步入驻全球潜力电商平台，销售市场已覆盖全球上百个国家，服务上千万全球客户。

在我们业务场景中，数据大多来源于各个平台报表和各个业务系统产生的数据，旧架构直接基于关系型数据库构建报表数据，数据源系统多而复杂，还经常发生变化；复杂计算缺少分层建设导致拖垮从库；ETL 存在多种形态，没有统一建设和管理，排查问题比较艰难；源头数据的变化导致大量的下游表发生差异，需要及时重新计算；但发生变化的数据影响面分析困难，异常问题排查耗时人工成本高。这些都属于旧数据架构的一些痛点。

经过了近几年跨境电商行业的快速发展，我们的业务达到近十倍的增长，原先的痛点已经严重影响到用户的数据使用体验。技术端需要随着业务的飞速发展不断升级迭代适应业务的增长，所以我们今年规划了从旧数据架构进化成目前基于 Apache Doris 构建的公司轻量级业财一体化数据平台，来系统化的解决旧架构存在的痛点，打通业务数据和财务数据，构建综合数据平台提供全业务链自助数据分析能力，支撑完善的数据报表体系和高效的数据分析。

整体架构

数据架构

CECP: 老综合业务系统，核心模块是供应链和财务相关，逐步升级成 LBP

LBP：Lifewit 新业务平台，覆盖公司全业务链业务平台

LDP：Lifewit新数据平台，覆盖公司全业务链数据应用

数据调度：LDP采用 Airflow 承接调度能力，Airflow 是一个使用 Python 语言编写的 Data Pipeline 调度和监控工作流的平台。Airflow 是通过 DAG（Directed acyclic graph 有向无环图）来管理任务流程的调度工具，支持自定义 Operator/Hook，还支持触发规则自定义，具备丰富的可扩展能力。

数据采集：LDP 目前实现主要是分钟级和小时级任务，支持两类采集，一类定时 API 增量采集，一类定时 OLTP 数据源增量采集，OLTP 增量采集直接构建在 Airflow，通过 Doris 连接 OLTP 从库数据源进行自定义规则采集。

数据仓库和数据应用都是基于 Doris构建，数据视图层基于开源版/商业版BI软件构建。

元数据：自研，支持 PG、MySQL、Doris 的元数据自动化采集和管理。

数据质量：自研，支持自定义 SQL 对数据仓库，数据应用层指标进行自定义监控和告警。

数据血缘：目前的开源数据血缘不太适合我们公司，还在调研 DBT 中，第二期重点考虑 DBT 生产化可行性。

测试集群概况

测试环境配置：

三台 8 核 16 G云服务器
三台 BE，一台 FE，其中一台 BE 混布
Ubuntu 18.04，CPU 支持 avx2

目前我们还处于数据架构升级的初始阶段，仅接入了部分销售数据，测试集群规模如下，目前已接入业务的数据量在千万级别，后续持续会有更多旧数据业务以及新的业务线接入进来。

集群监控

基于 Grafana+Promethus 构建集群监控可视化，以下监控图是测试环境监控部分截图。

数据采集

采集方案

LDP 目前实现主要是分钟级和小时级任务，通过 Airflow+Doris 轻量级支持 2 类采集。

一类定时 API 增量采集，通过调用 ERP 等其他业务系统的 API 进行增量数据采集到 Doris ODS 层。

一类定时 OLTP 数据源增量采集，OLTP 增量采集直接构建在 Airflow ，通过 Doris 连接 OLTP 从库数据源进行自定义规则采集，达到增量数据源源不断的进入 Doris ODS 层。

第二期支持实时采集 Binlog 入 Doris ODS 功能。

采集接入

ODBC 环境搭建

注意：所有 BE 都需如法安装，并保持相同配置

安装操作系统 ODBC 驱动：

apt install unixodbc

检查是否安装成功：

安装 MySQL ODBC 驱动：

选型：

下载地址：https://downloads.mysql.com/archives/c-odbc/

放置 Lib 目录

myodbc-installer -a -d -n "MySQL ODBC 8.0.11 Unicode Driver" -t "Driver=/usr/lib/mysql-odbc-8.0.11/libmyodbc8w.so"

myodbc-installer -a -d -n "MySQL ODBC 5.3.13 Unicode Driver" -t "Driver=/usr/lib/mysql-odbc-5.3.13/libmyodbc5w.so"

查看是否注册成功

myodbc-installer -d -l

MySQL ODBC 5.3.13 Unicode Driver

MySQL ODBC 8.0.11 Unicode Driver

验证 ODBC 连接 MySQL

编辑 /etc/odbc.ini 文件：

[mysql]
Description     = Data source MySQL
Driver          = MySQL ODBC 8.0.11 Unicode Driver
Server          = 192.168.20.17
Host            = 192.168.20.17
Database        = test
Port            = 23306
User            = root
Password        = sakdfwexkjsga134wesdgdsa4

执行

isql -v mysql

至此操作系统层通过 ODBC 是可连接到 MySQL。

ODBC 接入 Doris

编辑 be/conf/odbcinst.ini 增加以下配置：

[MySQL ODBC 8.0.11 Unicode Driver]
Description     = ODBC for MySQL 8
Driver          = /usr/lib/mysql-odbc-8.0.11/libmyodbc8w.so
FileUsage       = 1

[MySQL ODBC 5.3.13 Unicode Driver]
Description     = ODBC for MySQL 5
Driver          = /usr/lib/mysql-odbc-5.3.13/libmyodbc5w.so
FileUsage       = 1

ODBC 如何使用

创建 Resource：

create external resource test_resource properties(
    "type"="odbc_catalog",    
    "odbc_type" = "mysql",    
    "host"="127.0.0.1",    
    "port"="23306",    
    "user"="root",    
    "password"="sakdfwexkjsga134wesdgdsa4",   
    "database"="test_db",    
    "driver"="MySQL ODBC 8.0.11 Unicode Driver"
 );

创建外部表：

CREATE EXTERNAL TABLE `sku` (
  `id` int(11) NULL COMMENT "",
  `sku` varchar(64) NULL COMMENT "",  
  `name` varchar(128) NULL COMMENT "",  
  `type` varchar(128) NULL COMMENT "",  
  `creator_id` int(11) NULL COMMENT "",  
  `create_time` datetime NULL COMMENT "",  
  `updater_id` int(11) NULL COMMENT "",  
  `update_time` datetime NULL COMMENT ""
  ) ENGINE=ODBC
  COMMENT "TEST"
  PROPERTIES (
   "odbc_catalog_resource" = "test_resource",  
   "database" = "test_db",  
   "table" = "sku"
   )

具体使用场景：

从外表定时增量采集到 Doris，主要是通过 AirFlow 定时任务执行 insert into select 语句方式采集
查询时直连外表（数据量小），业务表很多，无需采集数据即可方便直接查询，若外表数据过大，或查询批次太高不建议直连

数据仓库

分层设计

SRC：数据源，主要来自各业务系统和亚马逊报表，以 PG、MySQL、ES 为主，采用Doris ODBC 外部表实时直连从库，用于采集。

ODS：原始数据层，存放原始数据，主要是离线/实时写入的数据，与数据来源保持一致，还原数据过程。

DWD：数据明细层，根据需求从 SRC/ODS 层清洗数据存储到 Doris 中，采用 Uniq 模型。

DWS：轻度汇总层，从 DWD 轻度汇总数据，采用 Uniq 模型，构建命名规范、口径一致的统计指标，为上层提供公共指标。

ADS：数据应用层，和业务强相关的数据应用层，构建 ADS 是以需求为驱动，应用层主要是各个业务方或者部门基于 DWD 和 DWS 建立的数据集市。

DVS：数据视图层，BI 可视化对应的视图表，在 DVS 直接抽取和计算来自从 ADS、DWS 等层次的数据。

根据实际业务复杂性会存在跨层建设场景，不会严格按照每一层进行建设。

从外表采集数据到 DWD 层：

根据业务规则生成 DWS 层数据：

通过 Airflow 编写简单的 Python 代码进行任务调度编排：

Airflow 作业销售数据报表作业 DAG：

维度 Join 好处

传统基于 Hadoop 生态构建数据仓库，在进行建模的时候，广泛的采用的是大宽表，将指标列和维度列放在同一张表上。这会带来一个问题：当维度修改的时候，需要对数据任务进行重跑对数据进行回溯，重新聚合计算，这样的话回溯时间越长需要消耗时间越久。

我们使用 Doris 做存储和分析，由于 Doris 具备多表 Join 性能良好，采用星型关联表来建模，可以支持维度的动态修改，降低数据重跑回溯的成本。

数据可视化

数据可视化属于 LDP 数据视图层，截图属于销售看板应用，数据来自 DWS/ADS 层销售数据。构建了销售数据的多维度的自助分析能力，主要使用用户是运营中心。销售数据属于我们第一期的建设范围，其他业务陆续接入。

数据质量

新数据架构建了基础的作业流和复杂的作业流，随着业务任务量增加，作业的故障问题对于用户来说容忍度会越来越低，如何监控生产作业的稳定性，避免经常在发生用户投诉后才发现任务异常，对于数据平台来说极为重要的环节。

我们数据架构的作业健康分 2 类，作业质量(即 DAG/TASK 的质量)，数据质量(即数据指标，数据时效等数据类质量)。

DAG 质量和 TASK 质量就需要定时监控 DAG 和 TASK 元数据(存储在 MySQL 数据库内)，监控 DAG 和 TASK 增量运行健康情况，定义监控规则是监控 TASK 还是 DAG，具体的监控细节是捕获到何种异常进行对应的分级告警。解决作业失败发现不及时导致发生重大故障问题，解决数据堆积导致最终结果交付延迟问题。

数据质量，涵盖数据指标，数据时效等，以及反向要求数据底层需具备一定时限的自愈机制，降低数据质量异常频率。通过数据质量定时作业检查配置好的质量规则，通过监控数据质量结果，达到统一告警的机制。我们 LDP 架构的刚上线，服务的数据应用不多，系统化的数据质量还未完全铺开。第一期主要先针对具体数据应用常见问题构建分模块的数据质量应用进行监控告警或自愈。第二期进行数据质量系统化建设。

元数据

作业质量和数据质量的管理，离不开元数据和数据血缘的建设，广义的 LDP 数据血缘涵盖任务血缘（Airflow 的 DAG ），作业血缘（Airflow 的 DAG 内部的 TASK ），数据血缘（和 Airflow 无关，在整个数据平台，数据生产形成的数据血缘链路），只有掌握了数据流的具体流向才能识别单点故障对整个数据平台的影响，而不是遇到问题只是单点解决问题，无法找到波及面，更不用说如何及时的修复波及面。

第一期的数据平台我们任务不多，没有做到完整的数据血缘采集，只实现了元数据管理。对接入数据平台的所有库，表，字段，计算逻辑，依赖关系进行统一管理。

通过依赖关系的维护，以及具体应用的指标监控，来识别异常指标波及面进行人工的异常分析和作业重跑。

第二期进行完整的数据血缘采集，实现完整的通用的数据自愈和故障影响面自动分析功能。

数据自愈

第一期的数据自愈主要是针对具体应用需求进行开发，本次生产作业是在两层之间增加一个数据健康检查任务，由于报表数据和业务数据经常发生变动，导致 DWD、DWS 的数据和 SRC 层数据发生偏差，需要寻找有偏差的数据，并通过 Airflow 重跑任务，当前采用 Delete + Insert 方式。

旅行者

健康检查时间段有限制，不可能无条件检查历史数据，于是需要一个方案进行更久以前的各层数据比对、汇总和告警。

健康检查例行过去 30 天的数据，数据对不上将触发重跑
30 天以外的数据用新任务负责低频检查和告警

目前数据质量还是针对具体业务实现具体的告警规则，下一阶段实现通用的数据质量管理体系。

实践总结

数据质量

MySQL ODBC 版本选择问题：

具体选型见 ODBC 环境搭建环节，版本选择不对可能导致 BE 挂掉。

-235 问题：

解决方案：

curl -X POST http://{be_ip}:
{be_http_port}/api/update_config?min_compaction_failure_interval_sec=30&persist=true

在 Cumulative Compaction 过程中，当选中的 Tablet 没能成功地进行版本合并，则会等待一段时间后才会再次有可能被选中。等待的这段时间就是这个配置的值，默认 5s 在插入速率过大，而批次量过小时容易产生，此时需要调大配置，减少插入速率，增加单次插入量。

新架构的收益

采用基于 Apache Doris 的数据平台方案减轻了传统大数据搭建的服务器成本和运维人力成本。
数据平台方案整个链路和传统 Hadoop 数仓链路相比大大缩短，链路越短，数据稳定性维护越简单。
磁盘占用量大幅度降低。旧数据架构存在大量索引和分区等优化策略，导致某些表的索引比业务数据还大，使用 Doris 后存储所占用的资源大幅降低。
数据分层结构清晰。根据三种不同特性的数据模型设计不同层次的表结构。Uniq 作为 DWD 或者 ODS 层，Uniq/Agg 作为 DWS 层，Agg 作为 ADS 层。
查询速度提升。BI 查询聚合好的 ADS 层数据，发挥 Agg 模型最大效能。
ODBC 模式的采集方式减少ETL流程，降低复杂度，提高开发效率。
物化视图自动刷新。PG 的物化视图和源表数据分离，源表数据变动需要手动重刷容易出错。Doris 自动刷新和查询透明机制，直查源表自动匹配最优物化视图。
由于良好的多表 Join 性能，采用星型关联表来建模，可以支持维度动态修改，降低回溯成本。

后续演进

随着 LDP 数据平台服务的数据应用越来越多，后续对整个 LDP 数据平台架构需要更丰富的功能，更实时，稳定，安全的数据交付能力，更便捷的平台管理能力。

LDP数据平台第二期优先功能范围：

数据血缘和数据自愈实现，任意表延迟多层自动修复
更实时采集 Binlog，支撑实时数仓建设
通用数据质量，支持任意数据源，任意指标的自定义监控和告警

目前基于 Apache Doris 的 LDP 数据平台在乐活科技的第一个数据应用得到用户的广泛认可，用户更加期待后续数据应用可以快速产出和赋能业务。感谢 Apache Doris 社区给予的支持，使我们能够快速构建轻量级 LDP数据平台的基建设施，祝愿 Apache Doris 社区发展越来越好！

WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

应用实践｜Lifewit 数据平台基于Apache Doris的建设实践

业务背景

整体架构

数据架构

测试集群概况

集群监控

数据采集

采集方案

采集接入

数据仓库

分层设计

维度 Join 好处

数据可视化

数据质量

数据质量

元数据

数据自愈

旅行者

实践总结

数据质量

后续演进

你可能感兴趣的:(big,data,人工智能,大数据,apache,doris)