戰士

数据运营平台-数据采集

行为数据采集

业务数据采集与转换

第三方系统API对接

用户数据关联

人工数据采集

数据输出

行为数据采集

1.埋点采集

①跨平台打通

确定性方法识别

利用用户帐号体系中，可以是系统生成的 UserID，可以是手机号，也可以是邮箱，不同的产品情况略有差异，总之就是用户唯一的标识。如果应用在 Android、iOS、Web、微信公众号四个平台上运营，各个平台用统一的帐号体系。假如小明有Android、iOS、PC三台设备，早上在Android 的微信公众号上看了一个推荐的，中午登录了网页查看了详细信息，晚上回家在iOS 手机上下了单，那么完全可以通过UserID将用户行为连贯起来。

概率论方法匹配

使用设备相关的间接数据来匹配，Cookie、IDFA、上网时间、Wifi、IP 等等，通过机器学习或者其他复杂的规则来分析。但是严重依赖于数据的多样性和算法，相对确定性的方法来说，准确性差距很大，不推荐。

②埋点方案设计

用户行为是由用户一系列的事件组成，包含5个基本要素：何人，何时，何地，通过何种方式，发生了何种行为，一份完整的埋点方案由事件、事件属性和用户属性三部分组成：

事件：记录用户在使用网站、APP 或小程序的过程中触发的行为。

用户的行为有一部分会在他们使用的过程中自动被采集上来，常见的如：与访问有关的“页面浏览”，“停留时长”；另外一部分包含具体业务含义的，则需要通过埋点才能得到，例如：“注册”、“登录”、“支付”等等。

事件属性：通过属性为事件补充相关的信息，例如：位置，方式和内容。

用户产生行为时就会上报具体的属性值，比如对“购买事件”定义了“支付方式”的属性值，则根据不同的行为可能上报的是微信支付，支付宝支付。

例如：在采购平台上花十万元购买一辆汽车。这个动作就产生一个名为“购买”的事件；而“购买”事件，同时也可以包含：“品牌”，“价格”这两个属性，而“东风”和“十万元”就是属性的具体值了。

Event要素	要素说明	采集的数据	示例
Who	参与事件的用户	用户唯一ID	H522a3bd525a2af
When	事件发生的时间	自动获取事件当时时间	11月11日00:02:03
Where	事件发生的地理位置	自动获取 IP、GPS信息	114.242.249.113
How	事件发生的方式	使用的环境	设备品牌：Apple 设备型号：iPhone 6s 操作系统：iOS 屏幕分辨率：1920*1680 运营商：中国联通网络类型：Wifi ……
What	事件的内容	自定义采集的事件：EventID 事件属性：Key-Value	add_to_cart product_name：耳麦 product_price：666

用户、时间、地理位置、事件发生的环境等可以自动采集，采集哪些事件、事件更丰富的属性需要用户自己来上报。

事件模板：

事件ID	事件名称	事件说明	属性ID	属性名称	属性说明	属性值类型
PayOrder	支付订单	点击支付按钮时触发	paymentMethod	支付方式		字符型
ViewDetailPage	浏览页详情	点击详情页时触发	PageID	页面ID		字符型

模板例子：

平台	事件ID	事件显示名称	事件说明	属性ID	属性显示名称	属性说明	属性值数据类型
Android,iOS	$signup	注册	注册成功时触发	username	用户名	用户输入的用户名	字符串
				company	所在公司	所在公司信息	字符串
				age	年龄	用户年龄	字符串
Android,iOS	login	登录	点击登录成功时触发

分析应用当前所处的阶段，设置合理的目标，拉新、促活等等；

分析实现目标需要采集哪些数据；

按照模板梳理需要埋点的事件、事件属性

平台：输入需要埋点的平台，仅支持输入 Android、iOS、Web/H5、小程序、其他、未知这6个选项，多个平台时，英文逗号分隔

事件ID：用于工程师埋点，唯一标识事件，仅支持$、字母、数字和下划线，不能以数字或下划线开头，上限125个半角字符，$仅用于预置事件

事件显示名称：用于在产品中显示事件名称，不支持特殊字符，上限50个半角字符

事件说明：用于说明事件的触发条件、埋点位置等帮助工程师理解埋点需求，不支持特殊字符，上限100个半角字符

属性ID：更丰富的描述事件，属性ID用于唯一标识事件属性，命名规则同事件ID，当有多个属性时，自行增加行

属性显示名称：用于显示属性名称，不支持特殊字符，上限50个半角字符

属性说明：用于说明事件的属性，不支持特殊字符，上限100个半角字符

属性值类型：选择不同的属性值类型，不同的类型在分析时会有不同的处理方式，仅支持定义为字符串、数值、布尔、日期或集合类型

用户属性：分析过程中，需要引入注册用户的更多维度，比如注册用户ID、姓名、用户等级等等，也需要进行梳理，方法同事件属性。

用户属性ID		用户属性名称		属性说明		属性值类型
UserLevel		用户等级		上传用户的等级信息		字符型
用户属性ID	属性显示名称		属性说明		属性值数据类型
username	用户名		用户名		字符串
company	所在公司		所在公司名称		字符串
age	年龄		用户年龄		字符串

确定要分析的用户维度；

按照模板格式梳理需要埋点上传的用户属性：

用户属性ID：唯一标识描述的用户维度，仅支持$、字母、数字和下划线，不能以数字或下划线开头，上限125个半角字符，$仅用于预置属性，当有多个属性时，自行增加行；

属性显示名称：用于显示属性名称，不支持特殊字符，上限50个半角字符；

属性说明：用于说明用户属性的含义、上报时机等，不支持特殊字符，上限100个半角字符；

属性值类型：选择不同的属性值类型，不同的类型在分析时会有不同的处理方式，仅支持定义为字符串、数值、布尔、日期或集合类型；

对采集到的埋点写入到 Kafka 中，对于各个业务的实时数据消费需求，我们为每个业务提供了单独的 Kafka，流量分发模块会定期读取埋点管理平台提供的元信息，将流量实时分发的各业务 Kafka 中。

③客户端埋点数据验证

对埋点后的执行进行验证，最佳办法是根据实际验证需求做出可视化埋点验证工具，或对接第三方埋点验证服务。但是如果不想花费此成本，也可以做以下的方案处理：

客户端有操作时，验证是否会正确触发上报；

查看上报事件的属性（名称、属性名称及类型）是否符合预期；

了解到客户端操作的行为序列；

网站埋点（JS）

调试模式开启时：

debugMode: 1 或 2；SDK 会向浏览器的控制台中输出日志。日志中会包含一些告警、错误，也会包含上报事件的内容。

以 Chrome 为例，步骤如下：

· 启动 Chrome，并访问已经埋好点的网站

· 按 F12 或 Ctl/Cmd + Alt/Opt + I 打开 “开发者工具”

· 点击 “Console” 页签进入控制台

· 正常浏览页面，接可以看到控制台有大量的日志

接下来，为了方便查看事件报文的内容，我们可以在过滤器中设定关键字“analysys”筛选出报文。

· SDK初始化相关日志

· Send message to server: **实际上报地址**

· 上报数据相关日志

如日志发送成功，控制台会输出：Send message success

调试模式未开启时：

debugMode: 0，生产环境通常会关闭调试模式，在调试模式未开启时SDK不会向浏览器的控制台发送任何日志，这对调试造成了一些不利。但通过浏览器自带的开发者工具也查看到上报的事件内容。下面以 Chrome 为例，介绍相应的测试方法。

步骤如下：

· 启动 Chrome，并访问已经埋好点的网站

· 按 F12 或 Ctl/Cmd + Alt/Opt + I 打开 “开发者工具”

· 如上图，点击“Network”页签

· 正常浏览页面，就能在浏览器中看到上报的埋点日志

· 如上图，在左上方红框位置的过滤器中输入“up?”

· 点击每条记录，就能在右侧红框“Request Payload”中看到上报报文的内容了。

APP埋点（iOS/Android）

移动端 SDK 也会输出日志，开发者可以按照下面的说明开启调试模式，通过 SDK 的日志调试。同时我们也提供一种面向非开发者的，通过抓包工具来查看上报日志的方式。

开发者，先在代码中设置调试状态开启：

Andorid环境

AnalysysAgent.setDebugMode(this, 2);

0：关闭 Debug 模式

1：打开 Debug 模式，但该模式下发送的数据仅用于调试，不计入平台数据统计

2：打开 Debug 模式，该模式下发送的数据可计入平台数据统计

iOS环境

AnalysysAgent setDebugMode:AnalysysDebugButTrack

AnalysysDebugOff：关闭 Debug 模式

AnalysysDebugOnly：打开 Debug 模式，但该模式下发送的数据仅用于调试，不计入平台数据统计

AnalysysDebugButTrack：打开 Debug 模式，该模式下发送的数据可计入平台数据统计

使用 Eclipse、AndroidStudio 或 Xcode 工具等，请在 Console 中搜索 tag 为“Analysys”

初始化成功后，控制台会输出:

· SDK初始化相关日志

· Send message to server: **实际上报地址**

· 上报数据相关日志

日志发送成功，控制台会输出：Send message success

非开发者，往往 App 已经安装在手机上，若想调试需要将 App 的流量发送到流量分析工具中进行调试。以下有几个知名度比较高的工具可供参考：

mitmproxy

https://mitmproxy.org/#mitmweb

Charles

https://www.charlesproxy.com/download/

Fiddler

https://www.telerik.com/fiddler

步骤如下：

从上述流量监控工具中选择适合您的，安装并按提示将您 app 的流量转发到工具里

· 在工具中的过滤器中输入“up?”

· 正常使用 app，就能在工具中看到上报的埋点日志

· 点击每条记录，就能查看上报报文的内容了

④Matomo采集

Matomo统计添加方法

A.在Matomo上创建网站

编辑内容

项目网址就是要统计的目标网址，统计代码添加后凡以此开头的都会被记录到Matomo，添加后就会产生如下网站记录，注意那个ID后面的统计代码里面都要用到

B.添加统计代码

Vue的方式

import Vue from 'vue'import VueMatomo from 'vue-matomo'// matomo用户统计--类似于友盟

Vue.use(VueMatomo, {

// 这里配置你自己的piwik服务器地址和网站ID

host: 'https://bayes.test.com/piwik',

siteId: 412,

// 根据router自动注册

router: router,

// 是否需要在发送追踪信息之前请求许可

// 默认false

requireConsent: false,

// 是否追踪初始页面

// 默认true

trackInitialView: true,

// 最终的追踪js文件名

// 默认 'piwik'

trackerFileName: 'piwik'

})

纯Js的方式

vue+vue-matomo实现埋点

在安装好vue脚手架后，首先引入vue-matomo：npm i vue-matomo

在 main.js中配置：

import VueMatomo from 'vue-matomo'

Vue.use(VueMatomo, {

host: `你自己的matomo地址`,

siteId: '这个值页需要去matomo上去申请', // siteId值

// 根据router自动注册,需要注意的是如果有路由传值值太长的话会matomo会监听不到并报414，就不能使用此方法了

router: router,

// 是否需要在发送追踪信息之前请求许可

// 默认false

requireConsent: false,

enableLinkTracking: true,

// 是否追踪初始页面

// 默认true

trackInitialView: false,

// 最终的追踪js文件名，因为我这边的matomo版本比较老，所以使用的是piwik，现在版本新的话此值应该为matomo

trackerFileName: 'piwik',

debug: true,

userId:'当前用户登录Id,可根据需求来设置，非必传，也可以在用户登录成功之后设置'})

到此，就已经可以监听到页面访问、加载时间、访问次数、访问时间、实时访客等等数据。如图：

matomo数据收集案例

内容收集-例：

统计分析

事件收集-例：

_paq.push(['trackPageView']);

_paq.push(['trackEvent', 'Img', 'Clicked', 'handle']);

_paq.push(['trackAllContentImpressions']);

2、日志采集

方式一、通过采集架构的日志数据，从而形成基于日志的用户行为分析机制，其执行流程如下：

日志分析的总体架构就是使用Flume从nginx所在服务器上采集日志文件，并存储在HDFS文件系统上，使用mapreduce清洗日志文件，最后使用HIVE构建数据仓库做离线分析。任务的调度使用Shell脚本完成，当然大家也可以尝试一些自动化的任务调度工具，比如说AZKABAN或者OOZIE等。分析所使用的点击流日志文件主要来自Nginx的access.log日志文件，需要注意的是在这里并不是用Flume直接去生产环境上拉取nginx的日志文件，而是多设置了一层FTP服务器来缓存所有的日志文件，然后再用Flume监听FTP服务器上指定的目录拉取目录里的日志文件到HDFS服务器上。从生产环境推送日志文件到FTP服务器的操作可以通过Shell脚本配合Crontab定时器来实现。一般在WEB系统中，用户对站点的页面的访问浏览，点击行为等一系列的数据都会记录在日志中，每一条日志记录就代表着上图中的一个数据点；而点击流数据关注的就是所有这些点连起来后的一个完整的网站浏览行为记录，可以认为是一个用户对网站的浏览session。比如说用户从哪一个外站进入到当前的网站，用户接下来浏览了当前网站的哪些页面，点击了哪些图片链接按钮等一系列的行为记录，这一个整体的信息就称为是该用户的点击流记录。本次设计的离线分析系统就是收集WEB系统中产生的这些数据日志，并清洗日志内容存储分布式的HDFS文件存储系统上，接着使用HIVE去统计所有用户的点击流信息。

PageViews建模例子

Visits建模例子

方式二、ELK日志分析系统

ELK是一组开源软件的简称，其包括Elasticsearch、Logstash 和 Kibana，目前最流行的集中式日志解决方案。

Elasticsearch: 能对大容量的数据进行接近实时的存储，搜索和分析操作。主要通过Elasticsearch存储所有获取的日志。

Logstash：数据收集引擎，支持动态的的从各种数据源获取数据，并对数据进行过滤，分析，丰富，统一格式等操作，然后存储到用户指定的位置。

Kibana：数据分析与可视化平台，对Elasticsearch存储的数据进行可视化分析，通过表格的形式展现出来。

Filebeat: 轻量级的开源日志文件数据搜集器。通常在需要采集数据的客户端安装Filebeat,并指定目录与日志格式,Filebeat就能快速收集数据，并发送给logstash进行解析，或是直接发给Elasticsearch存储。

Redis：NoSQL数据库(key-value)，也数据轻型消息队列，不仅可以对高并发日志进行削峰还可以对整个架构进行解耦

Logstash主要组成如下：

inpust：必须，负责产生事件（Inputs generate events），常用：File、syslog、redis、beats（如：Filebeats）

filters：可选，负责数据处理与转换（filters modify them），常用：grok、mutate、drop、clone、geoip

outpus：必须，负责数据输出（outputs ship them elsewhere），常用：elasticsearch、file、graphite、statsd

Filebeats作为一种轻量级的日志搜集器，其不占用系统资源，自出现之后，迅速更新了原有的elk架构。Filebeats将收集到的数据发送给Logstash解析过滤，在Filebeats与Logstash传输数据的过程中，为了安全性，可以通过ssl认证来加强安全性。之后将其发送到Elasticsearch存储，并由kibana可视化分析。

业务数据采集与转换

大数据平台的数据来源广泛，根据来源，大致分为两类：

1)内部

a)手工填报

b)流+实时数据采集

c)批量

2)外部

a)文件导入

b)网络爬虫

c)对外接口服务

根据以上分类提供以下方案：

1、实时数据采集转换

实时采集选用Flume技术、消息队列选Kafka技术，在线实时处理选用Storm技术、关系型数据库可以选MySQL、Oracle多种类型，实时内存数据库选用Redis、历史大数据存储可选用MongoDB。数据采集系统体系结构如下图所示：

Flume是一个分布式、高可靠和高可用的数据采集采集系统。可针对不同数据源、不同结构的海量数据进行高效收集、聚合和传输，具备良好的扩展性、伸缩性和容错性。Flume由一系列的称为Agent的组件构成，每一个Agent内部包含三个组件，分别是Source、Channel、Sink。Flume的每个组件是可插拔、可定制的，其本质上是一个中间件，有效屏蔽了数据源与目标源之间的异构性，便于系统的扩展和升级。Source可定制开发从外部系统或Agent接收数据，并写入一个或多个Channel；Channel是一个缓冲区，缓冲Source写入的数据，知道Sink发送出去；Sink负责从Channel中读取数据，并发送给消息队列或存储系统，甚至于是另一个Agent。

针对不同通讯协议或者不同数据量级的数据源，定制开发一个Agent，在Agent内部采用Memory Channel缓存，以提升性能，采用Kafka Sink将Channel中的数据写入Kafka。

在实际应用中，不同数据源（数据生产者）产生的实时数据，需要经过不同的系统进行逻辑和业务处理，同时被写入历史数据库和Storm集群（数据消费者）进行离线大数据分析和在线实时分析。采用Kafka作为消息缓冲区，Kafka提供了高容错性和可扩展性，允许可靠地缓存更多的实时数据，以便于多个消费者重复读取。

Storm是为在线实时处理提供便利，实时采集数据，在Storm中实现模型化处理、简单的统计分析、数据存储等功能。Storm会根据实际业务应用的要求，将数据存储在实时内存数据库Redis、关系型数据库MySQL、历史大数据库MongoDB、HDFS等系统。

Kafka和Storm由Zookeeper集群化管理，这样即使Kafka宕机重启后也能找到上次的消费记录，接着从上次宕机点继续从Kafka的Broker中进行消费。但是由于存在先消费后记录日志或者先记录后消费的非原子操作，如果出现刚好消费完一条消息并还没将信息记录到Zookeeper的时候就宕机的类似问题，或多或少都会存在少量数据丢失或重复消费的问题，可选择Kafka的Broker和Zookeeper都部署在同一台机子上。接下来就是使用用户定义好的Storm Topology去进行数据的分析并输出到Redis缓存数据库中(也可以进行持久化)。

在Flume和Storm中间加入一层Kafka消息系统，就是因为在高并发的条件下，数据会井喷式增长，如果Storm的消费速度(Storm的实时计算能力那是最快之一，但是也有例外，而且据说现在Twitter的开源实时计算框架Heron比Storm还要快)慢于数据的产生速度，加上Flume自身的局限性，必然会导致大量数据滞后并丢失，所以加了Kafka消息系统作为数据缓冲区，而且Kafka是基于log File的消息系统，也就是说消息能够持久化在硬盘中，再加上其充分利用Linux的I/O特性，提供了可观的吞吐量。架构中使用Redis作为数据库也是因为在实时的环境下，Redis具有很高的读写速度。

2、批量数据采集转换

批量数据采集有多种方案，比如通过开源组件sqoop、kettle等，或者通过阿里的DataX离线同步服务完成。批量数据的执行周期可自写定时任务，也可利用工具自带定时机制完成。

1)Sqoop

主要用于在Hadoop(HDFS、Hive、HBase)与数据库(mysql、postgresql、MongoDB…)间进行数据的传递，可以将一个数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop Client 通过 shell 命令来使用 Sqoop，Sqoop 中的 Task Translater 将命令转换成 Hadoop 中的 MapReduce 任务进行具体的数据操作。例如 Mysql 中某个表数据同步到 Hadoop 这个场景，Sqoop 会将表记录分成多份，每份分到各自 Mapper 中去进行落地 Hadoop（保证同步效率），这里的 MapReduce没有 reduce，只有 map。

2)Kettle

Kettle作为开源的ETL工具，具有比较完备的功能，同样支持多种数据源的采集转换功能，同时自带任务机制，无需自行手动编写定时任务；kettle提供Spoon可视化组件，可以视图形式完成转换任务及作业的创建，提高工作效率。

3)DataX

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

所支持的数据源如下，也可自行开发插件：

3、API接口

通过 Restful API 可以将历史数据通过网络上报到大数据平台，这种方式一般适用于数据量不太大的情况。

调用该接口，把符合特定格式的数据以POST的方式上报至服务器。接收服务器对上报的数据进行校验，不符合格式的返回相应的错误提示。上报后的数据会先暂存在 Kafka 中，流处理引擎大约会以3000条/秒的速度将数据落库并可用于查询，该过程性能受服务器影响，但偏差一般不会太大。

接口协议：HTTP(S)，POST方式

请求地址：http(s)://host:port/up

请求数据：请求的 Body 体里面存放具体要上报的数据，数据明文为 JsonArray 的形式。上报的数据明文示例如下：

[{

"appid": "demo",

"xwho": "8c0eebf0-2383-44bc-b8ba-a5c719fc6194",

"xwhat": "confirmOrder",

"xwhen": 1532514947857,

"xcontext": {

"$channel": "豌豆荚",

"$app_version": "4.0.4.001",

"$model": "MI 6X",

"$os": "Android",

"$os_version": "8.1.0",

"$lib": "Android",

"$platform": "Android",

"$is_login": false,

"$lib_version": "4.0.4",

"$debug": 2,

"$importFlag": 1 //说明：$importFlag字段是专门用作导数

}

}]

数据编码：使用 UTF-8 编码。上报数据可以使用明文上报，也可以对数据进行压缩/编码处理后进行上报。压缩/编码过程具体为：先进行Gzip压缩，然后进行Base64编码，最后把编码后的数据直接放到Body体里面上报即可。

应答格式

上报成功：{"code":200}

上报失败：{"code":500}

上报数据格式错误：{"code":xxx, "msg":"xxxxx"}，返回的应答消息中包含"msg"字段，内容为具体的异常信息。

4、网络爬虫

网络爬虫作为侵入式采集，特殊的存在，涉及诸多安全问题，需慎用。

第三方系统API对接

1、对接概要

从第三方平台获取数据最合理方式就是通过开放的接口获取所需数据，获取到所需接口后，首先需要做的有以下几点：

1）需要账号的要先申请账号。

2）申请完账号，严格对照接口文档开发。

3）注意文档的每个字段。都有它的特殊含义。

4）拼接第三方的参数接口最好写在配置文件中，方便修改

5）如第三方（微信，qq）登录授权，微信，银联支付等需要拼接参数的，发送请求。成功后返回所需要的信息进行业务处理。

2、对接方案

1）对接方式

平台与外部系统对接方式多以web service方式。

系统接口标准：

以SOA体系架构为基础，服务总线技术实现数据交换以及实现各业务子系统间、外部业务系统之间的信息共享和集成，因此SOA体系标准就是我们采用的接口核心标准。主要包括：

服务目录标准：服务目录API接口格式参考国家以及关于服务目录的元数据指导规范，对于W3C UDDI v2 API结构规范，采取UDDI v2的API的模型，定义UDDI的查询和发布服务接口，定制基于Java和SOAP的访问接口。除了基于SOAP1.2的Web Service接口方式，对于基于消息的接口采用JMS或者MQ的方式。

交换标准：基于服务的交换，采用HTTP/HTTPS作为传输协议，而其消息体存放基于SOAP1.2协议的SOAP消息格式。SOAP的消息体包括服务数据以及服务操作，服务数据和服务操作采用WSDL进行描述。

Web服务标准：用WSDL描述业务服务，将WSDL发布到UDDI用以设计/创建服务，SOAP/HTTP服务遵循WS-I Basic Profile 1.0，利用J2EE Session EJBs实现新的业务服务，根据需求提供SOAP/HTTP or JMS and RMI/IIOP接口。

业务流程标准：使用没有扩展的标准的BPEL4WS，对于业务流程以SOAP服务形式进行访问，业务流程之间的调用通过SOAP。

数据交换安全：与外部系统对接需考虑外部访问的安全性，通过IP白名单、SSL认证等方式保证集成互访的合法性与安全性。

数据交换标准：制定适合双方系统统一的数据交换数据标准，支持对增量的数据自动进行数据同步，避免人工重复录入的工作。

2）接口规范性设计

系统平台中的接口众多，依赖关系复杂，通过接口交换的数据与接口调用必须遵循统一的接口模型进行设计。接口模型除了遵循工程统一的数据标准和接口规范标准，实现接口规范定义的功能外，需要从数据管理、完整性管理、接口安全、接口的访问效率、性能以及可扩展性多个方面设计接口规格。

接口定义约定

客户端与系统平台以及系统平台间的接口消息协议采用基于HTTP协议的REST风格接口实现，协议栈如图所示。

接口消息协议栈示意图

系统在http协议中传输的应用数据采用具有自解释、自包含特征的JSON数据格式，通过配置数据对象的序列化和反序列化的实现组件来实现通信数据包的编码和解码。

在接口协议中，包含接口的版本信息，通过协议版本约束服务功能规范，支持服务平台间接口协作的升级和扩展。一个服务提供者可通过版本区别同时支持多个版本的客户端，从而使得组件服务的提供者和使用者根据实际的需要，独立演进，降低系统升级的复杂度，保证系统具备灵活的扩展和持续演进的能力。

业务消息约定

请求消息URI中的参数采用UTF-8编码并经过URLEncode编码。

请求接口URL格式：{http|https}://{host}:{port}/

{app name}/{business component name}/{action}；其中：

协议：HTTP REST形式接口

host：应用支撑平台交互通信服务的IP地址或域名

port：应用支撑平台交互通信服务的端口

app name：应用支撑平台交互通信服务部署的应用名称

business component name：业务组件名称

action：业务操作请求的接口名称，接口名字可配置

应答的消息体采用JSON数据格式编码，字符编码采用UTF-8。

应答消息根节点为“response”，每个响应包含固定的两个属性节点：“status”和“message”。它们分别表示操作的返回值和返回消息描述，其他的同级子节点为业务返回对象属性，根据业务类型的不同，有不同的属性名称。

当客户端支持数据压缩传输时，需要在请求的消息头的“Accept-Encoding”字段中指定压缩方式(gzip)，如消息可以被压缩传输则平台将应答的数据报文进行压缩作为应答数据返回，Content-Length为压缩后的数据长度。详细参见HTTP/1.1 RFC2616。

响应码规则约定

响应结果码在响应消息的“status”属性中，相应的解释信息在响应消息的“message”属性中。解释消息为终端用户可读的消息，终端应用不需要解析可直接呈现给最终用户。响应结果码为6位数字串。根据响应类型，包括以下几类响应码。如表4-1中的定义。

表4-1响应码对应表

响应码	描述
0	成功
1XXXXX	系统错误
2XXXXX	输入参数不合法错误
3XXXXX	应用级返回码，定义应用级的异常返回。
4XXXXX	正常的应用级返回码，定义特定场景的应用级返回说明。

数据管理

A.业务数据检查

接口应提供业务数据检查功能，即对接收的数据进行合法性检查，对非法数据和错误数据则拒绝接收，以防止外来数据非法入侵，减轻应用支撑平台系统主机处理负荷。

对于接口，其业务数据检查的主要内容有以下几个方面：

• 数据格式的合法性：如接收到非预期格式的数据。包括接收的数据长度，类型，开始结束标志等。

• 数据来源的合法性：如接收到非授权接口的数据。

• 业务类型的合法性：如接收到接口指定业务类型外的接入请求。

对于业务数据检查中解析出非法数据应提供以下几种处理方式：

• 事件报警：在出现异常情况时自动报警，以便系统管理员及时进行处理。

• 分析原因：在出现异常情况时，可自动分析其出错原因。如是数据来源非法和业务类型非法，本地记录并做后续管理，如是数据格式非法，分析网络传输原因或对端数据处理原因，并做相应处理。

• 统计分析：定期对所有的非法记录做统计分析，分析非法数据的各种来源是否具有恶意，并做相应处理。

B.数据压缩/解压

接口根据具体的需求应提供数据压缩/解压功能，以减轻网络传输压力，提高传输效率，从而使整个系统能够快速响应并发请求，高效率运行。

在使用数据压缩/解压功能时，应具体分析每一类业务的传输过程、处理过程、传输的网络介质、处理的主机系统和该类业务的并发量、峰值及对于所有业务的比例关系等，从而确定该类业务是否需要压缩/解压处理。对于传输文件的业务，必须压缩后传输，以减轻网络压力，提高传输速度。

在接口中所使用的压缩工具必须基于通用无损压缩技术，压缩算法的模型和编码必须符合标准且高效，压缩算法的工具函数必须是面向流的函数，并且提供校验检查功能。

完整性管理

根据业务处理和接口服务的特点，应用系统的业务主要为实时请求业务和批量传输业务。两类业务的特点分别如下：

1.实时请求业务：

(1) 采用基于事务处理机制实现

(2) 业务传输以数据包的方式进行

(3) 对传输和处理的实时性要求很高

(4) 对数据的一致性和完整性有很高的要求

(5) 应保证高效地处理大量并发的请求

2.批量传输业务：

(1) 业务传输主要是数据文件的形式

(2) 业务接收点可并发处理大量传输，可适应高峰期的传输和处理

(3) 要求传输的可靠性高

根据上述特点，完整性管理对于实时交易业务，要保证交易的完整性；对于批量传输业务，要保证数据传输的完整性。

3）接口双方责任

消息发送方

遵循本接口规范中规定的验证规则，对接口数据提供相关的验证功能，保证数据的完整性、准确性；

消息发起的平台支持超时重发机制，重发次数和重发间隔可配置。

提供接口元数据信息，包括接口数据结构、实体间依赖关系、计算关系、关联关系及接口数据传输过程中的各类管理规则等信息；

提供对敏感数据的加密功能；

及时解决接口数据提供过程中数据提供方一侧出现的问题；

消息响应方

遵循本接口规范中规定的验证规则，对接收的数据进行验证，保证数据的完整性、准确性。

及时按照消息发送方提供的变更说明进行本系统的相关改造。

及时响应并解决接口数据接收过程中出现的问题。

异常处理

对接口流程调用过程中发生的异常情况，如流程异常、数据异常、会话传输异常、重发异常等，进行相应的异常处理，包括：

对产生异常的记录生成异常记录文件。

针对可以回收处理的异常记录，进行自动或者人工的回收处理。

记录有关异常事件的日志，包含异常类别、发生时间、异常描述等信息。

当接口调用异常时，根据预先配置的规则进行相关异常处理，并进行自动告警。

4）接口的可扩展性规划与设计

各个系统间的通信接口版本信息限定了各个系统平台间交互的数据协议类型、特定版本发布的系统接口功能特征、特定功能的访问参数等接口规格。通过接口协议的版本划分，为客户端升级、其他被集成系统的升级、以及系统的部署提供了较高的自由度和灵活性。

系统可根据接口请求中包含的接口协议版本实现对接口的向下兼容。系统平台可根据系统的集群策略，按协议版本分别部署，也可多版本并存部署。由于系统平台可同时支持多版本的外部系统及客户端应用访问系统，特别是新版本客户端发布时，不要求用户强制升级，也可降低强制升级安装包发布的几率。从而支持系统的客户端与系统平台分离的持续演进。

5）接口安全性设计

为了保证系统平台的安全运行，各种集成的外部系统都应该保证其接入的安全性。

接口的安全是平台系统安全的一个重要组成部分。保证接口的自身安全，通过接口实现技术上的安全控制，做到对安全事件的“可知、可控、可预测”，是实现系统安全的一个重要基础。

根据接口连接特点与业务特色，制定专门的安全技术实施策略，保证接口的数据传输和数据处理的安全性。

系统应在接口的接入点的网络边界实施接口安全控制。

接口的安全控制在逻辑上包括：安全评估、访问控制、入侵检测、口令认证、安全审计、防(毒)恶意代码、加密等内容。

安全评估

安全管理人员利用网络扫描器定期(每周)/不定期(当发现新的安全漏洞时)地进行接口的漏洞扫描与风险评估。扫描对象包括接口通信服务器本身以及与之关联的交换机、防火墙等，要求通过扫描器的扫描和评估，发现能被入侵者利用的网络漏洞，并给出检测到漏洞的全面信息，包括位置、详细描述和建议改进方案，以便及时完善安全策略，降低安全风险。

安全管理人员利用系统扫描器对接口通信服务器操作系统定期(每周)/不定期(当发现新的安全漏洞时)地进行安全漏洞扫描和风险评估。在接口通信服务器操作系统上，通过依附于服务器上的扫描器代理侦测服务器内部的漏洞，包括缺少安全补丁、词典中可猜中的口令、不适当的用户权限、不正确的系统登录权限、操作系统内部是否有黑客程序驻留，安全服务配置等。系统扫描器的应用除了实现操作系统级的安全扫描和风险评估之外还需要实现文件基线控制。

接口的配置文件包括接口服务间相互协调作业的配置文件、系统平台与接口对端系统之间协调作业的配置文件，对接口服务应用的配置文件进行严格控制，并且配置文件中不应出现口令明文，对系统权限配置限制到能满足要求的最小权限，关键配置文件加密保存。为了防止对配置文件的非法修改或删除，要求对配置文件进行文件级的基线控制。

访问控制

访问控制主要通过防火墙控制接口对端系统与应用支撑平台之间的相互访问，避免系统间非正常访问，保证接口交互信息的可用性、完整性和保密性。访问控制除了保证接口本身的安全之外，还进一步保证应用支撑平台的安全。

为了有效抵御威胁，应采用异构的双防火墙结构，提高对防火墙安全访问控制机制的破坏难度。双防火墙在选型上采用异构方式，即采用不同生产厂家不同品牌的完全异构防火墙。同时，双防火墙中的至少一个应具有与实时入侵检测系统可进行互动的能力。当发生攻击事件或不正当访问时，实时入侵检测系统检测到相关信息，及时通知防火墙，防火墙能够自动进行动态配置，在定义的时间段内自动阻断源地址的正常访问。

系统对接口被集成系统只开放应用定义的特定端口。

采用防火墙的地址翻译功能，隐藏系统内部网络，向代理系统提供翻译后的接口通信服务器地址及端口，禁止接口对端系统对其它地址及端口的访问。

对通过/未通过防火墙的所有访问记录日志。

入侵检测

接口安全机制应具有入侵检测(IDS)功能，实时监控可疑连接和非法访问等安全事件。一旦发现对网络或主机的入侵行为，应报警并采取相应安全措施，包括自动阻断通信连接或者执行用户自定义的安全策略。

实施基于网络和主机的入侵检测。检测攻击行为和非法访问行为，自动中断其连接，并通知防火墙在指定时间段内阻断源地址的访问，记录日志并按不同级别报警，对重要系统文件实施自动恢复策略。

口令认证

对于需经接口安全控制系统对相关集成系统进行业务操作的请求，实行一次性口令认证。

为保证接口的自身安全，对接口通信服务器和其它设备的操作和管理要求采用强口令的认证机制，即采用动态的口令认证机制。

安全审计

为了保证接口的安全，要求对接口通信服务器的系统日志、接口应用服务器的应用日志进行实时收集、整理和统计分析，采用不同的介质存档。

防恶意代码或病毒

由于Internet为客户提WEB服务，因此，对于Internet接口要在网络分界点建立一个功能强大的防恶意代码系统，该系统能实时地进行基于网络的恶意代码过滤。建立集中的防恶意代码系统控制管理中心。

加密

为了提高接口通信信息的保密性，同时保证应用支撑平台的安全性，可以对系统平台与接口集成系统间的相关通信实施链路加密、网络加密或应用加密，保证无关人员以及无关应用不能通过网络链路监听获得关键业务信息，充分保证业务信息的安全。

3、具体实现

1）原生JDK构造HTTP请求客户端，调用API

手动去创建HTTP连接，并将数据写入流中，再将数据转换为JSON对象进行解析

2）在SpringBoot下使用RestTemplate，以及抽取配置的方式调用API

将一些配置抽取出来，不同的环境运行不同的配置文件是常见的做法。例如我们可以将上面的appKey放到application.yml配置文件中。

3）使用OpenFeign以及抽取配置的方式调用API

将API调用变得更加像调用普通接口一样方便。原版的OpenFeign不依赖Spring独立使用（ https://github.com/OpenFeign/feign），SpringCloud整合了OpenFeign，在SpringCloud2.x，Feign成为SpringCloud的一级项目（ https://cloud.spring.io/spring-cloud-openfeign/）。

OpenFeign为微服务架构下服务之间的调用提供了解决方案，同时它可以结合其它组件可以实现负载均衡的HTTP客户端。

用户数据关联

不同数据源采集的用户数据的关联可采用基于ID-Mapping技术实现id的数据关联。

当下数据关联实现主要选择第三方提供的服务和自行开发两种方式：

1、三方服务

三方服务选择上有很多，可以利用阿里、华为、神策等厂商提供的各种相关解决方案或服务，有原生开发支持，也有直接的SAAS支持方式。以阿里的ID-Mapping体系的方案OneData体系为例

2、自行开发

1）基于ID-Mapping用户数据关联实现可总结为以下三种：

①基于账号体系企业中最常用的是基于账号体系来做ID的打通，用户注册时，给到用户一个uid，以uid来强关联所有注册用户的信息。

②基于设备：那对于未注册用户可以通过终端设备ID精准识别，包含Android/iOS两类主流终端的识别；通过SDK将各种ID采集上报，后台利用的ID关系库和校准算法，实时生成/找回终端唯一ID并下发。

③基于账号&设备：结合各种账户、各种设备型号之间的关系对，以及设备使用规律等用户数据；采用规则规律、数据挖掘算法的方法，输出关系稳定的ID关系对，并生成一个UID作为唯一识别该对象的标识码。

2）技术实现ID-Mapping

①借助redis

a.从日志数据中抽取各种标识id

b.将提取出的标识id，去redis标识id库中查询是否存在

c.如果不存在，则新建一个"统一标识"+“id set”

d.如果已存在，则使用已存在的统一标识

②借助图计算

采用图计算手段，来找到各种id标识之间的关联关系，从而识别出哪些id标识属于同一个人；

图计算的核心思想：

将数据表达成“点”，点和点之间可以通过某种业务含义建立“边”；然后，可以从点、边上找出各种类型的数据关系：比如连通性、最短路径规划等；

整体实现流程：

A.将当日数据中的所有用户标识字段，及标志字段之间的关联，生成点集合、边集合

B.将上一日的ids->guid的映射关系，也生成点集合、边集合

C.将上面两类点集合、边集合合并到一起生成一个图

D.再对上述的图执行“最大连通子图”算法，得到一个连通子图结果

E.在从结果图中取到哪些id属于同一组，并生成一个唯一标识

F.将上面步骤生成的唯一标识去比对前日的ids->guid映射表（如果一个人已经存在guid，则沿用原来的guid）

人工数据采集

主要通过实现数据导入工具，来实现对人工处理数据的采集；比如定制好数据模板，当人工填写数据模板后，在数据工具中导入上传，再进入大数据平台的文件自动处理机制流程中。

数据输出

数据导出方法包含API导出、文件导出、消费消息数据、数据库导出、工具导出集中方式。

1）API导出

定制开发数据输出API接口，实现对外数据查询或导出数据文件，接口做成详细参照《2.2.1.3第三方系统API对接-接口规范性设计》，输出API的调用大概分为以下几个步骤：

鉴权->获取链接->下载/数据

通过做成的对外API接口，为外部提供数据输出。

2）文件导出

可通可视化形式，提供页面级别操作，导出所需数据文件，前提也是需要获取到相应权限。

3）消费消息数据

以kafka为例，通过消费实时数据来满足更多使用场景。服务端接到一条 SDK 发来的数据后，会对数据做一些预处理并将数据写入到消息队列 Kafka 中供下游各类计算模块及对外使用。

注意点：

A.启动消费的服务器需与数据服务器实行鉴权，让消费服务器与数据服务器处于同一网段或者网络互通，且可解析数据服务器的host。

B.尽量选用兼容性的kafka版本，高版本服务端兼容低版本客户端，反之则容易出现兼容性问题

①消费参数

参数名称	参数值
topic	event{appid}/profile{appid}(其中{appid}表示项目的appid)
partition	partitionid(从0开始，至少3个partition）
zookeeper	ark1:2181,ark2:2181,ark3:2181
broker	ark1:9092,ark2:9092, ark3:9092

②消费数据

消费有shell、原生API等多种方式，可以选择一种适合使用场景的方式。

下面给出两种 Shell 方式启动消费的示例，使用 Shell 方式可以通过重定向标准输出将数据写入文件后处理或直接用管道作为其他进程的输入，可以对接各种编程语言实现的处理程序。

使用 Kafka Console Consumer

·可以使用 Kafka 自带的 Kafka Console Consumer 通过命令行方式消费，例如从最新数据开始消费：bin/kafka-console-consumer.sh --zookeeper ark1:2181 --topic event_topic

·可以将 stdout 输出到文件或作为其他数据处理进程的输入数据。

使用 Simple Consumer Shell

·使用 Simple Consumer Shell 可以实现更灵活的消费，例如：

bin/kafka-run-class.sh kafka.tools.SimpleConsumerShell \

--broker-list ark2:9092 \

--offset 1234 \

--partition 2 \

--topic event_topic \

--print-offsets

③数据格式

消费的数据的格式与导入时的数据格式基本一致。

4）数据库导出

即 JDBC、presto-cli、python 或 R 进行数据查询，达到更加高效、稳定的 SQL 查询方式，本次采用JDBC方式。

JDBC 信息

字段	信息
jdbc url	jdbc:presto://xxxx.xxxx.xxx:port/hive/default
driver	com.facebook.presto.jdbc.PrestoDriver
user	daxiang
SSL	true
password	编辑 /etc/presto/presto-auth.properties 文件查看
SSLKeyStorePath	presto.jks文件的路径，一般是/etc/presto/presto.jks
SSLKeyStorePassword	值可以在单机环境的ark1,集群环境的/etc/presto/config.properties文件中找到，对应http-server.https.keystore.key的值

5) 工具导出

可通过自行开发导出工具或第三方导出工具为外部，可通过下载授权数据导出工具获取输出的数据。

你可能感兴趣的:(基础知识,架构,大数据,数据采集)

【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
TDengine 签约前晨汽车，解锁智能出行的无限潜力涛思数据（TDengine） tdengine 汽车大数据
在全球汽车产业转型升级的背景下，智能网联和新能源技术正迅速成为商用车行业的重要发展方向。随着市场对环保和智能化需求的日益增强，企业必须在技术创新和数据管理上不断突破，以满足客户对高效、安全和智能出行的期待。在这一背景下，前晨汽车凭借其在新能源智能商用车领域的前瞻性布局和技术实力，成为行业中的佼佼者。前晨汽车采用整车数据采集和全车数据打通策略，能够实时将数据推送至APP端客户。然而，这导致整体写入和
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
Table列表复现框实现【勾选-搜索-再勾选】～四时春～ java 开发语言 elementui vue
Table列表复现框实现【勾选-搜索-再勾选】概要整体架构流程代码实现技术细节注意参考文献概要最近在开发时遇到一个问题，在进行表单渲染时，正常选中没有问题，单如果需要搜索选中时，一个是已选中的不会回填，二是在搜索的结果中进行选中，没有实现，经过排查，查找资料后实现。例如：整体架构流程具体的实现效果如下：代码实现{{scope.row.userName}}已选区{{userItem.userName
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他