IT从业者张某某

电商数据分析-03-电商数据采集

参考

最最最全数据仓库建设指南，速速收藏！！
第1章数据仓库概念

数据仓库规划

1.1 数仓搭建

我们这里所说的数据仓库，是基于大数据体系的，里面包含标签类目，区别于传统的数据仓库。下面我们来将这张图分解，逐个做简要分析。

一、前期调研

调研是数仓搭建的基础，根据建设目标，我们将调研分为三类：业务调研、业务系统调研、业务数据调研。

业务调研内容：

项目承载的业务是什么，业务的特征和性质
当前的业务流程，有真实流程表格和报告最好，用一个实例的方式来展示整个业务流程
业务专业术语、产品资料、规则算法、逻辑条件等资料
关注用户对流程中存在的问题和痛点描述、以及期望

业务系统调研内容：

清楚了解项目有哪些系统，每个系统对接人，重点系统详细介绍功能和交互
整体系统架构，调用规模，子系统交互方式，并发和吞吐量目标
系统技术选型和系统当前技术难点

数据调研内容：

可提供的数据
数据源类型、环境、数据规模
数据接口方式：文件接口、数据库接口、web service接口等
数据目录，数据字段类型、字典、字段含义、使用场景
数据在业务系统中流向等

二、数据建模

数据建模是数仓搭建的灵魂，是数据存储、组织关系设计的蓝图。

分层架构是对数据进行逻辑上的梳理，按照不同来源、不同使用目的、不同颗粒度等进行区分，使数据使用者在使用数据的时候更方便和容易理解，使数据管理者在管理数据的时候更高效和具有条理。我们推荐的分层架构是：

维度建模是Kimball在《数据仓库工具箱》中所倡导的数据建模方法，也是目前在大数据场景下我们推荐使用的建模方法。因为维度建模以分析决策的需求出发来构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

维度建模的核心步骤如下：

选择业务过程：对业务生命周期中的活动过程进行分析
声明粒度：选择事实表的数据粒度
维度设计：确定维度字段，确定维度表的信息
事实设计：基于粒度和维度，将业务过程度量

设计原则：

易用性：冗余存储换性能，公共计算下沉，明细汇总并存
高内聚低耦合：核心与扩展分离，业务过程合并，考虑产出时间
数据隔离：业务与数据系统隔离，建设与使用隔离
一致性：业务口径一致，主要实体一致，命名规范一致
中性原则：弱业务属性，数据驱动

三、标签类目

标签，是数据资产的逻辑载体。数据资产，指的是能够给业务带来经济效益的数据。所以，标签类目的建设在整个数据中心的建设过程中具有核心地位。

标签的设计需要结合数据情况和业务需求，因为标签值就是数据字段值，同时标签是要服务于业务的，需要具备业务意义。假如，标签的设计仅基于业务方以往的经验得出，那么最终开发出来的标签值可能会失去标签的使用意义，比如值档次分布不均、有值的覆盖率低等。

基于标签开发方式，我们将标签分为以下三类：

基础标签：直接对应的业务表字段，如性别、城市等
统计标签：标签定义含有常规的统计逻辑，开发时需要通过简易规则进行加工，如年增长率、月平均收益率等
算法标签：标签定义含有复杂的统计逻辑，开发时需要通过算法模型进行加工，如企业信用分、预测年销量等

基于标签应用场景，我们将标签分为以下二类：

后台标签：开发场景下，面向开发人员，不涉及业务场景，聚焦标签设计、开发、管理。
前台标签：应用场景下，面向业务人员，结合业务场景，聚焦对后台标签的直接使用或组合使用。

随着大量的标签产生，为了更好的管理和使用，我们需要将标签进行分类。所有的事物都可以归类于三类对象：人、物、关系，所以我们可以对标签按照人、物、关系来划分一级类目，再按照业务特性对每个一级类目进行二级、三级的拆分，通常我们建议将标签类目划分到三级。

四、开发实施

经过前期调研、数据建模、标签设计之后，接着会进入到开发阶段，开发实施的关键环节由以下几部分组成：

同步汇聚
清洗加工
测试校验
调度配置
发布上线

工欲善其事，必先利其器。一个好的开发工具对开发进度、成本、质量等具有举足轻重的影响。目前市面上很多开源，如Kettle、Azkaban、Hue等多多少少具有部分功能，但是要形成一个从端到端的数据自动化生产，需要将多个开源工具进行组合并通过复杂甚至人工方式进行衔接，整个过程复杂、低效和可靠性低。数栖云一站式离线开发平台，就是为了解决上述问题而生的。

开发落地，规范先行，遵守一套标准规范是整个开发质量和效率的保障。该套数据开发规范应该具备以下几个核心内容：
公共规范

层次调用约定
数据类型规范
数据冗余拆分
空值处理原则
刷新周期标识
增量全量标识
生命周期管理
…

ODS层模型开发规范

ODS层架构
数据同步及处理规范

数据同步方式
数据清洗规范

命名规范

表命名规范
任务命名规范

DW层模型开发规范
…

通过工具+规范，促使我们的开发实施快速做好。

五、治理维护

随着调度作业和数据量的增长，管理和维护会成为一项重要任务。

数据管理的范围很大，贯穿数据采集、应用和价值实现等整个生命周期全过程。所谓的数据管理就是通过对数据的生命周期的管理，提高数据资产质量，促进数据在“内增值，外增效”两方面的价值表现。数据管理的核心内容为：

数据标准管理
数据模型管理
元数据管理
主数据管理
数据质量管理
数据安全管理

数据监控是数据质量的保障，会根据数据质量规则制定监控策略，当触发规则时能够自动通知到相关人。基础的数据质量监控维度有以下几部分：

完整性
    特定完整性：必须有值的字段中，不允许为空
    条件完整性：根据条件字段值必须始终存在
唯一性
    特定唯一性：字段必须唯一
    条件唯一性：根据业务条件，字段值必须唯一
有效性
    范围有效性：字段值必须在指定的范围内取值
    日期有效性：字段是日期的时候取值必须是有效的
    形式有效性：字段值必须和指定的格式一致
一致性
    参照一致性：数据或业务具有参照关系的时候，必须保持其一致性
    数据一致性：数据采集、加工或迁移后，前后的数据必须保持一致性
准确性
    逻辑正确性：业务逻辑之间的正确性
    计算正确性：复合指标计算的结果应符合原始数据和计算逻辑的要求
    状态正确性：要维护好数据的产生、收集和更新周期

当出现数据异常后，需要快速的进行恢复。基于异常和修复场景，有以下几种数据运维方式：

平台环境问题引起的异常
    重跑：当环境问题解决后，重新调度作业，对当天的数据进行修复
    重跑下游：当环境问题解决后，重新调度某一个工作流节点的作业及其下游，对当天该作业及其下游的数据进行修复


业务逻辑变更或代码 bug 引起的异常
    补数据：对应作业代码更新并重新发布到生产后，重新生成异常时间段内的该作业数据
    补下游：对应作业代码更新并重新发布到生产后，重新生成异常时间段内的该作业及其下游的数据


其他
    终止：终止正在被执行的作业

数据安全主要是保障数据不被窃取、破坏和滥用，包括核心数据和隐私数据，以及确保数据系统的安全可靠运行。需要构建系统层面、数据层面和服务层面的数据安全框架，从技术保障、管理保障、过程保障和运行保障多维度保障大数据应用和数据安全。

系统层面
    技术架构
    网络传输
    租户隔离
    权限管理


数据层面
    数据评估：对数据来源、用途、合法性等进行评估
    数据脱敏：对隐私数据进行脱敏处理
    数据权限：根据数据使用者的不同角色和需求，开放不同权限
    血缘追溯：建立数据血缘关系，可追溯数据生产的来龙去脉
    下载限制：限制数据结果集的下载条数，防止数据外泄


服务层面
    应用监控：监控数据使用端、使用次数、使用流量等
    接口管理：生产和管理数据输出接口
    数据脱敏

六、数据应用

给业务赋能，是数据价值的最终体现，也就是我们讲的数据业务化。数据业务化的方向有两种：业务优化和业务创新。在数据业务化的过程中，为了更方便的服务于上层应用，我们先将数据形成服务接口，然后让业务应用直接调用服务接口，即形成数据服务化+服务业务化。

如何通过已有的产品 + 方法论 + 最佳实践去完成一个业务优化和业务创新呢？这里有一张完整的图，帮助你更快的理解全过程。

项目需求及架构设计

2.1 项目需求分析

1）项目需求
　　　　（1）用户行为数据采集平台搭建
　　　　（2）业务数据采集平台搭建
　　　　（3）数据仓库维度建模
　　　　（4）分析，设备、会员、商品、地区、活动等电商核心主题，统计的报表指标近100个，完全对比中型公司
　　　　（5）采用即席查询工具，随时进行指标分析
　　　　（6）对集群性能进行监控，发生异常需要报警
　　　　（7）元数据管理
　　　　（8）质量监控

2）思考
　　　　（1）项目技术如何选型
　　　　（2）框架版本如何选型（Apache、CDH、HDP）
　　　　（3）服务器使用物理机还是云主机
　　　　（4）如何确认集群规模（假设每台服务器8T硬盘）

2.2 项目框架

2.2.1 技术选型

技术选型主要考虑因素：数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算
　　1）数据采集传输：Flume，Kafka，Sqoop，Logstash，DataX
　　2）数据存储：Mysql，HDFS，HBase，Redis，MongoDB
　　3）数据计算：Hive，Tez，Spark，Flink，Storm
　　4）数据查询：Presto，Kylin，Impala，Druid
　　5）数据可视化：Echarts，Superset，QuickBI，DataV
　　6）任务调度：Azkaban、Oozie
　　7）集群监控：Zabbix
　　8）元数据管理：Atlas

2.2.2 系统数据流程设计

2.2.3 框架版本选型

如何选择Apache/CDH/HDP版本？

（1）Apache：运维麻烦，组件间兼容性需要自己调研。（一般大厂使用，技术实力雄厚，有专业的运维人员）
（2）CDH：国内使用最多的版本，但CM不开源，今年开始要收费，一个节点1万美金
（3）HDP：开源，开源进行二次开发，但是没有CDH稳定，国内使用较少，目前被CDH收购

2.2.4 服务器选型

服务器选择物理机还是云主机
1）物理机：

（1）128G内存，20核物理CPU，40线程，8THDD核2TSSD硬盘，戴尔品牌，单台报价4W出头，一般寿命在5年左右
（2）需要专业的运维人员，平均每月1W，电费、网络、散热、机房等等开销

2）云主机

（1）以阿里云为例，差不多相同配置，每年5W
（2）很多运维工作由阿里云完成，运维相对轻松

3）企业选择

（1）金融有钱公司和阿里没有直接冲突的公司选择阿里云
（2）中小公司、为了融资上市，选择阿里云，拉到融资后再购买物理机
（3）有长期打算，资金比较足，选择物理机

2.2.5 集群资源规划设计

1）如何确定集群规模？（假设每台服务器8T磁盘，128G内存）

（1）每天日活跃用户100万，每人一天平均100条：100万 * 100条 = 1亿条
（2）每条日志1k左右，每天1亿条：100000000 / 1024 / 1024 = 100G（1G=1024MB，1MB=1024KB）
（3）半年内不扩容服务器来算：100G * 180天 = 18T （1T=1024G）
（4）保存3个副本：18T * 3 = 54T
（5）预留20%~30%Buf ：54T / 0.7 = 77T
（6）服务器数量：77 / 8 = 10台（每台8个T）

2）若考虑数仓分层，数据采用压缩，则需要重新进行计算
3）测试集群服务器规划

数据生成模块

3.1 目标数据

我们要收集和分析的数据主要包括页面数据、事件数据、曝光数据、启动数据和错误数据。

3.1.1 页面

页面数据主要记录一个页面的用户访问情况，包括访问时间、停留时间、页面路径等信息。
　　

1）所有页面id如下

home(“首页”),
category(“分类页”),
discovery(“发现页”),
top_n(“热门排行”),
favor(“收藏页”),
search(“搜索页”),
good_list(“商品列表页”),
good_detail(“商品详情”),
good_spec(“商品规格”),
comment(“评价”),
comment_done(“评价完成”),
comment_list(“评价列表”),
cart(“购物车”),
trade(“下单结算”),
payment(“支付页面”),
payment_done(“支付完成”),
orders_all(“全部订单”),
orders_unpaid(“订单待支付”),
orders_undelivered(“订单待发货”),
orders_unreceipted(“订单待收货”),
orders_wait_comment(“订单待评价”),
mine(“我的”),
activity(“活动”),
login(“登录”),
register(“注册”);

2）所有页面对象类型如下：

sku_id(“商品skuId”),
keyword(“搜索关键词”),
sku_ids(“多个商品skuId”),
activity_id(“活动id”),
coupon_id(“购物券id”);

3）所有来源类型如下：

promotion(“商品推广”),
recommend(“算法推荐商品”),
query(“查询结果商品”),
activity(“促销活动”);

3.1.2 事件

事件数据主要记录应用内一个具体操作行为，包括操作类型、操作对象、操作对象描述等信息。

1）所有动作类型如下：

favor_add(“添加收藏”),
favor_canel(“取消收藏”),
cart_add(“添加购物车”),
cart_remove(“删除购物车”),
cart_add_num(“增加购物车商品数量”),
cart_minus_num(“减少购物车商品数量”),
trade_add_address(“增加收货地址”),
get_coupon(“领取优惠券”);

注：对于下单、支付等业务数据，可从业务数据库获取。

2）所有动作目标类型如下：

sku_id(“商品”),
coupon_id(“购物券”);

3.1.3 曝光

曝光数据主要记录页面所曝光的内容，包括曝光对象，曝光类型等信息。

1）所有曝光类型如下：

promotion(“商品推广”),
recommend(“算法推荐商品”),
query(“查询结果商品”),
activity(“促销活动”);

2）所有曝光对象类型如下：

sku_id(“商品skuId”),
activity_id(“活动id”);

3.1.4 启动

启动数据记录应用的启动信息。

1）所有启动入口类型如下：

icon(“图标”),
notification(“通知”),
install(“安装后启动”);

3.1.5 错误

错误数据记录应用使用过程中的错误信息，包括错误编号及错误信息。

3.2数据埋点

3.2.1 主流埋点方式（了解）

目前主流的埋点方式，有代码埋点（前端/后端）、可视化埋点、全埋点三种。

代码埋点

代码埋点是通过调用埋点SDK函数，在需要埋点的业务逻辑功能位置调用接口，上报埋点数据。例如，我们对页面中的某个按钮埋点后，当这个按钮被点击时，可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口，来发送数据。

可视化埋点:

可视化埋点只需要研发人员集成采集 SDK，不需要写埋点代码，业务人员就可以通过访问分析平台的“圈选”功能，来“圈”出需要对用户行为进行捕捉的控件，并对该事件进行命名。圈选完毕后，这些配置会同步到各个用户的终端上，由采集 SDK 按照圈选的配置自动进行用户行为数据的采集和发送。

全埋点:

全埋点是通过在产品中嵌入SDK，前端自动采集页面上的全部用户行为事件，上报埋点数据，相当于做了一个统一的埋点。然后再通过界面配置哪些数据需要在系统里面进行分析。

3.2.2 埋点数据日志结构

们的日志结构大致可分为两类，一是普通页面埋点日志，二是启动日志。

普通页面日志结构如下，每条日志包含了，当前页面的页面信息，所有事件（动作）、所有曝光信息以及错误信息。除此之外，还包含了一系列公共信息，包括设备信息，地理位置，应用信息等，即下边的common字段。

1）普通页面埋点日志格式

{
  "common": {                  -- 公共信息
    "ar": "230000",              -- 地区编码
    "ba": "iPhone",              -- 手机品牌
    "ch": "Appstore",            -- 渠道
    "is_new": "1",--是否首日使用，首次使用的当日，该字段值为1，过了24:00，该字段置为0。
    "md": "iPhone 8",            -- 手机型号
    "mid": "YXfhjAYH6As2z9Iq", -- 设备id
    "os": "iOS 13.2.9",          -- 操作系统
    "uid": "485",                 -- 会员id
    "vc": "v2.1.134"             -- app版本号
  },
"actions": [                     --动作(事件)  
    {
      "action_id": "favor_add",   --动作id
      "item": "3",                   --目标id
      "item_type": "sku_id",       --目标类型
      "ts": 1585744376605           --动作时间戳
    }
  ],
  "displays": [
    {
      "displayType": "query",        -- 曝光类型
      "item": "3",                     -- 曝光对象id
      "item_type": "sku_id",         -- 曝光对象类型
      "order": 1,                      --出现顺序
      "pos_id": 2                      --曝光位置
    },
    {
      "displayType": "promotion",
      "item": "6",
      "item_type": "sku_id",
      "order": 2, 
      "pos_id": 1
    },
    {
      "displayType": "promotion",
      "item": "9",
      "item_type": "sku_id",
      "order": 3, 
      "pos_id": 3
    },
    {
      "displayType": "recommend",
      "item": "6",
      "item_type": "sku_id",
      "order": 4, 
      "pos_id": 2
    },
    {
      "displayType": "query ",
      "item": "6",
      "item_type": "sku_id",
      "order": 5, 
      "pos_id": 1
    }
  ],
  "page": {                       --页面信息
    "during_time": 7648,        -- 持续时间毫秒
    "item": "3",                  -- 目标id
    "item_type": "sku_id",      -- 目标类型
    "last_page_id": "login",    -- 上页类型
    "page_id": "good_detail",   -- 页面ID
    "sourceType": "promotion"   -- 来源类型
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744374423  --跳入时间戳
}

2）启动日志格式（启动日志结构相对简单，主要包含公共信息，启动信息和错误信息）

{
  "common": {
    "ar": "370000",
    "ba": "Honor",
    "ch": "wandoujia",
    "is_new": "1",
    "md": "Honor 20s",
    "mid": "eQF5boERMJFOujcp",
    "os": "Android 11.0",
    "uid": "76",
    "vc": "v2.1.134"
  },
  "start": {   
    "entry": "icon",         --icon手机图标  notice 通知   install 安装后启动
    "loading_time": 18803,  --启动加载时间
    "open_ad_id": 7,        --广告页ID
    "open_ad_ms": 3449,    -- 广告总共播放时间
    "open_ad_skip_ms": 1989   --  用户跳过广告时点
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744304000
}

3.2.3 埋点数据上报时机

埋点数据上报时机包括两种方式。

方式一，在离开该页面时，上传在这个页面产生的所有数据（页面、事件、曝光、错误等）。优点，批处理，减少了服务器接收数据压力。缺点，不是特别及时。

方式二，每个事件、动作、错误等，产生后，立即发送。优点，响应及时。缺点，对服务器接收数据压力比较大。

数据采集模块

2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全人工智能
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
入门网络安全工程师要学习哪些内容【2025年寒假最新学习计划】白帽黑客2659 学习 web安全安全网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包大家都知道网络安全行业很火，这个行业因为国家政策趋势正在大力发展，大有可为!但很多人对网络安全工程师还是不了解，不知道网络安全工程师需要学什么?知了堂小编总结出以下要点。网络安全工程师是一个概称，学习的东西很多，具体学什么看自己以后的职业定位。如果你以后想成为安全产品工程师，学的内容侧重点就和渗透测试工程师不一样，如果你想成为安全开发
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
【后端】k8s 骑鱼过海的猫123 kubernetes 容器云原生
1.命令1.1获取service服务获取集群内所有命名空间的service服务sudokubectlgetservice--all-namespaces获取集群内指定命名空间的service服务sudokubectlgetservice-n命名空间当权限限制到一个命名空间时,只能使用下面这个sudokubectl-n命名空间getservice获取集群内当前命名空间的service服务sudoku
redis的主从复制配置 zhaikaiyun redis
通过持久化功能，redis保证了即使在服务器重启的情况下也不会丢失或少量丢失数据，但是由于数据存储在一台服务器上，如果这台服务器出现故障，比如磁盘坏了，也会导致数据丢失。为了避免这个单点故障，可以使用主从复制的方式，将主更新的数据，自动更新同步到其他服务器上。主从节点配置[root@k8smasterconfig]#moreredis6380.confinclude/data/redis/redi
flutter pigeon gomobile 插件中使用go工具类 yujunlong3919 flutter golang swift kotlin
文章目录为什么flutter要用go写工具类1.下载pigeon插件模版2.编写go代码3.生成greeting.aar，Greeting.xcframework4.ios5.android6.dart中使用为什么flutter要用go写工具类在Flutter应用中，有些场景涉及到大量的计算，比如复杂的加密算法、数据压缩/解压缩或者图形处理中的数学计算等1.下载pigeon插件模版base_plu
事件驱动-事件驱动应用于软件开发海水天涯事件驱动驱动开发
一、前言1.1软件开发概述软件开发是一个涉及计算机科学、工程学、设计和项目管理等领域的广泛概念。它指的是创建、部署和维护软件应用程序或系统的整个过程。这包括从最初的构思和需求分析，到设计、编码、测试、部署，以及后续的维护和更新。在软件开发过程中，通常会遵循一定的方法论或开发模型，如瀑布模型、敏捷开发等，以确保项目能按时、按质完成。软件开发工具如集成开发环境（IDE）、版本控制系统等，也在这个过程中
Redis主从复制小松聊PHP进阶 Redis 后端 redis 服务器 nosql 数据库 sql 架构
主从复制官方文档：https://redis.io/docs/latest/operate/oss_and_stack/management/replication/极简概括：将一个主Redis服务器的数据复制到其它从Redis服务器的过程。角色：主节点（Master）：负责处理客户端的写（或者读）请求，并将写操作同步到从节点。从节点（Slave）：负责处理客户端的读请求，并将主节点发送过来的数据
JavaScript的魔法世界：巧妙之处与实战技巧 skyksksksksks 综合个人杂记 javascript 开发语言 html5 css 前端
一、从浏览器玩具到全栈利器的蜕变之路JavaScript诞生于1995年，原本只是网景公司为浏览器设计的"小脚本"。谁能想到这个曾被戏称为"玩具语言"的家伙，如今已蜕变成支撑现代Web开发的擎天柱？就像一只破茧成蝶的幼虫，JavaScript经历了ECMAScript标准的持续进化，在Node.js的加持下突破了浏览器的桎梏，实现了从客户端到服务端的华丽转身。V8引擎的涡轮增压让它跑得比猎豹还快，
深入解析 Flutter Riverpod：从原理到实战陈皮话梅糖@ flutter Riverpod
深入解析FlutterRiverpod：从原理到实战Riverpod是Flutter社区中一个强大且灵活的状态管理工具，被称为Provider的升级版。它解决了Provider的一些局限性，比如类型安全、全局状态管理的灵活性、不依赖BuildContext等。Riverpod的设计理念是简洁、灵活和高性能，适合从小型到大型项目的状态管理需求。本篇博客将详细分析Riverpod的核心原理、常见用法，
Redis 全方位解析：从入门到实战 kiss strong redis 数据库缓存
引言在当今互联网快速发展的时代，高并发、低延迟的应用场景越来越普遍。Redis，作为一款高性能的开源数据库，以其卓越的性能和灵活的功能，成为了许多开发者的首选工具。无论是在缓存、消息队列，还是在实时数据分析等领域，Redis都展现出了强大的能力。本文将从Redis的基本介绍、官网、安装、特性，到具体的存储类型、Java代码实例、SpringBoot整合，以及Redis的主要作用和应用场景，进行全面
Redis设置密码保姆级教程 Excellent的崽子 Redis windows redis 数据库
在Windows系统上设置Redis密码在Windows系统上设置Redis密码的过程与Linux系统类似，但需注意几个关键步骤以确保正确配置。以下是一步一步的指导：步骤一：编辑配置文件定位配置文件：首先，找到Redis的安装目录，并定位到redis.windows.conf文件。这个文件通常包含了Redis的所有配置选项。修改密码设置：使用文本编辑器打开redis.windows.conf文件，
事件驱动框架 MacRsh 开源单片机 stm32 c语言设计模式
事件驱动框架文档事件驱动框架是一种异步事件处理机制,它通过事件分发和回调的方式,可以有效地提高系统的异步处理能力、解耦性和可扩展性。事件驱动框架包含两个主要组件:事件服务器和事件客户端。事件服务器用于接收和分发事件,它内部维护一个事件队列用于存储待处理事件和一个事件列表用于存储注册的事件客户端。事件客户端用于处理特定类型的事件,它需要注册到事件服务器并提供一个回调函数。当事件发生时,事件服务器会将
docker配置Redis主从复制原理及操作纪佰伦 docker redis 主从分布式
一、前言要配置Redis主从复制，我默认是了解过Redis的持久化功能的，也就是RDB和AOF，只需要简单了解过即可。持久化的一个作用就是可以定期将内存中的数据备份到硬盘，在系统发生故障的时候，也可以通过持久化文件回复数据，二、关于主从复制1、什么是主从复制主从复制是一种分布式系统数据同步技术，其中主服务器负责处理所有写操作并将变更同步到一个或多个从服务器。从服务器接收这些变更并复制主服务器的数据
js如何直接下载文件流涔溪 js javascript 前端开发语言
在JavaScript中直接处理文件下载，尤其是在处理文件流的情况下，通常涉及到使用fetchAPI或者XMLHttpRequest来获取文件流，并通过创建一个临时的标签（锚点元素）触发下载。以下是使用fetchAPI的一个示例：fetch('你的文件URL',{method:'GET',headers:{//如果需要的话，可以在这里添加请求头}}).then(response=>response
部署前端项目2 augenstern416 前端
前端项目的部署是将开发完成的前端代码发布到服务器或云平台，使其能够通过互联网访问。以下是前端项目部署的常见步骤和工具：1.准备工作在部署之前，确保项目已经完成以下步骤：代码优化：压缩JavaScript、CSS和图片文件，减少文件体积。环境配置：区分开发环境和生产环境（如API地址、环境变量等）。测试：确保项目在本地测试通过，没有明显Bug。2.部署流程1.构建项目大多数前端项目（如React、V
Linux搭建FTP服务器见字如晤X. 服务器 linux 运维
FTP概述FTP服务（FileTransferProtocol服务，文件传输协议服务）是一种用于在网络上传输文件的协议。FTP服务允许用户将文件从一个计算机（本地主机）传输到另一个计算机（远程主机），或者从远程主机接收文件到本地主机。这种传输是基于客户端-服务器模式的，其中用户使用的本地计算机作为客户端，而提供文件存储和访问的远程计算机作为服务器传输连接与传输模式FTP客户端和服务器之间的连接，主
人生建议往死里学网络安全！零基础也能跨行学习！！漏洞挖掘还能做副业黑客老哥 web安全学习安全 php 网络安全
一、网络安全的重要性：从‘不学会被黑’到‘学会保护别人’网络安全的概念现在不再是技术圈的独立话题，它已经渗透到社会的各个领域。从个人的隐私保护、企业的数据安全，到国家的信息防护，网络安全几乎影响了每一个人的生活。无论是黑客攻击、勒索病毒、数据泄露，还是国家间的信息战，网络安全已经成为现代社会的基础设施之一。所以，首先要明白学习网络安全的重要性：你不仅是在学习技术，更多的是在为自己和他人的安全“筑城
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
java进阶篇--生产环境如何排查bug和优化 JVM？爱分享的淘金达人 Java源码剖析(30讲)jvm优化 jvm调优优化jvm 生产环境优化jvm 生产环境jvm优化
通过前面几个课时的学习，相信你对JVM的理论及实践等相关知识有了一个大体的印象。而本课时将重点讲解JVM的排查与优化，这样就会对JVM的知识点有一个完整的认识，从而可以更好地应用于实际工作或者面试了。我们本课时的面试题是，生产环境如何排查问题？回答：如果是在生产环境中直接排查JVM的话，最简单的做法就是使用JDK自带的6个非常实用的命令行工具来排查。它们分别是：jps、jstat、jinfo、jm
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
AI服务器散热黑科技：让芯片“冷静”提速小深ai硬件分享人工智能深度学习服务器
AI服务器为何需要散热黑科技在人工智能飞速发展的当下，AI服务器作为核心支撑，作用重大。从互联网智能推荐，到医疗疾病诊断辅助，从金融风险预测，到教育个性化学习，AI服务器广泛应用，为各类复杂人工智能应用提供强大算力。然而，AI服务器在运行时面临着严峻的散热挑战。随着人工智能技术的不断发展，对AI服务器的计算能力要求越来越高，这使得服务器的功率密度急剧增加。以GPT-4的训练为例，它需要大量的GPU
android studio 上传新项目到svn svn仓库是空的 mxiaoyem android studio android studio svn
svn上传新项目，仓库是空的。解决：再把项目commit一下。之后有一段长时间的等待。。。。里面文件名字变黑色证明上传成功，绿色是关联上了。没有提交。
如何用 python 获取实时的股票数据？_python efinance(2) 元点三 2024年程序员学习 python java linux
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
如何用 python 获取实时的股票数据？_python efinance，2024年最新pdf面试简历元点三 2024年程序员学习 python pdf 面试
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
C语言/C++常见习题问答集锦(七十八)之数字流星雨五一编程笔记 c语言 c++算法数据结构 vc++
C语言/C++常见习题问答集锦(七十八)之数字流星雨程序之美流星雨是在夜空中有许多的流星从天空中一个所谓的辐射点发射出来的天文现象。这些流星是宇宙中被称为流星体的碎片，在平行的轨道上运行时以极高速度投射进入地球大气层的流束。大部分的流星体都比沙砾还要小，因此几乎所有的流星体都会在大气层内被销毁，不会击中地球的表面；能够撞击到地球表面的碎片称为陨石。数量特别庞大或表现不寻常的流星雨会被称为“流星突出
redis 如何保证缓存和数据库一致性？解决策略如下 Foolforuuu 缓存数据库 redis
Redis与数据库的数据保持一致，传统策略是先读缓存，未命中则读数据库并回填缓存，但方式这种维护成本较高。下面是几种传统常见的策略及其优缺点：【策略1】先写MySQL。成功后，更新或删除Redis中的对应数据。优点：简单易实现。缺点：存在短暂的不一致。【策略2】先写Redis。异步或定时将Redis数据同步到MySQL。优点：提升写性能。缺点：同步延迟可能导致数据丢失。【策略3】读Redis，命
JVM调优从Full GC报警到性能提升90%的调优实录 C_V_Better jvm java java性能优化 jvm java
背景事故现场：某社交APP晚高峰突发服务卡顿，用户消息延迟飙升监控大屏：GC时间从50ms/次→5秒/次堆内存锯齿状波动（配Prometheus图表）“FullGC每分钟触发3次，但堆内存却越回收越少？”一、GC日志分析——JVM的“心电图”解读1.日志结构全解析[GC(AllocationFailure)[PSYoungGen:614400K->24064K(614400K)]614400K->
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><