数据分析v

干货：时间序列特征工程

前几次的分享，我们了解了时间序列分析的基础方法以及预测方法。在使用这些方法之前，一般需要我们对原始时序做一定的处理，抽取若干特征；再者，为了更充分了解时间序列，我们也需要挖掘时间序列的特征以获得可解释的信息。那么，我们如何进行时间序列的特征工程呢？

时间序列的特征工程大体上分为：基础特征、转换特征、分类特征这三大类，涉及统计分析、机器学习、深度学习等多个领域。这里要注意的是，特征工程技巧是一方面，更重要的是看实际问题背景，不同问题有不同问题适合的方法，甚至需要为其量身打造提取特征的方法，关键在于先自己尝试去分析这个问题，将想到的特征用算法实现并有效，那这也是一次成功的特征工程。

图 | 时间序列基础特征构造

那么，了解并掌握基本的时序特征分析方法，将对我们分析时间序列有很大的帮助。我们可以从哪些方面来分析时序的特征呢？本文就这个话题整理有关领域的工作，供大家阅读。

时间序列预处理

在正式讲时间序列特征工程之前，我们先聊一聊时间序列的预处理。一般来说，真实世界的时间序列常常取值范围多样，长短不一，形态各异。如果要做统一的分析，需要我们进行初步的处理，将时间序列整合到统一的范畴下，进行分析。这里基本的方法有：标准化、归一化、定量特征二值化。

// 标准化

标准化是使时间序列中的数值符合平均值为0，标准差为1。具体来说，对于给定的时间序列，有如下公式：

标准化的目标是将原始数据分布转换为标准正态分布，它和整体样本分布有关，每个样本点都能对标准化产生影响。这里，如果只考虑将均值缩放到0，不考虑标准差的话，为数据中心化处理。

// 归一化

归一化是把数据变成区间 [0, 1] 或 [-1, 1] 其之间的小数，其主要是为了数据处理方便而提出来的。把数据映射到[0, 1]范围之内进行处理，可以更加便捷快速。具体公式如下：

归一化是将样本的特征值转换到同一范围（量纲）下，把数据映射到 [0,1] 或者 [-1, 1] 区间内，它仅由变量的极值所决定。这里也可以将源数据减去均值，进行平均归一化：

什么时候用归一化？什么时候用标准化？

如果对输出结果范围有要求，用归一化。
如果数据较为稳定，不存在极端的最大最小值，用归一化。
如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。

// 定量特征二值化

如果不需要数据的连续信息，只需要对定量的特征进行“好与坏”的划分，我们可以使用定量特征二值化来剔除冗余信息。举个例子，银行对5名客户的征信进行打分，分别为50，60，70，80，90。现在，我们不在乎一个人的征信多少分，只在乎他的征信好与坏（如大于90为好，低于90就不好）；再比如学生成绩，大于60及格，小于60就不及格。这种“好与坏”、“及格与不及格”的关系可以转化为0-1变量，这就是二值化。变化方式如下所示：

自然的，我们也可以设计更多的规则，进行多值化的处理。

时间序列基础特征

// 统计特征

对时间序列进行统计分析是最容易想到的特征提取方法，这里包括的特征有：

简单特征：均值、标准差、极值、分位数、尖峰个数、缺失个数、偏差等等；
高级特征：自相关性、周期性、趋势（斜率）、频率、随机噪音等等。

// 维度特征

维度特征是提取时间序列在时间维度上的信息，包括：

连续型特征：持续时间（比如：单页面浏览时长）、时间间隔（比如：上次购买、距离现在购买的时间）
离散型特征：

- 小时级特征：哪个时间段（0-24）
- 天级特征：一周中的星期几、工作日、周末、法定假日
- 星期级特征：一个月中的第几个星期、一年中哪个星期
- 月份级的特征：第几个月份
- ...

// 窗口特征

将时间序列在时间轴上划分窗口是一个常用且有效的方法，包括滑动窗口（根据指定的单位长度来框住时间序列，每次滑动一个单位），与滚动窗口（根据指定的单位长度来框住时间序列，每次滑动窗口长度的多个单位）。窗口分析对平滑噪声或粗糙的数据非常有用，比如移动平均法等，这种方式结合基础的统计方法，即按照时间的顺序对每一个时间段的数据进行统计，从而可以得到每个时间段内目标所体现的特征，进而从连续的时间片段中，通过对同一特征在不同时间维度下的分析，得到数据整体的变化趋势。

图 | 时间序列滑动窗口

时间序列转换特征

我们对时序数据进行分析的时候，常常会发现数据中存在一些问题，使得不能满足一些分析方法的要求（比如：正态分布、平稳性等），其常常需要我们使用一些变换方法对数据进行转换；另一方面，人工的特征分析方法局限于人的观察经验，许多高维且隐秘的特征单单靠人力难以发现。因此，许多工作尝试对时序数据进行转换，从而捕捉更多的特征。

// 统计转换特征

1964年提出的Box-Cox变换可以使得线性回归模型满足线性性、独立性、方差齐次性和正态性的同时又不丢失信息，其变换的目标有两个：一个是变换后，可以一定程度上减小不可观测的误差和预测变量的相关性。主要操作是使得变换后的因变量与回归自变量具有线性相依关系，误差也服从正态分布，误差各分量是等方差且相互独立。第二个是用这个变换来使得因变量获得一些性质，比如在时间序列分析中的平稳性，或者使得因变量分布为正态分布。

在做线性回归的过程中，一般线性模型假定的前提是

线性性：E(Y)是X中各变量的线性函数
独立性：之间互相独立
方差齐次性：
正态性：服从正态分布

通过各种数据转函数将非正态分布的数据转换为正态分布，例如原始值为，转换后为，常用的几种转换方式为：

对数转换：
平方根转换：
倒数转换：
平方根后取倒数：
平方根后再取反正弦：
幂转换：，其中，其中参数
// 高维空间转换特征
高维空间转换特征直白点说就是把一维的时序转化到高维。这个高维可能是二维（例如图片），或者更高维（例如相空间重构）。这种转换可以使得时序的信息被放大，从而暴露更多的隐藏信息。同时，这种方法增加了数据分析的计算量，一般不适用于大规模的时序分析。
01 格拉姆角场（GAF）
该转化在笛卡尔坐标系下，将一维时间序列转化为极坐标系表示，再使用三角函数生成GAF矩阵。
计算过程：
02 马尔科夫随机场（MRF）
MRF的基本思想是将时间序列的值状态化，然后计算时序的转化概率，其构建的是一个概率图（Graph），一种无向图的生成模型，主要用于定义概率分布函数。
这里用到了时序窗口分析方法先构建随机场。随机场是由若干个位置组成的整体，当给每一个位置中按照某种分布随机赋予一个值之后，其全体就叫做随机场。举个例子，假如时序划分片段，所有的片段聚成若干的状态，将时序映射回这些状态上，我们便得到了一个随机场。有关这个例子可以参考文章《AAAI 2020 | 时序转化为图用于可解释可推理的异常检测》
马尔科夫随机场是随机场的特例，它假设随机场中某一个位置的赋值仅仅与和它相邻的位置的赋值有关，与其不相邻的位置的赋值无关。例如时序片段与有关，与没有关系。
构建马尔科夫随机场，可以更清晰的展现时序分布的转化过程，捕捉更精确的分布变化信息。
03 时频分析
时频分析是一类标准方法，常用在通信领域信号分析中，包括傅里叶变换，短时傅里叶变换，小波变换等，逐步拟合更泛化的时间序列。
傅里叶变换是一种线性的积分变换，常在将信号在时域（或空域）和频域之间变换时使用。其主要处理平稳的时间序列。当时序数据非平稳时，一般的傅里叶变换便不再适用，这里便有了短时傅里叶变换方法，其主要通过窗口分析，把整个时域过程分解成无数个等长的小过程，每个小过程近似平稳，再傅里叶变换，就知道在哪个时间点上出现了什么频率。然而，我们无法保证所有等长的窗口都是平稳的，手动调整窗口的宽窄成本大，耗费人力。小波分解尝试解决这个问题，其直接把傅里叶变换的基换了——将无限长的三角函数基换成了有限长的会衰减的小波基。这样不仅能够获取频率，还可以定位到时间。
// 降维转换特征
与高维空间转换特征相反，提取时间序列的降维特征常出现在多维时间序列分析方面，其主要是更快捕捉复杂时间序列中的主要特征，提高分析效率与速度，包括主成分分析（PCA），tSNE，张量分解等等，可以帮助我们从相关因素的角度来理解时间序列。
主成分分析是一种分析、简化数据集的技术。其通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但这也不是一定的，要视具体应用而定。更多可以参考《主成分分析》
张量分解从本质上来说是矩阵分解的高阶泛化，常出现在推荐系统中。在实际应用中，特征张量往往是一个稀疏矩阵，即很多位置上的元素是空缺的，或者说根本不存在。举个例子，如果有10000个用户，同时存在10000部电影，我们以此构造一个用户评分行为序列的张量，这里不经想问：难道每个用户都要把每部电影都看一遍才知道用户的偏好吗？其实不是，我们只需要知道每个用户仅有的一些评分就可以利用矩阵分解来估计用户的偏好，并最终推荐用户可能喜欢的电影。
// 基于神经网络的特征工程
还有一种转换特征便是通过神经网络的方式自抽取特征表达。这种方式通常特征的解释性差，但效果好。一般来说，训练好的网络中间层输出可以被当做特征，例如自编码器模型 “Encoder-Decoder”，如果输入输出是时间序列的话，Encoder的输出可以当做一个输入被“压缩”的向量，那么当网络效果得还不错的时候，可以简单看做这个向量具备了这个时序的特征。
- 数值缩放：将笛卡尔坐标系下的时间序列缩放到[0,1]或[-1,1]区间
- 极坐标转换：使用坐标变换公式，将笛卡尔坐标系序列转化为极坐标系时间序列
- 角度和/差的三角函数变换：若使用两角和的cos函数则得到GASF，若使用两角差的cos函数则得到GADF

时间序列分类特征

分类特征一般结合具体的任务，比如时序预测，时序分类等，常常有标签（Label）信息来引导，其分析的特征也为具体的任务所服务，是一类常用的特征分析方法，一般通过机器学习中的有监督方式进行抽取。

// 字典特征（BoP）

字典方法旨在将时间序列通过变换，找到划分的阈值，进而将每个时序实值划分开，对应到某个字母表中。其通过滑动窗提取不同“单词”的出现频率，作为分类依据。这种方法的优势在于速度很快，而且抗噪效果好，缺点在于会损失很多有效的时序信息，只能进行粗粒度的时序分类分析。

// 形态特征（Shapelet）

形态方法旨在捕捉时间序列分类任务中作为分类依据的有代表性的子序列形状。2012年提出的Shapelet方法就是搜索这些候选的子序列形状以找到分类的依据，因为在真实世界中的时间序列往往存在有特征明显的形状，例如心电图数据一次正常心跳简化一下就是前后两个小的峰中间加一个高峰，那么如果其中缺了一块形状的话，可能就是作为鉴别异常心跳的依据。

写在最后

本次为大家整理总结了时间序列的特征工程方法。相信各位读者通过这篇文章能初步了解时间序列的特征分析方法。应用这些方法你可以尝试驾驭不同场景下的时序分析，做到“心中有数，胸有成竹”。

我们目前所接触到的时间序列都是完整的，但在真实场景中，由于采集能力或网络传输的原因，常常会有数据缺失，断点的情况。我们如何处理这些质量欠佳的时间序列呢？下一次分享将为大家解答。欢迎大家持续关注并转载我们的系列文章。

文 | Vachel 编辑 | Sucie

转自：时序人微信公众号

END

合作请加QQ：365242293

数据分析（ID : ecshujufenxi ）互联网科技与数据圈自己的微信，也是WeMedia自媒体联盟成员之一，WeMedia联盟覆盖5000万人群。

Django ORM 1. 创建模型（Model）博观而约取 Python django 数据库 python
1.ORM介绍什么是ORM？ORM，全称Object-RelationalMapping（对象关系映射），一种通过对象操作数据库的技术。它的核心思想是：我们不直接写SQL，而是用Python对象（类/实例）来操作数据库表和记录。ORM就像一个“翻译官”，帮我们把Python代码翻译成数据库能听懂的SQL命令。为什么使用ORM?Django中的ORM提供了一个高层次、抽象化的接口来操作数据库，它的优
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
Python中np.vstack和np.hstack的应用解释
Python中np.vstack和np.hstack的应用解释用法说明对于np.vstack和np.hstack各自有两种用法•第1种：np.vstack((a,b))或np.hstack((a,b))，即常规用法，也就是两个维数相等的ndarray在对应的方向上进行合并•第2种：np.vstack(a)或np.hstack(a)，对一个ndarray在其内部对应的方向上进行合并，这种属于非常规用
python np.hstack gz153016 python语法总结
importnumpyasnparr1=np.array([1,2,3])arr2=np.array([4,5,6])#print('np.vstack((arr1,arr2)):',np.vstack((arr1,arr2)))print('np.hstack((arr1,arr2)):',np.hstack((arr1,arr2)))#np.hstack((arr1,arr2)):[12345
Python个人学习基础笔记-3.爬虫（1）孜宸润泽 python 学习笔记
一.爬虫的定义爬虫（crawler/spider）是模拟浏览器行为，按照编写规则，自动接收网页信息的工具。通常而言爬虫首先从初始URL集选择URL，向目标网页发起请求，获取网页的HTML源码，然后将获取的数据进行解析过滤，保存我们所需要的标题、内容等，最后提取新的URL加入待爬序列。爬虫常见所需要的库包括Request库、BeautifulSoup4库、Scrapy库和Selenium库等。二.R
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
Python开发AI智能体(三)———Langchain定义提示词模板【本人】 Agent智能体 python 人工智能 langchain 语言模型
前言上篇文章给大家介绍AI项目检测平台LangSmish以及开源框架Langchain的使用，并且带领大家编写了一个案例。这篇文章将介绍在Langchain框架中如何定义提示词模板一、什么是提示词模板？提示词模板（PromptTemplate）是大语言模型（LLM）应用开发中的核心概念，本质是预定义的提示结构框架。它通过将静态文本与动态变量结合，实现标准化、可复用的提示生成机制。它提示词可以是一个
python：pydub模块 face丶第三方模块音频 pydub
一、安装1、安装模块pipinstallpydub2、安装插件云盘中下载文件ffmpeg打开电脑上的控制面板-系统-高级系统设置-环境变量然后双击path,看到如下的界面：然后点新建会出现一个新建的地址栏，你需要在这个新建地址栏里输入一个文件地址：打开你下载的ffmpeg文件中的bin文件，你应该可以看到一个这样的界面，把这个界面中地址栏中的地址复制粘贴到上面图片新建的地址栏中，然后点确定，来保存
将Python Tkinter程序转换为手机可运行的Web应用 - 详细教程随机森林404 python 智能手机前端
前言作为一名Python开发者，你可能已经使用Tkinter创建了一些桌面GUI应用。但是如何让这些应用也能在手机上运行呢？本教程将详细介绍如何将基于Tkinter的Python程序转换为手机可访问的Web应用，让你的应用随时随地可用！一、为什么需要转换？Tkinter是Python的标准GUI库，但它主要针对桌面环境。移动设备(Android/iOS)上无法直接运行Tkinter程序，主要原因有
如何使用 langchain 与 openAI 连接海乐学习 langchain python langchain python
上一篇写了如何安装langchainhttps://www.cnblogs.com/hailexuexi/p/18087602这里主要说一个langchain的使用创建一个目录langchain，在这个目录下创建两个文件main.py这段python代码，用到了openAI，需要openAI及FQ。这里只做为示例#-*-coding:utf-8-*-fromlangchain.text_split
Pydub音频处理库核心API详解滕娴殉
Pydub音频处理库核心API详解pydubManipulateaudiowithasimpleandeasyhighlevelinterface项目地址:https://gitcode.com/gh_mirrors/py/pydub概述Pydub是一个功能强大的Python音频处理库，它提供了简洁直观的API来处理各种音频操作。本文将深入解析Pydub的核心功能，帮助开发者快速掌握音频处理的关键
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
python循环语句for BuckData python
目录1、for循环2、示例1、for循环Pythonfor循环可以遍历任何可迭代对象。通过使用for循环，我们可以为列表、元组、集合中的每个项目等执行一组语句。range()函数如需循环一组代码指定的次数，我们可以使用range()函数，range()函数返回一个数字序列，默认情况下从0开始，并递增1（默认地），并以指定的数字结束。2、示例#遍历字典d={'CNY':'人民币','USD':'美元
python循环语句
Python循环语句文章目录Python循环语句一、实验目的二、实验原理三、实验环境四、实验内容五、实验步骤1.While循环结构2.While无限循环3.For循环语法4.break语句和continue语句一、实验目的掌握循环结构的语法二、实验原理Python中的循环语句有for和while。Python循环语句的控制结构图如下所示：三、实验环境Python3.6以上PyCharm四、实验内容
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
上位机知识篇---Conda/pip install Atticus-Orion 上位机知识篇上位机操作篇深度学习篇 conda pip
在Python环境中，condainstall和pipinstall是两个常用的包安装命令，它们分别属于不同的包管理系统。下面从多个方面详细介绍它们的区别和使用场景：1.所属系统与适用范围特性condainstallpipinstall所属系统Anaconda/Miniconda生态系统Python标准包管理系统（PyPI）适用语言支持Python、R、Java等多种语言的包仅支持Python包依
中国双非高校经费TOP榜数据分析归零鸟高考考研高校大学
当我们习惯性仰望985、211这些“国家队”时，一批地方重点支持的高校正悄悄发力，手握重金，展现出不逊于名校的“钞能力”。特别是“双非”大学中的佼佼者，它们的年度经费预算，足以让许多普通院校望尘莫及。今天就带大家揭开2024年全国高校经费预算的神秘面纱，尤其关注那些没有985/211光环，却获得财政“真金白银”大力支持的双非实力派们！（数据综合整理自各高校2024年公开预算报告及相关教育资讯平台，
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
【Python从零到壹】Python中的标识符和保留字互联网老辛 #Python从零到壹 Python
保留字，也叫关键字，这些关键字是python直接提供给我们使用的，因此，我们在定义标识符的时候，不能用这些保留字。比如教育局就属于官方用的，你开个公司起名就不能叫教育局怎么查看关键字？importkeywordprint(keyword.kwlist)输出结果：E:\Python_demo\vippython\venv\Scripts\python.exeE:/Python_demo/vippyt
Python中的变量与数据类型難釋懷 python windows 开发语言
一、前言在Python编程中，变量（Variable）和数据类型（DataType）是程序开发中最基本也是最核心的概念。变量用于存储程序运行过程中的各种值，而数据类型则决定了变量可以存储什么样的数据、支持哪些操作。Python作为一门动态类型语言，无需显式声明变量的数据类型，解释器会根据赋给变量的值自动推断其类型。这种特性使得Python更加简洁易用，但也要求开发者对常见数据类型有清晰的认识。本文
Python中的count()方法溪流.ii python 数据库
文章目录Python中的count()方法基本语法在不同数据类型中的使用1.列表(List)中的count()2.元组(Tuple)中的count()3.字符串(String)中的count()高级用法1.指定搜索范围2.统计复杂元素注意事项Python中的count()方法前言：count()是Python中用于序列类型（如列表、元组、字符串等）的内置方法，用于统计某个元素在序列中出现的次数。基
Python中的标识符与保留字難釋懷 python java 数据库
一、前言在学习Python编程语言的过程中，标识符（Identifier）和保留字（Keywords）是两个非常基础但又极其重要的概念。它们是编写程序时必须遵守的语言规则之一。本文将带你深入了解：什么是标识符；标识符的命名规则与规范；Python中有哪些保留字；常见错误与注意事项；实际开发中的命名建议；掌握好这些内容，不仅能帮助你写出更规范、可读性更强的代码，还能避免因使用关键字作为变量名而导致的
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
Python爬虫技术实战：高效市场趋势分析与数据采集 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui 汽车
摘要本文将深入探讨如何利用最新的Python爬虫技术进行市场趋势分析，涵盖异步IO、无头浏览器、智能解析等前沿技术，并提供完整可运行的代码示例。文章将系统介绍从基础爬虫到高级反反爬策略的全套解决方案，帮助读者掌握市场数据采集的核心技能。1.市场趋势分析与爬虫技术概述市场趋势分析已成为现代商业决策的核心环节，而数据采集则是分析的基石。根据2024年最新统计，全球83%的企业已将网络爬虫技术纳入其数据
Nuitka打包python脚本 __如风__ python 开发语言
Python脚本打包Python是解释执行语言，需要解释器才能运行代码，这就导致在开发机上编写的代码在别的电脑上无法直接运行，除非目标机器上也安装了Python解释器，有时候还需要额外安装Python第三方包，相当麻烦。事实上Python并不适合干这种事，但有时候确实需要Python编写的程序打包给他人一键运行。思路通常都是分析脚本依赖（所有使用到的模块），然后收集相关资源，为了能在目标机器上正确
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
Python 运用 Matplotlib 绘制动画图的流程 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib 开发语言 ai
Python运用Matplotlib绘制动画图的流程关键词：Python、Matplotlib、动画图、绘制流程、动画原理摘要：本文详细介绍了使用Python的Matplotlib库绘制动画图的完整流程。从背景知识入手，阐述了Matplotlib动画绘制的目的和适用读者群体，接着深入剖析了核心概念，包括动画的基本原理和架构。通过核心算法原理的讲解和Python源代码示例，展示了如何实现动画绘制。同
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa