kalvin_y_liu

商业智能（BI）数据分析、挖掘概念

商业智能（BI）数据分析挖掘概念

一、商业智能（BI）数据分析挖掘概念

数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结。

1.分析型客户关系管理（Analytical CRM/aCRM

用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。

2.大数据（Big Data）

大数据既是一个被滥用的流行语，也是一个当今社会的真实趋势。**此术语指代总量与日俱增的数据，这些数据每天都在被捕获、处理、汇集、储存、分析。**维基百科是这样描述“大数据”的：“数据集的总和如此庞大复杂，以至于现有的数据库管理工具难以处理（…）”。

3.商业智能（Business Intelligence）

分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程**。

4. 流失分析（Churn Analysis/Attrition Analysis）

描述哪些顾客可能停止使用公司的产品/业务，以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。

5. 联合分析/权衡分析（Conjoint Analysis/ Trade-off Analysis）

在消费者实际使用的基础上，比较同一产品/服务的几个不同变种。它能预测产品/服务上市后的接受度，用于产品线管理、定价等活动。

6.信用评分（Credit Scoring）

评估一个实体（公司或个人）的信用值。银行（借款人）以此判断借款者是否会还款。

7. 配套销售/增值销售（Cross / Up selling）

一个营销概念。根据特定消费者的特征和过往行为，向其销售补充商品（配套销售）或附加商品（增值销售）。

8. 顾客细分&画像（Customer Segmentation & Profiling）

根据现有的顾客数据，将特征、行为相似的顾客归类分组。描述和比较各组。

9.数据集市（Data Mart）

特定机构所储存的，关于一个特定主题或部门的数据，如销售、财务、营销数据。

10.数据仓库（Data Warehouse）

数据的中央存储库，采集、储存来自一个企业多个商业系统的数据。

11.数据质量（Data Quality）

有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程，并能满足在运营、决策、规划中的预期用途。

12.抽取-转换-加载 ETL (Extract-Transform-Load)

数据仓储中的一个过程。从一个来源获取数据，根据需求转换数据以便接下来使用，之后把数据放置在正确的目标数据库。

13.欺诈检测（Fraud Detection）

识别针对特定组织或公司的疑似欺诈式转账、订购、以及其他非法活动。在IT系统预先设计触发式警报，尝试或进行此类活动会出现警告。

14.Hadoop

另一个当今大数据领域的热门。Apache Hadoop是一个在已有商业硬件组成的计算机集群上，分布式存储、处理庞大数据集的开源软件架构。它使得大规模数据储存和更快速数据处理成为可能。

15.物联网（Internet of Things, IoT)

广泛分布的网络，由诸多种类（个人、家庭、工业）诸多用途（医疗、休闲、媒体、购物、制造、环境调节）的电子设备组成。这些设备通过互联网交换数据，彼此协调活动。

16.顾客的生命周期价值 (Lifetime Value, LTV)

顾客在他/她的一生中为一个公司产生的预期折算利润。

17.机器学习（Machine Learning）

一个学科，研究从数据中自动学习，以便计算机能根据它们收到的反馈调整自身运行。与人工智能、数据挖掘、统计方法关系密切。

18.购物篮分析（Market Basket Analysis）

识别在交易中经常同时出现的商品组合或服务组合，例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品，为陈列商品的决策提供依据等。

19.联机分析处理（On-Line Analytical Processing, OLAP）

能让用户轻松制作、浏览报告的工具，这些报告总结相关数据，并从多角度分析。

20.预测分析（Predictive Analytics）

从现存的数据集中提取信息以便识别模式、预测未来收益和趋势。在商业领域，预测模型及分析被用于分析当前数据和历史事实，以更好了解消费者、产品、合作伙伴，并为公司识别机遇和风险。

21.实时决策（Real Time Decisioning, RTD）

帮助企业做出实时（近乎无延迟）的最优销售/营销决策。比如，实时决策系统（打分系统）可以通过多种商业规则或模型，在顾客与公司互动的瞬间，对顾客进行评分和排名。

22.留存/顾客留存（Retention / Customer Retention)

指建立后能够长期维持的客户关系的百分比。

23.社交网络分析（Social Network Analysis, SNA）

描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点，而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法，既是数学的又是视觉的。

24.生存分析（Survival Analysis）

估测一名顾客继续使用某业务的时间，或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存，并引入合适的忠诚度政策。

25.文本挖掘（Text Mining）

对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算，以便用数学术语表达文本结构，之后用传统数据挖掘技术分析文本结构。

26.非结构化数据（Unstructured Data）

数据要么缺乏事先定义的数据模型，要么没按事先定义的规范进行组织。这个术语通常指那些不能放在传统的列式数据库中的信息，比如电子邮件信息、评论。

27.网络挖掘/网络数据挖掘（Web Mining / Web Data Mining)

使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

二、数据库与数据仓库的区别

数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。

操作型处理，叫联机事务处理 OLTP（On-Line Transaction Processing，），也可以称面向交易的处理系统，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段，主要用于操作型处理。

分析型处理，叫联机分析处理 OLAP（On-Line Analytical Processing）一般针对某些主题的历史数据进行分析，支持管理决策。

首先要明白，数据仓库的出现，并不是要取代数据库。

数据库是面向事务的设计，数据仓库是面向主题设计的。
数据库一般存储业务数据，数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余，一般针对某一业务应用进行设计，比如一张简单的User表，记录用户名、密码等简单数据即可，符合业务应用，但是不符合分析。数据仓库在设计是有意引入冗余，依照分析需求，分析维度、分析指标进行设计。
数据库是为捕获数据而设计，数据仓库是为分析数据而设计。

以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记账。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。

显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。

数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。

相关概念

2.1 数据仓库DW

数据仓库：即DW完整英文名为Data Warehouse，它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

2.2 多维数据集

多维数据集: 多维数据集是联机分析处理 (OLAP) 中的主要对象，是一项可对数据仓库中的数据进行快速访问的技术.多维数据集是一个数据集合，通常从数据仓库的子集构造，并组织和汇总成一个由一组维度和度量值定义的多维结构.

2.3 维度

维度：多维数据集的结构性特性.它们是事实数据表中用来描述数据的分类的有组织层次结构（级别）.这些分类和级别描述了一些相似的成员集合，用户将基于这些成员集合进行分析.

2.3 度量值

度量值: 在多维数据集中，度量值是一组值，这些值基于多维数据集的事实数据表中的一列，而且通常为数字.此外，度量值是所分析的多维数据集的中心值

2.3 事实表

事实表:是指其中保存了大量业务度量数据的表。事实表中的度量值一般称为事实

其它相关概念详见博客里的介绍，详见基于mondrian的多维分析系统

2.4 ETL：抽取、转换、加载

ETL：抽取、转换、加载
ETL工作的实质就是从各个数据源提取数据，对数据进行转换，并最终加载填充数据到数据仓库维度建模后的表中。只有当这些维度/事实表被填充好，ETL工作才算完成。接下来分别对抽取，转换，加载这三个环节进行讲解：

1. 抽取(Extract)

数据仓库是面向分析的，而操作型数据库是面向应用的。显然，并不是所有用于支撑业务系统的数据都有拿来分析的必要。因此，该阶段主要是根据数据仓库主题、主题域确定需要从应用数据库中提取的数。

具体开发过程中，开发人员必然经常发现某些ETL步骤和数据仓库建模后的表描述不符。这时候就要重新核对、设计需求，重新进行ETL。正如数据库系列的这篇中讲到的，任何涉及到需求的变动，都需要重头开始并更新需求文档。

2. 转换(Transform)

转换步骤主要是指对提取好了的数据的结构进行转换，以满足目标数据仓库模型的过程。此外，转换过程也负责数据质量工作，这部分也被称为数据清洗(data cleaning)。

3. 加载(Load)

加载过程将已经提取好了，转换后保证了数据质量的数据加载到目标数据仓库。加载可分为两种L：首次加载(first load)和刷新加载(refresh load)。其中，首次加载会涉及到大量数据，而刷新加载则属于一种微批量式的加载。

多说一句，如今随着各种分布式、云计算工具的兴起，ETL实则变成了ELT。就是业务系统自身不会做转换工作，而是在简单的清洗后将数据导入分布式平台，让平台统一进行清洗转换等工作。这样做能充分利用平台的分布式特性，同时使业务系统更专注于业务本身。

OLAP/BI工具
数据仓库建设好以后，用户就可以编写SQL语句对其进行访问并对其中数据进行分析。但每次查询都要编写SQL语句的话，未免太麻烦，而且对维度建模数据进行分析的SQL代码套路比较固定。于是，便有了OLAP工具，它专用于维度建模数据的分析。而BI工具则是能够将OLAP的结果以图表的方式展现出来，它和OLAP通常出现在一起。(注：本文所指的OLAP工具均指代这两者。)

在规范化数据仓库中OLAP工具和数据仓库的关系大致是这样的：

这种情况下，OLAP不允许访问中心数据库。一方面中心数据库是采取规范化建模的，而OLAP只支持对维度建模数据的分析；另一方面规范化数据仓库的中心数据库本身就不允许上层开发人员访问。而在维度建模数据仓库中，OLAP/BI工具和数据仓库的关系则是这样的：

2.3 查询案例

#Sample 1 维度表查询：
 
SELECT TOP (10) [DateKey] '日期Key'
      ,[FullDateAlternateKey] '日期代理key'
      ,[DayNumberOfWeek] '周所在日'
      ,[EnglishDayNameOfWeek] '所在周'
      ,[DayNumberOfMonth] '月所在日'
      ,[DayNumberOfYear] '年所在日'
      ,[WeekNumberOfYear] '年所在周'
      ,[EnglishMonthName] '英文月名'
      ,[MonthNumberOfYear] '年所在月'
      ,[CalendarQuarter] '所在季度'
      ,[CalendarYear] '日历年'
      ,[FiscalQuarter] '财季度'
      ,[FiscalYear] '财年'
  FROM [AdventureWorksDW2019].[dbo].[DimDate]
  ORDER BY DateKey DESC

#Sample 2 事实表查询
# 查看2013财年网上销售的产品名、汇率名、订单日期、用户信息、销售额、总产品成本、打折量等。
SELECT TOP 10、 B.EnglishProductName,C.CurrencyName CurrencyName,
D.FrenchPromotionName FrenchPromotionName,E.FirstName,E.LastName,
A.Salesamount,A.TaxAmt,A.TotalProductCost,A.DiscountAmount
FROM FactInternetSales A
JOIN DimProduct B
      ON A.ProductKey = B.ProductKey
JOIN DimCurrency C
    ON A.CurrencyKey = C.CurrencyKey
JOIN DimPromotion D
    ON A.PromotionKey =  D.PromotionKey
JOIN DimCustomer E
    ON A.CustomerKey = E.CustomerKey
JOIN DimDate F
    ON A.OrderDateKey =F.DateKey
WHERE F.FiscalYear=2013

————————————————
0 术语与约束

Extraction-Transformation-Loading 是对OLTP数据进行抽取,转换,装载的过程(以下皆简称ETL)
文档的说明均按照ETL→DW→CUBE→presentation

2.5 ETL相关

2.5.1维度表

1、时间维度

说明:该维度记录了每天的时间,粒度最高精确到日,并可分周,月,年等粒度.
对应表:tbl_dimdate
对应过程: pro_supportdw_dimdate
是否公用:是
说明:此维度可建Hierarchy(层),见下图:

2、设备维度

说明:该维度记录了的设备信息. 并可分品牌,机型等粒度.
对应表: tbl_dimdevice
对应过程: pro_supportdw_dimdevice
是否公用:否
说明:此维度可建Hierarchy(层),见下图:

3、地域维度

说明:该维度记录了的地域信息. 并可分国家,省,区等粒度.
对应表: tbl_dimgeography
对应过程: 无,必要时手动加入地区数据
是否公用:否
说明:此维度无Hierarchy(层) ,见下图:

4、分辨率维度

说明:该维度记录了分辨率的信息.
对应表: tbl_dimresolution
对应过程: pro_supportdw_dimresolution
是否公用:否
说明:此维度无Hierarchy(层),仅有Level(级别)

5、操作系统维度

说明:该维度记录了的操作系统的信息.
对应表: tbl_dimos
对应过程: pro_supportdw_dimos
是否公用:否
说明:此维度无Hierarchy(层),仅有Level(级别)

6、网络类型维度

说明:该维度记录了网络类型的信息.
对应表: tbl_dimnetworktype
对应过程: 无,手动维护数据
是否公用:否
说明:此维度无Hierarchy(层),仅有Level(级别)

7、运营商维度

说明:该维度记录了运营商类型的信息.
对应表: tbl_dimoperator
对应过程: 无,手动维护数据
是否公用:否
说明:此维度无Hierarchy(层),仅有Level(级别)

8、系统维度

说明:该维度记录了的系统(类似项目 market[市场],桌面[LAU])信息)的信息.
对应表: tbl_dimsystem
对应过程: 无,手动维护数据
是否公用:是
说明:此维度无Hierarchy(层),仅有Level(级别)

9、包维度

说明:该维度记录了包的信息.
对应表: tbl_cms_apk_package_ref
对应过程: 无,手动维护数据,来源于tbl_cms_apk_package(需做数据同步)
是否公用:是
说明:此维度无Hierarchy(层),仅有Level(级别)

10、厂商维度

说明:该维度记录了厂商的信息.
对应表: tbl_user
对应过程: 无
是否公用:是
说明:此维度无Hierarchy(层),仅有Level(级别)

11、系统版本维度

说明:该维度记录了系统的版本信息.
对应表: tbl_dimappversion
对应过程: pro_supportdw_dimappversion
是否公用:是
说明:此维度无Hierarchy(层),仅有Level(级别)

12、广告资源维度

说明:该维度记录了资源或则广告的信息.
对应表: tbl_dimresource
对应过程: 无,手动维护数据,来源于tbl_resource (需做数据同步)
是否公用: 否,广告资源模型独有
说明:此维度无Hierarchy(层),仅有Level(级别)

13、广告资源区分维度

说明:该维度记录了资源或广告区分的信息.
对应表: tbl_dimadres_type
对应过程: 无,手动维护数据
是否公用: 否,广告资源模型独有
说明:此维度无Hierarchy(层),仅有Level(级别)

14、广告资源新旧区分维度

说明:该维度记录了资源或广告区分的信息.
对应表: tbl_dimnewold
对应过程: 无,手动维护数据
是否公用: 否,广告资源模型独有
说明:此维度无Hierarchy(层),仅有Level(级别)

15、系统类型维度

说明:该维度记录了系统子类型(类似airpush类型,uubao类型)的信息
对应表: tbl_dimsystemtype
对应过程: 无,手动维护数据
是否公用: 否,广告资源模型独有
说明:此维度无Hierarchy(层),仅有Level(级别)

16、系统来源维度

说明:该维度记录了系统的来源类型(来源类似广告资源,人工采编)的信息
对应表: tbl_dimresourcetype
对应过程: 无,手动维护数据
是否公用: 否,广告资源模型独有
说明:此维度无Hierarchy(层),仅有Level(级别)

2.5.2事实表与measure(度量)

1.2.1 Market事实表与measure(度量)
1.2.1.1 market事实表

TBL_FACTMARKET 该表为market事实表,含有的指标有新增,独立用户,启动次数,留存等.维度精确到IMEI
TBL_FACTMARKET_FIN该表为维度精确到APK_ID

1.2.1.2 market measure(度量)

新增: Market新增用户数量统计
独立: Market独立用户数量统计
启动: Market启动量统计
隔1天market用户留存,此为postUpdate
隔7天market用户留存,此为postUpdate
隔15天market用户留存,此为postUpdate
隔21天market用户留存,此为postUpdate
隔30天market用户留存,此为postUpdate
周留存率
月留存率

1.2.2 广告资源事实表与measure(度量)
1.2.2.1 广告资源事实表

TBL_FACTADRES该表为广告资源事实表,含有的指标有接收,阅读,下载,下载完成,安装等.维度精确到IMEI
TBL_FACTADRES_FIN该表为广告资源事实表,含有的指标有,阅读,点击,下载,下载完成,安装等.维度精确到APK_ID

1.2.2.2 广告资源measure(度量)

接收: 广告资源的接收量统计
阅读量: 广告资源的阅读量统计
下载量: 广告资源的下载量统计
下载完成量: 广告资源的下载完成量统计
安装量: 广告资源的安装量统计

1.3 ETL

1.3.1 Market模型

pro_supportdw_factmarketmarket2.0以上事实表抽取
pro_support_oldfactmarketmarket1.2版本事实表抽取(含airpush)
pro_supportdw_loadfactmarketmarket事实表抽取汇总(聚合至apk_id维度)
pro_supportdw_preservemarket2.0留存抽取 (此为PostUpdate)

1.3.2 广告资源模型

pro_supportdw_factadres 广告资源事实表抽取

1.3.3 厂商模型

pro_supportdw_loadaggrmarket 此为market模型和广告资源模型的汇集,维度到apk_id

1.4 ETL调度

1.4.1 维度表job

Job对应过程:pro_supportDW_Dim_jobs
包含维度表过程如下:

pro_supportdw_dimdevice(sysdate);–设备维度(设计品牌机型)

pro_supportdw_dimos(sysdate); --操作系统维度

pro_supportdw_dimresolution(SYSDATE);–分辨率维度

pro_new_user_install(SYSDATE); --新用户信息,AdRes对照新旧用户时用

pro_supportdw_dimresource; ---- 新加广告维度数据更新

1.4.2 事实表job

1.4.2.1 market job

market Job对应过程: PRO_Support_Market_JOBs
包含事实表表过程如下:

pro_supportdw_factmarket

pro_support_oldfactmarket

pro_supportdw_loadfactmarket

1.4.2.2 广告资源 job

此job包含在厂商job中

1.4.2.3 厂商job

厂商Job对应过程: pro_support_adres_agg_jobs
包含事实表表过程如下:

pro_supportdw_factadres

pro_supportdw_loadaggrmarket

三、 Cube相关

2.1 Cube介绍

An OLAPcube is an array of data understood in termsof its 0 or more dimensions.

Cube是一个多维数据模型的简称.

2.1.1 cube相关术语

1)多维数据集:

多维数据集是联机分析处理 (OLAP) 中的主要对象，是一项可对数据仓库中的数据进行快速访问的技术.多维数据集是一个数据集合，通常从数据仓库的子集构造，并组织和汇总成一个由一组维度和度量值定义的多维结构.

2)维度:

是多维数据集的结构性特性.它们是事实数据表中用来描述数据的分类的有组织层次结构（级别）.这些分类和级别描述了一些相似的成员集合，用户将基于这些成员集合进行分析.

3.度量值:

在多维数据集中，度量值是一组值，这些值基于多维数据集的事实数据表中的一列，而且通常为数字.此外，度量值是所分析的多维数据集的中心值.即，度量值是最终用户浏览多维数据集时重点查看的数字数据.您所选择的度量值取决于最终用户所请求的信息类型.一些常见的度量值有 sales、cost、expenditures 和 production count 等.

4)元数据:

不同 OLAP 组件中的数据和应用程序的结构模型.元数据描述 OLTP 数据库中的表、数据仓库和数据集市中的多维数据集这类对象，还记录哪些应用程序引用不同的记录块.

5)级别:

级别是维度层次结构的一个元素.级别描述了数据的层次结构，从数据的最高（汇总程度最大）级别直到最低（最详细）级别.

6)数据挖掘:

数据挖掘使您得以定义包含分组和预测规则的模型，以便应用于关系数据库或多维 OLAP 数据集中的数据.之后，这些预测模型便可用于自动执行复杂的数据分析，以找出帮助识别新机会并选择有获胜把握的机会的趋势.

7)多维:

OLAP (MOLAP): MOLAP 存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上.根据分区聚合的百分比和设计，MOLAP 存储模式为达到最快查询响应时间提供了潜在可能性.总而言之，MOLAP 更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要.

8)关系: OLAP (ROLAP):

ROLAP 存储模式使得分区的聚合存储在关系数据库的表（在分区数据源中指定）中.但是，可为分区数据使用 ROLAP 存储模式，而不在关系数据库中创建聚合.

9)混合: OLAP (HOLAP):

HOLAP 存储模式结合了 MOLAP 和 ROLAP 二者的特性.

10)粒度:

数据汇总的层次或深度.

11)聚合|聚集:

聚合是预先计算好的数据汇总，由于在问题提出之前已经准备了答案，聚合可以改进查询响应时间.

12)切块:

由多个维的多个成员限定的分区数据，称为一个切块.

13)切片:

由一个维的一个成员限定的分区数据，称为一个切片.

14)数据钻取:

最终用户从常规多维数据集、虚拟多维数据集或链接多维数据集中选择单个单元，并从该单元的源数据中检索结果集以获得更详细的信息，这个操作过程就是数据钻取.

备注: Mondrian 是基于ROLAP的
————————————————

数据仓库结构分层

数据仓库与数据挖掘-多维数据操作

数据立方体(Data Cube)
在介绍OLAP工具的具体使用前，先要了解这个概念：数据立方体(Data Cube)。
很多年前，当我们要手工从一堆数据中提取信息时，我们会分析一堆数据报告。通常这些数据报告采用二维表示，是行与列组成的二维表格。但在真实世界里我们分析数据的角度很可能有多个，数据立方体可以理解为就是维度扩展后的二维表格。
下图展示了一个三维数据立方体：

尽管这个例子是三维的，但更多时候数据立方体是N维的。它的实现有两种方式，本文后面部分会讲到。其中上一篇讲到的星形模式就是其中一种，该模式其实是一种连接关系表与数据立方体的桥梁。但对于大多数纯OLAP使用者来讲，数据分析的对象就是这个逻辑概念上的数据立方体，其具体实现不用深究。对于这些OLAP工具的使用者来讲，基本用法是首先配置好维表、事实表，然后在每次查询的时候告诉OLAP需要展示的维度和事实字段和操作类型即可。

下面介绍数据立方体中最常见的五大操作：切片，切块，旋转，上卷，下钻。

在数据立方体上的操作有：切片、切块、旋转、上卷和下钻。
数据立方体如图所示：

切片和切块(Slice and Dice)
在数据立方体的某一维度上选定一个维成员的操作叫切片，而对两个或多个维执行选择则叫做切块。
下图逻辑上展示了切片和切块操作：

这两种操作的 SQL 模拟语句如下，主要是对 WHERE 语句做工作。

# 切片
SELECT Locates.地区, Products.分类, SUM(数量)
FROM Sales, Dates, Products, Locates
WHERE Dates.季度 = 2
    AND Sales.Date_key = Dates.Date_key
    AND Sales.Locate_key = Locates.Locate_key
    AND Sales.Product_key = Products.Product_key
GROUP BY Locates.地区, Products.分类

# 切块
SELECT Locates.地区, Products.分类, SUM(数量)
FROM Sales, Dates, Products, Locates
WHERE (Dates.季度 = 2 OR Dates.季度 = 3) AND (Locates.地区 = '江苏' OR Locates.地区 = '上海')
    AND Sales.Date_key = Dates.Date_key
    AND Sales.Locate_key = Locates.Locate_key
    AND Sales.Product_key = Products.Product_key
GROUP BY Dates.季度, Locates.地区, Products.分类

旋转(Pivot)
旋转就是指改变报表或页面的展示方向。对于使用者来说，就是个视图操作，而从 SQL 模拟语句的角度来说，就是改变 SELECT 后面字段的顺序而已。下图逻辑上展示了旋转操作：

上卷和下钻(Rol-up and Drill-down)
上卷可以理解为”无视”某些维度；下钻则是指将某些维度进行细分。下图逻辑上展示了上卷和下钻操作：

这两种操作的 SQL 模拟语句如下，主要是对 GROUP BY 语句做工作。

# 上卷
SELECT Locates.地区, Products.分类, SUM(数量)
FROM Sales, Products, Locates
WHERE Sales.Locate_key = Locates.Locate_key
    AND Sales.Product_key = Products.Product_key
GROUP BY Locates.地区, Products.分类

# 下钻
SELECT Locates.地区, Dates.季度, Products.分类, SUM(数量)
FROM Sales, Dates, Products, Locates
WHERE Sales.Date_key = Dates.Date_key
    AND Sales.Locate_key = Locates.Locate_key
    AND Sales.Product_key = Products.Product_key
GROUP BY Dates.季度.月份, Locates.地区, Products.分类

4. 其他OLAP操作
除了上述的几个基本操作，不同的OLAP工具也会提供自有的OLAP查询功能，如钻过，钻透等，本文不一一进行讲解。通常一个复杂的OLAP查询是多个这类OLAP操作叠加的结果。

OLAP的架构模式
1. MOLAP(Multidimensional Online Analytical Processing)

MOLAP架构会生成一个新的多维数据集，也可以说是构建了一个实际数据立方体。其架构如下图所示：

在该立方体中，每一格对应一个直接地址，且常用的查询已被预先计算好。因此每次的查询都是非常快速的，但是由于立方体的更新比较慢，所以是否使用这种架构得具体问题具体分析。

2. ROLAP(Relational Online Analytical Processing)

ROLAP架构并不会生成实际的多维数据集，而是使用星形模式以及多个关系表对数据立方体进行模拟。其架构如下图所示：

显然，这种架构下的查询没有MOLAP快速。因为ROLAP中，所有的查询都是被转换为SQL语句执行的。而这些SQL语句的执行会涉及到多个表之间的JOIN操作，没有MOLAP速度快。

3. HOLAP(Hybrid Online Analytical Processing)

这种架构综合参考MOLAP和ROLAP而采用一种混合解决方案，将某些需要特别提速的查询放到MOLAP引擎，其他查询则调用ROLAP引擎。

笔者发现一个有趣的现象，很多工具的发展都满足这个规律：工具A被创造，投入使用后发现缺点；然后工具B为了弥补这个缺点而被创造，但是带来了新的缺点；然后就会用工具C被创造，根据不同情况调用A和B。比较无语…

小结
整个数据仓库系统的开发会涉及到各种团队：数据建模团队，业务分析团队，系统架构团队，平台维护团队，前端开发团队等等。对于志在从事这方面工作的人来说，需要学习的还有很多。但对于和笔者一样志在成为一名优秀"数据科学家"的人来说，这些数据基础知识已经够用了。笔者看来，数据科学家的核心竞争优势在三个方面：数据基础，数据可视化，算法模型。这三个方面需要投入的时间成本递增，而知识的重要性递减。因此，数据库系列和数据仓库系列是性价比最高的两个系列哦。

作业要求：

在 SQL SERVER2012 中创建数据库，内含四张表，可参考的表设计如下图。
然后基于以上的数据库表进行切片、切块、旋转、上卷和下钻。
将自行建立的四张表和在表上进行的多维操作（切片、切块、旋转、上卷和下钻）。

创建表结构及插入模拟数据
此数据是从SQL Server2012版本数据库导出，仅供借鉴与参考

**1 销售分析表结构**
/****** Object:  Table [dbo].[analysisTable]    Script Date: 2019/3/11 15:33:52 ******/
SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
CREATE TABLE [dbo].[analysisTable](
	[timeID] [tinyint] NOT NULL,
	[productID] [tinyint] NOT NULL,
	[areaID] [tinyint] NOT NULL,
        [number] [int] NOT NULL, 
        [money] [int] NOT NULL ) ON [PRIMARY] GO 
	
地区维表表结构
CREATE TABLE [dbo].[areaTable](
	[areaID] [tinyint] IDENTITY(1,1) NOT NULL,
	[areaCou] [varchar](200) NOT NULL,
	[areaPro] [varchar](50) NOT NULL,
	[areaCity] [varchar](50) NOT NULL,
	[areaDoor] [varchar](200) NOT NULL,
 CONSTRAINT [PK_areaTable] PRIMARY KEY CLUSTERED 
(
	[areaID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]
产品维表表结构
CREATE TABLE [dbo].[productTable](
	[productID] [tinyint] IDENTITY(1,1) NOT NULL,
	[productType] [nvarchar](50) NOT NULL,
	[productName] [nvarchar](50) NOT NULL,
 CONSTRAINT [PK_productTable] PRIMARY KEY CLUSTERED 
(
	[productID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]
时间维表表结构
CREATE TABLE [dbo].[timeTable](
	[timeID] [tinyint] IDENTITY(1,1) NOT NULL,
	[timeYear] [varchar](50) NOT NULL,
	[timeMonth] [varchar](50) NOT NULL,
 CONSTRAINT [PK_timeTable] PRIMARY KEY CLUSTERED 
(
	[timeID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

多维数据操作
切片操作
操作SQL语句

select timeTable.timeMonth, productTable.productName, areaTable.areaDoor 
from analysisTable, timeTable, productTable, areaTable 
where
analysisTable.timeID = timeTable.timeID AND
analysisTable.productID = productTable.productID AND
analysisTable.areaID = areaTable.areaID AND 
analysisTable.productID = 1;

操作结果查询图

Go 语言基础数组、切片、映射

在 Go 语言中，为便于存储及管理用户数据，其数据结构设计分为数组 Array、切片 Slice、映射 Map 三种结构。

近期又看了 Go 语言基础的内容，看了一下这三种结构实现的原理：

数组 Array
数组是切片和映射的基础数据结构；
数组是长度固定的数据类型并且在内存中也是连续分配的，固索引数组数据速度是非常快的；
声明数组时需要指定数组存储的类型及数量（数组的长度）；
数组变量的类型包括数组长度和元素的类型，只有两部分都相同的数组才可相互赋值。
创建及初始化
一旦声明了数组，其本身的数据类型及长度都是不可以进行变更。

// 使用数组字面量声明数组
array := [5]int{1, 2, 3, 4, 5}

// 自动推导长度声明数组
array := […]int{1, 2, 3, 4, 5, 6}
// 使用 … 代替长度，根据初始化元素个数推导

// 声明数组并指定特定元素值
array := [5]int{1:10, 2:20}
指针类型
数组元素的类型可以为任何内置类型，也可以是某种结构类型，也可以是指针类型。

// 声明一个元素长度为 3 的指向字符串的指针数组
var array1 [3]*string

// 为指针数组指定元素
*array1[0] = “demo0”
*array1[1] = “demo1”
*array1[2] = “demo2”
多维数组
数组本身是一维数据，多维数组是由多个数组组合而来的。

// 声明一个二维数组
var array = [3][2]int
// 声明了一个两个维度为 3 和 2 的元素

// 初始化二维数组
var array = [3][2]int{ {1, 2}, {3, 4}, {5, 6}}
在函数间传递数组：由于在函数间传递变量时，传递的总是变量的值的副本，所以在传递数组变量时将拷贝整个数组！在定义函数时，对于较大的数据类型应该把参数设计为指针类型，这样在调用函数时，只需在栈上分配给每个指针8字节的内存，但这意味着会改变指针指向的值(共享的内存)，其实大部分情况下应该使用切片类型，而不是数组。

切片 Slice
切片 slice 是引用类型，它引用了其指针字段所指向的底层数组的一部分或全部；
切片是围绕动态数组的概念构建的；
切片的动态增长是通过 append 来实现的；
缩小则是通过对它再次切片来实现，通过再次切片获得的新切片将和原切片共享底层数组，它们的指针指向同一个底层数组。
创建及初始化
切片类型有3个字段：

指针：指向切片所包含的第一个元素在底层数组中的地址；
长度：切片所包含的底层数组的元素的个数（切片可访问的元素的个数）；
容量：切片允许增长到的最大元素个数，即底层数组的长度。
make 和切片字面量
// 使用 make 创建一个切片
slice := make([]int, 3)

// 创建一个具有长度和容量的切片
slice := make([]int, 1, 6)
// 长度为 1，容量为 6 个元素
nil 和空切片
// nil 字符串切片
var slice []string

// 空切片
slice := []int{}
// 空的整形切片
由于切片只是引用了底层数组，底层数组的数据并不属于切片本身，所以一个切片只需要 24字节的内存(在 64位机器上)：指针字段 8字节、长度字段 8字节、容量字段 8字节。所以在函数之间直接传递切片是高效的，只需分配 24字节的栈内存。

len函数可返还切片的长度、cap函数可返还切片的容量。

映射 Map
映射 map 是用来存储一系列的无序键值对；
映射是无序的集合，其实现使用了散列表；
映射的散列表包含一组桶，每个桶里存储着一部分键值对；
映射内部使用了两个数组：
第一个数组：存储着用于选择桶的散列键的高八位值，该数组用于区分每个键值对要存在哪个桶里；
第二个数组：每个桶里都有一个字节数组，先依次存储了该桶里的所有键，之后存储了该桶的所有值；
创建及初始化
// 创建一个映射存储学生信息

students := map[string]string{
    "name" : "mengxiaoyu",
    "age"  : "22",
    "sex"  : "boy",
    "hobby": "pingpang",
}

// 显示映射所有信息
for key, value := range students{
    fmt.printf("key:%s, \t value:%s\n", key, value);
}

遍历映射的键值对时的顺序是随机，若要有序的获得映射的键值对，则需要先遍历出映射的键存到一个切片中，然后排序该切片，最后遍历该切片，按切片中元素的顺序去映射中取对应的值。

查看2013财年网上销售的产品名、汇率名、订单日期、用户信息、销售额、总产品成本、打折量等。

SELECT TOP 10、 B.EnglishProductName,C.CurrencyName CurrencyName,
D.FrenchPromotionName FrenchPromotionName,E.FirstName,E.LastName,
A.Salesamount,A.TaxAmt,A.TotalProductCost,A.DiscountAmount
FROM FactInternetSales A
JOIN DimProduct B
      ON A.ProductKey = B.ProductKey
JOIN DimCurrency C
    ON A.CurrencyKey = C.CurrencyKey
JOIN DimPromotion D
    ON A.PromotionKey =  D.PromotionKey
JOIN DimCustomer E
    ON A.CustomerKey = E.CustomerKey
JOIN DimDate F
    ON A.OrderDateKey =F.DateKey
WHERE F.FiscalYear=2013

你可能感兴趣的:(数据科学,数据分析,数据挖掘)

构建智能对话式BI的关键：ChatBI场景下的Agent框架选型深
写在前面在数据驱动决策的时代，商业智能（BI）工具扮演着至关重要的角色。然而，传统BI工具往往需要用户具备一定的SQL知识或熟悉复杂的操作界面。对话式BI（ChatBI）的出现，旨在通过自然语言交互，让任何人都能轻松获取数据洞察，极大降低了数据分析的门槛。构建一个强大、灵活且可扩展的ChatBI应用，其核心离不开一个合适的Agent框架。Agent框架如同应用的“龙骨”，为LLM赋予了感知、思考、
DeepSeek在性能测试中的应用：AI驱动的性能优化之旅程序员小雷性能优化功能测试测试工具单元测试测试用例 postman selenium
上次我们讨论了DeepSeek在自动化测试中的应用，今天我们继续深入探讨如何使用DeepSeek来进行性能测试。性能测试往往涉及大量数据分析和性能瓶颈诊断，这正是AI的强项。让我们看看如何借助DeepSeek的强大能力，让性能测试变得更智能、更高效。1.性能测试场景生成器首先，我们需要一个智能的性能测试场景生成器：classPerformanceScenarioGenerator:def__ini
对话式数据分析与Text2SQL Agent产品可行性分析思考
Text2SQLAgent产品可行性分析报告版本BG：基于一些手撸Text2SQL的产品MVP，进一步进行商业化思考。目标输出包含市场、技术、开发、商业模式及护城河策略的完整可行性分析报告，支撑产品决策。✅市场调研与竞品分析研究内容：市场现状与趋势全球Text2SQL技术应用场景（金融、零售、医疗等）2023-2028年复合增长率（CAGR）及驱动因素（如低代码、AI民主化）竞品分析矩阵竞品类型代
从Python到数据结构：为什么这是每个自学者必经的进阶之路流水煮香茗 python 数据结构 mooc
当你熟练掌握Python语法后，下一步应该学什么？答案是数据结构。本文将深入分析为什么数据结构是编程进阶的关键，以及如何选择合适的学习资源。一、Python学会了，然后呢？如果你正在读这篇文章，很可能你已经：用Python写过小工具，能解决工作和生活中的一些小需求做过数据分析，会用pandas处理Excel表格但是，当你想要进一步提升时，却发现了一些困惑：困惑1：代码能跑，但总觉得"不够优雅"你的
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
2025学年湖北省职业院校技能大赛 “信息安全管理与评估”赛项样题卷（二）落寞的魚丶网络空间安全（职业技能大赛）#信息安全管理与评估赛项 2025湖北职业技能大赛高职组信息安全评估赛项样题赛题网络加固
2025学年湖北省职业院校技能大赛“信息安全管理与评估”赛项样题卷（二）第一部分：第二部分：网络安全事件响应、数字取证调查、应用程序安全任务书任务1：应急响应（可以培训有答案）任务2：通信数据分析取证（40分）任务3：基于Windows计算机单机取证（120分）第三部分应用程序安全任务4：HP代码审计（40分）第三部分：网络安全渗透、理论技能与职业素养任务一：人力资源管理系统（60分）可以培训任务
2025学年湖北省职业院校技能大赛 “信息安全管理与评估”赛项样题卷（四）落寞的魚丶网络空间安全（职业技能大赛）#信息安全管理与评估赛项 2025职业湖北职业技能大赛职业技能大赛省赛高职组信息安全评估与管理赛项
2025学年湖北省职业院校技能大赛“信息安全管理与评估”赛项样题卷（四）第二部分：网络安全事件响应、数字取证调查、应用程序安全任务书任务1：应急响应（可以培训有答案）任务2：通信数据分析取证（40分）任务3：基于Windows计算机单机取证（120分）任务4：PHP代码审计（40分）第三部分：网络安全渗透、理论技能与职业素养任务一：商城购物系统（60分）可以培训任务二：办公系统（60分）任务三：F
AI表格数据分析
简单发一篇文章，最近看到AI数据分析是越来越火了哈，把简单的流程进行一次简要的分享。AI数据分析的本质，是“结构化数据→模式识别→可视化表达+洞察输出”。1、分析流程详解：（1）数据预处理什么是数据预处理呢？其实它可以理解成你给的是什么。步骤1：识别数据结构表头，字段的含义等。步骤2：清洗数据去除空值、格式错误、重复数据。步骤3：类型识别判断哪些是时间字段？哪些是数值型？哪些是分类字段？总结：类似
《网络攻防技术》《数据分析与挖掘》《网络体系结构与安全防护》这三个研究领域就业如何？扣棣编程其他网络数据分析安全
这几个研究领域都是当前信息技术领域的热点方向，就业前景总体来说都非常不错，但各有侧重和特点。我来帮你详细分析一下：1.网络攻防技术就业前景：非常火热且持续增长。核心方向：渗透测试、漏洞挖掘与分析、恶意软件分析、入侵检测/防御、应急响应、威胁情报、安全审计、红蓝对抗等。市场需求：极高。数字化转型深入、网络攻击日益频繁和复杂（勒索软件、APT攻击、供应链攻击等）、数据安全与隐私保护法规（如GDPR、中
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
中国双非高校经费TOP榜数据分析归零鸟高考考研高校大学
当我们习惯性仰望985、211这些“国家队”时，一批地方重点支持的高校正悄悄发力，手握重金，展现出不逊于名校的“钞能力”。特别是“双非”大学中的佼佼者，它们的年度经费预算，足以让许多普通院校望尘莫及。今天就带大家揭开2024年全国高校经费预算的神秘面纱，尤其关注那些没有985/211光环，却获得财政“真金白银”大力支持的双非实力派们！（数据综合整理自各高校2024年公开预算报告及相关教育资讯平台，
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
为什么90%企业的AI数据分析都失败了？奥威BI给出破局方案 qq_43696218 人工智能数据分析数据挖掘
一、引言：AI数据分析在数字化转型中的核心地位在当今企业全面数字化转型的背景下，‌AI数据分析已成为解锁业务增长潜力的关键钥匙。然而，市场上众多AI数据分析产品常陷入“伪需求场景”，看似前沿却难以真正落地。本文将深入探讨奥威BI如何通过其AI数据分析能力，突破伪需求，实现数据价值的最大化。二、AI数据分析：伪需求场景的挑战伪需求场景的定义与表现AI数据分析领域的伪需求场景，指的是那些表面创新实则难
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
AI助力基因数据分析：用Python玩转生命密码的秘密 Echo_Wish 前沿技术人工智能人工智能数据分析 python
AI助力基因数据分析：用Python玩转生命密码的秘密说到基因数据，听起来是不是感觉有点高大上？其实，基因数据分析正变得越来越“接地气”，而AI正是这条路上的神奇钥匙。今天，咱们就用Python聊聊如何利用AI技术做基因数据分析与建模，帮你破解生命的密码，找到疾病预测、个性化医疗的新路子。一、基因数据为何如此特别？基因组测序技术让我们能够获取人体细胞内数以百万计的DNA序列变异信息。但数据量巨大、
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不