栗子哥

【AWS征文】[数据仓库]Redshift 动手实验---分析美联航airline数据

在实验之前，还是简单介绍一下Redshift吧，至于数据仓库基础知识和原理就不在这里展开了。

Amazon Redshift 是一种运行快速、完全托管的 PB 级数据仓库，让您可以通过简单而经济高效的方式使用现有商业智能工具来分析所有数据。通常可以进行 3 倍压缩，以显著降低成本。使用标准的 PostgreSQL JDBC 和 ODBC 驱动程序。篇幅原因先说两个特性，具体可以去官网查找。

数据仓库优化
使用了列式存储、数据压缩及区域映射，可以减少执行查询所需的 I/O 数量。Amazon Redshift 采用了大规模并行处理 (MPP) 数据仓库架构，可以对 SQL 操作进行并行分布处理，以便利用所有可用资源。
可扩展
能或容量需求发生变化时，轻松更改云数据仓库中的节点数量或类型。通过密集存储 (DS) 节点，您能够以非常低的价格使用硬盘 (HDD) 创建超大型数据仓库。通过密集计算 (DC) 节点，您可以使用高速 CPU、大量 RAM 和固态硬盘 (SSD) 创建超高性能数据仓库。

实验包括：
1. 创建一个Amazon Redshift集群
2. 通过SQL客户端连接Amazon Redshift
3. 加载S3的数据到Amazon Redshift
4. 查询Amazon Redshift中的数据
5. 监控Amazon Redshift的性能

Task1：创建一个Amazon Redshift集群

Nodes 为2个
下拉到Database configuration 中：
Database name：lab
Master user name：master
Master user password：Redshift123
然后创建（或选择）一个具有S3 full access的role。
如果没有创建一个：

{
"Version": "2012-10-17",
"Statement": [
{
"Action": "s3:",
"Resource": "",
"Effect": "Allow"
}
]
}

在Cluster permission 中选择刚刚创建的role：Redshift-Role
Copy这个role的ARN，我们后面会用得到：arn:aws:iam::303364507332:role/Redshift-Role

其他设置：注意选择的Security Group 放行inbound TCP 5439端口：

开始创建：

创建完成后的状态:

Task2: 链接Amazon Redshift

有两种大类方式连接Redshift集群, 我两种方法都简单介绍一下:
一：使用AWS console 直接Query cluster。
二：使用DB client，比如pgweb去连接，注意端口号是5439。
第一种方法，直接点Redshifit上的，Query cluster 输入相关数据库名称，用户和临时密码就可以登录进去并执行Query语句。
（注意，要用临时密码登录）

Task3：加载S3的数据到Amazon Redshift

先创建数据仓库的表, copy以下代码到Redshift的Query editor中并run:
（注意，创建的表在public的schema中）

CREATE TABLE flights (
year smallint,
month smallint,
day smallint,
carrier varchar(80) DISTKEY,
origin char(3),
dest char(3),
aircraft_code char(3),
miles int,
departures int,
minutes int,
seats int,
passengers int,
freight_pounds int
);

返回的结果：

然后，Copy这段代码到Query editor中并run ：
（注意：IAM_ROLE 后边替换成自己的IAM ARN，'arn:aws:iam::303364507332:role/Redshift-Role’ ）
COPY flights
FROM 's3://us-west-2-aws-training/awsu-spl/spl-17/4.2.6.prod/data/flights-usa'
IAM_ROLE 'arn:aws:iam::303364507332:role/Redshift-Role'
GZIP
DELIMITER ','
REMOVEQUOTES
REGION 'us-west-2’;
（注意，如果这个query很快就执行完了，然后运行sql的时候没有查询到数据，请检查你的role是否add成功。）

这个代码执行需要一点时间（2分钟左右，我用海外的Redshift，1分44秒搞定。为啥这么快？看数据源的地址。），因为会copy 6GB的数据包括了 23个CSV数据文件，数据统计了1990-2012年美联航的数据（96825753条数据）。
执行的时候，数据是并行加载从S3中加载到Redshift集群的。
当我们创建一个表的时候我们可以指定分区键，这次实验中分区键是 carrier varchar(80) DISTKEY,
所以当数据加载到表中时，每一行的数据会根据分区键分配到各个node slices中。在前面Redshift的架构中也有讲过，选择一个合适的分区键可以很好的提升我们的查询效率和并行数据加载的速度。
经过2-5钟的等待时间，完成数据的copy

可以先用DB client 工具查看一下，数据是这样子的（九千多万条数据）：

Task4：Run Queries：

SELECT COUNT() FROM flights;

做数据分析或数据探索，理解每一个字段代表的含义十分重要，字段注释如下：

1.先随机找出flights表中的10条数据。
SELECT
FROM flights
ORDER BY random()
LIMIT 10;

2.找出出发次数最多的 top10 的Airline公司并groupby carrier。
SELECT
carrier,
SUM (departures)
FROM flights
GROUP BY carrier
ORDER BY 2 DESC
LIMIT 10;

其实还有很多可以写，在对应企业具体需求的时候，老板们会有很多想法，比如，
他还想知道载客量最多的TOP3的航空公司都有哪些？

Task 5： Joining tables

表关联查询，跟关系型数据库的方法差不多，我在前面的课程中有讲过。数据仓库的概念实际就是数据库的升级版本，更庞大的数据，更多维度的分析。
我们再创建一张table，并定义它的Schema：
CREATE TABLE aircraft (
aircraft_code CHAR(3) SORTKEY,
aircraft VARCHAR(100)
);

然后往表中注入数据，跟之前的步骤一样，COPY命令到Query editor中：
COPY aircraft
FROM 's3://us-west-2-aws-training/awsu-spl/spl-17/4.2.6.prod/data/lookup_aircraft.csv'
IAM_ROLE 'arn:aws:iam::283565736923:role/Redshift-Role'
IGNOREHEADER 1
DELIMITER ','
REMOVEQUOTES
TRUNCATECOLUMNS
REGION 'us-west-2’;

我们先随机查一下新创建的table中的随机10条数据：
SELECT *
FROM aircraft
ORDER BY random()
LIMIT 10;

返回的结果：

这个表我们发现，包含两个字段，一个是aircraft code，另一个是aircraft。这个aircraft code同时也是flights表中的字段。那么我们就可以把他们做关联join，做很多维度的查询了。（JOIN aircraft using (aircraft_code)）
执行SQL：飞行次数（别名为trips）TOP10 的aircraft（应该是航班号）。
SELECT
aircraft,
SUM(departures) AS trips
FROM flights
JOIN aircraft using (aircraft_code)
GROUP BY aircraft
ORDER BY trips DESC
LIMIT 10;

后面的步骤是使用DB client（pgweb去连接，注意端口号是5439），感兴趣同学再用它做一遍，也可以忽略。直接跳到Task6：性能分析

Host地址在Redshift的

然后Run Query 就会有一个名为flights的表创建完成：

Task6: 加载数据：

然后执行COPY命令

Task7：Run Queries：

运行SQL：SELECT COUNT() FROM flights;

SELECT FROM flightsORDER BY random()LIMIT 10;

SELECT carrier, SUM (departures)FROM flightsGROUP BY carrierORDER BY 2 DESCLIMIT 10;

Task8：性能分析

这个SQL需要用DB clinet去Run，因为Redshift query editor不支持multiple sql。ERROR: Multiple sql statements are not allowed.
SET enable_result_cache_for_session TO OFF;

EXPLAIN
SELECT
aircraft,
SUM(departures) AS trips
FROM flights
JOIN aircraft using (aircraft_code)
GROUP BY aircraft
ORDER BY trips DESC
LIMIT 10;

什么意思呢？这句SQL主要是分析每一个逻辑步骤中query所消耗的时长。什么时候执行SUM，它的COST是？什么时候执行JOIN，它的COST是？对应优化SQL的查询性能十分重要。
数据压缩和列式存储
这两点是数据仓库查询效率比传统关系型数据库快的主要原因。
执行这条SQL，我们来分析一下：
ANALYZE COMPRESSION flights;

Encoding 是压缩方式，Est_reduction_pct 代表压缩率。是不是很惊人？！
具体可以参考：https://docs.aws.amazon.com/zh_cn/redshift/latest/dg/r_ANALYZE_COMPRESSION.html

Task9：从已有的表中创建新的表。

目的是为了进一步分析，比如我想分析有多少飞往洛杉矶的乘客？TOP10最受欢迎的飞往Las Vegas的航班是?
好，我们开始，创建一个airport的table，并定义SORTKEY：
CREATE TABLE airports (
airport_code CHAR(3) SORTKEY,
airport varchar(100)
);

COPY airports
FROM 's3://us-west-2-aws-training/awsu-spl/spl-17/4.2.6.prod/data/lookup_airports.csv'
IAM_ROLE 'arn:aws:iam::488279654332:role/Redshift-Role'
IGNOREHEADER 1
DELIMITER ','
REMOVEQUOTES
TRUNCATECOLUMNS
REGION 'us-west-2';
创建一个Las Vegas 航班的table.
CREATE TABLE vegas_flights
DISTKEY (origin)
SORTKEY (origin)
AS
SELECT
flights.*,
airport
FROM flights
JOIN airports ON origin = airport_code
WHERE dest = 'LAS’;
然后我们找到TOP10最受欢迎的飞往Las Vegas的航班是?
SELECT
airport,
to_char(SUM(passengers), '999,999,999') as passengers
FROM vegas_flights
GROUP BY airport
ORDER BY SUM(passengers) desc
LIMIT 10;

Task10：检查磁盘空间和数据分布

SELECT
owner AS node,
diskno,
used,
capacity,
used/capacity::numeric * 100 as percent_used
FROM stv_partitions
WHERE host = node
ORDER BY 1, 2;

Used：Megabytes，多少MB磁盘使用
Capacity：磁盘空间。
Percent_used：用了多少。这里node0 用了0.54%，node1 用了 0.42%。

Task11：监控与维护

每一个Query的执行情况：

集群的监控概况：

对现有集群的配置与更改：
加密、快照、还原、修改配置信息等等都在这里了。

创建报警：

好，没想到一步一步的做，写了这么多。
最后别忘了关闭集群，土豪随意。

你可能感兴趣的:(aws,数据仓库,数据分析,云数据库DaaS)

FutureWarning: The pandas.core.datetools module is deprecated and will be removed in a future versio byteyoung 错误调试
一直用pandas做数据分析，不过一直用的是老版本，还是0.20，今天做平稳性分析，出现了一个警告信息FutureWarning:Thepandas.core.datetoolsmoduleisdeprecatedandwillberemovedinafutureversion.Pleaseusethepandas.tseriesmoduleinstead.frompandas.coreimpor
数据总线/一致性维度/总线矩阵 DouMiaoO_Oo 数据仓库
数据孤岛企业内部各个系统中的数据被隔离在不同的数据库中，无法进行共享和整合，严重影响了企业的决策能力和运营效率。数据仓库数据总线一种技术解决方案，旨在实现数据仓库与各个数据源之间的数据集成、交换和共享，通常做法是将所有的数据源连接到一条共享的数据总线上。数据总线通过建立数据集成层，实现了不同数据源之间的数据传输和转换，从而打破数据孤岛，实现数据共享。数据总线连接多个数据源，并将数据按照一定的规则进
《小区综合管理服务平台设计与实现》任务书 zp8126 毕业设计任务书论文
任务书项目名称小区综合管理服务平台设计与实现项目背景随着信息技术的发展，社区服务逐渐向数字化、智能化方向转型。为了提高居民生活质量，增强物业管理效率，减少人力成本，构建一个高效便捷的小区综合管理服务平台显得尤为重要。本项目旨在通过结合云计算、大数据分析等技术手段，为用户提供包括但不限于物业报修、费用缴纳、公告通知、安防监控等功能在内的全方位服务体验。一、课题主要内容1.需求分析目标用户群体：明确平
深度学习基础知识 namelijink 深度学习人工智能
cuda简介：CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的一种并行计算平台和应用程序编程接口（API）。它允许开发人员利用NVIDIA的GPU（图形处理器）来加速各种计算任务，包括科学计算、机器学习、深度学习、数据分析等。NVIDIA是一个全球领先的计算技术公司，专注于设计和制造高性能计算设备。除了生产强大的GPU，NVIDIA还提供与其GPU
ML.NET库学习006：成人人口普查数据分析与分类预测 North_D ML.NET库机器学习人工智能深度学习数据挖掘目标检测自然语言处理神经网络
文章目录ML.NET库学习006：成人人口普查数据分析与分类预测概述数据集数据字段解释为何数据准备很重要主要功能与模块数据准备机器学习工作流代码结构说明数据准备模块机器学习工作流数据加载与分割特征工程与模型训练模型评估与预测实现细节与注意事项数据准备模块机器学习工作流性能优化项目优势LightGBM分类器原理说明总结ML.NET库学习006：成人人口普查数据分析与分类预测概述本项目使用C#和ML.
人工智能爆火下，关于软件技术专业的发展思考 yzx991013 人工智能
软件技术专业作为信息技术领域的核心学科，其发展方向始终与技术进步和社会需求紧密相关。以下是软件技术专业未来发展的关键方向及学习建议：一、技术方向与前沿领域1.云原生与分布式架构方向：云原生技术（Kubernetes、Docker、Serverless）、微服务架构、分布式系统设计。原因：企业全面上云已成趋势，需要高效、弹性的云原生解决方案。学习建议：掌握AWS/Azure/GCP等云平台，学习服务
数字化转型三大核心要素：数据、技术、人才千千标寻大数据云计算人工智能 ai
数字化转型的三大核心要素——数据、技术和人才，是推动企业在数字经济时代取得成功的关键。数据数据是数字化转型的基础。高质量的数据能够为企业提供深刻的市场洞察和客户行为分析，帮助做出更明智的决策。通过有效管理和利用数据，企业可以优化运营流程，提升产品和服务质量，从而实现更高的效率和客户满意度。技术先进的技术支持是实现数字化转型的关键驱动力。无论是云计算、人工智能、大数据分析还是物联网，这些前沿技术的应
python判断数据和excel中是否相等_对比Excel学习python数据分析-学习笔记4 re1key
一对一替换多对一替换多对多替换参考一列数值进行排序参照有缺失值的列排序参考多数值列排序数值排名删除列删除行删除特定列行数值计数唯一值获取数值查找区间切分插入新的行或列行列互换索引重塑长宽表转换apply()和applymap()函数1.数值替换一对一替换replace(A,B)-用B替换A；replace(A,B,inplace=True)-用B替换A，元数据也将被替换掉；replace(np.N
Apache Iceberg 与 Apache Hudi：数据湖领域的双雄对决夜里慢慢行456 大数据大数据
在数据存储和处理不断发展的领域中，数据湖仓的概念已经崭露头角，成为了一种变革性的力量。数据湖仓结合了数据仓库和数据湖的最佳元素，提供了一个统一的平台，支持数据科学、商业智能、人工智能/机器学习以及临时报告等多种关键功能。这种创新的方法不仅促进了实时分析，还显著降低了平台成本，增强了数据治理，并加速了用例的实现。数据存储和处理的演变催生了被称为数据湖仓的现代分析平台。这些平台旨在解决传统架构的局限性
探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合窦育培
探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com/gh_mirrors/sp/spark-snowflake项目介绍在大数据处理的浩瀚宇宙中，Snowflake以其独特的云数据仓库能力闪耀，而ApacheSpark则是数据分析和
如何学BI大数据想做富婆大数据相关大数据 BI大数据
职业规划建议1.短期目标（1-2年）积累经验：通过实习或初级岗位（如数据分析师、商业分析师）积累经验。提升技能：深入学习SQL、Python、BI工具，掌握数据分析和可视化技能。建立作品集：完成个人项目或参与开源项目，展示数据分析能力。2.中期目标（3-5年）专业化发展：根据兴趣选择细分方向，如数据可视化、BI开发或数据运营。提升软技能：加强沟通、项目管理能力，提升商业敏感度。行业深耕：选择感兴趣
Redis Sentinel（哨兵）模式介绍 WeiLai1112 Redis redis sentinel bootstrap
Redis哨兵模式：详解高可用性解决方案引言随着互联网应用的快速发展，系统对可靠性和高性能的要求越来越高。作为内存数据库的代表，Redis以其快速响应和灵活的数据结构，广泛应用于缓存、消息队列、实时数据分析等场景。然而，在实际生产环境中，硬件故障、网络中断等问题不可避免。为了保证Redis的高可用性（HighAvailability,HA），Redis提供了哨兵模式（SentinelMode）。本
微信小程序邂逅Echarts：从入门到避坑全攻略 Jiaberrr javascript 前端微信小程序小程序 vue.js
一、引言在当今数字化时代，数据可视化对于数据分析和展示至关重要。微信小程序作为一种轻量级应用，在各类场景中广泛应用，而在小程序中实现数据可视化，能让用户更直观地理解数据。Echarts是一款由百度开源的强大的数据可视化图表库，提供了丰富的图表类型，如折线图、柱状图、饼图、地图等，满足各种数据展示需求。将Echarts集成到微信小程序中，能为小程序增添强大的数据可视化能力，提升用户体验。无论是展示业
量子计算 for Everyone？Amazon Braket 如何降低技术门槛？ Anna_Tong 量子计算 aws devops 人工智能科技云端量子计算 Amazon Braket
在科技飞速发展的今天，量子计算已不再只是理论探索，而是逐步走向实际应用的前沿技术。它被视为计算领域的颠覆性突破，能够解决经典计算机难以处理的复杂问题，如优化算法、材料科学、人工智能、金融建模等。然而，受限于昂贵的硬件成本、高门槛的算法开发，以及复杂的量子物理知识，量子计算的普及仍面临巨大挑战。AmazonBraket作为AWS旗下的云端量子计算平台，正试图改变这一现状。它不仅提供量子计算的基础设施
# 解析Excel文件：处理Excel xlsx file not supported错误 [特殊字符] AI航海家(Ethan) python excel python 开发语言
解析Excel文件：处理Excelxlsxfilenotsupported错误嘿，数据分析的小伙伴们！我知道在处理Excel文件的时候，很多人可能会遇到这样一个错误：Excelxlsxfilenotsupported。别担心，这篇文章会帮你理清这个错误产生的原因，并教你如何避免掉进这个坑！让我们开始吧！问题原因这个错误通常与xlrd库的版本有关。从xlrd1.2.0版本开始，这个库不再支持xlsx
汽车行业汽车召回数据爬虫：抓取汽车召回数据，分析产品质量和安全问题西攻城狮北汽车爬虫安全 python 实战案例
目录一、搭建开发环境1.依赖库安装2.配置虚拟环境（可选）二、目标网站分析1.网页结构分析2.动态内容识别三、编写爬虫代码1.从静态页面抓取数据1.1获取页面内容1.2解析HTML1.3完整示例2.抓取动态加载内容2.1配置Selenium和ChromeDriver2.2模拟浏览器抓取3.处理分页四、数据清洗与存储1.数据清洗2.数据存储五、数据分析与可视化1.数据分析2.数据可视化六、项目优化1
共享设备管理难？MDM助力Kiosk模式一键部署 EasyControl移动设备管理 MDM功能介绍 kiosk 霸屏模式移动设备管理运维
目录1.简化设备部署与配置：实现一键式部署2.自动化应用更新与内容推送：确保设备始终保持最新状态3.权限控制与设备安全：防止滥用与数据泄露4.远程管理与故障诊断：保障设备长期稳定运行5.数据分析与报告：优化设备管理决策6.降低管理成本，提高运营效率随着零售行业和餐饮行业自助服务模式的普及，Kiosk模式（自助终端、单一应用模式）逐渐成为提升客户体验和运营效率的关键工具。无论是零售店的自助结账机、餐
64个数据分析常用术语详解【数分必备干货】扫地僧009 数据分析人工智能数据挖掘
目录一、基础统计指标1.绝对数2.相对数3.百分比和百分点百分比百分点4.频数和频率频数频率5.比例与比率比例比率6.倍数和番数倍数番数7.同比和环比同比环比二、变量相关概念1.变量2.连续变量3.离散变量4.定性变量三、数据集中趋势与离散程度指标1.均值2.中位数3.缺失值4.异常值5.方差6.标准差7.皮尔森相关系数四、网站分析指标1.PV（PageView）页面浏览量2.UV（UniqueV
搭建Kubernetes集群之私有云安装指南 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介背景在分布式系统中，Kubernetes是最流行的容器编排调度工具。它是一个开源的、全面性的解决方案，提供了跨主机、跨云平台的部署环境。随着容器技术的飞速发展，越来越多的公司开始采用容器技术，基于Kubernetes构建自己的集群。而私有云市场上的Kubernetes发行版，也正在蓬勃发展。因此，我们将会以AWSEKS和GoogleGKE为例，通过一个Kuber
Python爬虫技术：挖掘淘宝店铺详情小爬虫程序猿 API python 爬虫开发语言
在数字化时代，数据已成为企业最宝贵的资产之一。对于电商平台，尤其是淘宝这样的大型电商平台，店铺详情数据的获取和分析对于商家来说至关重要。它不仅可以帮助商家了解市场趋势，还可以优化营销策略，提升销售业绩。本文将介绍如何利用Python爬虫技术获取淘宝店铺详情，并进行初步的数据分析。一、Python爬虫技术简介Python作为一种强大的编程语言，拥有丰富的库支持，使其在爬虫领域备受青睐。通过Pytho
利用 Python 爬虫获取按关键字搜索淘宝商品的完整指南数据小小爬虫 python 爬虫开发语言
在电商数据分析和市场研究中，获取商品的详细信息是至关重要的一步。淘宝作为中国最大的电商平台之一，提供了丰富的商品数据。通过Python爬虫技术，我们可以高效地获取按关键字搜索的淘宝商品信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品信息，并提供详细的代码示例。一、项目背景与目标淘宝平台上的商品信息对于商家、市场研究人员以及消费者都具有重要价值。通过分析这些数据，可以了解市场趋势、消费者
利用Python爬虫获取淘宝店铺详情数据小小爬虫 python python 爬虫开发语言
在数字化时代，数据已成为企业最宝贵的资产之一。对于电商平台，尤其是淘宝这样的大型电商平台，店铺详情数据的获取和分析对于商家来说至关重要。它不仅可以帮助商家了解市场趋势，还可以优化营销策略，提升销售业绩。本文将详细介绍如何利用Python爬虫技术获取淘宝店铺详情，并进行初步的数据分析。一、Python爬虫技术简介Python作为一种强大的编程语言，拥有丰富的库支持，使其在爬虫领域备受青睐。通过Pyt
数据仓库与数据挖掘记录二匆匆整棹还数据仓库数据挖掘人工智能
1.数据仓库的产生从20世纪80年代初起直到90年代初,联机事务处理一直是关系数据库应用的主流。然而,应用需求在不断地变化,当联机事务处理系统应用到一定阶段时,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,进而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。把这种基于业务数据的决策分析
江苏地区纺织机械行业首选的设备运行监测系统基于SKF IMAX-8与开源DuodooBMS的纺织机械预测性维护全流程方案邹工转型手札 Duodoo开源企业信息化开源开源制造人工智能
引言：工业设备维护的数字化转型挑战纺织机械行业面临高湿度、高粉尘、连续运行等严苛工况，传统定期维护模式存在效率低、成本高、故障响应滞后等问题。预测性维护（PdM）通过实时数据分析与AI模型预测设备健康状态，成为行业降本增效的关键路径。然而，如何实现从边缘数据采集到云平台分析的深度融合，仍是技术落地的难点。本文将结合SKFIMAX-8边缘计算盒子与开源DuodooBMS（基于Odoo的设备数采方案）
江苏地区电子制造行业首选的设备运行监测系统SKF IMAX-8边缘计算盒子与DuodooBMS实现高效预测性维护邹工转型手札 Duodoo开源企业信息化开源开源人工智能制造
引言在电子制造行业中，设备高精度、高复杂度、高频率换线的生产特点对设备稳定性提出了严苛要求。传统维护方式依赖人工巡检和定期检修，存在响应滞后、成本高昂等问题。预测性维护（PredictiveMaintenance,PdM）通过实时数据分析和AI算法，能够提前识别设备潜在故障，大幅降低停机风险。然而，实现这一目标需要解决设备数据采集、边缘实时计算、平台深度融合等关键问题。本文将结合SKFIMAX-8
先进制造aps专题二十九基于ai智能体的生产排程和工厂生产仿真引擎的设计 lijianhua_9712 aps ai智能体仿真引擎
上文中，我们说，通常的做法是，可以先通过排产仿真引擎产生生产计划，再在工厂仿真引擎里仿真执行，这样可以预先分析计划和执行的差异情况并进行调整优化这里的产生生产计划，仿真生产执行和数据分析都是人工进行的这些工作可以让ai智能体来做，从而实现整套流程的自动化和智能化我们可以在强化学习框架中结合排产仿真/工厂生产仿真框架，在强化学习框架的准备函数里启动排产仿真引擎获得生产计划，并导入到工厂仿真引擎里执行
数据仓库与数据挖掘记录三匆匆整棹还数据挖掘
数据仓库的数据存储和处理数据的ETL过程数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换.加载与索引等数据调和工作,如图2.2所示。1）数据提取（Extract）从多个数据源中获取原始数据（如数据库、日志文件、API、云存储等）。数据源可能是结构化（如MySQL）、半结构化（如JSON）、非结构化（如文本）。关键技术：SQL查询、Web爬虫、日志采集工具（如Flume）
高聚合低耦合草藤木屋软件设计 Data Warehouse 软件工程高聚合低耦合高聚合低耦合
这是软件工程中的概念。首先要知道一个软件是由多个子程序组装而成,而一个程序由多个模块(方法)构成!内聚就是指程序内的各个模块之间的关系紧密程度。偶合就是各个外部程序(子程序)之间的关系紧密程度.。所以很易明白,为什么要高内聚?模块之间的关系越紧密,出错就越少!低偶合?子程序间的关系越复杂,就会产生更多的意想不到的错误!会给以后的维护工作带来很多麻烦!同样的，可以将这个思想用在建设企业数据仓库上。做
TikTok 广告如何提高 ROI？跨境一哥跨境电商大数据
TikTok作为全球热门的短视频平台，广告投放已成为品牌和卖家获取流量的重要渠道。然而，如何提高广告的投资回报率（ROI），让预算花得更值，是广告投放者必须掌握的关键技巧。本文将从目标受众、创意优化、出价策略和数据分析等方面，详细解析TikTok广告投放的优化策略，帮助你最大化广告收益。1.明确广告目标，精准锁定受众在投放广告前，首先要确定营销目标，例如：品牌曝光：适用于新品推广，提高品牌知名度引
oltp olap的区别薛定谔的猫1982 系统架构系统架构
OLTP（联机事务处理）和OLAP（联机分析处理）有以下多方面的区别：应用场景OLTP：用于处理企业的日常业务交易，比如银行的存取款业务、电商网站的订单生成、酒店的客房预订等，侧重于对业务流程的支持，确保事务的快速处理和数据的即时更新。OLAP：主要用于企业的决策支持和数据分析场景，如市场趋势分析、销售业绩评估、财务状况分析等，帮助管理层从宏观角度理解业务数据，为决策提供依据。数据特点OLTP数据
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他