独行侠梦

大数据分析平台搭建指南

先来谈谈企业搭建大数据分析平台的背景

1、搭建大数据平台离不开BI。在大数据之前，BI就已经存在很久了，简单把大数据等同于BI，明显是不恰当的。但两者又是紧密关联的，相辅相成的。

BI是达成业务管理的应用工具，没有BI，大数据就没有了价值转化的工具，就无法把数据的价值呈现给用户，也就无法有效地支撑企业经营管理决策；大数据则是基础，没有大数据，BI就失去了存在的基础，没有办法快速、实时、高效地处理数据，支撑应用。所以，数据的价值发挥，大数据平台的建设，必然是囊括了大数据处理与BI应用分析建设的。

2、大数据拥有价值。来看看数据使用金字塔模型，从数据的使用角度来看，数据基本有以下使用方式：

自上而下，可以看到，对数据的要求是不一样的：

数据量越来越大，维度越来越多
交互难度越来越大
技术难度越来越大
以人为主，逐步向机器为主
用户专业程度逐步提升，门槛越来越高

企业对数据、效率要求的逐步提高，也给大数据提供了展现能力的平台。企业构建大数据平台，归根到底是构建企业的数据资产运营中心，发挥数据的价值，支撑企业的发展。

整体方案思路如下：

建设企业的基础数据中心，构建企业统一的数据存储体系，统一进行数据建模，为数据的价值呈现奠定基础。同时数据处理能力下沉，建设集中的数据处理中心，提供强大的数据处理能力；通过统一的数据管理监控体系，保障系统的稳定运行。有了数据基础，构建统一的BI应用中心，满足业务需求，体现数据价值。

提到大数据就会提到hadoop。大数据并不等同于hadoop，但hadoop的确是最热门的大数据技术。下面以最常用的混搭架构，来看一下大数据平台可以怎么来搭建，支撑企业应用：

通过Kafka作为统一采集平台的消息管理层，灵活的对接、适配各种数据源采集（如集成flume），提供灵活、可配置的数据采集能力。

利用spark和hadoop技术，构建大数据平台最为核心的基础数据的存储、处理能力中心，提供强大的数据处理能力，满足数据的交互需求。同时通过sparkstreaming，可以有效满足企业实时数据的要求，构建企业发展的实时指标体系。

同时为了更好的满足的数据获取需求，通过RDBMS，提供企业高度汇总的统计数据，满足企业常规的统计报表需求，降低使用门槛。对大数据明细查询需求，则通过构建HBase集群，提供大数据快速查询能力，满足对大数据的查询获取需求。

如何整合大数据处理分析框架和工具？

面对海量的各种来源的数据，如何对这些零散的数据进行有效的分析，得到有价值的信息一直是大数据领域研究的热点问题。

大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具，实现对数据的挖掘和分析，一个大数据分析平台涉及到的组件众多，如何将其有机地结合起来，完成海量数据的挖掘是一项复杂的工作。

在搭建大数据分析平台之前，要先明确业务需求场景以及用户的需求，通过大数据分析平台，想要得到哪些有价值的信息，需要接入的数据有哪些，明确基于场景业务需求的大数据平台要具备的基本的功能，来决定平台搭建过程中使用的大数据处理工具和框架。

（1）操作系统的选择

操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台，要根据大数据平台所要搭建的数据分析工具可以支持的系统，正确的选择操作系统的版本。

（2）搭建Hadoop集群

Hadoop作为一个开发和运行处理大规模数据的软件平台，实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce：

HDFS是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，适用于那些有着超大数据集的应用程序
MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。

在生产实践应用中，Hadoop非常适合应用于大数据存储和大数据的分析应用，适合服务于几千台到几万台大的服务器的集群运行，支持PB级别的存储容量。

Hadoop家族还包含各种开源组件，比如Yarn，Zookeeper，Hbase，Hive，Sqoop，Impala，Spark等。使用开源组件的优势显而易见，活跃的社区会不断的迭代更新组件版本，使用的人也会很多，遇到问题会比较容易解决，同时代码开源，高水平的数据开发工程师可结合自身项目的需求对代码进行修改，以更好的为项目提供服务。

（3）选择数据接入和预处理工具

面对各种来源的数据，数据接入就是将这些零散的数据整合在一起，综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入，数据接入常用的工具有Flume，Logstash，NDC，sqoop等。

对于实时性要求比较高的业务场景，比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈，那么数据的接入可以使用开源的Strom，Spark streaming等。

当需要使用上游模块的数据进行计算、统计和分析的时候，就需要用到分布式的消息系统，比如基于发布/订阅的消息系统kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务，更好的保证数据的可靠和一致性。

数据预处理是在海量的数据中提取出可用特征，建立宽表，创建数据仓库，会使用到HiveSQL，SparkSQL和Impala等工具。随着业务量的增多，需要进行训练和清洗的数据也会变得越来越复杂，可以使用azkaban或者oozie作为工作流调度引擎，用来解决有多个hadoop或者spark等计算任务之间的依赖关系问题。

（4）数据存储

除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value系统，部署在HDFS上，与Hadoop一样，HBase的目标主要是依赖横向扩展，通过不断的增加廉价的商用服务器，增加计算和存储能力。同时hadoop的资源管理器Yarn，可以为上层应用提供统一的资源管理和调度，为集群在利用率、资源统一等方面带来巨大的好处。

Kudu是一个围绕Hadoop生态圈建立的存储引擎，Kudu拥有和Hadoop生态圈共同的设计理念，可以运行在普通的服务器上，作为一个开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Redis是一种速度非常快的非关系型数据库，可以将存储在内存中的键值对数据持久化到硬盘中，可以存储键与5种不同类型的值之间的映射。

（5）选择数据挖掘工具

Hive可以将结构化的数据映射为一张数据库表，并提供HQL的查询功能，它是建立在Hadoop之上的数据仓库基础架构，是为了减少MapReduce编写工作的批处理系统，它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。

Impala是对Hive的一个补充，可以实现高效的SQL查询，但是Impala将整个查询过程分成了一个执行计划树，而不是一连串的MapReduce任务，相比Hive有更好的并发性和避免了不必要的中间sort和shuffle。

Spark可以将Job中间输出结果保存在内存中，不需要读取HDFS，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器，用户可以通过http请求，向搜索引擎服务器提交一定格式的XML，生成索引，或者通过HTTP GET操作提出查找请求，并得到XML格式的返回结果。

还可以对数据进行建模分析，会用到机器学习相关的知识，常用的机器学习算法，比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

（6）数据的可视化以及输出API

对于处理得到的数据可以对接主流的BI系统，比如国外的Tableau、Qlikview、PowrerBI等，国内的帆软、SmartBI、永洪等，将结果进行可视化，用于决策分析。或者回流到线上，支持线上业务的发展。

成熟的搭建一套大数据分析平台不是一件简单的事情，本身就是一项复杂的工作，在这过程中需要考虑的因素有很多，比如：

稳定性：可以通过多台机器做数据和程序运行的备份，但服务器的质量和预算成本相应的会限制平台的稳定性；
可扩展性：大数据平台部署在多台机器上，如何在其基础上扩充新的机器是实际应用中经常会遇到的问题；
安全性：保障数据安全是大数据平台不可忽视的问题，在海量数据的处理过程中，如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。

大数据分析平台实现技术

1、硬件平台

大数据分析平台需要进行 PB 级数据的读取、写入，需要进行数据挖掘模型的大规模运算，需要进行预测结果的发布，对底层基础硬件的磁盘 IO 和运算速度要求很高，同时需要满足分布式、动态扩展的要求，因此采用配置为 2 路 8 核CPU、128GB 内存、千兆网卡的x86架构 PC Server 服务器。

2、平台软件

操作系统软件采用 Red Hat，数据采集采用 Flume-NG, 海量数据存储及分布式计算采用Hadoop，数据清洗采用 Hive，数据挖掘引擎采用 Spark R，预测结果保存在 HBase 中：

采用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统。
采用 Hadoop 构建 PB 级大数据平台，提供海量数据存储和分布式计算。
采用 Hive 做为数据清洗引擎，提供 PB级数据预处理、加工、整合服务。
采用 Spark R 组件，Spark R 提供了 Spark中弹性分布式数据集的 API，用户可以在集群上通过 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。
采用 HBase 技术可以提供海量数据的高效发布。

3、大数据挖掘模型开发

数据采集存储模块：DPI、业务侧、网元侧数据通过文件接口方式发送到 Flume-NG 集群，Flume-NG 通过 memory 数据传输方式，将接收到的数据实时的通过 hdfs 方式汇聚到大数据分析平台。
数据清洗模块：通过编写 HQL 脚本对数据进行清洗、转换，形成特征宽表。
数据挖掘模块：基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法，进行模型开发、模型评估、模型应用。
分析结果发布：模型应用的结果集存储在HBase 中，首先需要在 HBase 中新建存储结果集的 HBase 表，通过 Map Reduce 生成 HFile文件，然后通过 Bulk Load 方式入库。数据的调用通过 HBase API 实现，数据的展现通过ECharts 技术实现。

如何选择大数据平台？

如果用开源产品搭建大数据平台，还是很繁琐的，需要对细节比较了解。

可以选择商业版的hadoop平台，支持可视化一键部署。

有的大数据平台厂商利用的docker技术，直接就秒级创建一个大数据分布式平台

搭建大数据平台需要准备什么？

在具体回答之前，需要搞清楚以下几个问题，搞清楚了，其实问题的答案也就有了：

是从个人学习成长的角度想搭建平台自学？还是现在的公司需要大数据技术进行分析？

（1）如果是从个人学习成长的角度，建议直接按照Hadoop或者Spark的官网教程安装即可，建议看官网（英文），在大数据技术领域，英语的掌握是非常重要的，因为涉及到组件选型、日后的安装、部署、运维，所有的任务运行信息、报错信息都是英文的，包括遇到问题的解答，所以还是非常重要的。

（2）如果是公司需要进行大数据分析，那么还要研究以下几个问题：

为什么需要搭建大数据分析平台？
要解决什么业务问题？
需要什么样的分析？
数据量有多少？
是否有实时分析的需求？
是否有BI报表的需求？

这里举一个典型的场景：

公司之前采用Oracle或MySQL搭建的业务数据库，而且有简单的数据分析，或者可能采购了BI系统，就是直接用业务系统数据库进行支持的，现在随着数据量越来越大，那么就需要采用大数据技术进行扩容。

搞清楚需求之后，按照以下的步骤进行：

1、整体方案设计

整体方案设计时需要考虑的因素：

数据量有多少：几百GB？几十TB？
数据存储在哪里：存储在MySQL中？Oracle中？或其他数据库中？数据如何从现在的存储系统进入到大数据平台中？如何将结果数据写出到其他存储系统中？
分析主题是什么：只有几个简单指标？还是说有很多统计指标，需要专门的人员去梳理，分组，并进行产品设计
是否需要搭建整体数仓？
是否需要BI报表：业务人员有无操作BI的能力，或团队组成比较简单，不需要前后端人员投入，使用BI比较方便
是否需要实时计算？

2、组件选型

架构设计完成后就需要组件选型了，这时候最好是比较资深的架构师参与设计，选型包括：

离线计算引擎：Hadoop、Spark、Tez……
实时计算引擎：Storm、Flink、Samza、Spark Streaming……
BI软件：Tableau、QlikView、帆软……

3、安装部署

选型完成后，就可以进行安装部署了，这部分其实是最简单的，直接按照每个组件的部署要求安装即可。

4、另一种选择：采用商用软件

如果是企业需要搭建大数据平台，那么还有一种选择是直接采用商用的数据平台。市面上有很多成熟的商用大数据平台，Cloudera、星环、华为、亚信等等，都有对应的产品线。

一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤：

1、Linux系统安装

一般使用开源版的Redhat系统，CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。比如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，以确保操作系统的正常运行。

2、分布式计算平台/组件安装

当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS，一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

使用开源组件的优点：

1）使用者众多，很多bug可以在网上找的答案（这往往是开发中最耗时的地方）；

2）开源组件一般免费，学习和维护相对方便；

3）开源组件一般会持续更新；

4）因为代码开源，如果出现bug可自由对源码作修改维护。

常用的分布式数据数据仓库有Hive、Hbase，其中Hive可以用SQL查询，Hbase可以快速读取行。

外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。

Zookeeper是提供数据同步服务， Impala是对hive的一个补充，可以实现高效的SQL查询

3、数据导入

前面提到，数据导入的工具是Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。

4、数据分析

数据分析一般包括两个阶段：数据预处理和数据建模分析。

数据预处理是为后面的建模分析做准备，主要工作时从海量数据中提取可用特征，建立大宽表。这个过程可能会用到Hive SQL，Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模，得到想要的结果。如前面所提到的，这一块最好用的是Spark。常用的机器学习算法，如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等，都已经在ML lib里面，调用比较方便。

5、结果可视化及输出API

可视化一般式对结果或部分原始数据做展示。一般有两种情况，行数据展示，和列查找展示。

往期推荐

架构设计分享：项目用得到的多级缓存架构设计方案

案例分享，git项目持续集成实践

应用卡死的bug竟然是因为Redis使用不当？

Spring Boot 实现通用 Auth 认证的 4 种方式！

Redis 性能测试与监控

QPS、TPS、并发用户数、吞吐量关系

nginx事件模块结构体详解

AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
layui 复选框赋值前端layui
functioninitCheckBox(name){//从数据库中取出来的以逗号分隔的复选框的值varids="1,2,3";varworkdaysArr=ids.split(",");for(varj=0;j
Sa-Token v1.20.0 发布，新增临时Token认证
框架介绍Sa-Token是一个轻量级Java权限认证框架，主要解决：登录认证、权限认证、分布式Session会话、单点登录、OAuth2.0等一系列权限相关问题。框架针对踢人下线、自动续签、前后台分离、分布式会话……等常见业务进行N多适配，通过sa-token，你可以以一种极简的方式实现系统的权限认证部分Sa-Tokenv1.20.0版本更新包括以下内容：新增：新增Solon适配插件，感谢大佬@刘
Java：从入门到创新 java
Java：从入门到创新一、Java简介Java是一种广泛使用的高级编程语言，自1995年首次发布以来，一直深受开发者的喜爱。它由SunMicrosystems公司开发，后来被Oracle公司收购。Java的设计目标是简单、健壮、安全且跨平台，这些特性使其在企业级应用开发中占据重要地位。二、Java的主要特点（一）简单易学Java的语法与C语言和C++语言很接近，但丢弃了C++中一些复杂且容易出错的
【赵渝强老师】达梦数据库的数据库对象数据库信创
达梦数据库中包含各种数据库对象，主要分为两大类型：基本数据库对象和复杂数据库对象。下面分别进行介绍。视频讲解如下：https://www.bilibili.com/video/BV1HwffYXEu5/?aid=113888909595...一、基本数据库对象常见的基本数据库对象有：表、索引、视图、序列、同义词等。之所以叫做基本数据库对象是因为这些对象直接使用一条DDL（DataDefinitio
宝塔安装mayfly-go mayans005 数据库
mayfly-go:web版linux(终端文件脚本进程)、数据库(mysqlpgsql)、redis(单机哨兵集群)、mongo统一管理操作平台。1、终端执行命令下载程序包wgethttps://gitee.com/objs/mayfly-go/releases/download/v1.3.0/mayfly-go-linux-amd64.zip2、在宝塔新建一个MySQL数据库，将下载程序包中的
开源项目推荐：Mayfly-go 周风队
开源项目推荐：Mayfly-gomayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-goMayfly-go是一个基于浏览器的统一管理操作平台，它支持多种数据库和系统管理功能。该项目主要使用Go语言和前端框架
推荐项目：Mayfly-Go - 高性能的时间序列数据库齐游菊Rosemary
推荐项目：Mayfly-Go-高性能的时间序列数据库mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目简介是一款由Dromara团队开发的高性能、轻量级时间序列数据库（TimeSeriesData
Mayfly-Go 开源项目教程方蕾嫒Falcon
Mayfly-Go开源项目教程mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目介绍Mayfly-Go是一个基于Go语言开发的开源项目，旨在提供一个轻量级、高性能的微服务框架。该项目由Dromar
Flutter App开发，高效解决如何将用户登录手机号部分用星号代替在页面中展示 champion_ooO Flutter flutter
在开发App时，一般都会遇到个人中心的页面，这个时候页面中要展示出来用户当前登录手机号码，但是数据库存的是正常的手机号，需要前端自己来将部分用星号('*')代替。第一步：定义一个变量存储手机号classPersonPageextendsStatefulWidget{constPersonPage({Key?key}):super(key:key);@overrideStatecreateState
从指令集鸿沟到硬件抽象：AI 如何重塑手机与电脑编程语言差异——PanLang 原型全栈设计方案与实验性探索1 灏瀚星空 PanLang 原型全栈设计方案与实验性探索人工智能智能手机开发语言架构机器学习语言模型模板方法模式
AI如何跨越指令集鸿沟？手机与电脑编程语言差异溯源与统一路径——PanLang原型全栈设计方案与实验性探索1文章目录AI如何跨越指令集鸿沟？手机与电脑编程语言差异溯源与统一路径——PanLang原型全栈设计方案与实验性探索1前言一、手机与电脑编程语言的核心差异二、实现语言统一的技术路径1.硬件抽象层设计（HAL2.0）2.自适应运行时系统3.跨平台UI引擎三、新型统一语言设计要素1.核心特性2.编
记录一次truncate导致MySQL夯住的故障猿小喵 MySQL #故障诊断与恢复 #备份恢复 mysql 数据库
目录环境信息：故障描述：处理过程：原理分析：showprocesslist结果中的systemlock含义：truncate原理：1.TRUNCATE的执行流程2、TRUNCATE表导致数据库夯住的原因3、TRUNCATE表导致数据库夯住的解决方案4、killTRUNCATE语句失败后，主从数据不一致的原因：5、为什么TRUNCATETABLEusers会影响其他表的SQL6、为什么KILL语句无
《MySQL 入门教程》第 30 篇数据库索引不剪发的Tony老师 MySQL入门教程 mysql 索引 create index drop index
文章目录30.1创建索引30.2查看索引30.3修改索引30.4删除索引数据库索引（Index）就像书籍后面的关键字索引，按照关键字进行排序，并且提供了指向具体内容的页码。索引可以用于提高数据库的查询性能；但是索引需要占用额外的磁盘空间，修改数据时也需要进行索引的维护。了解并适当利用索引对于数据库的优化至关重要，本篇我们介绍MySQL索引的管理。关于B-树索引的原理以及利用索引优化SQL语句的详细
SpringBoot分布式架构下字典表设计与实战应用潘多编程 spring boot 分布式架构
在分布式系统中，字典表作为基础数据的核心载体，其设计合理性直接影响系统的扩展性和维护效率。本文将结合具体代码实例，深入讲解分布式环境下字典表的设计方案与实现细节。一、分布式环境下的字典表挑战数据一致性要求：多服务节点间的字典数据同步高并发访问压力：基础数据的频繁读取需求动态更新需求：业务运行时字典数据的热更新能力多级缓存策略：本地缓存与分布式缓存的协同工作二、技术方案设计架构图：[Client]-
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
青少年编程与数学 02-011 MySQL数据库应用 10课题、记录的操作明月看潮生编程与数学第02阶段数据库青少年编程 mysql 编程与数学
青少年编程与数学02-011MySQL数据库应用10课题、记录的操作一、表的记录表的记录的组成示例插入记录查看记录记录的操作1.插入记录（INSERT）2.更新记录（UPDATE）3.删除记录（DELETE）4.查询记录（SELECT）记录的约束示例：带约束的表总结二、添加记录1.插入单条记录插入单条记录2.插入多条记录插入多条记录3.插入部分字段插入部分字段4.插入查询结果插入查询结果5.插入时
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Redis中的数据类型与适用场景 cooldream2009 数据库 redis 数据库缓存
目录前言1.字符串(String)1.1特点1.2适用场景2.哈希(Hash)2.1特点2.2适用场景3.列表(List)3.1特点3.2适用场景4.集合(Set)4.1特点4.2适用场景5.有序集合(SortedSet)5.1特点5.2适用场景6.Redis数据类型的选型建议结语前言Redis作为一款高性能的内存数据库，以其卓越的速度和丰富的数据类型广泛应用于各类高并发场景。相较于传统的关系型数
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
后端安全可靠性 Small踢倒coffee_氕氘氚 python自学笔记经验分享
第一步应该提到参数化查询，也就是预编译语句。这是最有效的方法，比如用PDO或者预处理语句来分离数据和指令。然后，ORM框架也是一个好办法，因为它们通常自动处理参数化，减少手写SQL的机会。接下来，输入验证和过滤很重要。虽然不能完全依赖，但白名单验证比如只允许特定字符，或者转义特殊字符，比如MySQL的mysqli_real_escape_string。不过要注意转义不是绝对安全，尤其是不同数据库有
MyBatis注解——多对多 xingcsdnboke MyBatis mybatis java spring
1、数据库建表语句CREATETABLE`user`(`id`int(11)DEFAULTNULL,`username`varchar(50)DEFAULTNULL);CREATETABLE`role`(`id`int(11)DEFAULTNULL,`rolename`varchar(50)DEFAULTNULL,`roledesc`varchar(50)DEFAULTNULL);CREATETA
MyBatis注解——一对一 xingcsdnboke MyBatis mybatis java spring
1、订单对应用户：一对一，数据库CREATETABLE`orderinfo`(`id`int(11)DEFAULTNULL,`ordertime`datetimeDEFAULTNULL,`total`decimal(8,2)DEFAULTNULL,`uid`int(11)DEFAULTNULL);CREATETABLE`user`(`id`int(11)DEFAULTNULL,`username`
MyBatis——基于MyBatis注解的学生管理程序基础较差的cs菜鸟 JavaEE实验 mybatis java mysql
MyBatis——基于MyBatis注解的学生管理程序Resourcedao层pojo层utils层测试层实验要求本实验要求根据学生表在数据库中创建一个s_student表，根据班级表在数据库中创建一个c_class表，班级表c_class和学生表s_student是一对多的关系。实验内容表1学生表（s_student）学生编号（id）学生名称（name）学生年龄（age）所属班级（cid）1
MySQL 中 int (1) 和 int (10) 的区别详解阿贾克斯的黎明游戏开发 mysql 数据库
目录MySQL中int(1)和int(10)的区别详解在MySQL数据库的使用过程中，我们创建数据表时经常会用到整数类型，比如int。而细心的开发者可能会注意到，int后面可以跟一个数字，像int(1)和int(10)，这两者到底有什么区别呢？今天我们就来深入探讨一下。在MySQL中，int类型后面括号里的数字M，代表的是显示宽度，最大取值为255。需要明确的是，这个显示宽度和该类型可以存储的范围
事务回滚核心技术 KBkongbaiKB java
一、事务回滚的数学本质与核心挑战1.1事务状态机模型操作执行持久化完成系统故障事务回滚ActivePartiallyCommittedCommittedFailedAborted1.2核心技术挑战矩阵问题维度单机事务分布式事务原子性保证存储引擎WAL日志二阶段提交协议隔离性实现MVCC多版本控制全局锁调度机制可见性管理事务ID版本链向量时钟同步回滚触发条件SQL执行异常/死锁网络分区/节点故障二、
如何保证 Redis 缓存与数据库双写一致性？凌志学java 后端数据库缓存 redis 数据库
在做系统优化时，想到了将数据进行分级存储的思路。因为在系统中会存在一些数据，有些数据的实时性要求不高，比如一些配置信息。基本上配置了很久才会变一次。而有一些数据实时性要求非常高，比如订单和流水的数据。所以这里根据数据要求实时性不同将数据分为三级。第1级：订单数据和支付流水数据；这两块数据对实时性和精确性要求很高，所以不添加任何缓存，读写操作将直接操作数据库。第2级：用户相关数据；这些数据和用户相关
mysql8 本地安装my.ini 文件求生之路程序人生 mysql8 my.ini
[mysql]#设置mysql客户端默认字符集default-character-set=utf8[mysqld]default_authentication_plugin=mysql_native_password#设置3306端口port=3306#设置mysql的安装目录basedir=C:\ProgramFiles\mysql#设置mysql数据库的数据的存放目录，MySQL8+不需要以下
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

大数据分析平台搭建指南

你可能感兴趣的:(分布式,数据库,大数据,数据挖掘,编程语言)