思迈特Smartbi

跟着阿拉丁学习民生银行数据分析

近年来，数据分析因其自身显而易见的应用价值，从而得到了迅猛发展，与此同时“数据化管理、数据化运营、数据化决策”等的管理理念也渗透到了各行各业。放眼当下，企业间的经营竞争越发剑拔弩张，面对日益激烈的竞争环境，各级决策者更加注重对海量数据的分析利用。在如此背景下，Smartbi与中国信息化协同创新专委会、中国电子表格应用大会、天善智能、CDA数据分析师、168大数据、极光数据等共同举办了“数创未来、智能有我——Smartbi数据分析论坛（北京站）”活动。

在活动的分享环节中，民生银行总行科技部朱江先生，生动有趣的向与会观众阐述银行利用数据分析所创造出的价值，并全面展示了日前刚获得2016年度中国金融行业最佳创新项目奖的阿拉丁自助分析平台。为了满足更多数据分析爱好者的学习愿望，我们特将民生银行阿拉丁的分享内容整理出来，希望大家喜欢。

第1阶段：

2000年以前银行很多数据都是手工处理的。2002年银行开始步入到信息科技时代，当时的数据相对是离散的，分布在不同的系统中，民生银行也成为国内第一个做数据仓库的银行，当时的目标是把离散在各个核心系统的数据能够进行统一的加工整合，形成可以看到全貌数据的数据仓库平台。这个过程持续了3年的时间，当时我们称为数据大集中。

第2阶段：

是2006-2007年，这段时间监管机构提出了新的要求，我们对数据的口径、数据的质量也就有了新的要求。

第3个阶段：

民生银行做了内部改革，最简单来说就是我们把条线化的数据管理变成了矩阵式的数据管理。在座可能很多做数据工作的都知道，如果是做条线型数据统计相对比较简单，逐级汇总即可，但数据一旦变为矩阵式管理就比较麻烦，数据汇总的口径会成倍地增加，那么这个阶段我们也是为了更好的适应相关数据口径的需求，以适应矩阵式管理。

第4阶段：

我们不再满足于只是把数据用来做统计这么简单的事情，我们希望把数据上升到可以做一些分析工作，所以在2010年-2012年这段时间，我们进行了关于数据分析、数据探索方面的工作，在这段时间里面我们做了金融易管家、零售客户流失、私人银行客户提升等分析。

第5阶段：

对历史数据做了很多分析工作后，从2012年开始我们觉得这样的数据分析也满足不了银行的需求，那么我们便期望用数据做预测分析。从2012年到2014年，我们和国内外一些合作厂商去做一些数据挖掘方面的探索，去做一些客户流失的预测、不良贷款可能上升的预测、企业不良违约的可能性等预测工作。

第6阶段:

则是阿拉丁阶段，这部分暂时放到后面去讲。

了解完民生银行在数据分析上的历史变化，我们再谈谈数据分析要满足的五类用户，以及阿拉丁是以什么策略为内部用户提供服务的。

在银行里，数据分析服务的对象包括领导层、业务部门、中后台部门等等，他们有各自的职责，也就产生了不同的关注点，根据我们的实际经验特总结成“快准全灵活”五个字，同时也指导着数据分析服务工作发展方向：

“快”——对应的是行领导这层，行领导要求每天早上八点半以前必须看到头一天所有业务的数据统计情况，这就是所谓的头寸表数据，其中包括一些异常指标。

“准”——指的是监管报送和相关审计的相关人员，虽然他们从时效性来说不像行领导这么快，但是他们对数据的口径包括数据的准确性要求非常高。

“全”——对中后台部门来说，他们需要看到各种数据，从每个客户的明细数据到一些机构的对比数据，甚至包括同业之间的分析数据，以支持中后台的风控审计还有其他一些的工作。

“灵”——我的理解是“管用”！这对应一线客户、理财经理、营销人员而言，因为我们给他们提供数据就是为了帮助他们做营销服务推动的，所以如果你给到他的数据不管用、不灵，他们就没有办法达成很好的业绩，也就会对数据失去信心，所以对一线人员提供数据更应强调数据的灵活、管用、有价值，真真正正减少他们的工作量，带来效率提升。

“活”——对应的是分行的业务管理人员，因为我们知道分行的业务管理人员工作更多的是业务疏导和绩效考核，那么不同的时间段、不同的地域，他主营的业务方向包括他的考核机制都会随时调整发生变化，所以这就要求我们的业务管理人员看到的数据具备足够强的灵活性，能够随时去进行相关的调整和口径的变更。

微信图片_20210106174336.jpg

而从大多数银行（包括以前的民生银行）满足数据服务的模式上，一般都是传统数据仓库的方式。这种模式大家都知道，先是一线提出数据需求，数据需求到分行，分行经过审核之后，如果分行自己可以搞定最好，否则就上行到总行，总行在从全口径对数据进行加工处理，然后把相关的数据结果反馈给分行，这是一个非常标准的数据处理作业流程。

但是这个流程处理有一个非常致命的问题，就是没有考虑到业务需求是无穷无尽的，而且是海量的、急迫的，同时真正能做数据分析的工作人员缺十分紧缺，这两点构成了非常突出的矛盾，这也是我们在2011-2014年遇到的最严重的问题。当时我们发现各种数据需求会不断地往上提，以至于总行的人怎样加班都还是处理不完，导致需求只能排队解决，排队的结果是什么，支行营销的数据结果递交总行，总行需要大概两到三周的时间才能有所反馈，这个时候活动早做完了，数据已经没有办法支持营销了。一方面数据人员累死累活，另一方面营销人员不满意，所有人都在抱怨，这就是传统的数据仓库模式在这个发展阶段暴露的主要弊病。

顺理成章的，第6个阶段的“阿拉丁”项目诞生了。我们希望通过阿拉丁平台，让一线做业务及营销分析的人员自己能够变成数据专家，能够在平台上把需要的数据查询出来，而且能够辨别数据，去做相关的数据分析，这就是建设阿拉丁平台的初衷。

阿拉丁是信息管理部（现为科技部）提供的海量数据查询、展示、交互、分析的整体解决方案。我们希望它是个开放的、自由的、可扩展的平台，容纳很多的应用产品、开发工具、报表工具、数据挖掘分析和数据探索工具。从数据层面，阿拉丁后台整合大量的不同数据源，包括结构化和非结构化的，甚至实时的流动数据等。基于平台功能和海量数据，由我们一线人员自己去衍生出大量切合分行一线业务需求的应用，用于支持其做相关的工作，如流失、舆情、精准营销等等。下面我们就看看阿拉丁上的几个自助应用案例。

微信图片_20210106174333.jpg

第一个案例产生于阿拉丁平台第一期，当时阿拉丁刚试推广了三个月左右。某分行马上给我们提交了一个报告，叫潜在高价值客户的挖掘。从银行角度，一般按照存款多少来区分客户价值，但是这个标准真的合理么，答案是否定的，举一个最简单的例子，如果马云到民生银行办了张卡就放了五万，那我们怎么定义他？我们把他当成银卡客户么？该分行一线人员结合自身的经验，在阿拉丁平台上做了一些探索，寻找潜在高价值客户的消费规律（比如用特殊手机号、开豪车、住高档社区等），以期发现“潜在的马云”。于是，我们根据各种各样的合理规则整理出标签，给我们每个客户进行客户画像，对潜在客户进行重新挖掘和营销。最后这项工作给该分行带来了6.1亿的金融资产的提升，那么这在银行界已经是一个很不错的成绩了，更关键的是它节约了90%的营销费用，这就是使用阿拉丁平台实现精准营销的典型应用。

第二个案例通过一张普通的堆积柱为某分行节省了几百万费用。这张柱状图形（非原图）中，不同颜色代表不同ATM机交易的类型，蓝颜色代表查询交易，红颜色代表转账交易，绿色代表取款交易等等，不同颜色代表不同交易类型。这张图可以说明三件事情。第一、我们ATM机布局不合理，我们能看到某些ATM机使用量只占其他ATM机的一半，尤其靠后的ATM机，他们的位置摆放是有问题的，我们可以把ATM机进行一个重新的地理位置的划分，提高他们的使用效率，能够优化我们结构布局的合理性。第二、我们看到部分柱状条里面，有的可能有四个颜色，但是有的只有三个颜色，这是为什么？这说明我们有的ATM机虽然是存取一体机，但是有的存钱功能被用到的情况很少，这说明它周边的人对它是没有存款需求的，一个存钱一体机和只取不存的机器成本差了几万块钱左右，所以我们通过这个就可以把存取一体机换成更便宜的取款机，我们可以做一个机器类型的优化。第三、底下绿色的线代表的是取款的情况，并不是取款机使用量越高取款量越高，像排名第一的ATM机，它虽然使用量很好，但是取款量并不是最高的，那反之，有的使用量虽然不高，但是取款量很大，那在银行，这种存款管理和取款管理是一个涉及成本的问题，我们把钱存到提款机里，对银行来说是成本，我们不能把大量的现金放在ATM机里，但如果我们放的很少也会有问题，那意味着要经常过去加收，加钞带来的时间成本和运营成本也是一大开销。我们怎么在两者之间取得平衡，我们到底放多少钱合适，多久加收一次合适？通过这张图我们就可以做一个归纳性的总结，然后发现一些规律，所以就这一张图，讲了三个问题之后，根据这个方案落地，最后得知仅这一项就为该分行节约了几百万的费用。

第三个案例源于财务部门的业务分析。财务每天会看见大量的转账记录，其实之前并没有人关注这些转账记录有什么意义。但是现在阿拉丁平台除了提供数据以外，还给他们提供了很多像Smartbi这种产品，能帮助他们做一些简单的数据分析的工作，而且这些工作他们的学习成本非常低，可以零门槛入手，他们利用Smartbi将自己手里客户的转账交易情况做了一个简单的归类，发现有些客户存在一个很有意思的情况，就是每个月定期往其它账号上转钱，而且转账金融基本差不多。经过抽样了解发现，这些都是中小企业的会计，于是把这些人的名单发给对应的客户经理，这些客户经理开始逐个公关，他们大概花了有三周的时间，在一个城市说动了近百家企业，把他们所有的工资卡换成了民生银行的，带来了上千个工资卡客户。（工资卡是银行普遍喜欢的，因为个人都不会注销自己的工资卡，而且还会保留一部分活期存款在其中）。所以通过简单的挖掘，一个财务人员给当地的支行带来了很好的效益的提升，也使得客户经理一年的绩效考核都提前完成了。这些都是我们把阿拉丁平台开放之后，让业务人员接触到数据之后，利用平时自身的业务经验，在结合数据工具创造出的价值。

第四个案例也是精准营销，也是结合地理信息的客户画像。如果你接到客户经理打电话说要送给自己礼品卡。但是取礼品卡需要你从南三环到北五环，那你可能不仅不接受这个活动，可能还会产生一定的抱怨。那我们根据这种情况，一线业务人员就会按照客户日常的行为轨迹，进行客户关系的维系。这行为轨迹是怎么出来的？比如你经常取钱的地址，或者你常用POS机刷卡的地址，我们就能大致推算出这个客户日常活动的区域，也就能把客户经理选派到和你非常接近的区域，由他来给你做日常的维护及联系，这样不仅方便客户、也提升了用户体验。

这些都是在没有阿拉丁之前很难做到的，因为这些需求太个性化，太细节。如果分行和支行把这种需求提上来，业务人员早累死了，但是我们把平台开创出来以后，所有的一线人员可以自己做这种事情，他们根据自己的想法做用户的区域划分，做客户营销/筛选，就能极大的创造出他们业务的真正价值。

阿拉丁平台想要达到这些效果，需要依赖于一个强大平台的技术支撑。整个阿拉丁平台是架设在一个云平台上。首先从数据层面来说，阿拉丁平台希望能够让所有一线业务人员直接看到全面的数据，而不是几张日常都能看到的考核表/客户交易明细表。阿拉丁目前接入全行所有核心系统，所有的明细数据，以及行外的监管、征信、外汇的数据，包括一些实时交易额数据/日志数据/流数据等。同时阿拉丁本身里面所有的软件以SAAS的方式对用户进行提供，提供非常好的灵活可伸缩性，不管在线的数据分析用户是10人、100人、1000人，甚至以后到几千个人，阿拉丁依然可以实现弹性的扩充，因为其底层架构是基于虚拟化IAAS按用户单位划分实施的。

阿拉丁不是只提供数据，它的目标是提供数据、工具和环境。那么工具这层阿拉丁提供什么呢？包括全口径快查的元数据定位工具、在线自助的查询和多维分析工具和数据挖掘的分析工具（包括R），共同面向一线人员提供选择。因此，阿拉丁在前期的推广阶段，也投入了大量的时间精力，在Smartbi等厂商的协助下完成了数百人次的工具使用培训工作。

Smartbi是最早参与阿拉丁平台构建的工具软件，目前升级到V9的新版本。在过去的几年时间，Smartbi以高效的明细数据获取和导出能力，对移动端的支持，以及直接使用Excel进行报表设计和数据分析的特色、获得了一线人员的认可。尤其让业务人员去熟悉一个报表工具，其实是挺困难的，但是所有人都精通excel，当报表开发过程和使用过程跟excel结合起来的时候，就降低了所有业务人员使用的门槛，这也是我们一线人员非常喜欢Smartbi的一个原因。

最后一个是定制化能力，其实这点是作为项目负责人最看重的一点，国外的一些报表工具比较好，技术很先进，但是国外报表软件不可能提供源代码级的定制化修改。而每个银行，包括各个行业可能都会面临着把报表产品和自己系统整合的需求，尤其是我们这个阿拉丁平台，要求Smartbi做了很多深度改造和整合，以满足全面的数据安全需求。

最后，预祝阿拉丁平台能够促进“蜕变”，为民生银行培养千人规模的数据分析挖掘团队，也希望更多一线人员贡献业务经验，形成更大的数据分析产品群落，最终帮助民生银行在业务上贡献直接的价值！感谢大家对阿拉丁的关注，谢谢！

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

跟着阿拉丁学习民生银行数据分析

你可能感兴趣的:(数据仓库,大数据,数据分析)