大数据Arry

总算有文章把大数据和人工智能概念清楚的解析说明

一、大数据和人工智能

大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值。随着大数据的发展，其应用已经渗透到农业、工业、商业、服务业、医疗领域等各个方面，成为影响产业发展的一个重要因素。

当前人们所说的人工智能，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学，是由人工制造出来的系统所表现出来的智能。

传统人工智能受制于计算能力，并没能完成大规模的并行计算和并行处理，人工智能系统的能力较差。2006年，Hinton教授提出“深度学习”神经网络使得人工智能性能获得突破性进展，进而促使人工智能产业又一次进入快速发展阶段。“深度学习”神经网络主要机理是通过深层神经网络算法来模拟人的大脑学习过程，通过输入与输出的非线性关系将低层特征组合成更高层的抽象表示，最终达到掌握运用的水平。数据量的丰富程度决定了是否有充足数据对神经网络进行训练，进而使人工智能系统经过深度学习训练后达到强人工智能水平。因此，能否有足够多的数据对人工神经网络进行深度训练，提升算法有效性是人工智能能否达到类人或超人水平的决定因素之一。

随着移动互联网的爆发，数据量呈现出指数级的增长，大数据的积累为人工智能提供了基础支撑。同时受益于计算机技术在数据采集、存储、计算等环节的突破，人工智能已从简单的算法+数据库发展演化到了机器学习+深度理解的状态。

二、人工智能产业及生态

按产业链结构划分，人工智能可以分为基础技术层、AI技术层和AI应用层。基础技术层主要聚焦于数据资源、计算能力和硬件平台，数据资源主要是各类大数据，硬件资源包括芯片研发、存储设备开发等。AI技术层着重于算法、模型及可应用技术，如计算智能算法、感知智能算法、认知智能算法。AI应用层则主要关注将人工智能与下游各领域结合起来，如无人机、机器人、虚拟客服、语音输入法等。

（一）基础技术层

1.1 大数据

数据资源是机器学习训练的基本素材，通过对于数据的学习，机器能不断积累经验和优化决策参数，逐渐变得更贴近人类智能。

从数据流动方向的角度来看，大数据的产业链可分为底层平台、处理分析、应用三个层次。底层平台由基础设施与数据资产池构成，主要提供数据采集、分享和交易服务，处理分析则是在原始数据的基础上对数据进行清洗后以不同方式呈现。在数据处理分析的基础之上，挖掘各行业的数据需求，最终为用户提供服务。

根据数据应用程度不同，大数据产业链下各参与方功能可细分为数据标准与规范化、数据采集、数据安全、数据储存与管理、数据分析与挖掘、数据运维和数据运用七个方面。

1.2 计算能力和硬件平台

数据资源、核心算法、运算能力是人工智能的三大核心要素。随着全球移动互联网和物联网等快速发展，人类可获取利用的数据正以爆炸式增长。海量的大数据通过最新的深度学习技术将为人工智能的发展与应用带来难以估量的价值，而运算能力提升是人工智能发展的前提保障。其中，芯片是运算能力的核心。

就目前而言，AI 芯片主要类型有GPU、FPGA、ASIC和类人脑芯片四种。

1.2.1 GPU

1.2.1.1 GPU简介

GPU 即图形处理器，最初是用来做图像运算的微处理器。GPU 优化和调整了CPU 结构，使其运算速度突飞猛进，拥有了更强大的处理浮点运算的能力。2009 年，斯坦福大学的吴恩达及其团队发现GPU 芯片可以并行运行神经网络。用GPU来运行机器学习模型，同样的大训练集，GPU在耗费功率更低、占用基础设施更少的情况下能够支持远比单纯使用CPU时10-100倍的应用吞吐量。因此GPU已经成为数据科学家处理大数据的处理器。

1.2.1.2 GPU行业现状

目前国际GPU市场被NVIDIA 和AMD 两大公司瓜分，全球GPU 行业的市场份额有超过70％被NVIDIA占据，而应用在人工智能领域的可进行通用计算的GPU 市场则基本被NVIDIA垄断。目前公司已与谷歌、微软、IBM、丰田、百度等多家尝试利用深度神经网络来解决海量复杂计算问题的企业建立和合作关系。NVIDIA与下游客户在深度学习领域的合作不断加深，已经开发出多款针对深度学习的GPU产品。从产品成熟度、生态圈的规模角度而言，NVIDIA的GPU 已具备统治性的地位。

中国在GPU芯片设计领域起步较晚，目前只有景嘉微和兆芯两家掌握核心技术的公司正在逐步打破国外芯片在我国GPU市场的垄断局面，但产品还是主要用于GPU最初的图形显控领域，距人工智能所需要的GPU技术还有很远的距离。

1.2.2 FPGA

1.2.2.1 FPGA简介

FPGA，即场效可编程逻辑闸阵列，最初是从专用集成电路上发展起来的半定制化的可编程电路，FPGA 还具有静态可重复编程和动态在系统重构的特性，使得硬件的功能可以像软件一样通过编程来修改，不同的编程数据在同一片FPGA上可以产生不同的电路功能，具有很强的灵活性和适应性。

FPGA 和GPU 内都有大量的计算单元，因此它们的计算能力都很强。在进行神经网络运算的时候，两者的速度会比CPU 快很多。但是GPU 由于架构固定，硬件原生支持的指令也就固定了，而FPGA 则是可编程的。其可编程性是关键，因为它让软件与终端应用公司能够提供与其竞争对手不同的解决方案，并且能够灵活地针对自己所用的算法修改电路。与GPU相比，FPGA具有性能高、能耗低及可硬件编程的特点。

1.2.2.2 FPGA行业现状

目前FPGA 整个市场被国外的两大巨头所寡占，据东方证券研究所数据显示，Xilinx 和Altera 占了近90%的份额，合计专利达到6000多项，剩余份额被Lattice和Microsemi两家占据，两家专利合计共有超过3000项。技术专利的限制和漫长的开发周期使得FPGA行业有着极高的壁垒。

尽管我国政府多年来在此领域投入了数百亿的科研经费，但FPGA的专利限制及技术门槛使得中国FPGA的研发之路十分艰辛，国内如同创国芯、京微雅格、高云等公司在FPGA研发方面已获得一定进展，但产品性能、功耗、容量和应用领域上都同国外先进技术存在着较大差距。当前国内部分资本已经试图走出国门，通过并购半导体类公司的方法进入FPGA的行业，实现弯道超车。

1.2.3 ASIC

1.2.3.1 ASIC简介

ASIC，即专用集成电路，是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。ASIC 作为集成电路技术与特定用户的整机或系统技术紧密结合的产物，与通用集成电路相比，具有以下几个方面的优越性：体积更小、功耗更低、可靠性提高、性能提高、保密性增强。FPGA一般来说比ASIC的速度要慢，而且无法完成更复杂的设计，并且会消耗更多的电能，因此就算力而言ASIC远优于FPGA；但ASIC的专用特点使得其生产成本很高，如果出货量较小，则采用ASIC在经济上不太实惠。一旦人工智能技术成熟，ASIC专用集成的特点反而会达到规模效应，较通用集成电路而言，成本大大降低。

当前ASIC 在人工智能深度学习方面的应用还不多，但是我们可以拿比特币矿机芯片的发展做类似的推理。比特币挖矿和人工智能深度学习有类似之处，都是依赖于底层的芯片进行大规模的并行计算。比特币矿机的芯片经历了四个阶段：CPU、GPU、FPGA 和ASIC。其中ASIC 在比特币挖矿领域，展现出了得天独厚的优势。随着人工智能越来越多的应用在各个领域并表现出优越的性能，长期来看ASIC大有可为。

1.2.3.2 ASIC市场现状

随着人工智能的兴起，科技巨头纷纷布局芯片制造。高通、AMD、ARM、Intel和NVIDIA都在致力于将定制化芯片整合进它们的现有解决方案中。Nervana 和 Movidius（目前都在Intel旗下）据说正在开发集合方案。ASIC中较为成熟的产品是谷歌针对AlphaGo研发的TPU。第一代TPU产品由谷歌在2016年I/O大会上正式推出，今年5月的开发者I/O大会上，谷歌正式公布了第二代TPU，又称Cloud TPU，相较于初代TPU，既能用于训练神经网络，又可以用于推理，浮点性能方面较传统的GPU提升了15倍。

ASIC在人工智能领域的应用起步较晚，国内外水平相差不大。目前国内已有数家公司致力于人工智能相关ASIC芯片研究，代表公司为地平线机器人、中科寒武纪与中星微电子。其中地平线机器人公司作为初创企业，致力于打造基于深度神经网络的人工智能“大脑”平台-包括软件和芯片，可以做到低功耗、本地化的解决环境感知、人机交互、决策控制等问题。其关于芯片的研发目前还未成熟。中科寒武纪和中星微电子则已经有了相对成熟的产品。寒武纪芯片专门面向深度学习技术，研制了国际首个深度学习专用处理器芯片NPU，目前已研发的三款芯片分别面向神经网络的原型处理器结构、大规模神经网络和多种机器学习算法，预计将于2018年实现芯片的产业化。中星微电子于2016年6月推出中国首款嵌入式神经网络处理器（NPU）芯片，这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片。这款基于深度学习的芯片运用在人脸识别上，最高能达到98%的准确率，超过人眼的识别率。该芯片于2017年3月6日实现量产，截止到今年5月出货量为十几万件。

1.2.4 类人脑芯片

1.2.4.1 类人脑芯片简介

类人脑芯片是一种基于神经形态工程、借鉴人脑信息处理方式，旨在打破“冯·诺依曼”架构束缚，适于实时处理非结构化信息、具有学习能力的超低功耗新型计算芯片。从理论上来看，类人脑芯片更加接近于人工智能目标的芯片，力图在基本架构上模仿人脑的工作原理，使用神经元和突触的方式替代传统架构体系，使芯片能够进行异步、并行、低俗和分布式处理信息数据的能力，同时具备自护感知、识别和学习的能力。

1.2.4.2 类人脑芯片市场现状

类人脑芯片是人工智能芯片发展的重点方向。目前各国政府及科技巨头都在大力推动类人脑芯片的研发进程，包括美国、日本、德国、英国、瑞士等发达国家已经制定相应的发展战略，中国的类人脑科学研究项目目前也已经正式启动。当前世界上已有一批科技公司走在前列，在类人脑芯片研发中取得了突破，代表产品包括IBM的TrueNorth芯片、高通Zeroth芯片、谷歌的“神经网络图灵机”等。

（二）AI技术层

AI技术层主要着眼于算法、模型及可应用技术。按照智能程度不同，人工智能可分为运算智能、感知智能、认知智能三个阶段。运算智能，即快速计算和记忆存储能力，在这一阶段主要是算法与数据库相结合，使得机器开始像人类一样会计算和传递信息；感知智能，即视觉、听觉、触觉等感知能力，在这一阶段，数据库与浅层学习算法结合，使得机器开始看懂和听懂，并做出判断、采取行动；认知智能，即能理解会思考的能力，这一阶段主要是采用深度学习算法，使得机器能够像人一样思考，主动采取行动。

AI技术层可以分为框架层和算法层，其中框架层指TensorFlow，Caffe，Theano，Torch，DMTK，DTPAR，ROS等框架或操作系统，算法层指的是对数据的处理方法。

根据数据类型的不同，对一个问题会采用不同的建模方式，即学习方式。按照学习方式来分类，人工智能算法可以分为传统机器学习和神经网络算法，其中传统机器学习又可细分为监督式学习、非监督式学习、半监督式学习、强化学习。

2.1 传统机器学习

2.1.1 监督式学习

在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常用算法有回归算法、朴素贝叶斯、SVM等。

2.1.2 非监督式学习

在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。关联规则学习的常见算法主要为Apriori算法及其拓展算法，聚类的常用算法有k-Means算法及其相似算法。

2.1.3 半监督式学习

在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。

2.1.4 强化学习

在此学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习（Temporal difference learning）。

2.2 神经网络

人工神经网络是模拟生物神经网络，由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的组织学习能力特点，并通过一定学习准则进行学习，进而建立相关模型，解决一定工作。在人工神经网络的学习算法设计方面，一般对人工神经网络进行大量的数据训练和调整，不断修正各层级节点参数，通过不断学习使得人工神经网络具有初步的自适应能力和自我组织能力及较强的泛化能力，进而较快适应周边环境要求，基于其众多优点，人工神经网络已然成为人工智能算法的核心。深度学习算法是人工神经网络当前最新算法，其实质是通过很多隐层的机器学习模型和海量的训练数据来学习更有用的特征，从而提升分类或预测的准确性。

在这里我还是要推荐下我自己建的大数据学习交流qq裙：522189307 ，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。

（三）AI应用层

人工智能的应用主要是采用了“AI+垂直行业”的方式渗透到传统各行业，按发展层次的不同可以分为专用人工智能、通用人工智能和超级人工智能三个层次。其中，专用人工智能以一个或多个专门的领域和功能为主；通用人工智能即机器与人类一样拥有进行所有工作的可能，关键在于自动地认知和拓展；超级人工智能是指具有自我意识，包括独立自主的价值观、世界观等，目前仅存在于文化作品构想中。

按应用技术类型进行划分，人工智能的应用技术可以分为计算机视觉、机器学习、自然语言处理和机器人四块。

3.1 计算机视觉

计算机视觉，是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉技术运用由图像处理操作及其他技术所组成的序列来将图像分析任务分解为便于管理的小块任务目前计算机视觉主要应用在人脸识别、图像识别方面（包括静态、动态两类信息）。

人脸识别，亦叫人像识别、面部识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行处理的一系列相关技术。

图像识别，是计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。由于动态监测与识别的技术限制，静态图像识别与人脸识别的研究暂时处于领先位置。

当前国外科技巨头自行研发和收购双管齐下布局计算机视觉领域，将技术广泛用于自身产品升级，并基于自身基因打造技术服务平台和新品类持续提升影响力。中国国内BAT都已纷纷布局相关领域，并基于自身产品进行功能研发。百度相对更加激进，成立了独立风投公司，专注于AI早期投资。

除BAT三巨头外，国内也有不少初创公司涉足计算机视觉技术，主要聚焦于技术应用。其中典型代表当属旷视科技。公司成立于2012年11月，公司专注于人脸识别技术和相关产品应用研究，面向开发者提供服务，能提供一整套人脸检测、人脸识别、人脸分析以及人脸3D技术的视觉技术服务，主要通过提供云端API、离线SDK、以及面向用户的自主研发产品形式，将人脸识别技术广泛应用到互联网及移动应用场景中。Face++通过和众多互联网公司合作，并通过“脱敏”技术掌握到了500万张人脸图片数据库，在互联网图片人脸识别LFW的准确率达到99.6%，合作伙伴包括阿里、360等一批大型的图片、社交、设备类企业。

当前国内计算机视觉创业热度不断提高，iiMedia Research(艾媒咨询)数据显示，中国人工智能创业公司所属领域分布中，计算机视觉领域拥有最多创业公司，高达35家。

3.2 机器学习

机器学习是指计算机通过对大量已有数据的处理分析和学习，从而拥有预测判断和做出最佳决策的能力。其核心在于，机器学习是从数据中自动发现模式，模式一旦被发现便可用于做预测。

机器学习的应用范围非常广泛，针对那些产生庞大数据的活动，它几乎拥有改进一切性能的潜力。除了欺诈甄别之外，这些活动还包括销售预测、库存管理、石油和天然气勘探、以及公共卫生。机器学习技术在其他的认知技术领域也扮演着重要角色，比如计算机视觉，它能在海量图像中通过不断训练和改进视觉模型来提高其识别对象的能力。

现如今，机器学习已经成为认知技术中最炙手可热的研究领域之一，在2011-2014年中这段时间内就已吸引了近十亿美元的风险投资。谷歌也在2014年斥资4亿美金收购Deepmind这家研究机器学习技术的公司。目前国内机器学习相关企业数量相对较少。BAT在机器学习方面有着先天的优势，国内初创公司第四范式是基于机器学习的解决方案提供商。

3.3 自然语言处理

自然语言处理就是用人工智能来处理、理解以及运用人类语言，通过建立语言模型来预测语言表达的概率分布，从而实现目标。

自然语言处理技术在生活中应用广泛，例如机器翻译、手写体和印刷体字符识别、语音识别后实现文字转换、信息检索、抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等。它们分别应用了自然语言处理当中的语法分析、语义分析、篇章理解等技术，是人工智能界最前沿的研究领域。时至今日AI在这些技术领域的发展已经把识别准确率从70%提高到了90%以上，但只有当准确率提高到99%及以上时，才能被认定为自然语言处理的技术达到人类水平。

在资本与产业助力之下，我国人工智能的语音识别技术已处于国际领先水平，技术成熟，通用识别率上，各企业均维持在了95%左右的水平。类似百度、科大讯飞等上市公司凭借深厚的技术和数据积累在市场上占据前列，且通过软硬件服务的开发不断进化着自身的服务能力。在科大讯飞之后发布国内第二家“语音识别公有云”的云知声在各项通用语音服务技术的提供上也占据着不小的市场空间。除此之外，依托中科院自动化所的紫冬锐意和纳象立方以及有着海外背景的苏州思必驰在教育领域的语音识别上占据着领先的位置。

3.4 机器人

将机器视觉、自动规划等认知技术整合至极小却高性能的传感器、致动器、以及设计巧妙的硬件中，这就催生了新一代的机器人，它有能力与人类一起工作，能在各种未知环境中灵活处理不同的任务。

目前世界上至少有48个国家在发展机器人，其中25个国家已涉足服务型机器人开发。在日本、北美和欧洲，迄今已有7种类型计40余款服务型机器人进入实验和半商业化应用在服务机器人领域。美国是机器人的发源地，美国的机器人技术在国际上仍一直处于领先地位，其技术全面、先进，适应性十分强，在军用、医疗、家用服务机器人产业都占有绝对的优势，占服务机器人市场约60%的份额。国内智能机器人行业的研发主要集中于家庭机器人、工业/企业服务和智能助手三个方面。其中工业及企业服务类的机器人研发企业依托政策背景和市场需求处于相对领先的发展阶段。然而在中国涉足智能机器人的企业中，从事家庭机器人和智能助手研发的企业占据了绝大多数比例。

因为服务一般都要结合特定市场进行开发，本土企业更容易结合特定的环境和文化进行开发占据良好的市场定位，从而保持一定的竞争优势；另一方面，外国的服务机器人公司也属于新兴产业，大部分成立的时候还比较短，因而我国的服务机器人产业面临着比较大的机遇和可发展空间。

AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅 SelectDB技术团队大数据物联网 doris selectdb 人工智能电商场景数据分析
BOCDOP宝舵早期基于TiDB构建实时数仓，随着数据量增长，在数据处理效率、OLAP能力扩展、功能支持、成本与资源方面存在一定优化空间。为提升数据分析能力并优化成本，宝舵引入SelectDB，达成写入速度提升10倍，成本直降30%的显著成效。本文转录自高瑞军（宝尊科技高级架构师）在DorisSummitAsia2024上的演讲，经编辑整理。业务背景宝尊集团创立于2007年，是中国品牌电商服务行业
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
常见的数学统计模型若木胡数学模型
以下是常见的数学统计模型分类及简要说明，适用于数据分析、预测和推断等场景：1.参数模型（ParametricModels）假设数据服从特定分布（如正态分布），通过估计参数来描述数据规律。1.1线性回归模型数学形式：(y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\epsilon)应用：预测连续型目标变量（如房价预测）。特点：简单、可解释性强，假
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
做数据分析，如何给业务提可行性建议——看板软件数据可视化
在为业务提供数据分析可行性建议时，看板软件的选择是一个重要环节。以下是一些建议，可以帮助您为业务选择适合的数据分析看板软件：一、明确业务需求首先，需要明确业务的具体需求，包括数据分析的目的、所需的数据类型、分析的深度与广度等。这将有助于确定所需看板软件的功能和特性。二、了解看板软件类型看板软件可以分为多种类型，如数据可视化工具、商业智能（BI）工具、项目管理工具等。了解这些类型及其特点，有助于更好
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
数据分析 SQL 面试全攻略，看这篇就够了！程功学数据分析 sql 面试
数据分析SQL面试八股文（含答案）已经打包好，看文末领取在数据分析领域，SQL技能堪称基石，也是众多企业在招聘数据分析岗位时重点考察的内容。今天，就为大家深度剖析数据分析SQL面试的要点，助力大家顺利通关。一、常见面试题型大揭秘（一）简单查询这类题目通常要求考生从单表中检索数据。例如，给定一个“员工信息表”，包含员工编号、姓名、年龄、部门等字段，题目可能是“查询年龄大于30岁的员工姓名和部门”。解
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
用户行为路径分析（Google Analytics数据挖掘）闲人编程 Python数据分析实战精要数据挖掘人工智能用户行为路径分析 Analytics 数据分析用户习惯
目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU加速5.用户行为路径分析方法5.1用户行为路径构建5.2行为路径挖掘与模式分析5.3常用指标计算6.数据可视化与指标展示7.PyQtGUI设计与实现8.GPU加速与性能优化9.系统
Python 数据分析实战：电动汽车行业发展态势与市场策略洞察萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1市场规模与增长趋势2.4.2消费者需求分析2.4.3企业竞争格局2.4.4政策影响分析2.4.5构建消费者购买意愿预测模型三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-缺失值处理3.3数据清洗-异常值处理3.4数据分析-消费者需求分析3.5数据分析-构建消费者购买意愿预测模型四、可
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
用Python抓取网页标题：使用`requests`库的实用指南清水白石008 python Python题库 python 开发语言
用Python抓取网页标题：使用requests库的实用指南在数据获取的时代，网页抓取（WebScraping）成为了一项重要的技能。无论是获取新闻标题、产品价格，还是数据分析，网页抓取都能提供丰富的信息。本文将详细介绍如何使用Python的requests库编写一个简单的爬虫，抓取某个网站的标题。我们将通过实例和代码片段，使整个过程清晰易懂，帮助你快速上手网页抓取。一、了解网页抓取网页抓取是指通
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
R语言绘图 | 环状柱状图+散点柱状组合图绘制小杜的生信筆記 R语言精美图形绘制教程 r语言开发语言科研绘图生物信息学
原文：R语言绘图|环状柱状图+散点柱状组合图绘制(点击访问)小杜的生信筆記，主要发表或收录生物信息学教程，以及基于R分析和可视化（包括数据分析，图形绘制等）；分享感兴趣的文献和学习资料!!
服务器数据恢复—服务器raid5阵列中多块硬盘故障离线的数据恢复案例数据恢复
服务器数据恢复环境&故障：某公司一台服务器，服务器上有一组由8块硬盘组建的raid5磁盘阵列。磁盘阵列中2块硬盘的指示灯显示异常，其他硬盘指示灯显示正常。上层应用不可用。服务器数据恢复过程：1、将服务器中所有硬盘编号后取出，经过硬件工程师的检测发现2块异常硬盘磁头损坏。将完好的硬盘以只读方式进行全盘镜像，将2块存在坏道的硬盘进行更换磁头后镜像。后续的数据分析和数据恢复操作都基于镜像文件进行，避免对
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
算力未来演进与多场景创新智能计算研究中心其他
内容概要算力作为数字经济的核心生产力，其技术架构与应用场景正经历多维突破。从技术架构层面来看，异构计算通过整合CPU、GPU、FPGA等多元芯片实现性能跃升，边缘计算则借助分布式节点降低时延并提升响应效率，而量子计算在特定领域的指数级加速潜力已进入验证阶段。在应用场景维度，工业互联网通过实时数据分析优化产线效率，智能安防依托视频流结构化处理增强预警能力，元宇宙则依赖高密度渲染与低延迟传输构建沉浸式
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
Linux系统下Conda安装状态检查与环境管理指南 2401_85812053 linux
在Linux系统上管理和使用Conda环境是科学计算和数据分析工作中的常见需求。Conda是一个开源的包管理系统和环境管理系统，广泛用于安装多种编程语言的软件包和库。本文将详细介绍如何在Linux上检查Conda是否已经安装，以及如何管理Conda环境。1.Conda简介Conda是一个跨平台的软件包管理系统，它不仅能够管理Python包，还能管理R、Ruby、Lua、Scala等其他语言的包。C
爬虫获取 item_get_video 接口数据：小红书笔记视频详情的深度解析 API快乐传递者小红书API API 爬虫笔记音视频
在当今内容驱动的互联网时代，小红书作为国内领先的社交电商平台，其笔记视频内容成为品牌营销、内容创作和用户体验的重要组成部分。通过爬虫技术获取小红书笔记视频详情，不仅可以帮助开发者更好地理解用户需求，还能为电商运营、内容推荐和数据分析提供强大的支持。本文将详细介绍如何使用Python爬虫获取小红书item_get_video接口的返回数据，并对其数据结构进行详细解析。一、item_get_video
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

总算有文章把大数据和人工智能概念清楚的解析说明

你可能感兴趣的:(大数据,大数据,数据分析,数据挖掘)