企研数据

基于大数据方法的经济研究：前沿进展与研究综述 | 特别推荐

基于大数据方法的经济研究：前沿进展与研究综述

李华杰史丹马丽梅

摘要：随着数据挖掘和分析技术的不断提高，基于大数据方法对经济的研究日益增多，大数据对经济研究和应用具有重要的现实意义。本文梳理了近年来国内外基于大数据方法研究经济的文献，根据经济研究中使用大数据的目的将其大致归纳为3 类：优化传统经济指标或构建其先行指标、构建新的经济预测指标、寻找建立经济变量间的联系。本文介绍了基于大数据方法处理海量非结构化数据并从中获取有效信息的一般方法和主要阶段特征：数据抓取和数据分析，介绍了目前经济学在大数据挖掘和分析方面的主流工具和算法，从经济预测和验证经济理论两方面阐述了目前基于大数据的经济研究的方向，提出了现阶段大数据研究面临的数据获取和数据处理困难、基于大数据的经济分析方法的某些理论基础尚不完善的问题，并在此基础上对我国基于大数据的经济研究进行了展望。本文清晰、全面地展示了目前基于大数据的经济研究的前沿进展和发展，为基于大数据研究经济夯实了基础工作，补缺了近年来国内在基于大数据方法的经济研究综述这一领域的空白。

关键词：大数据; 经济研究; 综述; 前沿进展

引言

随着互联网、计算机、智能设备的高速发展，人类活动产生的记录数据呈爆炸性增长，数据成为一种重要资源，如何从不断增长的海量数据中挖掘、分析出传统数据和手段无法得到的信息成为国内外政府、企业、学术界近年来关注的热点。自1997年Cox和Ellsworth（1997）、Weiss和Indurkhya（1997）分别从存储和计算方面提出大数据概念以来，随着认识的不断加深，人们对大数据的理解一直在发展：Laney（2001）提出了"3V"，即大量（Volume）、高速（Velocity）、多样（Variety），后来拓展到"4V"，增加了价值（Value），Bello-Orgaz（2016）又提出"5V"，增加了真实（Veracity）。

由于大数据和网络、传输、存储、计算的天然联系，起初大数据的发展和应用主要集中在计算机等自然科学领域，经济学实证研究仍然基于以传统统计理论为基础的计量经济方法和结构化统计数据。但随着技术的不断进步和成熟，大数据拥有的样本海量、实时、数据非结构化等传统统计调查数据无法比拟的特征的实现逐渐成为可能，经济学领域基于大数据方法开展的研究活跃起来，经济学家们在通过大数据分析建立新的或完善已有经济指标、利用实时数据建立现时预测模型、预警经济、分析政策影响、使用大数据验证经济理论等方面做了许多工作，如Akkitas等（2009）[1]用google搜索数据预测失业率，Bollen等（2011）[2] 通过测量Twitter上文本内容蕴含的情感指标预测经济，Cavallo等（2013）[3]通过收集大型零售商网站的每日价格更新数据实时计算了阿根廷的通货膨胀率，Bok等（2017）[4] 使用实时数据和动态因子模型建立了纽约联储银行现时预测模型以预测GDP增速。

基于大数据方法的经济研究与传统计量经济研究方法相比有许多新的特征，由于大数据具有的"5V"特征，数据的采集、清洗、分析、使用等均有别于传统的方法。一是基于大数据方法的数据来源和渠道增多，涵盖了信息搜索数据、网络交易数据、网上信息发布、社交媒体数据、智能设备使用产生的数据如位置信息、交通流量监控、卫星灯光数据等，有主动产生的数据，也有被动留下的痕迹，一定程度上对经济学家依靠政府、组织、企业等机构发布数据、设计调查问卷获取数据的传统方法做了有力补充，极大拓展和方便了经济学家的数据来源；二是为处理海量的半结构化、非结构化数据，从茫茫数据中发现经济关系，基于大数据方法的经济学研究中使用了与传统计量统计回归不同的方法，人工智能、机器学习算法如决策树、支持向量机、神经网络、深度学习等算法被引入经济学中处理数据，经济学与计算机、网络、信息技术的联系空前紧密；三是从方法论的角度，基于大数据方法研究经济面临的样本数量和传统方法相比不在一个数量级上，某种程度上大数据方法是在总体范围上建立模型，而传统模型建立在抽样数据基础上，基于大数据方法将有别于传统方法的参数估计和假设检验。

可以预见，任何基于数据分析的学科与大数据的联系将越来越紧密，经济学研究也不会例外。在目前阶段，虽然大数据概念已经提出二十多年，但经济学中真正意义上使用大数据不过是近10来年的事情，基于大数据方法研究经济在某种程度上仍然是较新的、非主流的领域，国内目前关于基于大数据研究经济的文献综述很少，本文系统地梳理了国内外主流文献中近年来基于大数据方法研究经济的文献，以形成脉络清晰的文献综述，并根据主要文献中采用的经济研究中大数据的获取、处理流程，归纳总结出目前基于大数据研究经济的一般方法和研究方向，提出了目前基于大数据研究经济面临的困难，并对大数据在经济学中的应用做了展望。

一、文献回顾

数据是实证经济学的基础、是形成经济指标的背后因素，在宏观经济研究、政策制定、经济理论验证、企业应对市场发展、个人做出经济决策等各领域均有重要作用。如何利用大数据来源渠道丰富、样本海量、更新实时等优势，从用传统统计数据、计量经济方法难以甚至无法处理的数据中获取有用信息和价值，是经济学家们基于大数据方法研究经济的出发点。围绕基于大数据方法研究经济的中文文献目前仍较匮乏，外文文献较多，使用的数据来源极其广泛，包括网络搜索和电子商务、社交媒体、网站、论坛、银行等金融交易、政府纳税记录、城市监控等政府管理数据、GPS定位、卫星灯光图片、智能设备的使用痕迹数据等，数据经过信息提取和特征挖掘后建立经济模型，经过验证后可实时监测、预测、提供政策建议等。Schonberger等(2013）[5]认为大数据应用的核心是寻找变量间的相关关系做出预测，而不是因果关系。目前，有些关于大数据研究经济的文献按照大数据的来源划分为不同类别：搜索数据、社交媒体、网站信息、电子交易数据、政府管理数据等，有些文献按照大数据的内容和结构划分不同类别：网络内容、用户行为、网络结构等。虽然大数据来源、内容、处理方法不一样，但根据经济研究中使用大数据具有的传统数据不具备的特征和研究的目的可以大致归纳为3类：优化传统经济指标或构建其先行指标、构建新的经济预测指标、建立经济变量间的联系，本文按此类别划分回顾了基于大数据方法研究经济的文献。

在优化传统经济指标或者构建其先行指标方面，大数据有其天然的优势。现有的经济指标如GDP增长率、通货膨胀率、失业率等均由各国政府统计部门通过大量的统计调查、计算后得出，投入大、过程复杂、周期长，且发布往往存在滞后期，很多情况下真实性也难以保障，对政府实时监测经济运行、政策及时制定、企业及时决策、经济研究等均有影响。既然经济指标来自数据，拥有大数据的处理能力后，如何从数据中寻找到关系，利用大数据优化原有经济指标、或构建出有经济意义的新指标是众多经济学家研究的重要课题。Cavallo等（2016）[6] 从2008年开始在麻省理工学院启动"十亿价格计划"，通过抓取900多个零售商的网站上1500多万种商品的在线价格，计算每日价格指数作为美国、阿根廷等20多个国家每日更新的通货膨胀指数，提供给各国央行和金融机构，并认为以这种方法构建的通货膨胀指数避免了政府在收集、计算和发布时的种种弊端，更接近真实水平，如阿根廷政府公布的2007-2011年的年平均通货膨胀率为8%，但通过在线价格数据计算的CPI超过了20%，远超政府官方数据，但和很多当地经济学家的判断、家庭调查数据的结果吻合。李凤岐等（2017）[7]提出了自动挖掘百度搜索查询指数与经济指标之间关系的搜索预测算法，筛选出具有代表性的查询数据预测经济指标，并以此作为先行指标对我国CPI等宏观经济指标进行了预测。Askitas和Zimmermann（2013）[8] 从交通流量反映经济活跃程度的角度出发，用德国收费站记录的月度重型卡车越境数据建立了收费站指数，作为生产指数这一GNP指数先导指标的先行指标，用以现时预测商业周期，并实证了该指数能有效先行反映德国统计办公室官方发布的生产指数。Sutton等（2002）[9]，Elvidge等（2007）[10] ，Henderson等（2012）[11] ，Mellander等（2013）[12]，徐康宁等（2015）[13] ，范子英等（2016）[14] ，丁焕峰等（2017）[15]从NASA卫星拍摄的夜间灯光强度数据出发，寻找其与经济活动之间的关系，认为灯光强度可反映经济运行情况，特别是认为灯光亮度与GDP存在非常显著的正向关系，可在一定条件下作为GDP的替代量。Askitas和Zimmermann（2009）[1]通过检验德国月度失业数据和失业相关搜索数据的频率后，认为它们之间具有很强的相关性，网络搜索数据对预测失业率很有帮助。Edelman（2012）[16]利用Monster.com上职位的供应量和求职者的申请数量的变化预测失业率。Amuri和Marcucci（2010）[17] ，McLaren和Shanbhogue（2011）[18] ，Vicente等（2015）[19] 均采用搜索数据预测了不同国家的失业率，实证验证均取得了较好效果。Kholodilin等（2009）认为由于google搜索数据指标由于数据更新快、覆盖群体广等原因，在预测经济衰退时期美国个人消费指数效果要优于传统指标。沈淑等（2015）[20]根据消费者的行为理论，提出了一种基于LASSO机器学习理论和KPLSR方法的网络大数据对消费信心指数的预测方法。

在构建新的经济预测指标方面，由于大数据比传统数据来源范围广泛、更新及时、内容海量，经济学家得以构建许多具有经济意义的新指标，丰富并强化了对经济的预测能力。Chamberlain（2010）[21]研究发现网络搜索数据和产品零售量间具有正相关性，可通过搜索数据构建产品销售的预测指标。Mclaren（2011）等[18] 认为可从网络搜索数据中建立现时经济活动指标，他们用Google Insights for Search数据建立了比政府官方发布更及时的英国住房市场和劳动力市场现时经济指标，并通过样本外检验验证了该系列指标的有效性。Dzielinski（2011）[22] ，Aastveit等（2013）[23]，Iskyan（2016）分别基于Google搜索数据、含有"不确定性"相关词的文章数量测量并预测了宏观经济的不确定性指数。Wu和Brynjolfsson（2009）[24]使用Google搜索数据预测了房地产价格指数。姜文杰等（2016）以均衡价格理论为基础，使用搜索关键词频率百度指数，采用自回归移动平均模型和带搜索项的自回归分布滞后模型研究并预测了上海房价。Choi和Varian（2010）[25] 强调Google趋势数据可用于预测当下，而不是预测未来，他们认为从表征用户行为特征的网络搜索数据中可以更早地发现经济变化，通过建立包含相应Google趋势变量的季节性AR模型预测了临近期的经济指标：美国汽车销量、旅行目的地行情、消费信心等，并验证了该方法比传统方法的准确度提高了5-20%。类似地，Artola等（2015）[26]分别使用传统的由TRAMO估计的最好ARIMA模型、增加了相关Google搜索指数的模型短期预测了由德国、英国和法国去西班牙旅游的人数，发现后者在2012以前的预测精度比前者高42%。许伟（2016）[27] 通过结合Google搜索数据和网络新闻情感，构建了基于网络情感和搜索行为的数据挖掘集成模型，在其中加入房地产价格指数时间序列的滞后项，利用支持向量回归SVR模型，实现了对房地产价格指数的预测。Kim等（2015）用社会网络数据和机器学习算法建立了电影票房预测模型，并验证了该模型能有效提高预测水平。

在建立经济变量间的联系方面，大数据覆盖广，各种关系隐藏在表面看似无关的变量数据中，如何通过相关性分析挖掘、建立经济变量间的联系是基于大数据方法经济研究最令人兴奋的主题，它往往能深刻地揭示事物间的内在联系和发展规律，在这一领域的发现往往令人激动，改变人们的传统观点，甚至改变已有理论，某种程度上这也是大数据在经济研究方面本质、核心的意义。Antweiler等（2004），Mittermayer（2004），Das等（2007），Sehgal等（2007），Chen等（2009），Fand等（2009），Gilbert等（2010），Sheng等（2011），Xu等（2012）等均研究了财经网站信息、论坛等社交媒体内容反映的投资者情绪等对金融股市的影响。Liu等（2007）[28]用PLSA算法（Probability Latent Semantic Analysis）从博客内容数据中挖掘用户观点和情绪用以预测销售，并用电影数据验证了考虑情感信息的方法预测精度较好。Bollen等（2011）[2]研究了基于Twitter内容的公众情绪是否会影响股市，他们用两种情绪跟踪工具--测量正情绪和负情绪的Opinion Finder从6个维度量化测量情绪的情绪状态Google画像对每日Twitter内容的公共情绪进行测量，建立公共情绪和股市间的模糊神经网络模型，认为考虑公共情绪的方法能有效提高股市预测。Joseph（2011）研究了在线股票搜索与股票收益等的关系，认为某只股票的在线搜索数据是该只股票的收益及交易量的可靠的预测指标。Bordino（2012）的研究也发现网络用户对纳斯达克上市的股票的日常搜索查询语句的数量与该股票的交易量具有相关性。Moat等（2014）[29]研究了Google和Wikipedia上有关金融的搜索数据和股市运行间的关系，认为从在线搜索数据建立的先行指标能有效预测股市的涨跌。Li等（2016）[30] 为研究微观层面上中小企业业绩受和政府、行业、学术界联系的影响，用网络爬虫工具挖掘271家中小型美国绿色食品和制造公司网站的信息数据，从中建立政府、行业、学界的联系对销售增长的面板回归模型，验证了企业和政府、行业、学界的联系对销售有正向影响。Arora等（2016）用网络爬虫工具Wayback Machine从300家美国中小型绿色食品企业网站的归档数据中挖掘企业创新和战略指标。Domenech等（2012）认为企业的经济活动和企业网站的信息有较强联系，通过分析企业网站信息便可以推断出很多企业的经济指标，他们建立了从企业网站数据实时得出网站经济指标到企业经济指标的模型，并用总部在西班牙瓦伦西亚的10000家企业作为样本进行了实证研究。Khadivi等（2016）通过分析Wikipedia使用数据（Wikipedia Usage Trends,WUTs），构建旅游需求和WUTs间的线性自回归模型，预测了夏威夷的旅游需求，认为该方法提高了预测精度。Chong等（2015）[31] 为比较在线促销和在线评论对预测消费者购买产品的影响，基于Amazon.com的数据，建立了产品销量和折扣、免运费、用户好评、差评等变量间的神经网络预测模型，发现上述变量均能影响销售，但用户评论的影响更大。Schneider等（2016）[32]用词袋模型（Bag-of-Words）自动处理用户评论文本、用随机预测技术降维回归元，基于Amazon.com的用户评论预测了一周后的笔记本电脑的销售情况，认为预测结果要优于没有考虑用户评论的模型。Arenas-Marquez等（2014）对Ciao.com的评论影响研究了评论者在社会网络中的地位、评论的数量、转发数量等因素对转发数量等因素对其评论影响的影响。Li等（2015）从TripAdvisor.com的118,000条用户评论数据中探寻用户的潜在旅游偏好以帮助酒店改善服务。Hu等（2012）[33]用统计方法研究了虚假评论对消费者购买的影响，认为约10%的产品购买受到了商家的虚假评论而影响。Wang等（2016），Suhara等（2017）通过对APP数据日志的情景分析和协同过滤算法预测了用户使用某些关联APP的意愿。Xiong等（2013）利用信用卡交易序列数据，使用支持向量机分类算法研究了对个人信用破产的预测。Vlasselaer等（2015）利用RFM（Recency-Frequency-Mone-tary）模型、客户消费历史、客户和商家的网络关系等提出了一种自动检测在线虚假交易的方法。Dey等（2014）用零售商电子扫描设备记录的数据分析了美国的鲢鱼市场的价格、销量的趋势，根据结果强调了市场上增加附加值等非价格竞争策略的重要性。Kitchin（2014）研究了智慧城市的WIFI、公共交通读卡器等数据在经济社会预测方面的应用。Chou等（2016）研究了基于智能电网大数据进而帮助预测、优化建筑节能、提高能源使用效率的方法。Williams等（2015）等提出了基于手机通信记录数据和GIS地理信息系统数据测量、预测人口流动性的方法。Montoliu等（2013）通过智能手机的位置数据，使用两层聚类算法研究了人们生活中经常所处的位置。Chittaranjan等（2013）使用机器学习算法研究了智能手机数据与五大人格维度的关系，认为可以从智能手机使用数据中挖掘出用户个性，用以改善企业的经营和销售。

二、主要研究方法介绍

由于绝大部分大数据原始状态为非结构化数据（Gandomi和Haider（2015）[34] 认为95%以上的大数据都是非结构化的），如何处理海量的非结构化数据、从中获取有效信息是经济学家面临的关键问题。与传统经济研究的方法相比，基于大数据方法的特征主要体现在数据抓取和数据分析方面：

（一）数据抓取（数据挖掘）

不同于传统上经济学家被动依靠政府、机构发布的结构化数据、或者主动对结构化数据操作，基于大数据研究经济首先要解决的是如何主动从不同渠道、海量、不断变动的非结构化数据中提取可直接用于分析的有用数据。目前对数据挖掘认同率较高的表述为从大量非结构化数据集中找到隐藏的信息：将大量数据作为输入，隐藏信息作为过程的输出，整个挖掘过程就是从输入到输出的一个映射。许伟（2016）[28]认为根据数据挖掘的对象不同可分为网络结构挖掘、内容挖掘和应用挖掘：结构挖掘是通过分析网页之间的某个链接及与这个链接相关的网页数和相关对象，进而建立起网络链接结构模型；内容挖掘是通过分类和聚类技术，从页面内容本身提取到有价值的信息；应用挖掘从用户的行为信息中推断用户的特征。

由于来自互联网的大数据主要是记录人们行为的文本，自然语言处理算法（Natural Language Processing）得到大量应用，它是指让计算机像人类一样能读懂人类的文本，从非结构化的文本数据中提取有效信息。目前使用较广泛的NLP算法有：情感分析（Sentiment Analysis, SA）、主题模型（Latent Semantic Analysis, LSA）、潜在狄利克雷分布（Latent Dirichlet Allocation, LDA）、词频-逆文档频率（Term Frequency-Inverse Document Frequency, TF-IDF）、词嵌入（Word Embeddings, WE）、数据匹配算法（Data Matching, DM）等。

数据挖掘的一般过程是（刘涛雄（2015）[35]）：借鉴抽样估计、人工智能、机器学习的搜索算法、建模技术和学习理论，利用网络爬虫软件通过云计算等分布式并行计算方法从网络抓取原始数据，然后通过探索性数据分析（Exploratory Data Analysis, EDA）和一致性检验清洗数据，过滤大量无用的噪声数据，保留值得加工的信息，最后对剩下内容进行加工提取，转化为一定程度结构化的可用数据，如标准化的时间序列等。数据清理并无规章可寻，实践中的主流数据清理工具有OpenRefine和DataWrangler。Varian（2014）[36] 总结了目前主流的用于数据挖掘的开源工具，如表1所示。

表1 数据挖掘工具

(资料来源：Varian (2014)。)

（二）数据分析

从数据中建模是大数据分析的关键，包括数据集降维、寻找数据间的关系。传统上经济学家大量应用线性和逻辑回归等算法建立数据间的联系，Varian（2014）认为针对大数据分析发展起来的一系列机器学习算法能更有效地处理海量数据问题。目前的大数据建模方法主要有两类：有监督学习（Supervised Learning）、无监督学习（Unsupervised Learning），有监督学习通过建立回归、分类模型，寻找输入数据和输出数据间的关系，根据输入推断输出；无监督学习通过聚类模型等寻找输入数据之间的关系或结构，构建描述数据行为的规则。目前有监督学习算法在经济研究中现时预测和邻近预测中应用更广，包括：决策树（Decision Trees，DT）、支持向量机（Support Vector Machine, SVM）、人工神经网络（Artificial Neural Networks, ANN）、深度学习（Deep Learning, DL）等算法。为解决样本数据过度拟合、维数过高、模型对样本外数据却表现欠优的问题，经济学家提出了添加随机量的集成算法（Ensemble Algorithms, EA）以解决过度拟合和降维问题，这些方法包括自举法（Bootsratp）、装袋方法（Bagging）、提升算法（Boosting）、随机森林（Random Forests）、属于正则化方法的套索算法（Least Absolute Shrinkage and Selection Operator, LASSO）、弹性网络（Elastic Net, EN）、岭回归（Ridge Regression, RR）、贝叶斯方法（Bayesian Methods, BM）、贝叶斯模型平均算法（Bayesian Model Averaging, BMA）、朴素贝叶斯（Naive Bayes, NB）、钉板回归（Spike-and-Slab Regression, SSR）等算法作为对线性回归的补充，在处理面板数据、纵向数据、时间序列数据上，经济学家提出了贝叶斯结构时间序列算法（Bayesian Structure Time Series, BSTS）作为对传统自回归（AR）和平均回归（MR）模型的补充。

为检验数据建模的准确性，经济学家一般把数据分为训练集和测试集，用训练集建立模型，用测试集检验模型，当数据容量足够大时可分为三部分：训练集、验证集和测试集。鉴于大数据复杂特性，经济学家在机器学习中采用K折交叉检验（K-Fold Cross-Validation），数据被划分为K个子集，模型拟合K次，每一次都用K-1个训练集、剩下1个用于预测测试，当每个子集仅有一个观测量时便退化为一次性交叉检验（Leave-one-out Cross Validation）（Blazquez等（2017）[37] ）。从文献上看，目前阶段经典计量经济学的拟合优度判定系数R2、Hosmer-Lemeshow（HL）拟合优度检验、马洛斯Cp检验（Mallows'Cp）、赤池信息量准则（Akaike Information Criterion, AIC）、贝叶斯信息量准则（Bayesian Informa- tion Criterion, BIC）、偏差和对数似然检验等检验方法仍用于对基于大数据建立模型的检验。

三、主要研究和应用方向

从众多文献中，通过归纳可见基于大数据研究经济的直接目的可以大致分为：优化传统经济指标或构建其先行指标、构建新的经济预测指标、建立经济变量间的联系，其意在借助传统上不易或无法处理的、或曾经被忽视的海量非结构化数据，在数据间通过相关性分析发现数据间的联系，进而揭示更加深刻意义上的经济联系。因此，虽然本质上一样，但目前基于大数据方法研究经济主要分两个方向：经济预测和验证经济理论。

从研究文献的内容来看，目前大多数经济学家们倾向于主动选择、构造数据集，从中进行数据分析以解释或发现经济现象，并在模型得到验证后在数据更新较快时进行现时预测。无论是前文提到的"十亿价格计划"、"收费站指数"，还是"房价预测模型"，都遵循同样的基本思路。通过对传统意义上难以甚至无法获得的数据，构建经济模型是这个方向研究的重点和关键，和实时更新的数据一起构成了基于大数据方法预测经济的独特优势。基于大数据方法的经济预测大幅缩短了预测周期，现时预测是传统方法难以有效实现的，这对政府、机构、企业及时准确掌握经济运行情况、制定经济政策和做出企业决策具有重要意义，政府可以根据国民经济运行情况及预测及时出台相关刺激或抑制政策，企业可以根据经济预测提前布局生产经营。由于大数据时代计算、网络技术的进步，各类数据、行为、现象均被记录，数据的触角极大增加，如何从中挖掘出具有经济意义的模型，特别是从传统方法上难以获得数据、经济人行为上获取有用信息，一般的原则是从经济学的基本原理出发，通过增加或者调整经济变量体现大数据的存在，如传统上对房价的研究主要体现在土地供给、新增投资、房屋供求量、货币政策等因素上，基于大数据的方法则从传统方法很难获取的用户行为出发，考虑房价和相关搜索之间的关系，增加了用户的相关搜索量作为一个经济变量，进而预测房价。研究股市波动时也把有关股市的搜索、媒体的情感等传统上难以量化的指标作为明确的经济变量加以分析。因此，基于大数据研究经济的方法在很多方面不是对传统经济学研究方法的颠覆，它更是一个对传统研究方法的补充。

在验证经济理论方面，由于大数据包罗万象，可以微观到每个用户的行为、使用留下的痕迹、每次电子商务购买的交易、每次网站的点击等传统意义上无法观测或统计的数据，从而可以使经济学的研究更加深入，海量的数据也为验证、发现经济理论提供了实证基石。例如，通过分析就业网站提供的职位信息、用户对求职相关的搜索等数据可以从微观上分析失业者在寻求就业时的影响因素，对相关社交媒体信息和商品销售的分析可以从行为经济学上研究消费者购买的影响因素。历史上的重大发明、创新很多都是从数据出发，如菲利普斯从失业和经济增长的数据中发现菲利普斯曲线，库兹涅夫从收入和分配数据中发现库兹涅夫曲线，而大数据包含了很多传统意义上无法获取或统计的行为、心理数据，以及由之构成的可清洗解剖的宏观数据，大数据时代的全方位、海量数据也是经济学家发现新的经济理论、规则的无穷宝藏，对经济学的发展有重要意义。

四、当前面临的主要问题

由于大数据拥有的众多特点，其在经济学上的应用得到了较快发展，但仍面临一些问题。主要体现在：

第一，经济学家对大数据的获取难。由于大数据主要由政府、互联网公司、银行等机构掌握，而在数据日益被视为重要财富、私有资源的数据时代，经济学家要获得需要的大数据资源面临着数据所有者和法律、道德的多重限制，这会影响经济学家基于大数据做研究，也是目前大量的经济研究仅依赖搜索数据这单一渠道的原因之一。要促进大数据在经济研究中的应用，解决好大数据的来源问题是至关重要的一环。

第二，经济学家对大数据的获取和处理的能力面临困境。"大数据"本身是一个从计算机领域产生的术语，经济学家真正把眼光投向大数据也是最近十几年的事情，基于大数据的研究融合了计算机、网络、信息、数学、经济学、心理学等学科的前沿知识，是一项非常复杂的研究工作，经济学家对传统的基于统计学的经济研究很擅长，但对数据挖掘、机器学习等数据处理方法普遍比较陌生，目前很多基于大数据的研究是在计算机专家的协助下开展的，这在一定程度上限制了大数据在经济学研究上的应用，经济学家从思维上转变对大数据方法是"术"的观点、掌握大数据的获取和分析技术很紧迫。唯有如此，方能真正凸显大数据的力量。

第三，基于大数据的经济分析方法的某些理论基础没有夯实。如由于大数据的数据海量，建立的经济模型存在维数很高的问题，且变量之间可能存在相关性，目前通行办法是降维，但大数据方法又不同于传统计量经济，降维的理论意义仍存在争议。对基于大数据的方法本质上是属于基于总体的方法，还是和传统样本分析方法一样等问题也存在争议。数据爆炸时代经济学家对同一经济问题会有很多种数据支撑，如何辨别、是否存在正确的数据解释也带来了一些经济概念意义上的混乱。目前基于大数据的分析主要是寻找变量间的相关性，而不是因果关系，基于大数据的经济解释能力有待进步。

五、总结和展望

"大数据"、"人工智能"等发端于计算机、互联网领域的名词注解了这个时代，数据呈爆炸性、指数式增长，人类同时也拥有空前的对数据获取和处理的能力，"经济学帝国"自觉地把大数据纳入了麾下。基于大数据研究经济在数据的来源、渠道方面，数据处理和分析方面，方法论等方面均与传统经济学研究方法有很大区别。大数据方法研究的核心是相关性分析。虽然大数据来源、内容、处理方法不一样，但根据经济研究中使用大数据研究的目的，国内外大量的基于大数据研究经济的文献可以大致归纳为3类：优化传统经济指标或构建其先行指标、构建新的经济预测指标、建立经济变量间的联系。由于绝大部分大数据原始状态为非结构化数据，如何处理海量的非结构化数据、从中获取有效信息是经济学家面临的关键问题。与传统经济研究的方法相比，基于大数据方法的特征主要体现在数据抓取和数据分析方面。基于大数据的经济分析意在借助传统上不易或无法处理的、或曾经被忽视的海量非结构化数据，在数据间通过相关性分析发现数据间的联系，进而揭示更加深刻意义上的经济联系，虽然本质上一样，但目前基于大数据方法研究经济主要分两个方向：经济预测和验证经济理论，对国民经济运行、企业决策、经济学发展均有重要意义。

当前基于大数据研究经济面临的主要问题在于大数据获取难、数据处理和分析难、基于大数据的经济分析方法的某些理论基础没有夯实。虽然仍然存在不少问题，但随着信息化、智能化技术的不断发展，数据的重要性会不断增加，人们对大数据会愈发依赖，如果数据对于经济学是重要的，则基于大数据方法的研究是经济学发展的方向之一。对我国而言，一是要探索建立经济学家使用大数据资源的机制和渠道，在保证数据安全、公众隐私、机构利益的前提下，使政府、公共机构、公司收集的数据能得到有效利用，进而造福社会；二是要提高经济学家处理、分析大数据的能力，适应大数据时代的信息处理和分析环境，培养复合型的经济学家；三是要继续加强对大数据经济研究基础理论工作的研究，针对大数据的特性建立相关的统计分析理论，夯实经济学利用大数据的理论基石。

参考文献

[1] ASKITAS N,ZIMMERMANN K F,Google Econometrics and Unemployment Forecasting[C] .Discussion Paper of Diw Berlin,2009（, 55）：107-120.

[2] BOLLEN J,MAO H, ZENG X,Twitter Mood Predicts the Stock Market[J] . Journal of Computational Science, 2011, 2(1)：1-8.

[3] CAVALLO A, Online and Official Price Indexes： Measuring Argentina's Inflation[J] .Journal of Monetary Economics,2013,60(2)：152-165.

[4] BRANDYN BOK,DANIELE CARATELLI,DOMENICO GIANNONE, ARGIA SBORDONE, ANDREA TAMBALOT. Macroeconomic Nowcasting and Forecasting with Big Data[R] . Federal Reserve Bank of New York Staff Reports, no. 830,2017.

[5] V M SCHONBERGER.Big Data： A Revolution That Will Transform How We Live, Work and Think[M] .London, UK： John Murray Publishers Ltd, 2013.

[6] A CAVALLO, R RIGOBON.The Billion Price Project： Using Online Prices for Measurement and Research[J] .Journal of Economic Perspective, 2016, 30(2)：151-178.

[7] 李凤岐，李光明.基于搜索行为的经济指标预测方法[J] .计算机工程与应用，2017（, 6）：215-222.

[8] ASKITAS N,ZIMMERMANN K F.Nowcasting Business Bycles Bsing Boll Data[J] .Forecast, 2013,32(4)：299-306.

[9] P SUTTON,D ROBERTS,C ELVIDGE,K BAUGH.Census from Heaven： An Estimate of the Global Human Population Using Night-time Satellite Imagery[J] .International Journal of Remote Sensing, 2001,22(16)：3061-3076.

[10] PC SUTTON,CD ELVIDGE,T GHOSH. Estimation of Gross Domestic Product at Sub-national Scales Using Night-time Satellite Imagery[J] .International Journal of Ecological Economics& Statistics,2007,8(Suppl 7)：5-21.

[11] HENDERSON J V,STOREYGARD A,WEIL D N. Measuring Economic Growth from Outer Space[R/OL] .NBER research paper, http：//www.nber.org/papers/w15199.

[12] MELLANDER S,STOLARICK K, MATHESON Z, LOBO J. Night-time light Data： A Good Proxy Measure for Economic Activity? [J] .Plos one, 2015,10(10).

[13] 徐康宁，陈丰龙，刘修岩. 中国经济增长的真实性：基于全球夜间灯光数据的检验[J] . 经济研究，2015（, 9）：17-29.

[14] 范子英，彭飞，刘冲. 政治关联与经济增长--基于卫星灯光数据的研究[J] . 经济研究，2016（, 1）：114-126.

[15] 丁焕峰，周艳霞.从夜间灯光看中国区域经济发展时空格局[J] .宏观经济研究，2017（, 3）：128-136. [16] EDELMAN B. Using Internet Data for Economic Research[J] .Journal of Economic Perspectives, 2012,26(2)：189-206.

[17] AMURI D F, MARCUCCI J. Forecasting the US Unemployment Rate with a Google Job Search Index[R] .Social Science Electronic Publishing, 2010.

[18] MCLAREN N, SHANBHOGUE R. Using Internet Search Data as Economic Indicators[J] .Bank Engl. Q. Bull. 2011,Q2, 134-140.

[19] ICENTE M R,LOPEZ MENENDEZ A J, PEREZ R. Forecasting Unemployment with Internet Search Data： Does It Help to Improve Prediction When Job Destruction is Skyrocketing?[J] .Technological Forecasting & Social Change, 2015,92(92)： 132-139.

[20] 沈淑，张璇，田晓春.网络大数据在消费者信息指数预测中的应用--基于 LASSO 算法和 KPLSR 算法[C] .2015 年第四届全国大学生统计建模大赛，2015.

[21] CHAMBERLAIN G. Googling the Present [J] .Economic and Labour Markert Review, 2010,4(12).

[22] DZIELINSKI M, News Senstivity and the Cross-section of Stock Returns[R] .NCCR Finrisk working paper no.719, 2011.

[23] AASTVEIT, KNUT ARE, GISLE JAMES NATVIK, SERGIO SOLA, Economic Uncertainty and the Effectiveness of Monetary Policy[R]. Norges Bank, 2013.

[24] WU L, BRYNJOLFSSON E. The Future of Prediction： How Google Searched Foreshadow Housing Prices and Sales[C] .Social Science Electronic Publishing, 2014：89-118.

[25] CHOI H, VARIAN H. Predicting Initial Claims for Unemployment Benefits[J] .Social Science Electronic Publishing, 2010.

[26] ARTOLAS N, PINTO F, Can Internet Searches Forecast Tourism Inflows? [J] .International Journal of Manpower, 2015,36(1).

[27] 许伟. 基于网络大数据的社会经济监测预警研究[M] . 北京：科学出版社，2016.

[28] LIU Y, HUANG X, AN A, YU X. Sentiment Aware Model for Predicting Sales Performance Using Blogs[C] .The 30th Annual International Acm Sigir Conference on Research and Development in Information Retrieval, 2007：607-614.

[29] MOAT H S, CURME C, STANLEY H E, PREIS T. Anticipating Stock Market Movement with Google and Wikipedia[C] .NATO Science for Peace and Security Series C： Environmental Security Springer Science, 2013：47-59.

[30] LI Y, ARORA S, YOUTIE J, SHAPIRA P. Using Web Mining to Explore Triple Helix Influences on Growth in Small and Mid-size Firms[J/OL] . Technovation, 2016, http：//dx.doi.org/10.1016/j.technovation.2016.01.002

[31] CHONG A Y L, LIU M, LI B. Predicting Consumer Product Demands Via Big Data： The Role of Online Promotional Marketing and Online Reviews[J] .International Journal of Production Research, 2015：1-15.

[32] SCHNEIDER M J, GUPTA S. Forecasting Sales of New and Existing Products Using Consumer Reviews： A Random Projections Approach[J] .International Journal of Forecasting, 2016,32(2)：243-256.

[33] HU N, BOSE I, KOH N S, LIU I. Manipulation of Online Reviews： An Analysis of Rating, Readability, and Sentiments[J] .Decision support system, 2012,52(3)：674-684.

[34] GANDOMI A, HAIDER M. Beyond the hype；Big Data Concepts, Methods, and Analytics[J] .International Journal of In⁃ formation Management, 2015,35(2)：137-144.

[35] 刘涛雄，徐晓飞.大数据与宏观经济分析研究综述[J] .国外理论动态，2015，（1）：57-64.

[36] VARIAN H R. Big Data： New Tricks for Econometrics [J] .Journal of Economic Perspective,2014,28(2)：3-28.

[37] BLAZQUEZ D, DOMENECH J.Big Data Sources and Methods for Social and Economic Analyses[J/OL] .Technological Forecasting & Social Change, 2017, https://doi.org/10.1016/j.techfore.2017.07.027.

资料来源：《经济学家》2018年 6月

数据Seminar

这里是经济学与大数据的交叉路口

资料来源：

《经济学家》2018年06期

你可能感兴趣的:(大数据应用,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l