志敏

作为一名数据科学家必备工具有哪些？

当数据科学家需要使用某些软件时，其中一部分我们已经在之前的章节中做过介绍，这些软件涵盖了数据科学家所需要的基础专业内容。实际的工作范畴可能会超越求职时候的工作描述，这也是IT工作的常态之一。这在某种程度上是好的，因为它提供了学习新技能的机会，而这也是数据科学领域最引人入胜的方面之一。

在本文中，我们会探索数据科学环境中常用的软件。不是所有在这里提到的软件都会在你的工作中用到，但了解它们会让你拥有更多选择。特别是我们会提到Hadoop套件的一些其他备选工具（例如Spark、Storm等），许多功能强大的面向对象编程语言（Java、C++、C#、Ruby和Python），现有的数据分析软件（R、Matlab、SPSS、SAS或是Stata），你可能会用到的虚拟化程序以及大数据集成系统（例如IBM的BigInsights、Cloudera等）。我们还会看看你可能接触到的其他软件，例如GIT、Excel、Eclipse、Emcien以及Oracle。注意这个列表只是告诉你这一领域的主流软件有哪些，但它们并不一定是你在未来工作中的真实环境下所使用的工具。一些公司可能会用到它所在行业的专业软件，在你入职的时候也许会被要求你去熟悉这些软件。了解这个列表中的大部分软件会让你工作地相对轻松和明确。

1 Hadoop套件和朋友们

Hadoop在过去的几年里，几乎成为大数据的代名词。这是数据科学家的兵器库中的主要支撑。知道Hadoop不只是一个程序是非常重要的，它更像一组工具（类似于微软的Office）。这个套件被用于传输，保存和处理大数据。它还包含有一个调度器（Oozie）、元数据和表格管理架构（HCatalog）。所有在Hadoop中处理数据的任务都是分布在安装了Hadoop的所有机器集群中的，这些任务可以是面向对象程序（OOP）代码、数据分析程序、数据图形化脚本以及其他具有有限处理时间（finite process time）特征和对数据分析有用的任务。Hadoop会确保不管你对数据做什么样的操作都能以高效的方式完成，并以直观的方式呈现。

Hadoop并没有一个对用户友好的软件环境，如图1所示，这是一个典型的Hadoop任务的样子。

图1 Hadoop任务仪表盘（Dashboard）的屏幕截屏

Hadoop套件由以下几个组件组成，所有的组件都很重要。

MapReduce由Google创建，并且是Hadoop的主要组件。正如在之前的部分我们曾提到过的那样，这是任何大数据技术的核心。尽管这是Hadoop固有的特性，但它也可以在其他的大数据程序，例如MPP和NoSQL数据库（例如，MongoDB）。MapReduce最初是具有商业所有权的，但随着Yahoo在2006年提供了慷慨的资金支持，它以Hadoop的开源形式出现，并在两年内迅速受到广泛欢迎。作为一个著名的并行计算算法，它得以让数据库的查询建立在一个计算机集群上，任务可以分拆成小份，并跨越整个集群的节点。
HDFS是Hadoop 分布式文件系统的简称，这是Hadoop系统所使用的文件系统。被Hadoop所处理的数据必须先导入到HDFS中，并备份在运行了Hadoop的计算机网络中。它的数据极限大约在30PB。
Pig是针对Hadoop进行计算的一个高级编程语言（High-level programming language）。你可以将它视为Hadoop生态系统中各种操作的控制元件。它的性能是可扩展的。
Hive是一个数据仓库程序，是以“类-SQL”语言进行访问使用的，他是为横跨Hadoop集群的数据设计的。并且它的性能是可扩展的。
HBase、Sqoop以及Flume是Hadoop的数据库组件。HBase是一个可以运行在Hadoop环境上的列式数据库。它是基于Google的BigTable设计的，并且数据极限约为1PB。另外，它比直接在HDFS上访问数据要慢一些。这对于处理存在HBase里面的数据来说不是很好，对HBase对于归档和时间系列数据的计数很合适。Sqoop是一个将关系型数据库中的数据导入到HDFS中的程序。Flume与此类似，它关注于收集和导入各种数据源的日志和任务数据。
Mahout是一个机器学习和数据挖掘算法的函数库，用于对存储在HDFS的数据进行处理。
Zookeeper服务于Hadoop有一“群”各种各样功能的组件，所以调试管理以及协调程序是十分必要的。Zookeeper保证了整个套件的整合以及相对得简便操作。

Hadoop套件还有一些其他的组件用来补充以上这些核心组件。而熟悉它们最好的方法是去下载一个Hadoop玩一下。当需要确定基准（Benchmark）的时候，你可以选择去读一下教程（或者，如果你能读一下用户手册则更好）。

Hadoop并不是进入大数据技术的唯一选择。另有一个也很有意思但并不那么有名的备选方案是Storm（被Twitter、阿里巴巴、Groupon以及其他许多公司所使用）。Storm显著快于Hadoop，同样也是开源，而且使用起来相对简单，是一个值得选用的Hadoop备选方案。不像Hadoop， Storm 不执行MapReduce任务，而是运行topology（拓扑）。核心的差异在于MapReduce最终会将任务结束，而topology会永远运行或直到它被用户终止。（你可以将它类比为操作系统后台一直运行的进程）。topology可以被画成计算图，用以处理数据流。这些数据流的源被称为spout（形象化为“水龙头”），而它们会被接入bolt（形象化为“闪电”）。一个bolt可以使用任意数量的输入源，做一些处理，并输出新的数据流。你可以在图2中看到Storm topology。

如图2所示，Storm软件中的Topology，一个值得选用的Hadoop的备选方案。你可以很容易地创建一个类似这样的Topology，并比MapReduce的流程顺序要直观。

对数据使用Topology方法可以确保即使在出现故障的情况下也能处理出正确的结果（因为topology会持续地运行），也就是说如果计算机集群中的某一台计算机发生了问题也不会危害到在运行在整个集群上任务的一致性。需要注意的是，Storm topology 一般是由Java、Ruby、Python和Fancy语言编写而成。Storm软件则是由Java和Clojure（一个与Java配合良好的函数型语言）编写，同时它的源代码也是这个类型技术中最为流行的项目。

图2　Storm软件中的topology，一个值得选用的Hadoop的备选方案。可以很容易地创建一个类似的topology，并比MapReduce的流程顺序要直观

这个软件的优势在于它处理数据的实时性、简单的API、可扩展性、容错性、简单部署、免费且开源并能够确保数据处理，以及可以在其上使用各种编程语言。它有横跨美国东西海岸、伦敦以及其他地区，并持续壮大的用户社区。

除了Storm这个非常流行并且提供了灵活和简单地操作还很有前景的Hadoop的替代品之外，还有一些其他软件同样宣称自己具有类似特性并尝试挑战Hadoop在大数据世界的支配权。最值得推荐的几个软件（在编写本书的时候）有如下几个。

Spark由加利福尼亚大学伯克利分校的AMP Lab开发而成。Spark是MapReduce领域的最新玩家，它的目标是数据分析在写入和运行端的速度更加快速。不像许多在这个领域的系统，Spark使用内存查询数据，替代了磁盘的读写。这样，Spark在许多迭代算法上比Hadoop的表现更为优越。它是由Scala实现的（参见一下部分），在写作本书的时候，它的主要用户是UC Berkeley的研究者和Conviva公司。
BashReduce作为一个脚本工具，BashReduce可以用标准UNIX命令（如sort、awk、grep、join等执行MapReduce，成为了Hadoop的另一个备选工具。它支持映射/分割、规约以及合并等功能命令。尽管它根本没有一个分布式文件系统，BashReduce还是将文件分布到了工作节点中，但不可避免地缺少容错。它没有Hadoop那么复杂，同时可以进行快速开发。除了容错的问题之外，它还缺乏灵活性，因为BashReduce只能工作在特定的UNIX命令环境中。BashReduce是由Erik Frey（在线电台last.fm）以及他的助手们开发。
Disco Project最初是由诺基亚（Nokia）研究院开发，Disco已经默默无闻了很多年。MapReduce作业由简单的Python编写，而Disco的后端是以Erlang编写的，一个可扩展的函数型语言，内置支持并发、容错以及分布，使得它成为一个理想的MapReduce系统。与Hadoop类似，Disco分布并复制存放数据，但它没有自己的文件系统。由于它的高效，在作业调度方面也是值得称道的。
GraphLab由卡内基梅隆大学开发，为机器学习应用服务而设计，GraphLab旨在提高并行机器学习算法设计的执行效率和正确性。GraphLab拥有它自己版本的映射（map）阶段，称为更新阶段。不像MapReduce，更新阶段可以读取和修改数据的交集。它基于图的方法使得在图形的机器学习上更具可控性，同时提升了动态迭代算法。
HPCC 系统以它自己的大规模数据分析架构，HPCC试图用Enterprise Control Language语言（ECL）更近编写并行工作流，ECL语言是一个声名式语言，以数据为中心的语言（有些类似于SQL、Datalog和Pig）。HPCC是用C++写成的，根据一些人的说法，这样使得内存查询更快。HPCC由于拥有自己的分布式文件系统而也成为Hadoop一个有力地备选工具。
Sector/Sphere以C++开发，这个系统承诺了比Hadoop快2～4倍的性能。它由两部分组成：Sector，安全且可扩展的分布式文件系统，以及Sphere，在存储节点上可以通过简单的API接口处理Sector数据文件的并行数据处理引擎。它具有不错的容错性，支持广域网同时兼容旧系统（需要做一些修改）。从2006年诞生起，它就是一个不错的Hadoop替代方案。

还有一些并行于这些系统的项目，可以免费便利地开展Hadoop环境下的工作。所以，如果你想学Hadoop，并且把基础的部分都掌握以后可以看看这些工具。这些项目中最著名的有以下几个。

Drill是一个Hadoop插件，专注于提供一个存储在Hadoop集群环境下的数据集的交互分析接口。它常常利用MapReduce来执行Hadoop下的大数据的批量分析，并通过Dremel以更快的速度来处理更大规模的数据集。凭借它可以扩展到大规模服务器上的能力（它的设计目标是10000个服务器），使它成为处理真正的大数据的好选择。如果你计划使用Hadoop，那么它是一个值得你去研究的工具。
D3.js是数据驱动文档（Data Driven Documents）的缩写，D3.js是一个开源JavaScript函数库，可以让你编辑大数据的展示文档。这个工具可以让你利用网页技术（例如HTML5、SVG以及CSS）来创建动态图形。另外，它还提供可视化方法，例如和弦图、气泡图、树状图以及节点连接树。由于它是开源的，因此这个列表还在持续地扩展着。D3.js设计的目标是运行快速和兼容于跨硬件平台的程序。尽管它不一定会替代完全成熟的数据可视化程序（见4节），但这是一个你值得留意的好工具。D3.js是由纽约时报的图形编辑Michael Bostock开发的。
Kafka是最早由LinkedIn所开发的消息系统，作为社交媒体活动流和数据处理管道的基础。从那以后，它的用户群便逐渐扩大，涵盖了各种使用数据管道和消息服务的公司。它非常高效，同时与Hadoop生态系统集成良好，此外，它是运行在Java环境中的，是可以跨平台的。
Julia事实上，它不只是一个数据分析工具，而是被设计为运行在诸如Hadoop这样的分布式计算环境中。它很稳健，易于使用，类似于Matlab和R（见3节），同时又非常快速。它是与Hadoop套件相衬的扩展工具，如果你倾向于编写程序，那么这是一个可以加入你技能树中的好语言。
Impala是一个分布式查询执行引擎，是为原生存储在Apache HDFS 和Apache HBase的数据而设计的。由Cloudera开发，它聚焦于数据库而且不会使用到MapReduce。因为它避免了MapReduce作业的额外开销，所以可以实时地返回结果。

2 面向对象编程语言

数据科学家需要能够熟练处理面向对象编程（OOP），但比较各种面向对象编程语言已超出了本书所要讨论的范围，所以如果非要举个例子的话，Java是这一节中主要会讨论的语言，因为它被业界熟知。像大多数面向对象一样，Java不包含用户图形界面（GUI），这就是那么多人更爱用Python（它的开发者确实为它编写了一个体面的GUI）的原因。然而，Java运行快而优雅，同时不管是线上还是线下都有大量的学习资源。图3是一个典型的Java程序。

图3　一段典型的Java程序

图3是一段典型的Java程序用于判断这一年是不是闰年。这是一个识别了Java程序的编辑器视图。

注意，部分字句的颜色和高亮显示是由编辑器自动实现的（尽管不总是这样，例如当使用记事本工具打开程序时）。同样，间距也是可选的，用来帮助用户编写语句。注意大多数程序会比这段简单的例子要长一些，也更复杂一些，但它们也可以像例子中一样，被拆散成简单的语句块。

如果你花了大量的时间在编写脚本上面（通常如果你使用文本编辑器，例如Notepad++或者Textpad），编程会让你劳累不堪。为了减轻这种影响，在过去的许多年里，众多集成开发环境（Integrated development environments，IDE）被开发出来。这些IDE为编程语言提供了额外环境，将它的引擎、编译器以及其他组件和舒适的图形界面以更加友好的方式呈现。一个在Java世界里非常著名的IDE就是Eclipse（见图4），同时也可以作为其他语言的运行环境，甚至是像R一样的数据分析包（Data analysis packages）。

图4　Eclipse的界面

图4所示为运行着Java的Eclipse截屏。Eclipse是一个优秀的Java IDE（也适合其他的编程语言）。

其他可供你参考的的面向对象语言包括：

C++是与Java齐名的编程语言，快速而流行
Ruby是强大的面向对象编程的备选语言
JavaScript是可与Java配合使用的基于网页的编程语言
Python是优秀的面向对象语言，特别适合初学编程的人
C#是由微软开发的业界知名的编程语言

所有这些都是免费而且可以通过免费教程学习的（C#的IDE是Visual Studio，它是商业软件^[1]）。另外，它们都有一些共同点，如果你对面向对象编程（OOP）的概念很熟悉的话，例如封装、继承以及多态，你就能够处理它们中的任何一个。注意，所有这些编程语言都是命令型语言（相对于最近逐渐出名的声明/函数型编程语言而言）。这个类型编程语言的语句基本上都是在命令计算机采取什么样的行动。而声明/函数型语言，相对来说更多的关注最后的结果而对下一步采取什么动作的具体细节并不关心。

尽管在写作本书时，面向对象编程语言在专业编程领域是一个基本配置，但目前还是有一些向函数型语言变化的趋势（例如Haskell、Clojure、ML、Scala、Erlang、OCaml、Clean等）。这些语言基于另一种哲学，关注函数式表达式的求值而不是变量的使用或者实现它们命令的具体执行。

函数型语言的一个大加分项就在于它便捷的可扩展性（这对于处理大数据极有帮助）以及避免出错，因为它们不使用全局工作空间。不过，它们相比于面向对象编程语言，在大多数数据科学应用下要慢一些。尽管它们中有几个语言（例如OCaml和Clean）在做数值运算时，可以和C语言^[2]一样快。如果未来峰回路转之后，函数型语言的情况逐渐好转，为了稳妥起见，那么你可能会希望把函数型语言添加到你的技能树中去。注意函数型语言和我们之前提到的一些传统的面向对象编程语言会有交叉的部分。例如，Scala就是一个函数型面向对象编程语言，这个语言值得大家好好研究。

3 数据分析软件

如果数据科学家耗费时间所参与的编程工作到最后得不到任何认同，或干脆就毫无意义，那数据科学家还有什么可当的？于是，数据分析软件就在此时登场了。在众多选择中，最有名的当属Matlab和R。它们都很棒，但是没有必要去计较谁比谁更好，因为用那一种工具更多是基于个人偏好。有趣的是，这两者之间的语法和功能函数非常相近，以至于如果你精通了其中任意一种，那么学习另一种的时间也就是2～3个星期。

由于R在某种程度上来说更受欢迎，主要由于它免费开源，庞大的用户群体定期地向其贡献新内容，因此，我们在本书中会更关注R。所以希望那些倾向于Matlab，并了解Matlab在哪些地方优于R和其他数据分析工具的人，理解我们的选择并保持开放的心态。R同样有优于其他数据分析工具的地方，并且它在编写和运行程序上都很直观，通常不使用循环结构（一种程序结构，一般来说会拖慢高级程序语言的分析时间），而是利用运用向量的一些操作，而且它还可以延展到矩阵，这种特性被称为向量化，向量化使得数据分析脚本易于阅读和理解（面向对象编程语言通常运行速度很快，因此循环对于它们并不是问题）。

R语言的运行环境十分简单（在某种方面上与Python类似），对用户使用来说也足够友好，特别是一些小程序。图5的截屏展示了这个运行环境的样子。

图5　R语言的编程环境

图5显示了R语言（原版）的编程环境。正如你所看到的那样，尽管编程环境足够友好，但它还是缺少了许多在IDE内的贴心功能。

R作为一款数据分析工具来说是十分强大的，而它的GUI（图形用户界面）也做得很好。然而，如果你真的想用这款软件，还是需要花点时间学习并调试一下IDE。市面上有很多款R语言的IDE（大多数是免费的），但其中有一个佼佼者，叫做RStudio（见图6）。

图6　RStudio的界面

图6显示了R语言众多IDE中的其中一员RStudio。你可以从图中看到，除了主控窗口（左下窗口）外，还有脚本编辑窗口（左上窗口），工作空间查看窗口（右上）以及图形查看窗口（右下）。除此之外，还有许多别的功能来辅助R语言的编写与运行。

R语言之外的其他数据分析工具还有。

Matlab/Octave在R成名业界之前就已存在，并且Matlab就已经称王于数据分析领域。尽管Matlab是有商业所有权的软件（需要付费使用），他还是有几个开源的小伙伴们，其中最好的当属Octave。Matlab和Octave对于初学者而言都是很好的工具，它们有大量的应用，并且像R那样实现了向量化。但是，Matlab的工具箱（函数库）稍有些昂贵，而Octave则没有这些。
SPSS是现有最好的统计程序之一，而且广泛适用于研究领域。学习起来很简单，它可以做任何数据分析，尽管不像R语言那样高效。此外，和Matlab一样，它也是有商业所有权的，为学界与业界所推崇。
SAS是一个流行的统计程序，特别是在企业当中。学习起来相对简单，它也有一个不错的脚本语言工具，可以帮助创建更为复杂的数据分析。但是，它也是有商业所有权的。
Stata是选择统计程序包时的好选择。Stata 是最受统计学家所喜欢的工具之一，也是具有商业所有权的。自从R语言在数据分析世界变得广受欢迎以来，Stata就不再像以前那么受宠了。

注意，上面所提及的软件（除Octava以外），都是具有商业所有权的，所以他们并不像R那样能吸引巨量的用户群。如果你对统计和编程都很熟悉，那么对你来说，它们就会很容易学习。在Matlab的帮助下，你不需要为了使用而去熟悉很多统计学知识。我们会在10.5节再探讨R语言，那时，我们会讨论如何在机器学习架构中使用它。

4 可视化工具

数据分析结果可视化的重要性显而易见，这也就是增加一些可视化软件可以充实你的软件兵器库的原因。尽管所有的数据分析程序都能提供一些像样的可视化工具，但增加一些专用的工具总是好的。例如Tableau，它可以使整个处理过程都更加直观以及高效（见图7）。

很遗憾地说，因为Tableau是一个具有商业所有权的软件，所以它有些贵。然而，他可以实现快速的数据可视化，混合以及图像导出。它的使用界面十分友好，易于学习，在网上有大量的资源，空间使用相当小（小于100MB）。另外，它的开发者们也乐于通过教程与实践来指导用户学习。它在Windows（XP之后的任何版本）上运行，同时还有两周的试用期。有趣的是，它是华盛顿大学“数据科学导论”的教学大纲的一部分。

图7　Tableau的界面

图7所示为Tableau，它是一款出色的可视化程序。正如你所见，它十分直观而且提供了各种各样的特性。

在业界，Tableau较其他可视化程序取得了领跑者的地位。尽管它更适合于商业智能应用，但它还可以被用在任何数据可视化任务中，同时它实现了通过邮件和在线的图像简易共享。它也提供了交互式的映射以及能够同时处理不同来源的数据。

如果你对这款软件的同类产品感兴趣，你可以看看以下几款程序。

Spotfire是由TIBCO开发的优秀产品，可视化分析的理想工具。它可以与地理信息系统，建模及分析软件良好集成，同时具有无限的可扩展性，其价格与Tableau保持同一水平。
Qlikview是一款良好的备选工具，对数据可视化和深入钻取任务是理想的工具。它速度很快并且提供了出色的交互可视化及仪表盘支持。它有很棒的用户界面和视觉控制，而且还有在内存中处理大数据集的出色能力。然而，它受到内存大小的限制（具有扩展性问题），而且价格相对较高。
Prism是一款直观的商业智能（BI）软件，可以轻松地实施任务和学习。它主要专注于商业数据，除去一般类型的图表以外，它可以生成数据仪表盘、积分板、查询报告等。
InZite是一款有趣的替代方案，提供了吸引人的可视化及仪表盘特性，快速而且直观。
Birst是一个好选择，提供了大量交互性可视化以及分析工具。它可以生成透视表，还可以用精细直观的报表工具深入钻取数据。
SAP Business Objects提供了指向并点击数据可视化功能，以便能够生成交互并可分享的可视化图像和交互仪表盘，它直接集成了SAP的其他产品。

一般来说，数据可视化程序使用起来相对轻松，所以在你的“数据兵器库”中加入它们并不是个问题。在倾注大量时间掌握其中任何一个工具之前，确保它能与你使用的其他工具集成良好。此外，看看大部分你所感兴趣的软件广告中都包含了哪些其他的可视化软件。

5 集成大数据系统

尽管并不是必须的，但能够熟悉至少一个集成大数据系统是很好的。IBM的BigInsights平台就是其中一个很不错的例子，尽管事实上它还处于初期版本。它的设计思路是将Hadoop的大部分功能封装到一个对用户友好，并且有像样的图形界面的软件包中去。它的加分项是它还能执行数据的可视化和调度，类似这种“多合一”的套件包相当贴心，这样你就可以专注于数据科学工作的其他部分了。BigInsights运行在一个集群/服务器中，可以通过网页浏览器来访问。图8所示为BigInsights平台的界面截屏。

通过Mozilla 火狐浏览器访问运行中的IBM的BigInsights平台。如你所见，它的用户界面十分友好。

图8　BigInsights平台的界面

集成大数据系统的一个巨大优势在于它图形化的用户界面，与优秀的文档结合在一起之后，使整个系统变得十分友好、直观，而且可以轻松地学会操作。此外，图形界面会很好地结合Hadoop相关操作命令，它可以让你专注于数据科学中更高级别的方面，将你从原本不得不做的大量底层编程中解放出来。

与BigInsights类似的另一个选择是Cloudera，它同样驰名于业界，同时更加稳健。其他值得你了解的软件还包括Knime、Alpine数据实验室套件、Pivotal套件，等等。在你读到这里的时候，很可能已经发布了其他一些集成大数据系统，所以请确保你了解它们是什么，以及它们都提供了哪些功能。

6 其他一些程序

如果不加上一些辅助工具的话，上面这个程序列表就显得不完整。因为发布的公司不同，这些程序可能也会各不相同，但当你需要优化你的“软件兵工厂”的时候，它们是一个好的起步。举个例子，Git版本控制程序绝对值得吸引你的目光，因为你很可能会需要用到它，特别是当你与其他人（通常是程序员）一起参与一个大型项目的时候。你可以从图9中看到它的操作界面和它的一些常用命令。

图9　Git版本控制程序的界面

Git版本控制程序不算是最直观的可用程序，但具有丰富的功能和高效的工作能力。

注意，Git有很多在主流操作系统下的图形界面的插件。有一个在Windows操作系统下非常好的开源图形界面插件叫Git扩展（Git Extensions），除此以外也还有许多在其他操作系统下运行得很好的Git图形界面。这个特别的图形界面插件让Git变得更加直观而且保留了它的命令提示行（但并不是每个Git图形界面都提供这个功能）。

如果在这里忽略了Oracle SQL开发软件，就简直是有悖神明，因为它经常用于访问公司Oracle数据库中的结构化数据。尽管这个特别的软件由于大数据技术的迅速扩张，在接下来的几年内可能会不胜从前，但在做数据科学任务时，它仍然十分重要。你可以从图10中看到Oracle SQL Developer 的截屏界面。

图10　Oracle SQL Developer软件的界面

Oracle SQL Developer数据库软件是处理公司数据库和数据仓库中结构化数据的最佳搭配。

这个软件最关键的部分就是SQL，所以为了使用它的全部潜力，你需要让自己熟悉这种查询语言。正如我们在前几章中看到的那样，这对数据科学家来说是一个非常有用的语言，即使你用得机会并不太多。这是因为它会以其他形式被使用到大数据的数据库程序中。

当你从事数据科学工作时，一些其他需要熟悉的程序如下。

MS Excel是微软Office套件中知名的电子表单应用。与其他的数据分析程序相比，Excel以其简单到不可思议的特性，一直沿用到今天，并且在检视csv（逗号分隔值，一组以逗号作为分隔符的数据值）文件形式的原始数据时迟早会派上用处（例如，创建分析结果报告的总结）。就像Office套件中的其他应用一样，它是具有商业所有权的，尽管还有很多具有类似功能的免费替代方案（例如，Open Office 的Calc应用）。
MS Outlook是微软Office套件中另一个同样知名的程序，它被设计用来处理电子邮件、日历、待做事宜以及联系人信息。当然也有很多免费的备选程序，但经常被用于工作场合。如果你每天都要处理内部和外部通信、预约等，它会显得非常有用。它也是具有商业所有权的软件。
Eclipse如早先提及的那样，这是面向对象语言以及其他编程语言（甚至是R）中最具人气的IDE。它非常稳健直观，使得编程的过程更加友好和高效。它是开源而且跨平台的。
Emcien能够处理复杂数据集，特别是半结构化数据和非数值类型时所使用的优秀的图像分析程序。如果你对更高级的数据分析，特别是基于图的分析感兴趣的话，这是一个不容错过的程序。它并不是一款其他数据分析程序的替代者，不过，它是具有商业所有权的。
Filezilla（或者其他的FTP客户端程序）能够传输大型文件或者在跨Internet进行文件传输时提供某一级别的安全性保障，此时这个程序就显得非常有用。它是一个开源软件。

7 要点

数据科学家在日常工作中会利用各类工具，本章介绍了其中最具有代表性的，包括：Hadoop/Spark、面向对象编程语言（例如Java）、数据分析平台（例如R）、可视化软件以及一些辅助工具（例如GIT和Oracle）。此外还有一些公司和行业所需求的特定程序。
Hadoop是大数据软件界的凯迪拉克，它的套件由几类组件组成，包括文件系统（HDFS）、将数据分布到计算机集群的方法（MapReduce）、机器学习程序（Mahout）、编程语言（Pig）、数据库程序（Hive、HBase等）、调度器（Oozie）、元数据和数据表管理框架（HCatalog）以及调试管理器和协同程序（Zookeeper）等。
Hadoop套件有很替代方案，例如Storm、Spark、BashReduce、Disco project，等等。
有几款可以并行帮助Hadoop开展工作的程序：Drill、Julia、D3.js、以及Impala等。
作为数据科学家，你应该能处理至少一个面向对象语言，例如Java、C++、Ruby、Python、C#等。面向对象语言目前是分布最广的编程语言范式，尽管最近有一股面向函数型语言的风潮涌动。
函数型编程语言（例如Clojure、OCaml、Clean、ML、Scala和Haskell）都是很优秀的资产，特别是如果你擅长编程而且想要扩展你的编程技能。
你必须对至少一种现下流行的分析工具极为熟悉，R、Matlab/Octave、SPS、SAS、Stata。其中只有R与Octave是开源的，而前者（R）是时下最为流行的选择。
Tableau则是数据可视化软件中的最好的选项，尽管还有类似于Spotfire、Qlikview、Brist、inZite、Prism和SAP Business Objects的工具。
集成大数据系统（例如IBM的BigInsights平台）同样值得去研究，因为它们使整体的数据科学流程更高效，同时将你从MapReduce所需的低层编程中解放出来。
其他一些程序值得你花时间去了解，GIT（或者其他的版本控制工具）、Oracle、MS Excel、MS Outloo、Eclipse、Emcien以及Filezilla（或者其他的FTP客户端程序）。很自然地，你会的程序越多（即使没有在本章中列举），也就越牛，只要你对它们掌握得足够好，它们也会在商业应用中展现出更大的价值。

[1]　译者注：最新微软Visual Studio已有免费版本。

[2]　 C语言是有史以来最好的几个结构化编程语言之一，并成为计算速度方面的标杆。尽管由于面向对象编程范式的兴起，它的人气已不如以往，它对应的面向对象编程语言C++和C#是非常流行且强大的语言。C同样是Matlab的基础，最好的数据分析编程平台之一。因为C是一个底层的语言，不那么直观，因此使用C来编写复杂的程序常成为挑战。

本文摘自由人民邮电出版社异步社区出版的《数据科学家修炼之道》

数据科学家是指采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师，他们往往集技术专家和数据分析师的角色于一身。在IT行业中，数据科学家将在创造力、沟通能力以及与商业世界的联系方面得到更多的锻炼机会，是当前非常有发展潜力的新兴职位。

本书全面介绍了成为数据科学家应当了解的各类知识。全书共分18章，首先介绍了数据科学与大数据、数据科学的重要性，接着介绍了数据科学家的类型、思维体系、技术资质、经验、社交圈、所用的软件、学习新知和解决问题，另外还介绍了机器学习与R语言平台、数据科学的处理流程、所需的具体技能，介绍了数据科学求职、自我展示并提供了一些有关职业数据科学家和数据科学家的案例学习。

本书内容全面、轻松易读，非常适合从事数据科学相关工作的读者阅读，是一本可以住读者应聘数据科学家职位的求职指南。

【样章试读】
【京东购买】

关注公众账号

你可能感兴趣的:(作为一名数据科学家必备工具有哪些？)

深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
Lombok：让 Java 代码更简洁优雅的神器 Kale又菜又爱玩 java 开发语言
Lombok：让Java代码更简洁优雅的神器1.Lombok简介在Java开发中，我们常常被大量重复的getter、setter、toString、equals和hashCode方法所困扰。这些样板代码（BoilerplateCode）不仅冗长，还降低了代码的可读性和维护性。Lombok作为一个轻量级Java库，能够自动生成这些方法，极大地提升了开发效率，让代码更加简洁优雅。1.1Lombok的引
Digicert SSL 证书 https
Digicert作为世界最早的证书品牌，是全球领先的数字安全解决方案提供商，Digicert在SSL证书领域具有显著的市场份额和影响力。DigicertSSL证书以其高度的安全性和可靠性赢得了全球用户的信赖。众多金融机构、政府机构、电子商务网站等关键领域都选择了DigicertSSL证书来保护其网络通信安全。一、基本功能加密通信：通过使用公钥加密技术，确保用户与网站之间的数据传输是安全的。身份验证
centos7使用yum网络安装
CentOS7Yum网络安装完全指南核心原理分析Yum（YellowdogUpdater,Modified）作为RPM系统的智能化软件包管理工具，通过以下机制实现自动化安装：依赖解析：自动识别软件包的前置依赖关系仓库同步：连接配置的软件仓库（repo）获取元数据事务处理：采用原子化操作保证安装/更新的完整性️全流程安装步骤详解步骤1：连接CentOS7服务器sshusername@server-i
详解工单系统WGCAT - 如何设置主题背景色运维服务器linux程序员
工单系统WGCAT在v1.2.2版本开始支持设置主题背景色如果你在使用老版本，只需要升级到v1.2.2版本就可以使用此功能了登录后，在右上角点击，如下图
HarmonyNext实战：基于ArkTS的高性能音视频播放器开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能音视频播放器开发引言在HarmonyNext生态系统中，音视频播放是一个复杂且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的音视频播放器，涵盖从基础播放功能到高级控制与优化的完整流程。我们将通过一个实战案例，详细讲解如何实现一个支持多种格式、流畅播放的音视频播放器，并确保其性能优化。1.环境准备与项目初始化首先，确保你的开发
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发引言在HarmonyNext生态系统中，ArkTS作为新一代的编程语言，为开发者提供了强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的音视频处理应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的特性，结合ArkTS的强大功能，实现复杂
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
面试了一个 7 年 Java 程序员，结果真让我哭笑不得。。。 java
大家好，我是R哥。作为一名资深的Java程序员、面试官，同时也做后端面试辅导，面试过许多人，也见过不少神奇的面试经历。但昨晚的一次模拟面试，真的让我哭笑不得。这兄弟来自92名校，毕业7年，干了几个中厂，想冲大厂，目标：40K，于是想模拟面试一下，体验下我们导师的实力。模拟面试之前，说自己八股文准备好了，面试完，竟然连许多常见的八股文都答不上来，而且他还很疑惑地问我：“你们的面试题是哪来的？怎么和我
Yarn：包管理优化与工作空间的最佳实践
在现代前端开发中，包管理工具是不可或缺的工具之一。Yarn作为一个快速、可靠且安全的包管理工具，相对于npm，提供了一些独特的功能和优化，尤其是在工作空间管理和性能优化方面尤为突出。本文将深入探讨Yarn的专业使用，包括其工作空间的强大功能、性能优化技术以及在大型项目中的最佳实践。Yarn简介Yarn是由Facebook开发的一个JavaScript包管理工具，它旨在解决npm的一些关键问题，如安
【软件测试】接口自动化测试用例通常包含哪些要素小马哥编程自动化测试用例
接口自动化测试用例通常包含以下要素：用例ID：唯一标识符，便于追踪和管理。用例名称：简要描述测试目的。接口信息：URL：接口地址。请求方法：如GET、POST、PUT、DELETE等。请求参数：Headers：如Content-Type、Authorization等。QueryParameters：GET请求中的查询参数。Body：POST/PUT请求的请求体，通常为JSON或XML。预期结果：状
数字IC前端设计究竟怎样？薪资前景如何？ IC观察者 fpga开发集成电路模拟IC 模拟版图模拟版图入门
数字ic前端岗位介绍：数字ic前端设计处于数字IC设计流程的前端，属于数字IC设计类岗位的一种。数字ic前端设计主要分成几种层次的设计：IPlevel，unitlevel，fullchip/SoClevel，gatelevel等。作为数字IC前端工程师，为了让写的RTL代码没有bug，会经常与验证工程师要求debugcase；为了了解芯片整体架构和功能属性，还要与架构工程师打交道；还要与后端工程师
2025精选VS经典：10款项目管理软件横评榜单
为什么90%的项目经理都在用错工具？深夜11点，项目经理李然盯着甘特图上交错的红色预警线，第6次推翻项目排期——这已是本季度因工具协作不畅导致的第3次交付延期。在敏捷开发成为主流的2025年，“工具选型偏差”正以每年23%的速度吞噬着企业效率（数据来源：PMI2025年行业报告）。作为操盘过金融、IT、制造业等全领域项目的战略官，我发现“工具适配度”比功能强大更重要。本文将用WBS（工作分解结构）
如何在Spring Boot中实现数据加密后端springboot
如何在SpringBoot中实现数据加密大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！一、数据加密的重要性与应用场景在当今信息安全日益受到重视的背景下，数据加密成为保护敏感信息不被未授权访问的重要手段。SpringBoot作为一种流行的Java开发框架，提供了多种方式来实现数据加密，适用于用户密码、数据库连接、敏感配置等场景。二、
《Quick Start Kubernetes》读后感 python
一、为什么选择这本书？面试的时候经常被问到kubernetes(下称k8s)，所以打算学习k8s。看到《QuickStartKubernetes》的作者对自己所写的书持续地更新，被这种认真打动了，外加这本书只有100多页，所以选择了这本书作为入门k8s的教材。二、这本书写了什么？这本书介绍了什么是k8s,k8s的组成结构(controlplanenode,workernode)，演示了在Windo
职场中的压力管理有哪些有效方法？ weixin_42220130 生活职场压力管理方法有效
有制订计划表、坚决不做全优生、不可或缺的一日三餐、放弃无意义的固执、勇于做个挑战者、通过沟通释放压力、尝试打破现状、劳逸结合的生活状态等方法。制订计划表[2]当个人有一个完美的计划表，并且正在逐步实施时，就不会产生无谓的压力。因为，一切尽在掌握之中。计划表是一个很好的监督者，叮嘱你每一个目标的实现，又是一个软性的压力，只有跳起来才能够得着。当你心里有底时，也就没有了压力。坚决不做全优生[2]许多白
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention UnknownBody LLM Daily Multimodal 语言模型人工智能大数据
摘要共同注意是儿童早期语言发展的关键组成部分，也是亲子互动有效性的重要指标。然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段，作为评估模型解释能力的基准。我们的研究结果显示，由于当前的多模态大语言模型对儿童发起的眼神交
API身份验证使用JWT的.NET实现雨夜思绪~静谧思考 .net
API身份验证使用JWT的.NET实现在现代的应用程序开发中，API身份验证是一项至关重要的任务。JWT（JSONWebToken）是一种常用的身份验证机制，它使用JSON格式表示身份验证信息，并使用签名进行验证。在.NET平台上，我们可以使用一些库来实现JWT身份验证。本文将介绍如何使用.NET来进行API身份验证并使用JWT作为身份验证机制。引入依赖项首先，我们需要在我们的项目中引入相关的依赖
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
Spike Neural Network Introduction and Research Directions Debug_Snail SNN Neuralnetwork 人工智能 AIGC
1.SNNs是一类神经网络,其中的神经元通过脉冲(spikes)来传递信息,而不是像传统的人工神经网络中那样使用实数值激活。SNNs更接近生物学上的神经系统,因为生物神经元也是通过电信号脉冲来传递信息的。与传统神经网络相比,SNNs具有以下几个特点:更低的功耗-因为只在发生脉冲时才激活神经元,所以整体功耗会比传统神经网络低很多。这使得SNNs很适合应用在对功耗要求非常严格的场景,如边缘计算。时序编
灵犀X2：人形机器人的新篇章 Anima.AI 机器人
简介灵犀X2是智元机器人推出的最新款人形机器人，很可能是其前代产品灵犀X1的升级版本。灵犀X1作为一款开源的模块化机器人，其机械设计和软件代码完全公开，全球开发者都可以参与优化和创新。这款机器人身高130厘米，体重33公斤，具备34到44个自由度（DegreesofFreedom,DoF，即关节活动范围），能够执行轻型任务，如端茶送水、整理房间等。灵犀X2在继承这些特性的基础上，可能进一步提升了动
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
探索未知，从脚下开始：国内高清卫星影像地图全攻略夜雨声超烦大数据云计算
在数字化飞速发展的今天，地图早已不再是传统的纸质模样，高清卫星影像地图正为我们打开一扇扇新世界的大门。今天，就来给大家分享一下国内有哪些好用的高清卫星影像地图平台。星图云开放平台：专业级的高清视界超高清分辨率：星图云开放平台拥有全国0.8米分辨率的影像地图，部分重点城市更是达到了惊人的0.5米，这种精度让我们仿佛能看清地面上的每一块砖石。历史影像回溯：它不仅提供当下最新鲜的影像，还能让你回溯历史，
由 Mybatis 源码畅谈软件设计（五）：ResultMap 的循环引用方圆想当图灵由 Mybatis 源码畅谈软件设计 mybatis 代码规范
本节我们来了解Mybatis是如何处理ResultMap的循环引用，它的解决方案非常值得在软件设计中参考。另外作为引申，大家可以了解一下Spring是如何解决Bean的循环注入的。以单测org.apache.ibatis.submitted.permissions.PermissionsTest#checkNestedResultMapLoop为例，它对应表结构和表中的数据为：createtabl
CSS入门指南：从零开始学习网页开发——（一）简介 GIS小白吃 css 学习前端
一、什么是CSS？CSS（CascadingStyleSheets，层叠样式表）是一种用于描述网页的外观和布局的样式表语言。它通过定义网页元素的样式（如颜色、字体、边距等）来与HTML内容分离，提升了网页的可维护性和设计的灵活性。CSS的核心目的是增强网页的表现力。早期的网页仅使用HTML来进行内容的展示，但由于HTML只能描述内容的结构，页面设计和内容变得难以管理。于是，CSS作为一种辅助技术应
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
C语言开发以及维护用到的工具简介 812503533 蓦然回首---再看C语言 c语言编辑器开发语言
C语言作为一门经典的编程语言，广泛应用于系统编程、嵌入式开发、操作系统内核等领域。经过第一部分的介绍，已经可以实现一些最简单的功能了，比如文字版本的计算器，猜数字小游戏，通过调整输出格式从而输出优美的图形等等，那么在未来的实际使用中，使用一些什么工具去进行c语言的编辑，查看，编译，运行等等，本文将做简单的介绍，后续再慢慢完善相关的内容。1、编辑器所有语言在编写的时候使用的工具就叫做编辑器，C语言程
C语言回调函数 812503533 c语言 java 开发语言
前文函数指针中说到了，函数指针的一个重要作用就是实现回调函数，那么什么是回调函数，回调函数有什么作用，在那些场景下使用，具体应该怎么使用，本文就分享下这块的知识。1、回调函数简介回调函数（CallbackFunction）是指将一个函数作为参数传递给另一个函数，然后在适当的时候由被调用的函数执行该回调函数。回调函数是实现事件驱动编程、异步编程和灵活接口设计的核心工具。回调函数通常用于实现高阶函数，
12.1go语言sync.Map和atomic包 chxii go语言 #go 基础后端 golang
sync.Map在Go语言中，sync.Map是sync包提供的一个并发安全的映射（map）类型。与内置的map类型不同，sync.Map无需在外部加锁即可安全地在多个goroutine中进行读写操作。这使得sync.Map在某些特定场景下，如高并发读写、键值对频繁变动等，具有更好的性能表现。1.特点并发安全：sync.Map内部实现了同步机制，多个goroutine可以同时对其进行读写操作，而无
AbMole| 纳米药物递送系统IL@H-PP在乳腺癌和脑转移光热疗法 AbMole AbMole 生物化学生物试剂科研生物实验
近年来，光热疗法（PTT）作为一种非侵入性的癌症治疗手段，因其独特的优势而受到广泛关注。来自四川大学华西药学院药物靶向与药物递送系统重点实验室的范童,胡海丽,徐燕燕等多名研究人员发表了题为《HollowcoppersulfidenanoparticlescarryingISRIBforthesensitizedphotothermaltherapyofbreastcancerandbrainmet
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><