学习R (图灵程序设计丛书)-[美]Richard Cotton
在线阅读 百度网盘下载(j18q)
书名:学习R (图灵程序设计丛书)
作者:[美]Richard Cotton
格式:EPUB, HTMLZ, PDF
书号:9787115351708
路径:点击打开
出版:人民邮电出版社
排序作者:Cotton, Richard
排序书名:学习R (图灵程序设计丛书)
日期:08 12月 2018
uuid:b4ad7220-7512-46b8-a2d4-31ef2f46f44d
id:468
出版日期:6月 2014
修改日期:08 12月 2018
大小:4.50MB
语言:中文
R是一种编程语言,也是用于数据分析和统计的软件环境。它是一个GNU项目,这意味着它是自由的开源软件。它正在以指数级的速度不断成长——普遍认为,它的用户人数可能超过了100万,它有4000多个由开发社区贡献的附件包,而且每年以约25%的速度增加。在本书创作之时,它在Tiobe编程社区指数(Tiobe Programming Community Index)的开发语言流行榜上已排至第24位,大致与SAS和MATLAB看齐。
R广泛地应用在每一个需要统计或数据分析的领域,涵盖了金融、市场营销、医药、基因组学、流行病学、社会科学、教学以及许多其他较小的领域。
2011 年由布拉德 ·皮特主演的影片《点球成金》描述了一个运用数据运营球队的故事:一位落魄的棒球队总经理比利 ·比恩(Billy Beane)与他的MBA 助理拍档在球队遭遇运营危机时,利用反传统的数据分析方法,开发出特有的计算机程序分析和选择球员、战术及其组合,使得这只球队从谷底反弹,而且创下美国棒球史上的连胜记录。他们不是只靠花大价钱购买高价球星,而是通过这种方法成功地使球队咸鱼翻生——“从没有一部电影将枯燥的数据转化为如此令人愉悦的娱乐体验”,《华尔街日报》如此评价。
上面只是数据分析中的一个有趣的例子,从中也反映出数据(以及大数据)分析已经逐渐成为一门越来越受关注的学问。在中国,人们同样越来越开始重视隐藏在数据背后的强大逻辑及其商业和学术价值。在我们的生活中,从“双11”的购物狂欢,身边的饭团中出现的各种“股神”,工作中的项目管理,一直到家庭账目的管理,可以说数据分析无处不在,也越来越受到个人和企业的重视,已经有大量的数据科学家在为各大、中、小企业服务。
如何从数据中得到有趣和有价值的东西,本书正是通往这一目标的桥梁之一。本书详细介绍的开源语言R 正日益成熟并受到关注,其社区和影响力也越来越大。
另外,和《华尔街日报》对以上电影的评价类似,这本书也将枯燥的数据和编程理论在某种程度上转化为更令人容易接受的体验——你可以在本书中接触到奥巴马与麦凯恩的选票大战,一只无辜的螃蟹的海底之旅,麋鹿的头盖骨,古英格兰七王国等演化过来的例子。通过这些既有趣又古怪的案例来学习R 以及数据分析,难道不会更加刺激你的脑细胞从而加深记忆吗?
R是什么
R有时会以两种不同的面孔出现:R编程语言及运行R程序的软件。乍一看可能会让人难以辨认,不过,大多数情况下都能够通过上下文,清楚地知道其中的R指的是什么。
R语言由奥克兰大学的Ross Ihaka和Robert Gentleman在20世纪90年代初开发。它源于20世纪70年代John Chambers在贝尔实验室带头开发的S语言。R软件是一个GNU项目,这表明它是一个重要的自由开源软件。现在的R语言和软件都由一个(目前)20人的R核心团队(R Core Team)开发。
R的历史可追溯到上世纪70年代,这一点非常重要,因为它在过去的几十年里不断演化,仿佛生命体一般,在演化过程中曾出现各种奇怪和矛盾的地方。与之相比,微软的.NET Framework更有一种“横空出世”1的感觉。R这种形式更为自由(尤其是自由许可证)的好处是,如果你不喜欢现有R的做法,完全可以重写一个包,使它按照你的想法去做。现在已经有很多人这样做了,如今常见的问题不是“我能使用R做到这一点吗”,而是“我应该用这三种实现中的哪一种”。
R是一个自由的开源数据分析语言。
它也是一个用于运行在R程序中的软件。
从http://www.r-project.org下载R。
可以使用任何文本编辑器写R代码,但也有几个集成开发环境能使开发更容易。
键入?加上函数名字来获得帮助。
输入??加上字符串找到有用的功能,或调用apropos函数。
网上有很多R的资源。
R可用作一个非常强大的科学计算器。
给变量赋值以便重复使用。
R有正负无穷、无值可用、缺失值这几种特殊值以协助数学运算。
R使用troolean逻辑。
所有的变量都有一个类。
可通过is函数或特定类的变量来测试一个对象是否是某个类。
可使用as函数或特定类的变量来改变一个对象的类。
有几个函数可用于检视变量,其中包括summary、head、str、unclass、attributes和View。
ls能列出你的变量;ls.str则连同名字及结构一起列出。
rm能删除变量。
seq函数及其变种可创建数字序列。
向量有长度,且可以使用length函数取得其值。
可以在创建时指定向量元素的名称,也可以用names函数指定。
你可以通过指定方括号的索引值来访问向量中的切片。rep函数能创建重复的向量元素。
数组是多维对象,矩阵是二维数组的特例。
nrow、ncol和dim函数提供了访问数组维度的方法。
同样地,rownames、colnames和dimnames能够取得数组中维度的名称。
列表中的每个元素中可包含大小和类型都不同的变量。
列表是递归变量,因为它可以包含其他列表。
使用[ ]、[[ ]]或$来索引列表。
NULL是特殊值,用于创建“空”的列表元素。
数据框能存储类似电子表格的数据。
数据框有一些类似矩阵(矩形的)和列表(不同的列可以包含不同类型的变量)的属性。
数据框可以被索引,正如矩阵或列表一样。
merge能让你对数据框进行类似数据库风格的连接操作。
环境能存储变量,它能够被new.env函数创建。
通常,你可以把环境看作列表。
所有的环境都有一个父环境(除了顶部的空环境) 。
函数由形参和函数体组成。
你可以分配和使用函数,像对任何其他的变量类型一样。
R将在当前的环境及其父环境中查找变量。
使用paste及其衍生函数能把字符串连接起来。
有很多函数可用于数字的格式化。
类别数据被存储在因子(或有序因子)中。
因子中每一个可能的类别被称为一个水平。
连续变量可以被cut函数转换成类别变量。
使用if与else可以有条件地执行语句。
ifelse是它们所对应的向量化函数。
R有三种类型的循环:repeat、while和for。
apply函数家族能使循环语句更简洁。
当你要把数据进行分组时,拆分-应用-合并的问题是很常见的。
对于大多数apply函数来说,plyr包提供了相应的替代函数且在语法上更为简洁。
有三个可用于存储日期和时间的内置类:POSIXct、POSIXlt和Date。
使用strptime函数解析字符,把它转换为日期。
使用strftime把日期格式化为字符串。
使用Olson名称或UTC的偏移量、或(有时)用三个字母的缩写指定时区。
lubridate包让处理时间变得稍容易些。
R所提供的数据集或包可以从data函数中取得。
可以从很多外部数据源中把数据导入R。
read.table及其变种函数能读取矩形数据。
readLines能读取那些非标准格式的文本文件。
XML包能读取HTML和XML数据。
RJSONIO、rjson和yaml包能读取JSON/YAML文件。
有很多的包可用于读取Excel文件,例如xlsx。
foreign能从统计软件中读取数据。
有大量的包可以用来操作数据库,例如DBI和RODBC。
stringr包对操作字符串非常有用。
数据框的列可以被相加、相减或操作。
数据框能以宽或长的形式存在。
可以对向量进行排序、排名和order。
R有一些函数式编程的能力,如Map和Reduce。
我们可以计算大量的汇总统计。
R有3种图形系统:base、lattice和ggplot2。
每个系统都支持所有常见的绘图类型。
R中有一些函数能支持动态和交互式绘图。
你能从几乎所有能想到的分布中生成相应的随机数。
大多数分布中有能计算它们的PDF /CDF /反CDF的函数。
许多模型函数使用公式来指定模型的形态。
lm能运行一个线性回归,且有许多辅助函数能更新、诊断和预测这些模型。
R能运行广泛的统计模型。
来源:我是码农,转载请保留出处和链接!
本文链接:http://www.54manong.com/?id=1164