大数据分析系列在线课程的学习札记之一

序:最近正在学习约翰霍普金斯大学的大数据分析在线课程(参考此处),在学习第3季:获取和清洗数据(Getting and Cleaning Data)时发现,从第一周开始的作业中就有几个细节需要特别注意。于是决定从本周开始将一些容易出问题的地方记录下来。


1)download.file()的使用

在下载Excel文件(XLSX类型)时,请注意使用二进制下载方式,即mode参数应设为“wb”。命令参考如下。

download.file(fileURL, destfile = "./data/nat_gas.xlsx", mode = "wb")

否则,下载的文件无法进行正确的读写。


2)curl包的支持

在解答XML数据导入问题的时候,题目中给出的链接是HTTPS(即带安全保护的HTTP),建议在Windows下使用RStudio的同学安装curl支持包,否则会出现报错的情况,即提示所提出的链接似乎不是XML。包的安装很简单,使用如下命令。

install.packages(curl)

3)Excel文件导入包的使用

因为Excel文件的导入包(package)要使用Java运行时支持库(JRE),所以需要下载相应的JRE环境。请注意如果Windows 使用的64位版本,务必要下载对应的版本。

官方下载的地址为:http://www.java.com/en/download/manual.jsp下载选项参考下图。


大数据分析系列在线课程的学习札记之一_第1张图片

64位版本的Windows用户请务必下载高亮的选项,否则在载入xlsx库时会出错。

此外,建议使用xlsx库之前将R更新到3.1.3版,同时将RStudio更新到最新版,否则可能会有警告信息。更新完环境之后,使用如下命令可以安装xlsx包。

install.packages(xlsx)


在安装xlsx包时请选择畅通的网络,因为依赖的库相对较多

4)data.table包的使用

要点1:data.table包的使用很重要,虽然是放在最后,但是务必要认真学习,因为以后也会经常用。

要点2:在做练习时,请注意载入data.table包后,使用fread读取文件生成data table,不仅速度快,而且不会报错。

要点3:在安装data.table包时请选择畅通的网络。

4)swirl课程包的安装

这一季的学习中也有swril的可选内容,不过swirl默认没有安装对应的课程包,使用如下命令,已安装课程包。

install_from_swirl("Getting_and_Cleaning_Data")


大体上就是这些吧!祝各位同学好运!

你可能感兴趣的:(大数据分析)