学习R编程语言
R是一种编程语言,也是用于数据分析和统计的软件环境。它是一个GNU项目,这意味着它是自由的开源软件。它正在以指数级的速度不断成长——普遍认为,它的用户人数可能超过了100万,它有4000多个由开发社区贡献的附件包,而且每年以约25%的速度增加。在本书创作之时,它在Tiobe编程社区指数(Tiobe Programming Community Index)的开发语言流行榜上已排至第24位,大致与SAS和MATLAB看齐。
R广泛地应用在每一个需要统计或数据分析的领域,涵盖了金融、市场营销、医药、基因组学、流行病学、社会科学、教学以及许多其他较小的领域。
因为R主要用于统计分析,所以很多关于R的书都在指导你如何计算统计或模型数据集。然而,这些书忽视了数据分析应用的实际情况。事实上,除非你做的是尖端研究,否则你所用到的统计技术往往只需用于常规任务,而且你的模型可能也不大。完整的数据分析流程更像是这样:
取得一些数据;
清理数据;
探索和可视化数据;
数据建模并做出预测;
展示或发布你的结果。
当然,每个阶段都可能碰到一些有趣的问题,以至于你需要更多的数据,或者要以不同的方式处理现有数据,这会使你的工作倒退一步。工作流是可以迭代的,但每个步骤都不可或缺。
本书的第一部分会从头开始教你R——你不需要任何编程语言的经验。实际上,虽然完全没有编程经验也无妨,但有一些基本的编程知识会更好。例如,本书介绍了如何注释代码以及编写for循环,但没有作更详细的解释。因此,如果你想要找本真正的编程入门课本,那么Jason R. Briggs写的Python for Kids非常合适!
本书的第二部分将展示R语言的完整数据分析流程,这里需要一些基本的统计知识。例如,你应该了解平均值和标准差等术语,以及什么是条形图(bar chart)。
本书最后将介绍R的一些高级主题,例如面向对象编程和包的创建。Garrett Grolem的Data Analysis with R将会在本书的基础上深入探讨数据分析流程。
一点提醒:这不是一本参考书,许多主题叙述得并不详细。本书旨在指导你如何使用R,并提供练习的机会。显然,我们没有那么多篇幅把所有4000个附件包都过一遍,但当读完此书,你将有能力找到你所需要的东西,并知道如何寻求帮助以应用它们。