《第二语言加工及R语言应用 中青年学者外国语言文学学术前沿研究( 二 )


这本专著主要参照Wickham & Grolemund (2017)的数据科学过程(导入-->整理-->转换、可视化、模型-->沟通)这一流程进行讲解 。
【《第二语言加工及R语言应用 中青年学者外国语言文学学术前沿研究】值得一提的是,本书作者并没有像《R语言实战》一开始就介绍一些抽象的概念,比如向量、矩阵、数组和数据框,而是直接开门见山,介绍了R的数据的特征——长数据(long format)(p.11),而且强调R的每一列都是一个变量(variable),每一行都是一个观测值(observation)这是与SPSS的本质区别 。可以说,本书作者是从初学者的角度来讲解R,让读者一目了然,而不至于一开始使用R就望而生畏或者不知所措 。
第一章:R语言数据科学 的亮点在于介绍了数据管理最重要的五大函数,比如研究者如果想把反应时(RT)转换为标准分(z分数),那就可以使用mutate函数 。在读这本书的时候,我发现书后的参考文献也是非常重要的参考资料,可以说这本书的参考文献基本涵盖了R语言领域非常经典的著作 。比如:
Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. CA: O’Reilly Media.
如果要深入学习数据管理的知识,比如在心理语言学里面,经常需要把语言成绩作为协变量(covariate)放入统计模型,这时候就可以使用Mutating Joins的相关函数,这一函数的使用在这本书里都有详细的解释 。
第二章:数据探索:描述性统计和数据可视化 。其中重点是介绍了使用tapply和aggregate函数来计算每一个实验条件下反应时的平均数和标准差,使用这两个函数,可以显著提升自己的工作效率 。在数据可视化方面,本书作者简单介绍了ggplot2作图,其中比较重要的函数有stat_summary和position_dodge 。不过ggplot2在本书的介绍非常有限(p.85),更多内容可以参考Hadley的如下代表作:
Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis (Second Edition ed.). Switzerland: Springer.
从第三章开始,本书主要开始涉及一些统计学的重要概念和统计建模的步骤 。第四章:使用R进行统计建模,可以说是本书最为重要的一章,因为这一章讲的内容主要是基于线性模型,其中提到了一些重要概念,比如交互效应,同时也介绍了数值型自变量做趋中处理(Centering)的方法、自变量为分类变量时的比较编码方案(contrast coding)和多重比较的方法(这一内容我觉得是最难的)、模型诊断与模型比较的方法这些都是为第六章:混合效应模型的学习打基础 。
关于统计建模和混合效应模型,如果要更深入的理解,可以参考本书作者引用的一些经典专著:
Baayen, R. H. (2008). Analyzing Linguistic Data: A Practical Introduction to Statistics Using R. Cambridge: Cambridge University Press.