一些关于 R 语言的知识点
在完成一些作业的过程中,我使用 R 进行数据分析。在编写代码的过程中,一些知识并不是我熟悉的。我在这里对于一些我遇到的基础知识点做了总结。
R 语言问题
输出函数的差异
R 语言中 print
,cat
都可以用来输出,但它们之间仍然存在一些差别,例如
cat
支持转义字符的输出,并且可以方便地连接多个参数
很多教程 1 都有这两者区别的介绍。
修改 Data.frame 的列名2
1 | a <- c(1,2,3,4) |
使用 dplyr
包3可以更加灵活地对 Dataframe 进行操作,但这里 =
前面是新名字,=
后面是旧名字,个人认为有些别扭。
删除 Data.frame 中的列或行
1 | df = data.frame(x = 1:5, y = 6:10, z = 11:15) |
总的来说,可以使用 -
运算简单地移除某一行或列,这里也可以使用 c()
来指定多行或多列4。
提取 table()的结果
使用 as.data.frame
即可把 table()
的结果转化为数据框形式5。
计算时排除 NA
1 | a = c(1, NA, 3) |
很多函数中都有 na.rm
这一参数。
合并数据框
可以使用 cbind(df1, df2)
以及rbind(df1, df2)
进行合并,或者使用 dplyr
包中的 bind_rows
或bind_cols
实现相同的效果,并能对名称重复的列重新命名,处理列名不对应的情况6。
GGPLOT 问题
添加坐标轴标签7
1 | f <- gglpot(data) + geom_point(aes(x = x, y = y)) + |
修改坐标轴文字方向
如果 x 轴或者 y 轴的文字过长,影响显示,可以采用下面的方法进行调整8。
1 | f <- ggplot(data) + geom_point(aes(x = x, y = y)) + |
这里的角度以及横纵方向的调整数值可以根据实际需要设置。
统计学问题
如何理解 Diagnostics Plot 的结果
1 | fit <- lm(y ~ x) |
这是一个简单的线性回归模型,使用 plot 可以方便地绘制出对这一线性模型的诊断结果。对于它的理解可以查看这篇文章9。
计算生物多样性指数
对于一份由“样方编号(plotname)”“物种名(species)”“多度(abundance)”变量构成的数据,可以通过这样的方法快速计算生物多样性指数10。
1 | # 假设数据为 data |
- 1.【R language】清楚区分输出函数 cat、print、paste 区别 经验分享,Manchesterr,CSDN 博客 ↩
- 2.R 语言—定义数据框的列名, 初,CSDN 博客 ↩
- 3.R 语言中对数据框的列名重命名, 邓飞 ---- 育种数据分析之放飞自我,CSDN 博客 ↩
- 4.How to drop columns by name in a data frame,Stack Overflow ↩
- 5.R 语言学习 -table() 结果提取,wlt9037,CSDN 博客 ↩
- 6.R 语言数据合并,dltan,CSDN 博客 ↩
- 7.ggplot2 2.0 标度(坐标轴,图例修改), 炫炫有牛腩,CSDN 博客 ↩
- 8.ggplot 坐标轴方向设置, 生信编程日常, 简书 ↩
- 9.(R,线性回归)R 语言里的模型诊断图(Residuals vs Fitted,Normal QQ , Scale-Location ,Residuals Leverage),SteveMiller,CSDN 博客 ↩
- 10.R 软件计算生物多样性指数, 张金龙, 科学网 ↩