R语言-多元统计学分析课程报告

这篇具有很好参考价值的文章主要介绍了R语言-多元统计学分析课程报告。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文我们应用的软件为R语言,进行多元统计分析,所用的数据集为鸢尾花数据集;我们进行了Bayes判别、Fisher判别、系统聚类法、k-均值聚类和主成分分析。

# 导入鸢尾花数据集
data<-read.csv("E:/数学专业/多元统计学上机作业/iris.csv",header=T)
iris<-data[,-6]
# 分析变量之间的关系
data1<-as.matrix(data[,-c(5,6)]) # 去除最后一行符号行

我们首先画出变量之间的散点图:

# 画出变量之间的散点图
pairs(data1)

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

紧接着我们运用Fisher判别:

# Fisher判别
head(data)
by(data[,1:4],data[,5],colMeans) # 比较三类鸢尾花在4个变量上的均值
library(MASS)
z<-lda(species~.,data[,-6],prior=c(1,1,1)/3) # Fisher判定,设定三个类别的先验概率均为1/3
z
iris.lda.values<-predict(z) # 对现有样本进行预测
ldahist(data=iris.lda.values$x[,1],g=iris$species) # 输出在第一方向上,三个类别投影的直方图
ldahist(data=iris.lda.values$x[,2],g=iris$species)

可以得到结果为 :

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 紧接着应用Bayes判别,将数据分为训练集与测试集可以得到准确率吧达到97%。

在应用k-均值聚类,得到

# k-means聚类
install.packages("factoextra")
library(ggplot2)
library(factoextra)
library(cluster)
kmeans(data1[,1:4],3,nstart = 100) # 使用足够大的nstart,更容易得到对于最小的RSS值得模型

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

画出碎石图,可以知道我们将样本分为三类是最好的结果,这一结果也符合我们数据的本来特性。

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析 

最后用主成分分析可以得到 

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 文章来源地址https://www.toymoban.com/news/detail-523656.html

# 主成分分析
PCA1<-princomp(data1,cor=T)
summary(PCA1,loadings=T)
samplePC<-round(PCA1$scores,3) # 取样本主成分得分后3位
round(predict(PCA1),3)
screeplot(PCA1,type='lines') # 画碎石图
plot(samplePC[,1],samplePC[,2],xlab='大小因子',ylab='体型因子')
text(samplePC[,1],samplePC[,2],1:30,adj=-0.5,cex=0.8)

到了这里,关于R语言-多元统计学分析课程报告的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 统计学-R语言-6.3

    统计学-R语言-6.3

    本篇文章是最后一个介绍参数估计的章节。 研究一个总体时,推断总体方差 使用的统计量为样本方差 。研究两个总体时,所关注的参数是两个总体的方差比( ),用于推断的统计量则是两个样本的方差比( )。 估计一个总体的方差或标准差假定条件: 假设总体服从正态分

    2024年01月20日
    浏览(12)
  • 统计学-R语言-5.2

    统计学-R语言-5.2

    本篇文章将继续上篇的进行介绍。 大数定理大数定理”的另一种表达方式是“均值定理”,其含义是,随机变量X多个观察值的均值会随着观察值的增加越发趋近于总体的期望值,中心极限定理进一步告诉我们,均值服从期望为μ 的正态分布。在各种测量试验中,我们一般都

    2024年01月18日
    浏览(8)
  • 统计学-R语言-6.4

    统计学-R语言-6.4

    本片是对以上三个介绍的篇章的题进行介绍。 1、利用下面的信息,构建总体均值μ的置信区间: 总体均值的区间估计(大样本的估计) 利用下面的信息,构建总体均值μ的置信区间: (1)总体不服从正态分布,已知 ,n=35, =8900,s=510,置信水平为95% (2)总体不服从正态分布, 未

    2024年01月20日
    浏览(6)
  • 统计学-R语言-6.2

    统计学-R语言-6.2

    本篇将继续介绍上篇所剩下的内容。 设两个总体的均值分别为1和2,从两个总体中分别抽取样本量为n1和n2的两个随机样本,其样本均值分别为 和 。估计两个总体均值之差(u1-u2)的点估计量显然是两个样本的均值之差( )。 两个总体均值的置信区间是由两个样本均值之

    2024年01月18日
    浏览(15)
  • 统计学-R语言-4.6

    统计学-R语言-4.6

    本篇文章是对数据可视化的补充文章。 跳转至该篇博客 跳转至该篇博客 在上面两篇博客中,对单变量和双变量的列联表进行了实例展示,下面是对三维列联表进行实例。 行变量为被调查者所属社区和性别,列变量为态度的三维列联表: 生成行变量为被调查者性别和态度,

    2024年01月18日
    浏览(8)
  • 统计学-R语言-5.3

    统计学-R语言-5.3

    本篇文章即为概率与分布的最后一篇文章。 分位数函数是累积分布函数的反函数。 p-分位数是具有这样性质的一个值:小于或等于它的概率为p。 根据定义,中位数即50%分位数。 分位数通常用于置信区间的计算,以及与设计试验有关的势函数的计算。 下面给出一个置信区间

    2024年01月18日
    浏览(10)
  • 统计学-R语言-6.1

    统计学-R语言-6.1

    本篇文章将开始介绍参数估计的相关知识。 在调查居民对延迟退休态度的例子中,每个爱民区居民的态度称为(这个调查问题中的)个体(element, individual, unit),而所有爱民区居民对这个问题的观点称为总体(population) 总体是包含所有要研究的个体的集合。 由于包含的个体数有限

    2024年01月19日
    浏览(12)
  • 统计学-R语言-2.2

    统计学-R语言-2.2

    本篇文章是将上篇得软件安装完,对其部分功能进行介绍。 在我们日常练习时会有.RData文件导入,并对其进行分析,下面是两种方导入.RData文件。 直接找到自己下载的.RData文件,双击进行打开即可。 上面得工具栏中找到文件。 在里面找到打开程序脚本,找到你所保存的.R

    2024年02月02日
    浏览(12)
  • 统计学-R语言-4.7

    统计学-R语言-4.7

    本篇文章将介绍数据的描述统计量。 平均数也称为均值,常用的统计量之一 消除了观测值的随机波动 易受极端值的影响 根据总体数据计算的,称为总体平均数,记为;根据样本数据计算的,称为样本平均数,记为 。 设一组数据为:x1 ,x2 ,… ,xn (总体数据xN) 。 计算

    2024年01月16日
    浏览(9)
  • 统计学-R语言-2.1

    统计学-R语言-2.1

    上篇文章介绍了统计学-R语言的介绍,本篇文章介绍如何安装R软件。 可以登录官网,https://www.r-project.org/,点击此处跳转。 点进去下滑找到China,之后找任意一个链接地址进行下载即可。 我点的是第二个,进入后在红框中选择自己对应得版本进行下载。 第一次安装点击红框处

    2024年02月02日
    浏览(6)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包