基于python的心脏病个人指数数据集数据处理——结课论文

这篇具有很好参考价值的文章主要介绍了基于python的心脏病个人指数数据集数据处理——结课论文。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言:此论文是小赵的python数据分析与应用的结课作业未上传论文涉及的所有数据集,本论文所涉及的数据预处理,数据分析和可视化仅以这些数据集为准,所有处理方法,结果以及结论仅个人观点。

心脏病个人指数数据集数据处理

摘要:

    本论文包含了对心脏病个人指数数据集的概述,数据预处理,数据可视化以及数据分析还有相关代码,整体论文实现以下内容:数据预处理,包括异常数据处理,缺省数据处理,重复值处理,数据标准化;数据可视化,包括受访人员性别比例可视化,种族分布可视化,睡眠时长可视化,心理健康和身体健康情况可视化;数据分析,包括年龄与心脏病的关系,抽烟,喝酒与心脏病的关系,BMI值与心脏病的关系,也包括了这些功能实现的操作步骤以及处理过程和详细代码。本论文所涉及的数据预处理,数据分析仅以此数据集为准,所有处理方法,结果以及结论仅个人观点。

目  录

1. 数据集概述

2. 数据预处理

2.1 缺省数据处理. 

2.2 重复值处理. 

2.3 异常数据处理. 

2.4 数据标准化. 

3. 数据可视化

3.1 受访人员性别分布可视化. 

3.2 种族比例可视化. 

3.3 睡眠时长可视化. 

3.4 心理健康和身体健康情况可视化. 

4. 数据分析

4.1 年龄与心脏病的关系. 

4.2 抽烟,重度饮酒与心脏病的关系. 

4.3 BMI值与心脏病患者的关系. 

5. 代码.

数据预处理

数据可视化

数据分析


心脏病个人指数数据集数据处理

1. 数据集概述

该数据集来自美国疾病控制与预防中心,是行为风险因素监测系统(BRFSS)的主要组成部分,该系统每年进行电话调查,收集美国居民健康状况的数据。正如美国疾病控制与预防中心所描述的那样:“BRFSS成立于1984年,在15个州建立,现在在所有50个州以及哥伦比亚特区和3个美国领地收集数据。BRFSS每年完成40多万名成年人的访谈,使其成为世界上最大的连续进行的健康调查系统。

最近的数据集(截至2022年2月15日)包含了2020年的数据。它由401,958行和279列组成。大部分栏目都是针对受访者的健康状况的问题,如“你走路或爬楼梯有严重困难吗?”或“你一生中吸过至少100支烟吗?”。

背景描述

据美国疾病控制与预防中心的数据,心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)的主要死因之一。大约一半的美国人(47%)至少有三种导致心脏病的主要风险因素中的一种:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病状况、肥胖(BMI高)、缺乏体育活动或饮酒过多。发现和预防对心脏病有最大影响的因素在医疗保健中非常重要。反过来,计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”,从而预测病人的病情。

数据说明

该数据集包含18个变量(9个布尔值,5个字符串和4个小数点)。在机器学习项目中,“HeartDisease ”可以用作探究变量,但请注意,类是严重失衡的。

数据名称 数据说明
1 HeartDisease -曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者
2

BMI

-身体质量指数(BMI)
3 Smoking -你一生中至少抽过100支烟吗?
4 AlcoholDrinking -重度饮酒者(成年男性每周饮酒超过14杯,成年女性每周饮酒超过7杯
5

Stroke

-中风
6 PhysicalHealth -现在想想你的身体健康,包括身体疾病和受伤,在过去的30天里,有多少天你的身体健康不好?(0-30天)
7

MentalHealth

-心理健康,在过去的30天里有多少天你的心理健康不好?(0-30天)
8 DiffWalking -你走路或爬楼梯有严重困难吗?
9 Sex -性别
10

AgeCategory

-年龄范畴
11 Race -种族/民族
12 Diabetic -是否有糖尿病?
13 PhysicalActivity -过去30天里从事体育活动或锻炼的成年人
14 GenHealth -你是否认为你的健康状况?
15

SleepTime

-平均来说,你在24小时内的睡眠时间是多少小时?
16 Asthma -是否得有哮喘?
17

KidneyDisease

-不包括肾结石、膀胱感染或尿失禁,你是否曾被告知有肾病?
18 SkinCancer -是否得过皮肤癌?

表1-1 数据集数据说明

原始数据集部分数据如下:

python数据分析课程论文,python,数据分析,数据可视化

图 1‑1 数据集部分数据截图

2. 数据预处理

2.1  缺省数据处理

首先我们先将数据集导入,接下来查看一下heart数据集的基本信息,来观察数据集包含的数据类型,再用isnull()函数来查看数据集是否有缺省值,处理过程和效果如下图2-1-1和2-1-2所示  python数据分析课程论文,python,数据分析,数据可视化   

    图 2-1-1 查看数据集基本信息                               

python数据分析课程论文,python,数据分析,数据可视化

图 2-1-2 判断数据集是否有缺省值

从结果可以看出:

(1)一共319795条信息,这是个大数据集

(2)一共18个特征,其中4个浮点型数据,14个引用型数据

(3)所有数据均完整,无缺失

因此不需要对heart数据集进行缺省数据处理。

2.2 重复值处理

先用duplicated()方法进行逻辑判断,确定是否有重复值,处理过程如所示

python数据分析课程论文,python,数据分析,数据可视化

图 2-2-1 判断数据集是否有重复值

再用duplicates(subset,keep,inplace)方法对某几列下面的重复行删除

subset:以哪几列作为基准列,判断是否重复,如果不写则默认所有列都要重复才算

keep: 保留哪一个,fist-保留首次出现的,last-保留最后出现的,False-重复的一个都不保留,默认为first

那么在这里我对重复的数据进行的操作是将数据集中所有列数据都重复的行进行删除,将重复值删除后的数据集保存为data1.csv文件,处理过程如所示

python数据分析课程论文,python,数据分析,数据可视化

图 2-2-1 判断数据集是否有重复值

2.3 异常数据处理

检测数据异常值的方法有很多种,如3σ原则,箱线图分析等等,我这里选择的是使用箱线图来检测数据集的异常值,局限性是只能检测到列为数值型的数据,本次异常数据处理是基于data1.csv数据集上进行的,将处理后的数据集保存到data2.csv文件,操作过程和效果分别如下图2-3-1和图2-3-2所示。

python数据分析课程论文,python,数据分析,数据可视化

图 2-3-1 异常数据处理过程

python数据分析课程论文,python,数据分析,数据可视化

图 2-3-2 异常数据处理箱线图

2.4 数据标准化

数据标准化是基于data2.csv数据集上进行的,这里由于数据集有213956条数据,同样局限于数值型数据,我采用的是离差法标准化。

由于数据庞大,那么我们截取BMI,PhysicalHealth,MentalHealth,SleepTime四列数值型数据的前5行,操作过程如下图2-4-1所示

python数据分析课程论文,python,数据分析,数据可视化

图 2-4-1 数据集数值型数据前五行

接下来,对数据集中的数值型数据进行离差标准化处理:打印出离差标准化处理前的前五行数据,和离差标准化处理后的前五行数据,并将标准化后的数据集保存至data.csv文件,操作过程和效果如下图2-4-2所示。

python数据分析课程论文,python,数据分析,数据可视化

图 2-4-2 数据标准化处理过程与效果

3. 数据可视化

3.1 受访人员性别分布可视化

统计出受访人员的各个性别的人数,并使用直方图方式绘制出可视化图形,如图3-1所示。,具体操作步骤如下图3-1-1和3-1-2所示。

python数据分析课程论文,python,数据分析,数据可视化

图 3-1-1 受访人员性别分布可视化处理过程

python数据分析课程论文,python,数据分析,数据可视化

图 3-1-2 受访人员性别分布可视化效果

3.2 种族比例可视化

       计算出受访人员的种族分布,然后统计出各个种族的人数,并使用饼图方式绘制出可视化图形,如图3-2所示,处理过程与效果如下图3-2-1和3-2-2所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

python数据分析课程论文,python,数据分析,数据可视化

图 3-2-1 种族比例可视化处理过程

python数据分析课程论文,python,数据分析,数据可视化

图 3‑2-2种族比例饼图

3.3睡眠时间分布可视化

统计出受访人员各个睡眠时长分布,并使用直方图方式绘制出可视化图形,如图3-3所示,处理过程和效果如图3-3-1和3-3-2所示。

python数据分析课程论文,python,数据分析,数据可视化

图 3‑3-1睡眠时间分布处理过程

python数据分析课程论文,python,数据分析,数据可视化

图 3‑3-2睡眠时间分布直方图

3.4心理健康程度和身体健康程度分布可视化

统计出受访人员心理健康程度和身体健康程度分布,并使用折线图方式绘制出可视化图形,如图3-4所示,操作步骤如下:

python数据分析课程论文,python,数据分析,数据可视化

图 3-4-1 心理健康程度和身体健康程度分布可视化处理过程

python数据分析课程论文,python,数据分析,数据可视化

图 3‑4-2心理健康程度和身体健康程度分布折线图

4. 数据分析

4.1 年龄与心脏病的关系

统计出不同年龄段的人员数量分布,并对不同年龄段的心脏病患者进行统计,使用散点图的方式绘制出可视化图形,如图 4‑1所示,处理过程与效果如图4-1-1和4-1-2所示。

通过分析散点图4-1-2可得,从整体上说,随着年龄越大,心脏病患者的人数也越多,所以可以得出随着年龄的增长,患心脏病的概率也会增大。

python数据分析课程论文,python,数据分析,数据可视化

python数据分析课程论文,python,数据分析,数据可视化

图 4-1-1年龄与心脏病关系分析过程

python数据分析课程论文,python,数据分析,数据可视化

图 4‑1-2年龄与心脏病的关系散点图

4.2 抽烟,重度饮酒与心脏病的关系

4.2.1抽烟与心脏病的关系

统计一个数据集中是否抽烟与是否是心脏病患者排列组合四种情况(抽烟且患有心脏病,不抽烟且患有心脏病,抽烟且不患有心脏病,不抽烟且患有心脏病)的人数,通过比例来分析抽烟与心脏病的联系,处理过程如下,结果如图4-2-1所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

#首先,导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#接下来,可以使用pandas的groupby函数对数据进行分组统计:

count = data.groupby(['Smoking', ' HeartDisease']).size().reset_index(name='人数')

#最后,使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count['Smoking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

python数据分析课程论文,python,数据分析,数据可视化

图 4-2-1抽烟与心脏病的关系饼图

       通过分析图4-2-1可得,是否抽烟与心脏病患者的关系并不大,不能说明是否抽烟与心脏病患者存在什么明显的关系。

统计数据集中心脏病患者中抽烟人数的占比,再使用饼图的方式绘制出可视化图形表示他们的关系,如图4-2-4所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

python数据分析课程论文,python,数据分析,数据可视化

图 4-2-2心脏病患者中抽烟人数的占比饼图

通过分析图4-2-2可得,心脏病患者中有55.3%的人抽烟,可以说明抽烟会提高患有心脏病的概率。

4.2.2重度饮酒与心脏病的关系

统计数据集中重度饮酒与是否是心脏病患者排列组合四种情况(重度饮酒且患有心脏病,不重度饮酒且患有心脏病,重度饮酒且不患有心脏病,不重度饮酒且不患有心脏病)的人数,通过比例来分析抽烟与心脏病的联系,如图4-2-3所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

#首先,导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#接下来,可以使用pandas的groupby函数对数据进行分组统计:

count=data.groupby(['AlcoholDrinking','HeartDisease']).size().reset_index(name='人数')

#最后,使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count['AlcoholDrinking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

python数据分析课程论文,python,数据分析,数据可视化

图 4‑2-3喝酒与心脏病的关系饼图

通过分析图4-2-3可得,是否抽烟与心脏病患者的关系并不大,不能说明是否抽烟与心脏病患者存在什么明显的关系。

统计数据集中心脏病患者中重度喝酒人数的占比,再使用饼图的方式绘制出可视化图形表示他们的关系,如图4-2-4所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

python数据分析课程论文,python,数据分析,数据可视化

图 4-2-4喝酒与心脏病患者的关系饼图

通过分析图4-2-4可得,心脏病患者中仅有4.0%的人重度饮酒,可以说明重度饮酒不会提高患有心脏病的概率。

4.2.3抽烟,重度饮酒与心脏病的关系

统计数据集中是否抽烟与是否是冠心病患者和是否是饮酒的排列组合六种情况(抽烟重度饮酒患心脏病,抽烟不喝酒患心脏病,抽烟不重度饮酒不患冠心病,不抽烟但重度饮酒患心脏病,不抽烟但重度饮酒酒不患冠心病,不抽烟不重度饮酒不患冠心病 )的人数,并使用饼图进行可视化,处理过程如下,结果如下图4-2-5所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

#导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#使用pandas的groupby函数对数据进行分组统计,得到六种情况的人数:

count = data.groupby(['Smoking', 'HeartDisease', ' AlcoholDrinking ']).size().reset_index(name='人数')

#使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count[' Smoking '] + ' ' + count[' HeartDisease '] + ' ' + count[' AlcoholDrinking '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

python数据分析课程论文,python,数据分析,数据可视化

图 4-2-5抽烟,喝酒与心脏病患者的关系饼图

通过分析图4-2-5可得,仅抽烟,仅喝酒或既喝酒又抽烟与心脏病患者的关系并不大,不能说明他们存在什么明显的关系。

4.3 BMI值与心脏病患者的关系

统计数据集中心脏病患者不同BMI值的的数量,并以直方图的方式可视化数据,处理过程如下,结果如图4-3-1 所示。

通过分析图4-3-1 ,心脏病患者的人数随BMI值正态分布,BMI值越靠近中间,心脏病患者的人数越多,从中间向两边呈递减趋势。

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']

data = pd.read_csv('data2.csv')

count = data[data['HeartDisease'] == 'Yes']['BMI'].value_counts().sort_index()

plt.hist(data[data['HeartDisease'] == 'Yes']['BMI'], bins=10, edgecolor='black')

plt.xlabel('BMI值')

plt.ylabel('人数')

plt.title('心脏病患者的BMI值分布')

plt.show()

python数据分析课程论文,python,数据分析,数据可视化

图 4-3-1 BMI值与心脏病患者的关系直方图

5. 代码

数据预处理

缺省数据处理:

#导入所需库

import numpy as np

import pandas as pd

#画图

import matplotlib.pyplot as plt

# 导入数据集"heart_2020_cleaned.csv"

heart = pd.read_csv('heart_2020_cleaned.csv')

# 查看一下数据

heart.head()

# 查看一下heart数据集的基本信息

heart.info()

#查看缺省数据并总计

heart.isnull().sum()

重复数据处理:

#先用duplicated()方法进行逻辑判断,确定是否有重复值

data=pd.read_csv("heart_2020_cleaned.csv",encoding='gbk')

#打印出重复值的数量

print(data.duplicated().value_counts())

#再用duplicates(subset,keep,inplace)方法对某几列下面的重复行删除

#subset:以哪几列作为基准列,判断是否重复,如果不写则默认所有列都要重复才算

#keep: 保留哪一个,fist-保留首次出现的,last-保留最后出现的,False-重复的一个都不保留,默认为first

#那么在这里我对重复的数据进行的操作是将数据集中所有列数据都重复的行进行删除。

data1=data.drop_duplicates(subset=None,keep='first',inplace=False)

print(data1.duplicated().value_counts())

#并将删除重复值后的数据保存到data1.csv文件

data1.to_csv('data1.csv')

异常值处理:

data1=pd.read_csv('data1.csv')

#需要检测异常值的列为这四列

col_list=['BMI','PhysicalHealth','MentalHealth','SleepTime']

def remove_outliers(data1,col_list):#定义一个函数来检测和删除异常值

    outliers_count=0#记录异常值数量

    for col in col_list:

        q1=data1[col].quantile(0.25)

        q3=data1[col].quantile(0.75)

        iqr=q3-q1#计算四分位距

        lower_bound=q1-1.5*iqr#计算下限

        upper_bound=q3+1.5*iqr#计算上限

        outliers=data1[(data1[col]<lower_bound)|(data1[col]>upper_bound)].index#找出异常值所在的行

        outliers_count+=len(outliers) #记录异常值数量

        data1=data1.drop(outliers)#删除包含异常值的行

    print('一共有%d个异常值'%outliers_count)#打印异常值的数量

    return data1

data1[col_list].boxplot()#使用matplotlib库绘制箱线图来可视化数据

plt.show()



data2=remove_outliers(data1,col_list)

data2.to_csv('data2.csv')#将删除异常值后的数据集保存为data2.csv文件

数据标准化:

#打印前几行数值型数据

print(data2.loc[:10,['BMI','PhysicalHealth','MentalHealth','SleepTime']])

#导入数据集

data= pd.read_csv('data2.csv',index_col=0,encoding='gbk')

def MinMaxScale(data):

    data=(data-data.min())/(data.max()-data.min())

    return data

dataA=MinMaxScale(data['BMI'])

dataB=MinMaxScale(data['PhysicalHealth'])

dataC=MinMaxScale(data['MentalHealth'])

dataD=MinMaxScale(data['SleepTime'])

data1=pd.concat([dataA,dataB,dataC,dataD],axis=1)

print('前的数据为:\n',data[['BMI','PhysicalHealth','MentalHealth','SleepTime']].head())

print('后的数据为:\n',data1.head())

data1.to_csv('data3.csv')#将数据标准化后的四列数据保存为data3.csv文件

数据可视化

受访性别比例:

import pandas as pd

from pylab import mpl 

mpl.rcParams['font.sans-serif'] = ['SimHei']

# 读取数据集

data = pd.read_csv("data2.csv")

# 统计男女人数

gender_counts = data["Sex"].value_counts()

male_count = gender_counts["Male"]

female_count = gender_counts["Female"]

# 打印结果

print("男性人数:", male_count)

print("女性人数:", female_count)

import matplotlib.pyplot as plt

# 生成横坐标和纵坐标数据

x = ['Male', 'Female']

y = [male_count, female_count]

# 绘制直方图

plt.bar(x, y)

# 设置横坐标和纵坐标标签

plt.xlabel('性别')

plt.ylabel('人数')

# 设置图标题

plt.title('受访人员性别分布')

# 显示图形

plt.show()

种族分布可视化:

import pandas as pd

import matplotlib.pyplot as plt

# 读取数据集

data = pd.read_csv('data.csv')

# 统计每种种族的人数

count = data['Race'].value_counts()

# 绘制饼图

plt.pie(count, labels=count.index.tolist(), autopct='%1.1f%%')

plt.title('Distribution of Races')

plt.show()

睡眠时间分布可视化:

import pandas as pd

import matplotlib.pyplot as plt

# 读入数据集

data = pd.read_csv('data2.csv')

# 获取睡眠时间列的值,并计算每个唯一值的数量

sleep_time_values = data['SleepTime'].value_counts()

# 绘制直方图

plt.bar(sleep_time_values.index, sleep_time_values.values)

plt.xlabel('Sleep Time')

plt.ylabel('Count')

plt.title('Histogram of Sleep Time')

plt.show()

数据分析

年龄与心脏病患者的关系:

import pandas as pd

import matplotlib.pyplot as plt

# 读取数据集并选取年龄范围和冠心病患者两列

data = pd.read_csv('data2.csv')

age_range = data['AgeCategory']

has_heart_disease = data['HeartDisease']

# 统计年龄范围中不同值的数量,并保存到一个字典中

age_dict = {}

for age in age_range:

    if age in age_dict:

        age_dict[age] += 1

    else:

        age_dict[age] = 1

# 计算每个年龄段的冠心病患者数量,并保存到两个列表中

age_list = []

count_list = []

has_disease_list = []

for age, count in age_dict.items():

    age_list.append(age)

    count_list.append(count)

    age_data = data[data['AgeCategory'] == age]['HeartDisease']

    has_disease_count = age_data[age_data == 'yes'].count()

    has_disease_list.append(has_disease_count)

# 绘制散点图

plt.scatter(age_list, count_list, label='总人数')

plt.scatter(age_list, has_disease_list, label='冠心病患者数')

plt.xlabel('年龄段')

plt.ylabel('数量')

plt.legend()

plt.show()

抽烟,重度饮酒与心脏病的关系

抽烟与心脏病的关系:

#首先,导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#接下来,可以使用pandas的groupby函数对数据进行分组统计:

count = data.groupby(['Smoking', ' HeartDisease']).size().reset_index(name='人数')

#最后,使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count['Smoking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

重度饮酒与心脏病的关系:

#首先,导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#接下来,可以使用pandas的groupby函数对数据进行分组统计:

count=data.groupby(['AlcoholDrinking','HeartDisease']).size().reset_index(name='人数')

#最后,使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count['AlcoholDrinking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

抽烟,重度饮酒与心脏病的关系:

#导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#使用pandas的groupby函数对数据进行分组统计,得到六种情况的人数:

count = data.groupby(['Smoking', 'HeartDisease', ' AlcoholDrinking ']).size().reset_index(name='人数')

#使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count[' Smoking '] + ' ' + count[' HeartDisease '] + ' ' + count[' AlcoholDrinking '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

BMI值与心脏病患者的关系:文章来源地址https://www.toymoban.com/news/detail-762492.html

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']

data = pd.read_csv('data2.csv')

count = data[data['HeartDisease'] == 'Yes']['BMI'].value_counts().sort_index()

plt.hist(data[data['HeartDisease'] == 'Yes']['BMI'], bins=10, edgecolor='black')

plt.xlabel('BMI值')

plt.ylabel('人数')

plt.title('心脏病患者的BMI值分布')

plt.show()

到了这里,关于基于python的心脏病个人指数数据集数据处理——结课论文的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 数据挖掘:心脏病预测(测评指标;EDA)

    数据挖掘:心脏病预测(测评指标;EDA)

    目录 一、前期准备 二、实战演练 2.1分类指标评价计算示例  2.2数据探索性分析(EDA) 2.2.1 导入函数工具箱 2.2.2 查看数据信息等相关数据 判断数据缺失和异常 数字特征相互之间的关系可视化  类别特征分析(箱图,小提琴图,柱形图)  2.2.3特征与标签构建 2.3模型训练与预

    2024年02月03日
    浏览(13)
  • 数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病...

    数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病...

    这个数据集( 查看文末了解数据免费获取方式 )可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。\\\"目标 \\\"字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病 ( 点击文末“阅读原文”获取完整 代码数据 ) 。 目标: 主要目的是预测给定的人

    2024年02月16日
    浏览(10)
  • 【统计模型】心脏病患病影响因素探究

    【统计模型】心脏病患病影响因素探究

    目录 心脏病患病影响因素探究 一、研究目的 二、数据来源和相关说明 三、描述性统计分析 四、数据建模 4.1 全模型 (1)模型构建 (2)模型预测 4.2 基于AIC准则的选模型A 4.3 基于BIC准则的选模型B 4.4 模型评估 五、结论及建议 5.1 结论 5.2 建议 六、代码         内容提要

    2024年02月03日
    浏览(10)
  • 深度学习-第R1周心脏病预测

    深度学习-第R1周心脏病预测

     🍨 本文为 🔗365天深度学习训练营  中的学习记录博客 🍖 原作者: K同学啊 语言环境:Python3.10.7 编译器:VScode 深度学习环境:TensorFlow 2.13.0 age: 1)年龄 sex:2)性别 cp: 3) 胸痛类型(4 values) aK同字 trestbps: 4) 静息血压 chol: 5) 血清胆甾醇(mg/dl fbs: 6) 空腹血糖 120 mg/dI restecg: 7) 静息

    2024年02月16日
    浏览(6)
  • R语言关于心脏病相关问题的预测和分析

    R语言关于心脏病相关问题的预测和分析

    背景 心脏病由心脏结构受损或功能异常引起包括先天性心脏病和后天性心脏病,不同类型的心脏病表现不同,轻重不一。 本报告是基于R语言对心脏研究的机器学习/数据科学调查分析。更具体地说,我们的目标是在心脏研究的数据集上建立一些预测模型,建立探索性和建模方

    2024年02月09日
    浏览(8)
  • 【ACDC数据集】:预处理ACDC心脏3D MRI影像数据集到VOC数据集格式,nii转为jpg,label转为png

    【ACDC数据集】:预处理ACDC心脏3D MRI影像数据集到VOC数据集格式,nii转为jpg,label转为png

    【Segment Anything Model】做分割的专栏链接,欢迎来学习。 【博主微信】cvxiaoyixiao 本专栏为公开数据集的介绍和预处理,持续更新中。 跟我要处理好的数据集的,我都给了。请自行注意检查数据集是否是你想要的,我只处理了原数据集的第一部分 也就是frame01部分。并且测试集

    2024年02月08日
    浏览(32)
  • 【数据集处理】基于Python处理EAR5数据

    【数据集处理】基于Python处理EAR5数据

    ERA5是ECMWF(欧洲中期天气预报中心)对1950年1月至今全球气候的第五代大气再分析数据集。 包含了四个 基本变量(日平均温度、降水、比湿度和距离地表2米的气压) ,这些变量在每日时间尺度上覆盖全球,从而可以对不同地区和时间段进行全面和统一的分析 时间分辨率:194

    2024年02月05日
    浏览(12)
  • Python地理数据处理 22:基于arcpy批量操作(四)

    Python地理数据处理 22:基于arcpy批量操作(四)

    代码描述:遍历a文件夹下的所有tif影像,并使用每个a文件夹中的tif影像对b文件夹下的所有tif影像进行裁剪。裁剪后的栅格将以两个tif文件进行组合命名,并保存到另一个文件夹中。 获取栅格数据的平均值,并输出程序运行进度: 程序运行进度: 某文件夹中包含多个子文件

    2024年02月04日
    浏览(9)
  • 数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

    数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

    案例数据集是在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。由于案例公司商业模式类似新零售,或者说有向此方向发展利好的趋势,所以本次基于利于公司经营与发展的方向进行数据分析。

    2024年02月11日
    浏览(20)
  • Python地理数据处理 二十一:基于arcpy批量操作(三)

    实现将给定的 .shp 文件中的所有省份作为裁剪范围,对给定的 .tif 文件进行裁剪,输出所有省份的单独 .tif 文件: 实现对文件名前14个字符一样的tif图像进行栅格运算求和: 如:XXXX_XXX_2003.M01_Mean、XXXX_XXX_2003.M02_Mean、XXXX_XXX_2003.M03_Mean;XXXX_XXX_2004.M01_Mean、XXXX_XXX_2004.M02_Mean、

    2024年02月01日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包