Pytorch基本概念和使用方法

这篇具有很好参考价值的文章主要介绍了Pytorch基本概念和使用方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

1 Adam及优化器optimizer(Adam、SGD等)是如何选用的?

1)Momentum

2)RMSProp

3)Adam

2 Pytorch的使用以及Pytorch在以后学习工作中的应用场景。

1)Pytorch的使用

2)应用场景

3 不同的数据、数据集加载方式以及加载后各部分的调用处理方式。如DataLoder的使用、datasets内置数据集的使用。

4 如何加快训练速度以及减少GPU显存占用

技巧1:inplace=True

技巧2:with torch.no_grad():

技巧3:forward中的变量命名

技巧4:Dataloader数据读取

技巧5:gradient accumulation


1 Adam及优化器optimizer(Adam、SGD等)是如何选用的?

深度学习的优化算法主要有GD,SGD,Momentum,RMSProp和Adam算法。Adam是一种计算每个参数的自适应学习率的方法。相当于 RMSprop + Momentum。

在讲这个算法之前说一下移动指数加权平均。移动指数加权平均法加权就是根据同一个移动段内不同时间的数据对预测值的影响程度,分别给予不同的权数,然后再进行平均移动以预测未来值。假定给定一系列数据值Pytorch基本概念和使用方法那么,我们根据这些数据来拟合一条曲线,所得的值Pytorch基本概念和使用方法就是如下的公式:

Pytorch基本概念和使用方法

其中,在上面的公式中,β等于历史值的加权率。根据这个公式我们可以根据给定的数据,拟合出下图类似的一条比较平滑的曲线。

Pytorch基本概念和使用方法

1)Momentum

通常情况我们在训练深度神经网络的时候把数据拆解成一小批地进行训练,这就是我们常用的mini-batch SGD训练算法,然而虽然这种算法能够带来很好的训练速度,但是在到达最优点的时候并不能够总是真正到达最优点,而是在最优点附近徘徊。另一个缺点就是这种算法需要我们挑选一个合适的学习率,当我们采用小的学习率的时候,会导致网络在训练的时候收敛太慢;当我们采用大的学习率的时候,会导致在训练过程中优化的幅度跳过函数的范围,也就是可能跳过最优点。我们所希望的仅仅是网络在优化的时候网络的损失函数有一个很好的收敛速度同时又不至于摆动幅度太大。

所以 Momentum 优化器刚好可以解决我们所面临的问题,它主要是基于梯度的移动指数加权平均。假设在当前的迭代步骤第 t 步中,那么基于 Momentum 优化算法可以写成下面的公式:

Pytorch基本概念和使用方法

其中,在上面的公式中vdwvdb分别是损失函数在前 t-1 轮迭代过程中累积的梯度动量,β是梯度累积的一个指数,这里我们一般设置值为0.9。所以Momentum优化器的主要思想就是利用了类似于移动指数加权平均的方法来对网络的参数进行平滑处理的,让梯度的摆动幅度变得更小。

dW和db分别是损失函数反向传播时候所求得的梯度,下面两个公式是网络权重向量和偏置向量的更新公式,α是网络的学习率。当我们使用Momentum优化算法的时候,可以解决mini-batch SGD优化算法更新幅度摆动大的问题,同时可以使得网络的收敛速度更快。

2)RMSProp

RMSProp算法的全称叫 Root Mean Square Prop,是Geoffrey E. Hinton在Coursera课程中提出的一种优化算法,在上面的Momentum优化算法中,虽然初步解决了优化中摆动幅度大的问题。所谓的摆动幅度就是在优化中经过更新之后参数的变化范围,如下图所示,蓝色的为Momentum优化算法所走的路线,绿色的为RMSProp优化算法所走的路线。

Pytorch基本概念和使用方法

为了进一步优化损失函数在更新中存在摆动幅度过大的问题,并且进一步加快函数的收敛速度,RMSProp算法对权重 W 和偏置 b 的梯度使用了微分平方加权平均数。 其中,假设在第 t 轮迭代过程中,各个公式如下所示:

Pytorch基本概念和使用方法

算法的主要思想就用上面的公式表达完毕了。在上面的公式中sdw和sdb分别是损失函数在前 t−1 轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。所不同的是,RMSProp算法对梯度计算了微分平方加权平均数。这种做法有利于消除了摆动幅度大的方向,用来修正摆动幅度,使得各个维度的摆动幅度都较小。另一方面也使得网络函数收敛更快。(比如当 dW或者 db中有一个值比较大的时候,那么我们在更新权重或者偏置的时候除以它之前累积的梯度的平方根,这样就可以使得更新幅度变小)。为了防止分母为零,使用了一个很小的数值Pytorch基本概念和使用方法 来进行平滑,一般取值为10的负八次方。

3)Adam

有了上面两种优化算法,一种可以使用类似于物理中的动量来累积梯度,另一种可以使得收敛速度更快同时使得波动的幅度更小。那么将两种算法结合起来所取得的表现一定会更好。Adam(Adaptive Moment Estimation)算法是将Momentum算法和RMSProp算法结合起来使用的一种算法。

很多论文里都会用 SGD,没有 Momentum 等。SGD 虽然能达到极小值,但是比其他算法用的时间长,而且可能会被困在鞍点

如果需要更快的收敛,或者是训练更深更复杂的神经网络,需要用一种自适应的算法。

整体来讲,Adam 是最好的选择。

2 Pytorch的使用以及Pytorch在以后学习工作中的应用场景。

1)Pytorch的使用

①安装pytorch

②使用SpyderPytorch基本概念和使用方法创建一个project,点击Projects--->New Project

③在其中输入project名称,选择项目地址就ok了,比如我们创建Handwritten_numeral_recognition(手写数字识别)

Pytorch基本概念和使用方法

Pytorch基本概念和使用方法

④创建一个module,创建一个test.py。

Pytorch基本概念和使用方法

Pytorch基本概念和使用方法

⑤输入import torch,就可以开始pytorch的使用了。

Pytorch基本概念和使用方法

2)应用场景

①医疗

Pytorch基本概念和使用方法
医学图像分割

基于U-net的医学影像分割

通过Pytorch深度学习框架,编写分割脑部解剖结构程序。

②工业

比如通过Pytorch深度学习框架,编写设备的剩余寿命预测、故障诊断程序。

3 不同的数据、数据集加载方式以及加载后各部分的调用处理方式。如DataLoder的使用、datasets内置数据集的使用。

- dataloader本质是一个可迭代对象,使用iter()访问,不能使用next()访问;

- 使用iter(dataloader)返回的是一个迭代器,然后可以使用next访问;

- 也可以使用`for inputs, labels in dataloaders`进行可迭代对象的访问;

- 一般我们实现一个datasets对象,传入到dataloader中;然后内部使用yeild返回每一次batch的数据;

pytorch 的数据加载到模型的操作顺序是这样的:

① 创建一个 Dataset 对象

② 创建一个 DataLoader 对象

③ 循环这个 DataLoader 对象,将img, label加载到模型中进行训练

dataset = MyDataset()

dataloader = DataLoader(dataset)

num_epoches = 100

for epoch in range(num_epoches):

    for img, label in dataloader:

        ....

所以,作为直接对数据进入模型中的关键一步, DataLoader非常重要。

4 如何加快训练速度以及减少GPU显存占用

到底什么在占用显存?

输入的数据占用空间其实并不大,比如一个(256, 3, 100, 100)的Tensor(相当于batchsize=256的100*100的三通道图片。)只占用31M显存。

实际上,占用显存的大头在于:1. 动辄上千万的模型参数;2. 模型中间变量;3. 优化器中间参数。

第一点模型参数不必介绍;第二点,中间变量指每个语句的输出。而在backward时,这部分中间变量会翻倍(因为需要保留原中间值)。第三点,优化器在梯度下降时,模型参数在更新时会产生保存中间变量,也就是模型的params在这时翻倍。

技巧1:inplace=True

一些激活函数与Dropout有一个参数"inplace",默认设置为False,当设置为True时,我们在通过ReLU()计算时得到的新值不会占用新的空间而是直接覆盖原来的值,这也就是为什么当inplace参数设置为True时可以节省一部分内存的缘故。但在某些需要原先的值的情况下,就不可设置inplace。

此操作相当于针对显存占用第二点(模型中间变量)的优化。

技巧2:with torch.no_grad():

对于只需要forward而不需要backward的过程(validation和test),使用torch.no_grad做上下文管理器(注意要在model.eval()之后),可以让测试时batchsize扩大近十倍,而且也可以加速测试过程。此操作相当于针对显存占用第二点(因为直接没有backward了)和第三点进行优化。

model.eval()

with torch.no_grad():

pass

技巧3:forward中的变量命名

在研究pytorch官方架构和大神的代码后可发现大部分的forward都是以x=self.conv(x)的形式,很少引入新的变量,所以启发两点以减少显存占用(1)把不需要的变量都用x代替,(2)变量用完之后马上用del删除(此操作慎用,清除显存的同时使得backProp速度变慢)。此操作相当于针对第二点(模型中间变量)进行优化。

技巧4:Dataloader数据读取

一定要使用pytorch的Dataloader来读取数据。按照以下方式来设置:

loader = data.Dataloader(PYTORCH_DATASET, num_works=CPU_COUNT,

                         pin_memory=True, drop_last=True)

第一个参数是用pytorch制作的TensorDataset,第二个参数是CPU的数量(默认为0,在真正训练时建议调整),第三个参数默认为False,用来控制是否把数据先加载到缓存再加载到GPU,建议设置为True,第四个参数用于扔掉最后一个batch,使得训练更为稳定。

将pin_memory开启后,在通过dataloader读取数据后将数据to进GPU时把non_blocking设置为True,可以大幅度加快数据计算的速度。

for input_tensor in loader:

    input_tensor.to(gpu, non_blocking=True)

    model.forward(input_tensor)

技巧5:gradient accumulation

梯度积累通过累计梯度来解决本地显存不足的问题,即不在每个batch都更新模型参数,而是每经过accumulation steps步后,更新一次模型参数。相当于针对第三点(n步才更新一次参数)来进行优化。且由于参数更新的梯度计算是算力消耗的一部分,故梯度累计还可以一定程度上加快训练速度。

loss = model(input_tensor)

loss.backward()

if batch_idx % accumulate_steps == 0:

    optim.step()

    optim.zero_grad()

相当于一个epoch的步数(step)变少了(一个step相当于参数更新一次),但单个step的计算时间变长了(略小于n倍的原来时间)。文章来源地址https://www.toymoban.com/news/detail-466173.html

到了这里,关于Pytorch基本概念和使用方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • PyTorch 之 简介、相关软件框架、基本使用方法、tensor 的几种形状和 autograd 机制

    PyTorch 之 简介、相关软件框架、基本使用方法、tensor 的几种形状和 autograd 机制

    本文参加新星计划人工智能(Pytorch)赛道:https://bbs.csdn.net/topics/613989052 PyTorch 是一个基于 Torch 的 Python 开源机器学习库,用于自然语言处理等应用程序。它主要由 Facebook 的人工智能小组开发,不仅能够实现强大的 GPU 加速,同时还支持动态神经网络,这一点是现在很多主流框架

    2024年01月18日
    浏览(10)
  • Pytorch 的基本概念和使用场景介绍

    Pytorch 的基本概念和使用场景介绍

    PyTorch是Facebook人工智能研究院(FAIR)开发的一个开源机器学习库,它使用Python语言编写,支持动态计算图和分布式训练。PyTorch的特点是灵活、易用、高效,并且在研究和实际应用中得到了广泛的应用。 PyTorch将张量作为基本数据结构,类似于NumPy中的数组。张量可以是多维数

    2024年02月10日
    浏览(10)
  • JDBC的概念、作用、使用方法等

    JDBC是Java Database Connectivity的缩写,它是一组用于Java编程语言中连接和操作数据库的API。JDBC API定义了一组标准接口,使Java应用程序能够与任何关系型数据库进行交互,如Oracle、MySQL、PostgreSQL、Microsoft SQL Server等。 JDBC的作用是允许Java应用程序通过JDBC API与数据库进行通信,以

    2024年02月09日
    浏览(13)
  • pytorch中nn.ModuleList()使用方法

    我们可以将我们需要的层放入到一个集合中,然后将这个集合作为参数传入nn.ModuleList中,但是这个子类并不可以直接使用,因为这个子类并没有实现forward函数,所以要使用还需要放在继承了nn.Module的模型中进行使用。

    2024年02月07日
    浏览(15)
  • pytorch中nn.Parameter()使用方法

    对于 nn.Parameter() 是pytorch中定义 可学习参数 的一种方法,因为我们在搭建网络时,网络中会存在一些矩阵,这些矩阵内部的参数是可学习的,也就是可梯度求导的。 对于一些常用的网络层,例如 nn.Conv2d()卷积层 、 nn.LInear()线性层 、 nn.LSTM()循环网络层 等,这些网络层在pyt

    2024年02月13日
    浏览(16)
  • valgrind基本功能介绍、基础使用方法说明 valgrind基本功能介绍、基础使用方法说明

    valgrind基本功能介绍、基础使用方法说明_valgrind使用方法_HNU Latecomer的博客-CSDN博客 拷贝效果不好,请看原文。 1、Valgrind概述 Valgrind是一套Linux下,开放源代码(GPL V2)的仿真调试工具的集合。 Valgrind由内核(core)以及基于内核的其他调试工具组成。内核类似于一个框架(f

    2024年02月07日
    浏览(12)
  • PyTorch中grid_sample的使用方法

    PyTorch中grid_sample的使用方法

    官方文档 首先Pytorch中grid_sample函数的接口声明如下: input : 输入tensor, shape为 [N, C, H_in, W_in] grid: 一个field flow, shape为[N, H_out, W_out, 2],最后一个维度是每个grid(H_out_i, W_out_i)在input的哪个位置的邻域去采点。数值范围被归一化到[-1,1]。 这里的input和output就是输入的图片,或

    2024年02月08日
    浏览(9)
  • Wireshark基本使用方法

    Wireshark基本使用方法

    目录 1、Wireshark介绍 1.1 Wireshark使用 1.2 支持的协议 2.Wireshark主要应用 3.Wireshark安装  4.Wireshark页面介绍 4.1 分组列表  4.2 分组详情  4.3 分组字节流  5.Wireshark导航 5.1 开始捕获分组 5.2 停止捕获分组 5.3 重新开始当前捕获 5.4、捕获选项 5.5 打开以保存的捕获文件 5.6 保存捕

    2024年02月13日
    浏览(9)
  • uCharts基本使用方法

    uCharts基本使用方法

    首先下载ucharts文件 https://gitee.com/uCharts/uCharts 下载下来看到有这些文件,小伙伴们可以先去示例项目里面看 引入u-charts.js文件,主要构建就是new uCharts和配置context,其他的就跟其他charts配置一样 可以看例子写的,也可以自己试验一波 方法写入两种方式 第一种方式 ucharts下载

    2024年02月04日
    浏览(8)
  • vim基本使用方法

    vim是linux上一个有多个编辑模式的编辑器。 这里主要介绍三种模式: 命令模式(Normal mode) 执行命令的模式,主要任务就是控制光标移动、复制和删除。 插入模式(Insert mode) 可以进行文字输入,编写代码模式。 末行/底行模式(last line mode) 文件保存退出,文本替换、列出

    2024年02月12日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包