pytorch对音频数据的读取和保存

3月前作者：一本糊涂张～分类：Toy博客阅读(11) 违法举报

这篇具有很好参考价值的文章主要介绍了pytorch对音频数据的读取和保存。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

torchaudio是PyTorch深度学习框架的一部分，主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口，使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。
通过使用torchaudio，开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式，并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外，torchaudio还支持多声道音频处理和GPU加速，以满足不同应用场景的需求。
torchaudio.load读取音频文件：

import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明：
可以读取float32, int16, int32类型数据，返回的是torch.tensor类型的数据；
normalize=True时，返回的数据是归一化到(-1,1)的float32数据；
normalize=False时，返回的是float32、int16或者int32数据，具体需要看file_path本身是什么类型的音频数据；
normalize默认值为True。

torchaudio.save保存音频文件

# out_path, 保存的音频文件路径，waveform保存的数据，sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32文章来源地址https://www.toymoban.com/news/detail-861794.html

到了这里，关于pytorch对音频数据的读取和保存的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

音视频基础概念(5)——音频基础说明

现实生活中，音频（Audio）主要用在两大场景中，包括语音（Voice）和音乐（Music）。语音主要用于沟通，如打电话等。目前由于语音识别技术的发展，人机语音交互也是语音的一个应用方向，很多大厂推出智能音箱、语音助手等。音乐主要用于欣赏和陶冶情操，如播放音乐。

2023年04月08日
浏览(73)
【音视频原理】音视频 “ 采样 - 编码 - 封装过程 “ 和 “ 解封装 - 解码 - 播放过程 “ 分析 ( 视频采集处理流程 | 音频采集处理流程 | 音视频文件解封装播放流程 )

本篇文件主要分析音视频文件是怎么产生的 , 以及音视频文件是如何播放的 ; 视频文件从录像到生成文件的全过程 : 采集图像帧 : 摄像头硬件负责采集画面 , 采集的初始画面称为 \\\" 图像帧 \\\" , 一秒钟采集的图像帧数量称为 \\\" 帧率 \\\" , 如 : 60 帧就是一秒钟采集 60 个画

2024年02月11日
浏览(33)
Android 音视频开发—MediaPlayer音频与视频的播放介绍

Android多媒体中的——MediaPlayer，我们可以通过这个API来播放音频和视频该类是Androd多媒体框架中的一个重要组件，通过该类，我们可以以最小的步骤来获取，解码和播放音视频。它支持三种不同的媒体来源：本地资源内部的URI，比如你可以通过ContentResolver来获取外部URL(流

2024年02月10日
浏览(31)
音视频开发：音频编码原理+采集+编码实战

消除冗余信息，压缩量最大，也叫有损压缩剔除人耳听觉范围外的音频信号20Hz以下和20000Hz以上；去除被掩蔽的音频信号，信号的遮蔽可以分为频域遮蔽和时域遮蔽；频域遮蔽效应屏蔽70分贝以下，20HZ以下，20000HZ以上屏蔽分贝小，频率小的声音两个频率相近发出的声音，

2024年02月05日
浏览(33)
【ESP32音视频传输】②通过I2S采集SPH0645麦克风音频数据并上传到服务端实时播放

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档本文章基于Arduino ESP32 2.07版本，因为2.04版本开始I2S驱动被更改了，所以相同代码可能效果不太同本文主要参考了：https://atomic14.com/2020/09/12/esp32-audio-input.html ESP32有多种方式从外置麦克风中读取数据：

2024年02月11日
浏览(29)
【音视频 | AAC】AAC格式音频文件解析

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C++、数据结构、音视频🍭 🤣本文内容🤣：🍭介绍AAC格式音频文件解析🍭 😎金句分享😎：🍭你不能选择最好的，但最好的会来选择你——泰戈尔🍭 本文未经允许，不得转发！！

2024年02月04日
浏览(29)
音视频八股文（11）-- ffmpeg 音频重采样

所谓的重采样，就是改变⾳频的采样率、sample format、声道数等参数，使之按照我们期望的参数输出。为什么要重采样？当然是原有的⾳频参数不满⾜我们的需求，⽐如在FFmpeg解码⾳频的时候，不同的⾳源有不同的格式，采样率等，在解码后的数据中的这些参数也会不⼀致(最

2024年02月04日
浏览(40)
音视频剪辑|FFMPEG|windows10下的音视频格式转换，遮挡填充，GIF动图制作，背景音频抽取，替换

最近对于音视频和图像的处理问题比较感兴趣，但发现很多目前需要的功能要么需要付费但不会过于麻烦，要么比较麻烦，很可能某个功能实现需要安装很多软件例如，视频转GIF动图，该功能的实现要么使用Photoshop全家桶，要么找在线网站，或者是wps充会员，或者找其它方法

2024年02月20日
浏览(29)
Qt 多媒体音频模拟按钮发音(音视频启动)

## 项目演示平台：windows或者ubuntu 要求：平台需要支持音频播放功能文件格式：.wav 可以使用剪映生成，音频部分，我这里是简短的音乐 # Qt 多媒体简介 Qt QSound是Qt框架中的一个类，用于播放音频文件。它可以在Qt应用程序中实现简单的音频播放功能，包括播放、暂停和停

2024年02月03日
浏览(31)
qt+ffmpeg 实现音视频播放（二）之音频播放

通过 avformat_open_input () 打开媒体文件并分配和初始化 AVFormatContext 结构体。函数原型如下： int avformat_open_input(AVFormatContext **ps, const char *url, AVInputFormat *fmt, AVDictionary **options); 参数说明： - `ps`：指向 `AVFormatContext` 结构体指针的指针，用于存储打开的媒体文件的信息。

2024年04月22日
浏览(25)