音视频学习—音视频理论基础(2)

这篇具有很好参考价值的文章主要介绍了音视频学习—音视频理论基础(2)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


1、音频的基本概念

  音频是一种模拟信号,它是由声波转化而来的电信号。声波是通过气体、液体或固体传播的机械波,代表了声音的震动。在录制过程中,声音被转换成电信号,然后被储存在数字格式中。

2、声音的三要素

  声音的三要素是频率、振幅和波形

  频率是指声波的振动次数,通常使用赫兹(Hz)来表示。人类能够听到的声音的频率范围是20Hz20kHz。频率越高,声音越尖锐;频率越低,声音越低沉。

  振幅是指声波的振动幅度,也就是声音的响度或音量。振幅越大,声音越响亮;振幅越小,声音越微弱。

  波形是指声波的形状。不同的声波形状会对声音的音色产生影响。例如,正弦波是一种最简单的波形,它产生的声音音色清晰、纯正;而复杂波形则产生的声音音色更具有丰富性和复杂性。

  在数字音频领域,频率、振幅和波形被转化为数字信号,然后存储和传输。对于数字音频,频率通常表示采样率,振幅表示采样精度,波形则是由采样数据重建出来的。

3、声音的本质

  声音的本质包括音调、音量和音色。

  音调是指声音的高低、频率。较高的频率产生的声音音调更高,较低的频率产生的声音音调更低。例如,钢琴和小提琴演奏同样的音符,由于它们频率不同,所以发出的声音音调也不同。

  音量是指声音的响度、强弱。通常使用分贝(dB)衡量声音的音量大小。人类能够听到的声音范围是0dB140dB,其中0dB表示最小听力阈值,而140dB表示极度嘈杂的声音。音量的大小与振幅相关,振幅越大,声音就越响亮。

  音色是指声音的特征,它决定了声音的品质和风格。每个乐器的音色都是独特的,这也是为何我们可以轻松地区分小提琴和钢琴的声音。音色的不同源于声波的波形特征,这种特征被称为谐波。不同的谐波组合形成了不同的音色。

4、奈奎斯特采样定律

  奈奎斯特采样定律,也称为奈氏定理,指在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax),采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的2.56~4倍;采样定理又称奈奎斯特定理。

  奈奎斯特采样定律的表达式为:Fs > 2 × Fm

  其中,Fs为采样频率,Fm为信号中最高能达到的频率。比如,一个信号最高频率为10kHz,那么采样频率需要大于20kHz,才能保证信号能够被准确地重建。如果采样率低于奈奎斯特采样定律所要求的最小值,信号就会发生混叠失真现象,即信号的高频部分被混淆到了低频部分,导致信号质量下降。

5、采样和采样率

  在数字音频中,采样是将模拟音频信号转换为数字信号的过程。模拟音频信号是连续时间变化的信号,而数字信号则是离散时间的抽样信号。具体来说,采样将连续的音频波形在一定时间间隔内进行离散化,将其转化为一系列数字值。

  采样率是指数字音频信号中的采样数量,通常以每秒采样次数(Hz或kHz)来表示。它表示将连续时间的音频信号离散化成数字信号的速率。采样率越高,数字音频数据就越精确,音质也越好,但同时文件也越大。常见的采样率包括44.1kHz48kHz96kHz等。

  例如,CD音质的采样率为44.1kHz,表示每秒钟录制了44100个采样点来描述声波。在数字音频中,采样的精度也会影响到音频的质量,通常使用位深度(比特数)来描述。CD音质的采样精度为16 bits,表示每个采样点使用16比特来表示。

6、采样数和采样位数

  采样数指的是每秒钟对模拟信号进行采样的次数,它决定了数字音频信号的频率范围,常见的采样数有44.1kHz、48kHz、96kHz等。
采样位数指的是每个采样点对应的二进制数的位数,它决定了数字音频信号的动态范围和信噪比。通常,采样位数越高,数字音频信号的信噪比就会越高,可以表达更广泛的音频强度范围。常见的采样位数有8位、16位、24位、32位等。

  通道数指的是数字音频信号中的声道数。常见的通道数有单声道(mono)和双声道(stereo),还有多声道,如5.1声道、7.1声道等。多声道可以通过在不同的声道中播放不同的音频信号来实现更加立体的音效。

  需要注意的是,采样数、采样位数和通道数三者共同决定了数字音频信号的质量和大小。采样率和采样位数越高、通道数越多,音频文件的体积就越大,音质也会越好。因此,在实际应用中需要根据需求来选择采样率、采样位数和通道数。

7、量化

  量化是指将连续的模拟信号转换成离散的数字信号的过程。在数字信号处理中,量化是将采样后的连续信号按照一定的准则映射到离散标准值集合中的过程,其中,这些标准值形成一个有限制的数字集合。这些数字集合就是存储数字信号所用的码字,它们代表了信号的离散取值。

  量化的过程是通过量化器来实现的,量化器将采样信号中的每个样本映射为最接近的数字信号的取值。数字信号的每个码字都是用二进制编码表示的。一般来说,采样精度越高,量化器刻度越小,数字信号的准确度就越高,质量也越好。

  量化过程中,由于原始的模拟信号的取值范围很大,而二进制编码能表示的数字范围相对较小,因此,在量化过程中难免会出现误差。这种误差叫做量化误差,它是原始模拟信号与离散化数字信号之间的差值。在数字音频中,这种误差会对音质造成一定的影响。

8、比特率(码率)

  比特率是指数字音频数据的传输速率,通常使用比特每秒(bps)来衡量。它表示单位时间内传输的数据量,也叫作数据传输速率。比特率越高,音频质量越好,但文件大小也越大。

  在数字音频领域中,比特率通常表示为kbps(千比特每秒)或者Mbps(兆比特每秒)。例如,128kbpsMP3音频表示每秒传输128千比特的音频数据。高清音频通常需要更高的比特率,否则会因压缩损失而影响音质。

  不同的数字音频格式使用不同的比特率。例如,MP3音频的标准比特率通常为128kbps或者192kbps,而Apple LosslessFLAC等无损音频格式则需要更高的比特率以保证音频质量。总之,比特率是数字音频的一个重要指标,它直接影响到音频的质量和存储空间。

9、响度和强度

  响度和强度都是声音的感知特性,但它们描述的是不同的方面:

  响度是人类主观感受到的声音强度,用分贝(dB)表示。通常,人们对于听觉上的相同强度,低频和高频声音的响度是不同的。响度与声音的物理特性、频率、振幅等都有关系。相同的振幅,低频声音的响度要高于高频声音的响度。相同的频率,振幅更大的声音响度更高,但人类对于高强度声音的响度感受不如低强度声音强烈。

  强度是声波能量传递的测量值,表示单位时间内通过单位面积的能量。强度与声音源的振幅成正比,与声音的传播距离的平方成反比。强度同样也可用分贝表示。它是声波在空气中传播带来的物理现象,与人类听觉感知不同。

10、编码

  每个量化值都是一个样本,将所有这些样本进行存储的过程称为编码。

  在音视频领域中,编码是指将音频信号或视频信号转换为数字信号,以便于在数字系统中储存、传输、处理和回放。音频编码主要包括有损编码和无损编码两种方式。有损音频编码可以压缩数据的大小,但会丢失一些信息,比如MP3、AAC、WMA等。无损音频编码则可以达到无失真的压缩,数据大小相对较大,比如FLAC、ALAC等。视频编码也存在有损和无损两种编码方式,但更多是有损编码。常用的有损视频编码标准有MPEG-1、MPEG-2、MPEG-4、H.264/AVC、H.265/HEVC等,其中H.264/AVCH.265/HEVC是目前应用最广泛的两种视频编码标准。视频编码主要使用了运动估计、变换编码、量化和熵编码等技术来对视频进行压缩编码。

通常所说的音频裸数据格式就是脉冲编码调制(PCM)数据。PCM是一种用于数字音频编码的标准方法,它将模拟音频信号进行采样,并将每个采样值量化为离散的数字值。这些数字值表示音频信号在每个采样点上的振幅,然后以二进制形式存储。PCM数据是一种常见的音频数据格式,它可以通过将数字值转换为模拟信号来恢复原始的音频信号。

11、音频帧

  音频帧是指一段连续的音频数据,包含多个采样点。通常音频帧的长度与采样率和采样位数有关。

12、音频文件大小的计算

  文件大小 = 采样率 * 录音时间 * 采样位数 / 8 * 通道数


总结

  本文概述了音频的基本概念,如频率、振幅、采样等。并详细介绍了数字音频处理中的一些重要概念,如采样率、采样位数、量化、编码等。后续我会继续跟进的。

  为了方便交流,我创建了一个后端和音视频技术的qq群,群号:333138957(可以扫下面的码加群)。

  如果你对音视频和后端开发感兴趣,欢迎加入我们进行深入交流。共同学习,携手推进行业发展!

qq群:
音视频学习—音视频理论基础(2),音视频,音视频,学习

微信群:文章来源地址https://www.toymoban.com/news/detail-861442.html

到了这里,关于音视频学习—音视频理论基础(2)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 音视频基础概念(5)——音频基础说明

    现实生活中,音频(Audio)主要用在两大场景中,包括语音(Voice)和音乐(Music)。语音主要用于沟通,如打电话等。目前由于语音识别技术的发展,人机语音交互也是语音的一个应用方向,很多大厂推出智能音箱、语音助手等。音乐主要用于欣赏和陶冶情操,如播放音乐。

    2023年04月08日
    浏览(11)
  • 音视频之旅 - 基础知识

    音视频之旅 - 基础知识

    像素 像素是图像的基本单元,一个个像素就组成了图像。你可以认为像素就是图像中的一个点。在下面这张图中,你可以看到一个个方块,这些方块就是像素 分辨率 图像(或视频)的分辨率是指图像的大小或尺寸。我们一般用像素个数来表示图像的尺寸。比如说一张1920x1

    2024年02月04日
    浏览(13)
  • 音视频基础知识——素材理解

    音视频基础知识——素材理解

    素材是媒体内容生产中一切生产资料的集合,包括不限于视频、音频、图片、字幕等形式。 素材通过统一的协议把原始的数据有序组织起来,便于编辑与管理。比如一般的素材是由一个物理文件及其各类属性构成,在对素材进行剪辑处理时,不用改变源文件中的任何内容,通

    2024年02月01日
    浏览(18)
  • 学习笔记/音视频面试

    学习笔记/音视频面试

    1.DTS/PTS 如果没有B帧,那么DTS一般与PTS相同 DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。(解码I-P-B) PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。 2.GOP 就是将

    2023年04月12日
    浏览(14)
  • 音视频BUG学习

    音视频BUG学习

    1、首先看出现概率是偶现还是必现 2、如果是必现,则复现整个bug过程,看Bug是否出现 如果是偶现,则分析问题视频 在复现问题过程中,刚开始没下载到本地,直接点击播放发生慢放,因为流量网速较低,15s,40Mb 平均网速要超过2.7Mb/s,因此误以为复现了bug 0 问题复现 找设

    2024年02月11日
    浏览(7)
  • 音视频基础知识-时间戳的理解

    问题背景: 凡是和流媒体和音视频打交道,时间戳基本是一个必须深刻理解的概念。你会在各种各样的传输协议和封装格式中看到这个东西,而且表现形式还不一样。其次这个概念会涉及到音视频播放的同步问题,也会影响音视频播放的控制问题。前者说的是音画同步,后者

    2023年04月08日
    浏览(16)
  • 音视频学习之ffmpeg常用基础命令整理

    音视频学习之ffmpeg常用基础命令整理

    基于windows环境安装好必要的ffmpeg后,对ffmpeg基础命令进行一些了解:   有时候写入MP4文件会不成功,改成flv就好 1:视频裁剪:   2:文字水印: 编译的时候需要支持 FreeType、FontConfig、iconv,系统中需要有相关的子库, 在 FFmpeg 中增加纯字母水印可以使用 drawtext 滤镜进行支持

    2024年02月12日
    浏览(15)
  • FFmpeg基础:获取音视频的各种编码参数

    FFmpeg基础:获取音视频的各种编码参数

    获取视频编码参数 视频编码参数主要包括:帧率、分辨率、编码格式、码率等,对应的概念如下。 帧率(Frame Rate) 每秒显示帧数(Frames Per Second)。电影的帧率一般是25fps和29.97fps,3D游戏要保持流畅则需要30fps以上的效果。 分辨率 指视频宽高的像素数值。标准1080P的分辨率为1920×

    2024年02月03日
    浏览(8)
  • 音视频入门知识学习

    音视频入门知识学习

    1920x1080的屏幕,32位,30帧的fps。一秒钟需要1920x1080x32x30字节,所以需要压缩 压缩的核心思想就是去除冗余信息 空间冗余 空间冗余 == 相邻像素重复:图像内部相邻像素之间存在较强的相关性多造成的冗余 比如一张图片中间的一个位置大小20x20,它的表现肉眼看起来其实是一

    2024年02月12日
    浏览(9)
  • 前端基础(三十六):读取本地音视频设备并进行播放

    前端基础(三十六):读取本地音视频设备并进行播放

    请求媒体输入和输出设备的列表,例如麦克风,摄像机,耳机设备等 会提示用户给予使用媒体输入的许可,媒体输入会产生一个MediaStream,里面包含了请求的媒体类型的轨道。此流可以包含一个视频轨道(来自硬件或者虚拟视频源,比如相机、视频采集设备和屏幕共享服务等

    2024年02月15日
    浏览(14)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包