从Hugging Face下载数据测试whisper、fast_whisper耗时

这篇具有很好参考价值的文章主要介绍了从Hugging Face下载数据测试whisper、fast_whisper耗时。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

时长比较短的音频:https://huggingface.co/datasets/PolyAI/minds14/viewer/en-US

时长比较长的音频:https://huggingface.co/datasets/librispeech_asr?row=8

此次测试过程暂时只使用比较短的音频

使用fast_whisper测试

下载安装,参考官方网站即可

fastwhisper,whisper

 报错提示:

Could not load library libcudnn_ops_infer.so.8. Error: libcudnn_ops_infer.so.8: cannot open shared object file: No such file or directory
Please make sure libcudnn_ops_infer.so.8 is in your library path!

解决办法:

找到有libcudnn_ops_infer.so.8 的路径,在我的电脑中,改文件所在的路径为

fastwhisper,whisper

在终端导入  export LD_LIBRARY_PATH=/opt/audio/venv/lib/python3.10/site-packages/nvidia/cudnn/lib:$LD_LIBRARY_PATH

test_fast_whisper.py


import subprocess
import os
import time
import unittest
import openpyxl
from pydub import AudioSegment
from datasets import load_dataset

from faster_whisper import WhisperModel

class TestFastWhisper(unittest.TestCase):

    def setUp(self):
        pass
    def test_fastwhisper(self):
        # 替换为您的脚本路径
        
        # 设置HTTP代理
        os.environ["http_proxy"] = "http://10.10.10.178:7890"
        os.environ["HTTP_PROXY"] = "http://10.10.10.178:7890"
        # 不知道此处为什么不能生效,必须要在终端中手动导入
        os.environ["LD_LIBRARY_PATH"] = "/opt/audio/venv/lib/python3.10/site-packages/nvidia/cudnn/lib:$LD_LIBRARY_PATH"
        
        # 设置HTTPS代理
        os.environ["https_proxy"] = "http://10.10.10.178:7890"
        os.environ["HTTPS_PROXY"] = "http://10.10.10.178:7890"
        print("load whisper")
        # 使用fast_whisper 
        model_size = "large-v2"

        # Run on GPU with FP16
        fast_whisper_model = WhisperModel(model_size, device="cuda", compute_type="float16")
        minds_14 = load_dataset("PolyAI/minds14", "en-US", split="train")  # for en-US
        
        workbook = openpyxl.Workbook()
            # 创建一个工作表
        worksheet = workbook.active
        # 设置表头
        worksheet["A1"] = "Audio Path"
        worksheet["B1"] = "Audio Duration (seconds)"
        worksheet["C1"] = "Audio Size (MB)"
        worksheet["D1"] = "Correct Text"
        worksheet["E1"] = "Transcribed Text"
        worksheet["F1"] = "Cost Time (seconds)"
        for index, each in enumerate(minds_14, start=2):
            audioPath = each["path"]
            print(audioPath)
            # audioArray = each["audio"]
            audioDuration = len(AudioSegment.from_file(audioPath))/1000
            audioSize = os.path.getsize(audioPath)/ (1024 * 1024)
            CorrectText = each["transcription"]
            tran_start_time = time.time()
            segments, info = fast_whisper_model.transcribe(audioPath, beam_size=5)
            segments = list(segments)  # The transcription will actually run here.
            print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
            text = ""
            for segment in segments:
                text += segment.text
            cost_time =  time.time() - tran_start_time
            print("Audio Path:", audioPath)
            print("Audio Duration (seconds):", audioDuration)
            print("Audio Size (MB):", audioSize)
            print("Correct Text:", CorrectText)
            print("Transcription Time (seconds):", cost_time)
            print("Transcribed Text:", text)

            worksheet[f"A{index}"] = audioPath
            worksheet[f"B{index}"] = audioDuration
            worksheet[f"C{index}"] = audioSize
            worksheet[f"D{index}"] = CorrectText
            worksheet[f"E{index}"] = text
            worksheet[f"F{index}"] = cost_time
            # break
        workbook.save("fast_whisper_output_data.xlsx")
        print("数据已保存到 fast_whisper_output_data.xlsx 文件")
          
        
if __name__ == '__main__':
    unittest.main()

使用whisper测试

下载安装,参考官方网站即可,代码与上面代码类似

测试结果可视化

不太熟悉用numbers,凑合着看一下就行

fastwhisper,whisper

fastwhisper,whisper

很明显,fast_whisper速度要更快一些文章来源地址https://www.toymoban.com/news/detail-807640.html

到了这里,关于从Hugging Face下载数据测试whisper、fast_whisper耗时的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 官宣 | Hugging Face 中文博客正式发布!

    作者:Tiezhen、Adina、Luke Hugging Face 的中国社区成立已经有五个月之久,我们也非常高兴的看到 Hugging Face 相关的中文内容在各个平台广受好评,我们也注意到,Hugging Face Hub 上有众多国内开发者们的创新和贡献。因此,我们非常高兴的宣布: 我们非常高兴地向你介绍一个新的

    2023年04月21日
    浏览(10)
  • Hugging Face开源库accelerate详解

    Hugging Face开源库accelerate详解

    官网:https://huggingface.co/docs/accelerate/package_reference/accelerator Accelerate使用步骤 初始化accelerate对象accelerator = Accelerator() 调用prepare方法对model、dataloader、optimizer、lr_schedluer进行预处理 删除掉代码中关于gpu的操作,比如.cuda()、.to(device)等,让accelerate自行判断硬件设备的分配 将l

    2024年02月16日
    浏览(14)
  • 手把手教你玩Hugging Face

    手把手教你玩Hugging Face

    Hugging Face起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超100,000个预训练模型,10,000个数据集,变成

    2024年02月06日
    浏览(13)
  • Hugging Face Transformers 萌新完全指南

    欢迎阅读《Hugging Face Transformers 萌新完全指南》,本指南面向那些意欲了解有关如何使用开源 ML 的基本知识的人群。我们的目标是揭开 Hugging Face Transformers 的神秘面纱及其工作原理,这么做不是为了把读者变成机器学习从业者,而是让为了让读者更好地理解 transformers 从而能

    2024年04月22日
    浏览(13)
  • kaggle、GitHub、gitee和hugging face

    四种网站比较

    2024年02月11日
    浏览(9)
  • Hugging Face中的Accelerate:让训练速度飞起来

    Hugging Face中的Accelerate:让训练速度飞起来

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 (封面图由文心一格生成) Hugging Face是人工智能领域中一个非常受欢迎的开

    2024年02月14日
    浏览(14)
  • 如何安装和使用 Hugging Face Unity API

    如何安装和使用 Hugging Face Unity API

    Hugging Face Unity API 提供了一个简单易用的接口,允许开发者在自己的 Unity 项目中方便地访问和使用 Hugging Face AI 模型,已集成到 Hugging Face Inference API 中。本文将详细介绍 API 的安装步骤和使用方法。 打开您的 Unity 项目 导航至菜单栏的 Window - Package Manager 在弹出窗口中,点击

    2024年02月11日
    浏览(14)
  • 【NLP】如何使用Hugging-Face-Pipelines?

            随着最近开发的库,执行深度学习分析变得更加容易。其中一个库是拥抱脸。Hugging Face 是一个平台,可为 NLP 任务(如文本分类、情感分析等)提供预先训练的语言模型。         本博客将引导您了解如何使用拥抱面部管道执行 NLP 任务。以下是我们将在此博

    2024年02月16日
    浏览(8)
  • Llama 2 来袭 - 在 Hugging Face 上玩转它

    Llama 2 来袭 - 在 Hugging Face 上玩转它

    🤗 宝子们可以戳 阅读原文 查看文中所有的外部链接哟! 今天,Meta 发布了 Llama 2,其包含了一系列最先进的开放大语言模型,我们很高兴能够将其全面集成入 Hugging Face,并全力支持其发布。Llama 2 的社区许可证相当宽松,且可商用。其代码、预训练模型和微调模型均于今天

    2024年02月15日
    浏览(8)
  • 深入了解 Hugging Face 中的生成工具:Generate方法

    深入了解 Hugging Face 中的生成工具:Generate方法

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 (封面图由文心一格生成) ## 深入了解 Hugging Face 中的生成工具:Generate方

    2023年04月18日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包