【论文阅读】A High-Performance CNN Processor Based on FPGA for MobileNets

1年前作者：YuuZhao分类：Toy博客阅读(36)违法举报

这篇具有很好参考价值的文章主要介绍了【论文阅读】A High-Performance CNN Processor Based on FPGA for MobileNets。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

基于FPGA的mobilenet高性能CNN处理器

Abstract

缺陷： CNN由于参数量巨大难以部署到嵌入式设备上。
背景： MobileNet ,which adopts depthwise separable convolution to replace the standard convolution has significantly reduce operations and parrameters with only limited loss in accuracy.

研究的问题： A high-performance CNN processor based on FPGA

创造点：
1、dedicated computing engines： ConV Engine , Dwcv Engine , for Pointwise Convolution and Depthwise Convolution .
两个专用计算引擎： ConV Dwcv ，专用点卷积和深度卷积，显著提高加速器效率。
2、设计了一个特殊架构：Channel Augmentation ，提高MobileNets的第一层。
3、本文设计的加速器可以灵活部署在不同配置的设备上，可以平衡硬件资源和计算性能。
4、我们的加速器运行在ZU2 \ ZU9 MPSoC FPGA
5、分类性能 ImageNet 205.3 fps @ ZU2 , 809.8 fps@ZU9
6、在ZU2上提高了15.4倍，在ZU9上提高了60.7倍，相比CPU 。
7、部署了MobileNet + SSD network 用于检测任务， 31.0FPS@ZU2 124.3FPS@ZU9 。

Introduction

CNN 大量的操作和参数对内存占用率(memory throughout)和计算能力提出了严格的要求。

Rigid-Motion Scattering for Texture Classification，2014 首次提出一个创新的卷积结构用于减轻标准卷积的计算负担同时降低参数。

目前最先进的CNNs ,如Xception、 MobileNetV2、ShuffleNet，采纳了可分离卷积（depthwise separable convolution ），在准确率损失量很小的情况下降低了计算量和参数量。

CNN是密集型任务，需要大量算力， GPU 有足够的性能，但GPU功耗过大是一种挑战。（GPU的功耗： 200W+ ）
FPGA由于其可编程性、大规模并行、低功耗计算引起了人们对其用于CNN加速的兴趣激增。

但近期使用FPGA加速CNN的方案依然在低效能CNN模型上努力。

MobileNets ShuffleNets 仅仅实现了在图像识别任务上的可接受速度。

这些CNNs 通常采用深度可分离卷积以降低计算量和参数。

[8]一个MobileNetV2的CNN加速器实现了 266.2fps,在 ARRI 10 SoC.

[5]另一个基于 RR-MobileNet的加速器实现了64.6% Top1的准确率， 84.5% Top5的准确率在ImageNet 分类任务中， 127.4FPS@Xilinx ZU9EG。

[7] Synetgy for DiracDeltaNet 是基于 ShuffleNetV2的优化模型， 96.5FPS@ZU3EG ， top-1准确率，ImageNet 分类68.47% 。

但是，所有这些加速器都未能在计算资源和片上内存资源直接取得平衡，这限制了它们的性能。

原因在于使用了一个通用计算引擎去加速标准卷积和深度可分离卷积。

因此我们提出一个高性能加速器，基于 FPGA ，用于MobileNets 加速, 68.1% top-1 准确率在图像分类任务中。文章来源地址https://www.toymoban.com/news/detail-793666.html

到了这里，关于【论文阅读】A High-Performance CNN Processor Based on FPGA for MobileNets的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

从零开始自制实现C++ High-Performance WebServer 全流程记录
这个从零自制高性能多线程的WebServer 博客系列呢刚开始我写之初其实也就是想记录一下一个linux后端开发者以此作为网络编程的起点以及多线程编程的起点的博客记录而已因为刚开始对于很多后台开发的前辈啊所给出的后端学习的路啊就比如写一个WebServer 其实这个项
2024年02月16日
浏览(20)
Mercury: Enabling Remote Procedure Call for High-Performance Computing
Abstract—Remote Procedure Call (RPC) is a technique that has been largely used by distributed services. This technique, now more and more used in the context of High-Performance Computing (HPC), allows the execution of routines to be delegated to remote nodes, which can be set aside and dedicated to specific tasks. However, existing RPC frameworks assume a
2024年02月07日
浏览(17)
论文阅读/中文记录，材料机器学习：Data-driven based phase constitution prediction in high entropy alloys
Han Q, Lu Z, Zhao S, et al. Data-driven based phase constitution prediction in high entropy alloys[J]. Computational Materials Science, 2022, 215: 111774. 基于数据驱动的高熵合金相组成预测【背景】高熵合金（HEA）因其优异的材料性能和近乎无限的设计空间而吸引了越来越多的研究。开发有效的相组成预测方
2024年02月03日
浏览(11)
论文阅读：《Waymo Public Road Safety Performance Data》
这篇文章是讲waymo道路安全性能数据分析的，主要想表达的是waymo自动驾驶系统在安全上面的出色表现，以向政府、大众提高自己产品的公信力。这篇文章分析的数据是自从2019年到2020年累积的，610万英里的自动驾驶里程，其中还包含65000英里的全无人驾驶里程。在这
2024年02月13日
浏览(13)
论文阅读：Feature Refinement to Improve High Resolution Image Inpainting
项目地址：https://github.com/geomagical/lama-with-refiner 论文地址：https://arxiv.org/abs/2109.07161 发表时间：2022年6月29日项目体验地址：https://colab.research.google.com/github/advimman/lama/blob/master/colab/LaMa_inpainting.ipynb#scrollTo=-VZWySTMeGDM 解决了在高分辨率下工作的神经网络的非绘制质量的下降问题
2024年01月17日
浏览(12)
Nerf论文阅读笔记Neuralangelo: High-Fidelity Neural Surface Reconstruction
公众号：AI知识物语；B站暂定；知乎同名视频入门介绍可以参考 B站——CVPR 2023最新工作！Neuralangelo：高保真Nerf表面重建 https://www.bilibili.com/video/BV1Ju411W7FL/spm_id_from=333.337.searchcard.all.clickvd_source=03387e75fde3d924cb207c0c18ffa567 图1所示。本文提出Neuralangelo，一种用神经体渲染从RGB图像
2024年02月08日
浏览(11)
论文阅读--High-Resolution Image Synthesis with Latent Diffusion Models
High-Resolution Image Synthesis with Latent Diffusion Models论文阅读 Abstract Introduction Diffusion model相比GAN可以取得更好的图片生成效果，然而该模型是一种自回归模型，需要反复迭代计算，因此训练和推理代价都很高。论文提出一种在潜在表示空间（latent space）上进行diffusion过程的方法，
2024年01月17日
浏览(27)
论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration
前言：CVPR2022oral 用transformer应用到low-level任务 low-level task 如deblurringdenoisingdehazing等任务多是基于CNN做的，这样的局限性有二：第一是卷积操作的感受野受限，很难建立起全局依赖，第二就是卷积操作的卷积核初始化是固定的，而attention的设计可以通过像素之间的关系自适
2024年02月05日
浏览(17)
论文阅读《Generalizing Face Forgery Detection with High-frequency Features》
高频噪声分析会过滤掉图像的颜色内容信息。本文设计了三个模块来充分利用高频特征， 1.多尺度高频特征提取模块 2.双跨模态注意模块 3.残差引导空间注意模块（也在一定程度上体现了两个模态的交互） SRM是用于过滤图像的高频噪声输入的图像X，共两个分支，一部分是用
2024年01月25日
浏览(13)
论文阅读--Deep Learning-Based Channel Estimation
论文信息： Soltani M, Pourahmadi V, Mirzaei A, et al. Deep learning-based channel estimation[J]. IEEE Communications Letters, 2019, 23(4): 652-655. 创新点：信道时频响应建模为图像，将OFDM的时频特性视做一种2D图像信息。将导频位置的通道响应视为LR图像，并将估计的通道响应视为HR图像。利用基于深度
2024年02月01日
浏览(14)