日本道不卡,在线色网站,午夜福利神马,91AV无码,亚洲特黄A级毛片在线播放,日屄在线观看,免费天天干,中文字幕久久五月丁香,黄色直播视频大全在线免费观看,日日干亚洲精品,日韩AV无码成人精品,色婷婷久久,亚洲天堂成人,在线观看黄色美美女网站,麻豆二区,欧美激情五月天

<listing id="gzmot"><b id="gzmot"></b></listing>

<listing id="gzmot"></listing>

今天是：2026年3月17日星期二您現(xiàn)在位于：首頁(yè) → 技術(shù) → 半導(dǎo)體器件（應(yīng)用信息）

機(jī)器學(xué)習(xí)硬件芯片之AI加速器（ai-accelerator）

2023/2/8 10:21:16

機(jī)器學(xué)習(xí)是通過使用算法和統(tǒng)計(jì)模型從數(shù)據(jù)模式中分析和得出推論，使計(jì)算機(jī)系統(tǒng)在沒有顯式指令的情況下進(jìn)行學(xué)習(xí)的過程。AI和機(jī)器學(xué)習(xí)的主要限制之一一直是計(jì)算能力，這一直是研究人員關(guān)注的原因。幾十年前，在為機(jī)器學(xué)習(xí)運(yùn)行大型計(jì)算時(shí)，CPU還沒有這么強(qiáng)大和高效。硬件制造商努力創(chuàng)造一個(gè)能夠執(zhí)行任何AI操作的處理單元。

雖然CPU不再是計(jì)算能力的可行來源，但它們是先驅(qū)。如今，這些CPU理所當(dāng)然地被專門為大型計(jì)算設(shè)計(jì)的GPU和AI加速器所取代。購(gòu)買AI加速器時(shí)考慮的主要特征是成本、能耗和處理速度。

AI加速器作為一種強(qiáng)大的機(jī)器學(xué)習(xí)硬件芯片，專門設(shè)計(jì)用于平穩(wěn)快速地運(yùn)行AI和機(jī)器學(xué)習(xí)應(yīng)用程序。AI加速器的例子包括圖形處理單元（GPU）、視覺處理單元（VPU）、現(xiàn)場(chǎng)可編程門陣列（FPGA）、專用集成電路（ASIC）和張量處理單元（TPU）。

1. 用于機(jī)器學(xué)習(xí)的視覺處理單元(VPU)

除了顯卡，英偉達(dá)和AMD還生產(chǎn)獨(dú)立的微處理器，專門用于機(jī)器學(xué)習(xí)。這些專門的處理器或視覺處理單元(VPU)是專門為深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的，如CNN和RNN的；與執(zhí)行各種其他計(jì)算操作的GPU相比，它們可以相對(duì)輕松地處理圖像識(shí)別和分類任務(wù)所需的視覺處理計(jì)算。這就是為什么它們通常比傳統(tǒng)GPU擁有更多的內(nèi)核和更高的時(shí)鐘速度。

視覺處理單元適用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)，如圖像識(shí)別、對(duì)象檢測(cè)和分類。第一臺(tái)VPU是Nvidia在2004年推出的Cuda-2000。最近，AMD發(fā)布了Baffin，可用于大多數(shù)DL任務(wù)(TensorFlow、PyTorch、Caffe2)以及計(jì)算機(jī)視覺算法，如視覺顯著性檢測(cè)、圖像分割和識(shí)別等。

英特爾CPU上的深度學(xué)習(xí)推理速度大約比同等功率的帕斯卡GPU/VPU慢20倍。例如，如果您要在幾乎相同的基準(zhǔn)和數(shù)據(jù)集上比較兩個(gè)CPU，差異將是顯著的。推理時(shí)間與VPU內(nèi)核的數(shù)量成線性比例關(guān)系，而與CPU內(nèi)核的數(shù)量成平方比例關(guān)系。在一定數(shù)量的VPU內(nèi)核上，花同樣的錢買更高端的CPU會(huì)更好。

視覺處理單元被許多需要大量圖像處理的公司使用，如臉書& Pinterest用于對(duì)象識(shí)別，谷歌使用張量處理單元(TPU)用于各種服務(wù)，包括搜索相關(guān)功能。據(jù)英偉達(dá)首席執(zhí)行官黃仁勛稱，vpu在執(zhí)行視頻分析、計(jì)算機(jī)視覺或機(jī)器學(xué)習(xí)算法等需要“成千上萬(wàn)”內(nèi)核來訓(xùn)練模型的任務(wù)方面非常有效。

VPU的一個(gè)例子是英特爾的Movidius Myriad X，該公司使用它來驅(qū)動(dòng)各種產(chǎn)品，如他們的RealSense計(jì)算機(jī)視覺開發(fā)套件、云平臺(tái)(亞馬遜AWS和微軟Azure)、智能手機(jī)(Galaxy S8、iPhone XS Max)和平板電腦。VPU還被用于機(jī)器人導(dǎo)航和自動(dòng)駕駛系統(tǒng)。此外，在Hololens & Magic Leap中，還為增強(qiáng)現(xiàn)實(shí)部署了圖像識(shí)別、分類和對(duì)象檢測(cè)。英特爾表示，他們的VPU能夠在2304 x 1152分辨率下實(shí)現(xiàn)60 FPS，準(zhǔn)確率為93%。

視覺處理單元最適合用于圖像識(shí)別和對(duì)象檢測(cè)任務(wù)。CNN由幾個(gè)相連的層組成，當(dāng)輸入模式通過時(shí)，這些層逐漸增加輸入模式的復(fù)雜性或維度。第一層檢測(cè)邊緣，隨后是檢測(cè)特征的卷積，等等，直到實(shí)現(xiàn)端到端分類。

因?yàn)镃NN執(zhí)行像最大池、子采樣等操作。它們需要密集的數(shù)字處理能力，因此非常適合擁有更多內(nèi)核/更高時(shí)鐘速度的VPU。
視覺處理單元(vpu)的其他使用案例包括:
自動(dòng)駕駛- VPUs可用于在自動(dòng)駕駛汽車中運(yùn)行高分辨率的深度學(xué)習(xí)模型進(jìn)行圖像處理。例如，英偉達(dá)使用其帶有板載VPU的Drive PX平臺(tái)為其自動(dòng)駕駛汽車系統(tǒng)提供動(dòng)力。
視覺顯著性檢測(cè)-檢測(cè)場(chǎng)景中最顯著的物體，并引起對(duì)這些物體的注意。
圖像分割和識(shí)別-可用于基于像素的圖像標(biāo)記，并根據(jù)對(duì)象類型以及準(zhǔn)確的分類結(jié)果進(jìn)行分類。例子包括百度的深度圖像，它是使用谷歌的TensorFlow框架開發(fā)的，或者臉書的Canvas圖像識(shí)別系統(tǒng)，它執(zhí)行諸如語(yǔ)義分割、創(chuàng)建細(xì)粒度圖像識(shí)別模型等任務(wù)。
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)-虛擬現(xiàn)實(shí)被認(rèn)為是一種可視化技術(shù)，可以通過使用VPU進(jìn)行對(duì)象檢測(cè)和場(chǎng)景分析來提供實(shí)時(shí)3d模擬。增強(qiáng)現(xiàn)實(shí)也是如此，它們可以用來在用戶的物理世界中構(gòu)建數(shù)字對(duì)象。
安全-由于深度學(xué)習(xí)算法通常使用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練，因此人臉識(shí)別和面部行為分析等安全平臺(tái)使用這些類型的處理器。

視覺處理單元主要由Nvidia (Tensor)生產(chǎn)，該產(chǎn)品基于其當(dāng)前的Volta架構(gòu)。AMD最近還宣布，將于2019年開始出貨其名為Navi的第三代圖形處理單元；這款芯片預(yù)計(jì)將提供高達(dá)512 GB/秒的內(nèi)存帶寬，同時(shí)與英偉達(dá)的Volta架構(gòu)競(jìng)爭(zhēng)。這種GPU芯片的優(yōu)勢(shì)是它將與GPGPU算法兼容，不像英偉達(dá)的V100。

2. 現(xiàn)場(chǎng)可編程門陣列(FPGA)

現(xiàn)場(chǎng)可編程門陣列是可編程集成電路，可由客戶在制造后針對(duì)特定任務(wù)進(jìn)行配置。FPGAs因其在硬件加速和并行計(jì)算方面的多功能性而廣受歡迎。它們可以用于幾乎所有傳統(tǒng)上使用數(shù)字處理器的任務(wù)，包括圖像/視頻處理、信號(hào)處理、數(shù)據(jù)加密/解密以及許多其他與計(jì)算相關(guān)的任務(wù)。

用FPGA配置不同計(jì)算單元的靈活性使得構(gòu)建從傳統(tǒng)GPU到具有大量vpu的系統(tǒng)的任何類型的系統(tǒng)成為可能，而不會(huì)導(dǎo)致任何存儲(chǔ)器瓶頸，因?yàn)镻CIe總線比PCI總線具有更大的帶寬。這些限制已經(jīng)在Nvidia最新版本的Tesla V100中得到解決，該版本擁有2304位內(nèi)存總線，但仍不足以跟上FPGAs。

FPGAs主要用于3d圖形處理、并行計(jì)算和圖像識(shí)別/重建算法，如使用來自安裝在車輛或機(jī)器人上的攝像頭的圖像數(shù)據(jù)的自動(dòng)駕駛應(yīng)用等領(lǐng)域中的深度學(xué)習(xí)網(wǎng)絡(luò)。

FPGA的三個(gè)基本元素是什么？

三個(gè)組件可在FPGA上編程，即靜態(tài)RAM、反熔絲和閃存可擦除可編程只讀存儲(chǔ)器(EPROM)。這些元素被鏈接在一起，形成一個(gè)龐大的邏輯塊排列。這些模塊通過可編程突觸(互連)進(jìn)一步連接。由于配置程序(編程)是由硬件工程師執(zhí)行的，而不是像ASIC和GPU那樣由軟件開發(fā)人員執(zhí)行，因此與定制ASIC芯片相比，F(xiàn)PGAs大大降低了制造成本。

FPGA芯片的應(yīng)用

2016年，汽車行業(yè)是FPGA硬件和軟件的消費(fèi)大戶。市場(chǎng)研究公司VDC預(yù)測(cè)，從2016年到2021年，全球收入將增長(zhǎng)8%以上，到2021年達(dá)到40億美元。下面是一些如何使用它們的例子:

包括用于避免碰撞或自動(dòng)制動(dòng)的傳感器的駕駛員輔助系統(tǒng)可以使用FPG編碼算法來部署，用于實(shí)時(shí)分析由工業(yè)過程中的移動(dòng)車輛或機(jī)器人上的攝像機(jī)捕獲的數(shù)據(jù)，例如焊接應(yīng)用，其中物體可能以高速彼此接觸，從而導(dǎo)致對(duì)人類工人的損害/傷害以及設(shè)備故障。
通用計(jì)算語(yǔ)言可以部署在FPGA硬件上，使用主機(jī)和操作系統(tǒng)(如Linux)來構(gòu)建汽車或機(jī)器人的圖像識(shí)別模型，以及可以在3D圖形、并行計(jì)算等中使用的軟件算法。
網(wǎng)絡(luò)安全、數(shù)據(jù)包加密/解密和在線游戲平臺(tái)等網(wǎng)絡(luò)應(yīng)用最適合FPGA實(shí)施，因?yàn)榫W(wǎng)絡(luò)流量利用其靈活的并行計(jì)算能力會(huì)產(chǎn)生較小的延遲問題。一個(gè)主要的例子包括Atlas平臺(tái)，該平臺(tái)由臉書工程師開發(fā)，使用FPGA架構(gòu)來改進(jìn)他們的深度學(xué)習(xí)(ML)系統(tǒng)，同時(shí)讓GPU驅(qū)動(dòng)的機(jī)器執(zhí)行其他任務(wù)，而不僅僅是訓(xùn)練模型和服務(wù)最終用戶。
FPGAs的使用允許谷歌或臉書等基于云的機(jī)器學(xué)習(xí)提供商使用它們來實(shí)施其數(shù)據(jù)中心基礎(chǔ)設(shè)施，并以更快的速度訓(xùn)練模型，同時(shí)為最終用戶保持相同的延遲水平。
圖像處理軟件可以移植到FPGAss上運(yùn)行，F(xiàn)PGA用于PIxel和Arrow等相機(jī)公司使用的工業(yè)相機(jī)。他們聲稱，與使用GPU硬件的競(jìng)爭(zhēng)對(duì)手相比，使用FPGA架構(gòu)可以讓他們創(chuàng)造更高的性價(jià)比。

FPGA與GPU

靈活性
FPGAs在開發(fā)過程中提供了配置硬件模塊的高度靈活性。此外，與為算術(shù)邏輯單元(ALU)預(yù)先確定內(nèi)核的GPU不同，F(xiàn)PGA的ALU可以配置為處理一系列并行任務(wù)，從而可以構(gòu)建具有多個(gè)vpu或兩種功能任意組合的系統(tǒng)。

硬件加速/并行計(jì)算:FPGAs建立在現(xiàn)場(chǎng)可編程門陣列上，因此與GPU和CPU相比，它們提供了更大的靈活性，可以在需要時(shí)輕松添加額外的處理單元，而不必?fù)?dān)心內(nèi)存總線不平衡。因此，這使它們成為需要密集數(shù)字處理的深度學(xué)習(xí)網(wǎng)絡(luò)的理想選擇，因?yàn)樗鼈兛梢暂p松添加額外的alu，而不必對(duì)現(xiàn)有的alu重新編程。

時(shí)鐘速度:與GPU相比，F(xiàn)PGAs的時(shí)鐘速度更快，從而提高了性能。對(duì)于數(shù)量相當(dāng)?shù)膬?nèi)核，對(duì)于I/O密集型應(yīng)用，如使用深度學(xué)習(xí)算法進(jìn)行模式識(shí)別的通信網(wǎng)絡(luò)，F(xiàn)PGAs的性能明顯優(yōu)于GPU。

云計(jì)算:FPGAs使得構(gòu)建定制的硬件變得更加容易，這些硬件可以根據(jù)客戶端和用戶的要求輕松配置。這使得它們適用于云計(jì)算平臺(tái)，在這種平臺(tái)上，拓?fù)淇梢栽谌魏谓o定的時(shí)間根據(jù)需求進(jìn)行更改，而不會(huì)產(chǎn)生額外的成本或繁瑣的開發(fā)時(shí)間表。

像任何其他技術(shù)轉(zhuǎn)變一樣，總會(huì)有一些缺點(diǎn):成本與靈活性。由于FPGA是可編程的，它們需要更通用的開發(fā)環(huán)境，因此通常比GPU更昂貴。此外，F(xiàn)PGAs不允許在生產(chǎn)中進(jìn)行重新配置，而這可以通過GPU輕松完成。

FPGAs受到其計(jì)算能力和存儲(chǔ)器帶寬的限制，因此由于需要使用大量權(quán)重的深度學(xué)習(xí)網(wǎng)絡(luò)所需的大容量SRAMs(靜態(tài)隨機(jī)存取存儲(chǔ)器),因此具有較慢的時(shí)鐘速度。這意味著FPGA通常用于較小的集群，有限的用于高端應(yīng)用，如自動(dòng)駕駛汽車和無(wú)人機(jī)等。然而，這種限制也有一個(gè)優(yōu)點(diǎn)，因?yàn)楫?dāng)不使用FPGAs進(jìn)行DNN計(jì)算時(shí)，它比GPU/CPU更便宜。

速度不夠——由于它們依賴外部存儲(chǔ)器，因此在每個(gè)時(shí)鐘周期進(jìn)行比較時(shí)，它們比傳統(tǒng)的微處理器或GPU慢，因此不適合需要實(shí)時(shí)結(jié)果的計(jì)算密集型模擬，例如汽車應(yīng)用中使用的高分辨率相機(jī)處理算法。

上述例子讓我們深入了解了這些新架構(gòu)的敏捷性，這些新架構(gòu)旨在滿足自動(dòng)駕駛汽車、無(wú)人機(jī)和機(jī)器人對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)不斷增長(zhǎng)的需求——它們還突出了GPGPUs在加速網(wǎng)絡(luò)計(jì)算方面的使用。GPU比CPU具有巨大的優(yōu)勢(shì)，特別是在執(zhí)行并行計(jì)算任務(wù)時(shí)，而FPGAs與GPU相比具有許多優(yōu)勢(shì)，主要是因?yàn)樗鼈兛梢栽谥圃旌笾匦屡渲�，因此在設(shè)計(jì)任何類型的系統(tǒng)時(shí)都具有很大的靈活性。

然而，就像任何其他技術(shù)進(jìn)步一樣；隨著每個(gè)架構(gòu)中內(nèi)置更多功能，未來幾代產(chǎn)品將會(huì)有更大的進(jìn)步，實(shí)現(xiàn)更快的時(shí)鐘速度和更大的存儲(chǔ)器總線，從而使其競(jìng)爭(zhēng)對(duì)手難以趕上

有哪些公司在提供FPGAs？

市場(chǎng)領(lǐng)導(dǎo)者包括Xilinx和Altera，它們都是FPGA編程工具的主要供應(yīng)商，工程師使用這些工具根據(jù)自己的要求配置器件。

Xilinx和Altera是兩家最大的FPGA供應(yīng)商，IBM聲稱他們將使用他們的SoftLayer云來提供GPU和FPGA。微軟Azure和亞馬遜網(wǎng)絡(luò)服務(wù)也允許他們的用戶在其云計(jì)算平臺(tái)中選擇GPU和FPGAs。

汽車車道偏離警告系統(tǒng)的主要供應(yīng)商Mobileye正在使用英特爾的至強(qiáng)處理器和Altera現(xiàn)場(chǎng)可編程門陣列(FPGA)協(xié)處理器為其攝像頭供電。英特爾在2017年以153億美元收購(gòu)了Mobileye目前尚不清楚這些加速器在自動(dòng)駕駛項(xiàng)目中發(fā)揮的作用有多大，但它暗示了自動(dòng)化在發(fā)達(dá)和新興汽車市場(chǎng)都將發(fā)揮重要作用的未來。

Mobileye的協(xié)處理器被編程為處理高級(jí)駕駛輔助系統(tǒng)(ADAS)所需的數(shù)據(jù)處理——它可以處理來自Mobileye的EyeQ3傳感器的高維輸入信息，同時(shí)還可以降低處理器負(fù)載，從而直接降低功耗。這種組合解決方案將延遲降低到240毫秒左右，這被認(rèn)為是一項(xiàng)重大改進(jìn)，因?yàn)榇蠖鄶?shù)攝像機(jī)的平均延遲為1秒。

3. 專用集成電路

ASICs通常是為單一應(yīng)用或目的而設(shè)計(jì)的，不能像FPGA或GPU那樣重新編程。與FPGAs和GPU相比，這使它們成為一個(gè)更高效的平臺(tái)，因?yàn)樗鼈兛梢暂p松地針對(duì)特定任務(wù)進(jìn)行構(gòu)建——這些平臺(tái)是交易、游戲甚至加密貨幣挖掘等用例的理想選擇。

近年來，隨著英特爾和IBM等主要技術(shù)公司使用基于ASIC的系統(tǒng)來驅(qū)動(dòng)他們的云計(jì)算平臺(tái)，ASIC越來越受歡迎。

與設(shè)計(jì)用于處理計(jì)算和圖形計(jì)算的FPGAs和GPU不同，ASICs專門用于要求高性能的計(jì)算，如加密貨幣礦工所要求的計(jì)算。ASICs比FPGAs具有更好的電氣特性，因此可以提供更高的計(jì)算速度，同時(shí)生產(chǎn)成本也更低，這使它們成為資金不是問題的情況下的首選——它們通常需要很少的外部存儲(chǔ)器，因此它們依賴于在小封裝中存儲(chǔ)大量數(shù)據(jù)的區(qū)塊鏈。

Nervana是由英特爾構(gòu)建的ASIC，它基于一種稱為深度學(xué)習(xí)三重內(nèi)容可尋址存儲(chǔ)器(TCAM)的新型架構(gòu)，通過其每時(shí)鐘三次的提升為神經(jīng)網(wǎng)絡(luò)層提供了非常高的吞吐量。這使得Nervana能夠以低得多的價(jià)格提供比GPU更高的性能，這可能使日常消費(fèi)者以可承受的成本獲得人工智能加速器。

英特爾于2016年8月收購(gòu)了Nervana Systems，為該公司提供了大量培訓(xùn)和推理算法方面的專業(yè)知識(shí)，這些技術(shù)現(xiàn)在正被用于其行業(yè)領(lǐng)先的Movidius視覺處理單元(vpu)中。此后，他們發(fā)布了面向工業(yè)和消費(fèi)者用例的VPU產(chǎn)品——這使得Nervana的技術(shù)被集成到英特爾的RealSense深度攝像頭、至強(qiáng)和酷睿處理器以及他們新發(fā)布的Movidius神經(jīng)計(jì)算棒中。

ASICs的優(yōu)勢(shì)

ASIC在性能方面可能優(yōu)于FPGAs，因?yàn)樗鼈兙哂懈偷难舆t和更好的電氣特性，這就是比特幣ASIC如此強(qiáng)大的原因。與GPU和FPGAs相比，它們還提供了最高級(jí)別的安全性、能效和靈活性，因?yàn)樗鼈兛梢詧?zhí)行符合其設(shè)計(jì)規(guī)格的任何任務(wù)。

ASICs的缺點(diǎn)

ASICs的主要缺點(diǎn)是，它們的制造需要巨額資本投資——這導(dǎo)致許多公司依賴GPU或FPGAs，它們需要較少的初始資金，只要在開發(fā)更有效的數(shù)字貨幣方面沒有重大進(jìn)展，仍然可以提供足夠的區(qū)塊鏈采礦率，因此它依賴比特幣等加密貨幣來實(shí)現(xiàn)財(cái)務(wù)收益。

然而，目前還不清楚ASICs的使用是否僅用于采礦，或者是否用于其他應(yīng)用，例如提供相對(duì)于GPU和FPGAs的競(jìng)爭(zhēng)優(yōu)勢(shì)。雖然云計(jì)算提供商可以向那些根據(jù)執(zhí)行區(qū)塊鏈采礦的投資回報(bào)預(yù)期選擇平臺(tái)的用戶提供激勵(lì)，但如果沒有需要這種專用硬件來實(shí)現(xiàn)最大效率的加密貨幣，投資開發(fā)專用集成電路就沒有什么意義。

這使得使用GPU和FPGAs的加密貨幣礦商很難理解哪些因素將推動(dòng)未來的盈利能力，因?yàn)榇蠖鄶?shù)加密貨幣仍然無(wú)法預(yù)測(cè)它們對(duì)技術(shù)創(chuàng)新的反應(yīng)速度。

4. 什么是張量處理單元(TPU)？

張量處理單元(TPU)是由谷歌制造的，用于加速機(jī)器學(xué)習(xí)應(yīng)用。它被設(shè)計(jì)為在TensorFlow上運(yùn)行，由稱為tensors的多個(gè)處理原語(yǔ)構(gòu)成。張量是向量和矩陣向潛在的更高維度的推廣。

谷歌TPU技術(shù)的特點(diǎn)

谷歌聲稱，其第二代Maxwell架構(gòu)的64位80萬(wàn)億次浮點(diǎn)運(yùn)算變體的能效比通用CPU高出9倍。該架構(gòu)還包括對(duì)深度學(xué)習(xí)推理的特定支持，數(shù)據(jù)吞吐量比谷歌數(shù)據(jù)中心使用的第一代TPU高2到3倍。

每個(gè)時(shí)鐘周期能夠執(zhí)行八次混合精度操作，每次操作以16位浮點(diǎn)精度執(zhí)行，某些情況下以24位整數(shù)或32位浮點(diǎn)粒度執(zhí)行。谷歌支持的這種混合精度類似于半(16位)高斯舍入，但不同于英特爾至強(qiáng)融核協(xié)處理器支持的全(24位)舍入到最近位模式。

TPU的計(jì)算能力來自神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)用于提供最準(zhǔn)確的語(yǔ)言和圖像識(shí)別，以及實(shí)時(shí)解析結(jié)構(gòu)化數(shù)據(jù)。它是為推理而設(shè)計(jì)的，這是一個(gè)涉及激活預(yù)先訓(xùn)練的ML模型的步驟，通常比訓(xùn)練計(jì)算量更大。

張量處理單元(TPU)的容量是多少？

谷歌表示，其第二代TPU每秒可以執(zhí)行4500張圖像的推理(對(duì)于ResNet-50)，這需要16個(gè)高端英偉達(dá)K80 GPUs才能達(dá)到一臺(tái)谷歌TPU的性能。谷歌進(jìn)一步聲稱，其新TPU架構(gòu)的32萬(wàn)億次浮點(diǎn)運(yùn)算變體提供了比第一代TPU高6倍的性能。

有哪些公司在使用張量處理單元？

一些公司已經(jīng)在其數(shù)據(jù)中心部署了張量處理單元，包括電子商務(wù)巨頭阿里巴巴以及搜索引擎巨頭百度和谷歌(Alphabet)。

英特爾還宣布了其首個(gè)名為L(zhǎng)ake Crest的TPU設(shè)計(jì)，用于為制造、醫(yī)療保健、金融和服務(wù)行業(yè)的深度學(xué)習(xí)工作負(fù)載提供動(dòng)力。

現(xiàn)在，正如我所承諾的，我要提到一種不同的處理器，它在功能上模仿人腦。這被稱為“神經(jīng)形態(tài)處理器”。

可以買張量處理單元嗎？不要！你不能。TPU是谷歌唯一尚未出售的資產(chǎn)。盡管你可以以每小時(shí)每臺(tái)機(jī)器1.35美元的價(jià)格租用谷歌TPU作為谷歌云服務(wù)。

5. 神經(jīng)形態(tài)處理器

什么是神經(jīng)形態(tài)處理器？

神經(jīng)形態(tài)處理器被設(shè)計(jì)成在結(jié)構(gòu)和操作上盡可能接近人腦。這可以通過使用模擬電路來實(shí)現(xiàn)，模擬電路進(jìn)行的計(jì)算類似于人腦中神經(jīng)元進(jìn)行的計(jì)算，這使它們可以用大量?jī)?nèi)存執(zhí)行一組復(fù)雜的操作，盡管操作速度較低。

在過去的幾年里，這些電路被設(shè)計(jì)成運(yùn)行深度學(xué)習(xí)算法，這些算法最初是為ASICs和其他形式的傳統(tǒng)處理硬件開發(fā)的。這使得神經(jīng)形態(tài)處理器在運(yùn)行人工智能應(yīng)用程序時(shí)能夠提供比其前輩更高的效率，同時(shí)還提供更低的功耗，從而使其成為比GPU和FPGAs更具成本效益的選擇。

誰(shuí)發(fā)明了神經(jīng)形態(tài)處理器？

神經(jīng)形態(tài)處理器的概念是由加州理工學(xué)院教授卡弗·米德首創(chuàng)的，他自1979年以來一直致力于開發(fā)模擬人腦的電路。
神經(jīng)形態(tài)處理器的優(yōu)缺點(diǎn)

神經(jīng)形態(tài)處理器的主要優(yōu)勢(shì)是，它們能夠以傳統(tǒng)處理器所需的一小部分能源成本為人工智能應(yīng)用提供高水平的性能。它們還具有高度的可擴(kuò)展性，可以集成到多種計(jì)算設(shè)備中，包括移動(dòng)電話和其他手持設(shè)備，以及能夠以最小的努力提供高水平性能的現(xiàn)場(chǎng)計(jì)算機(jī)。

然而，在執(zhí)行標(biāo)準(zhǔn)金融和數(shù)學(xué)運(yùn)算時(shí)，神經(jīng)形態(tài)處理器在效率和性能方面仍然不如GPU和FPGAs。此外，它們有限的可擴(kuò)展性要求它們被結(jié)合到其他設(shè)備中以有效運(yùn)行，這也增加了啟動(dòng)成本。
神經(jīng)形態(tài)處理器的處理能力如何？

一個(gè)神經(jīng)形態(tài)處理器比谷歌的TPU更快，每秒處理100倍的幀，而使用的能量少1萬(wàn)倍。兩款處理器都在雅達(dá)利游戲Q*bert上進(jìn)行了測(cè)試，Neuromorphic以100萬(wàn)比1.4萬(wàn)的成績(jī)勝出。

IBM TrueNorth

IBM TrueNorth目前是最強(qiáng)大的神經(jīng)形態(tài)處理器，容量為1.02萬(wàn)億次浮點(diǎn)運(yùn)算，功耗僅為10瓦，比英特爾酷睿i7-7700K實(shí)現(xiàn)類似性能所需的功耗低約7200倍。

隨著最新的人工智能加速器的推出，可能會(huì)降低成本，能耗和數(shù)據(jù)處理時(shí)間，對(duì)處理能力有限的擔(dān)憂正在消退。與神經(jīng)形態(tài)計(jì)算機(jī)一樣，最高可行的計(jì)算處理模型可以從大腦功能中復(fù)制出來。為了獲得最佳處理能力，智能設(shè)計(jì)的電路、高效的軟件代碼和更簡(jiǎn)單的算法是必不可少的。（剪報(bào)來源：