|
機(jī)器學(xué)習(xí)是通過使用算法和統(tǒng)計(jì)模型從數(shù)據(jù)模式中分析和得出推論,使計(jì)算機(jī)系統(tǒng)在沒有顯式指令的情況下進(jìn)行學(xué)習(xí)的過程。AI和機(jī)器學(xué)習(xí)的主要限制之一一直是計(jì)算能力,這一直是研究人員關(guān)注的原因。幾十年前,在為機(jī)器學(xué)習(xí)運(yùn)行大型計(jì)算時(shí),CPU還沒有這么強(qiáng)大和高效。硬件制造商努力創(chuàng)造一個(gè)能夠執(zhí)行任何AI操作的處理單元。 雖然CPU不再是計(jì)算能力的可行來源,但它們是先驅(qū)。如今,這些CPU理所當(dāng)然地被專門為大型計(jì)算設(shè)計(jì)的GPU和AI加速器所取代。購(gòu)買AI加速器時(shí)考慮的主要特征是成本、能耗和處理速度。 AI加速器作為一種強(qiáng)大的機(jī)器學(xué)習(xí)硬件芯片,專門設(shè)計(jì)用于平穩(wěn)快速地運(yùn)行AI和機(jī)器學(xué)習(xí)應(yīng)用程序。AI加速器的例子包括圖形處理單元(GPU)、視覺處理單元(VPU)、現(xiàn)場(chǎng)可編程門陣列(FPGA)、專用集成電路(ASIC)和張量處理單元(TPU)。 1. 用于機(jī)器學(xué)習(xí)的視覺處理單元(VPU) 除了顯卡,英偉達(dá)和AMD還生產(chǎn)獨(dú)立的微處理器,專門用于機(jī)器學(xué)習(xí)。這些專門的處理器或視覺處理單元(VPU)是專門為深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的,如CNN和RNN的;與執(zhí)行各種其他計(jì)算操作的GPU相比,它們可以相對(duì)輕松地處理圖像識(shí)別和分類任務(wù)所需的視覺處理計(jì)算。這就是為什么它們通常比傳統(tǒng)GPU擁有更多的內(nèi)核和更高的時(shí)鐘速度。 視覺處理單元適用于卷積神經(jīng)網(wǎng)絡(luò)(CNN),如圖像識(shí)別、對(duì)象檢測(cè)和分類。第一臺(tái)VPU是Nvidia在2004年推出的Cuda-2000。最近,AMD發(fā)布了Baffin,可用于大多數(shù)DL任務(wù)(TensorFlow、PyTorch、Caffe2)以及計(jì)算機(jī)視覺算法,如視覺顯著性檢測(cè)、圖像分割和識(shí)別等。 英特爾CPU上的深度學(xué)習(xí)推理速度大約比同等功率的帕斯卡GPU/VPU慢20倍。例如,如果您要在幾乎相同的基準(zhǔn)和數(shù)據(jù)集上比較兩個(gè)CPU,差異將是顯著的。推理時(shí)間與VPU內(nèi)核的數(shù)量成線性比例關(guān)系,而與CPU內(nèi)核的數(shù)量成平方比例關(guān)系。在一定數(shù)量的VPU內(nèi)核上,花同樣的錢買更高端的CPU會(huì)更好。 視覺處理單元被許多需要大量圖像處理的公司使用,如臉書& Pinterest用于對(duì)象識(shí)別,谷歌使用張量處理單元(TPU)用于各種服務(wù),包括搜索相關(guān)功能。據(jù)英偉達(dá)首席執(zhí)行官黃仁勛稱,vpu在執(zhí)行視頻分析、計(jì)算機(jī)視覺或機(jī)器學(xué)習(xí)算法等需要“成千上萬(wàn)”內(nèi)核來訓(xùn)練模型的任務(wù)方面非常有效。 VPU的一個(gè)例子是英特爾的Movidius Myriad X,該公司使用它來驅(qū)動(dòng)各種產(chǎn)品,如他們的RealSense計(jì)算機(jī)視覺開發(fā)套件、云平臺(tái)(亞馬遜AWS和微軟Azure)、智能手機(jī)(Galaxy S8、iPhone XS Max)和平板電腦。VPU還被用于機(jī)器人導(dǎo)航和自動(dòng)駕駛系統(tǒng)。此外,在Hololens & Magic Leap中,還為增強(qiáng)現(xiàn)實(shí)部署了圖像識(shí)別、分類和對(duì)象檢測(cè)。英特爾表示,他們的VPU能夠在2304 x 1152分辨率下實(shí)現(xiàn)60 FPS,準(zhǔn)確率為93%。 視覺處理單元最適合用于圖像識(shí)別和對(duì)象檢測(cè)任務(wù)。CNN由幾個(gè)相連的層組成,當(dāng)輸入模式通過時(shí),這些層逐漸增加輸入模式的復(fù)雜性或維度。第一層檢測(cè)邊緣,隨后是檢測(cè)特征的卷積,等等,直到實(shí)現(xiàn)端到端分類。 因?yàn)镃NN執(zhí)行像最大池、子采樣等操作。它們需要密集的數(shù)字處理能力,因此非常適合擁有更多內(nèi)核/更高時(shí)鐘速度的VPU。 視覺處理單元(vpu)的其他使用案例包括: 自動(dòng)駕駛- VPUs可用于在自動(dòng)駕駛汽車中運(yùn)行高分辨率的深度學(xué)習(xí)模型進(jìn)行圖像處理。例如,英偉達(dá)使用其帶有板載VPU的Drive PX平臺(tái)為其自動(dòng)駕駛汽車系統(tǒng)提供動(dòng)力。 視覺顯著性檢測(cè)-檢測(cè)場(chǎng)景中最顯著的物體,并引起對(duì)這些物體的注意。 圖像分割和識(shí)別-可用于基于像素的圖像標(biāo)記,并根據(jù)對(duì)象類型以及準(zhǔn)確的分類結(jié)果進(jìn)行分類。例子包括百度的深度圖像,它是使用谷歌的TensorFlow框架開發(fā)的,或者臉書的Canvas圖像識(shí)別系統(tǒng),它執(zhí)行諸如語(yǔ)義分割、創(chuàng)建細(xì)粒度圖像識(shí)別模型等任務(wù)。 虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)-虛擬現(xiàn)實(shí)被認(rèn)為是一種可視化技術(shù),可以通過使用VPU進(jìn)行對(duì)象檢測(cè)和場(chǎng)景分析來提供實(shí)時(shí)3d模擬。增強(qiáng)現(xiàn)實(shí)也是如此,它們可以用來在用戶的物理世界中構(gòu)建數(shù)字對(duì)象。 安全-由于深度學(xué)習(xí)算法通常使用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,因此人臉識(shí)別和面部行為分析等安全平臺(tái)使用這些類型的處理器。 視覺處理單元主要由Nvidia (Tensor)生產(chǎn),該產(chǎn)品基于其當(dāng)前的Volta架構(gòu)。AMD最近還宣布,將于2019年開始出貨其名為Navi的第三代圖形處理單元;這款芯片預(yù)計(jì)將提供高達(dá)512 GB/秒的內(nèi)存帶寬,同時(shí)與英偉達(dá)的Volta架構(gòu)競(jìng)爭(zhēng)。這種GPU芯片的優(yōu)勢(shì)是它將與GPGPU算法兼容,不像英偉達(dá)的V100。 2. 現(xiàn)場(chǎng)可編程門陣列(FPGA) 現(xiàn)場(chǎng)可編程門陣列是可編程集成電路,可由客戶在制造后針對(duì)特定任務(wù)進(jìn)行配置。FPGAs因其在硬件加速和并行計(jì)算方面的多功能性而廣受歡迎。它們可以用于幾乎所有傳統(tǒng)上使用數(shù)字處理器的任務(wù),包括圖像/視頻處理、信號(hào)處理、數(shù)據(jù)加密/解密以及許多其他與計(jì)算相關(guān)的任務(wù)。 用FPGA配置不同計(jì)算單元的靈活性使得構(gòu)建從傳統(tǒng)GPU到具有大量vpu的系統(tǒng)的任何類型的系統(tǒng)成為可能,而不會(huì)導(dǎo)致任何存儲(chǔ)器瓶頸,因?yàn)镻CIe總線比PCI總線具有更大的帶寬。這些限制已經(jīng)在Nvidia最新版本的Tesla V100中得到解決,該版本擁有2304位內(nèi)存總線,但仍不足以跟上FPGAs。 FPGAs主要用于3d圖形處理、并行計(jì)算和圖像識(shí)別/重建算法,如使用來自安裝在車輛或機(jī)器人上的攝像頭的圖像數(shù)據(jù)的自動(dòng)駕駛應(yīng)用等領(lǐng)域中的深度學(xué)習(xí)網(wǎng)絡(luò)。 FPGA的三個(gè)基本元素是什么? 三個(gè)組件可在FPGA上編程,即靜態(tài)RAM、反熔絲和閃存可擦除可編程只讀存儲(chǔ)器(EPROM)。這些元素被鏈接在一起,形成一個(gè)龐大的邏輯塊排列。這些模塊通過可編程突觸(互連)進(jìn)一步連接。由于配置程序(編程)是由硬件工程師執(zhí)行的,而不是像ASIC和GPU那樣由軟件開發(fā)人員執(zhí)行,因此與定制ASIC芯片相比,F(xiàn)PGAs大大降低了制造成本。 FPGA芯片的應(yīng)用 2016年,汽車行業(yè)是FPGA硬件和軟件的消費(fèi)大戶。市場(chǎng)研究公司VDC預(yù)測(cè),從2016年到2021年,全球收入將增長(zhǎng)8%以上,到2021年達(dá)到40億美元。下面是一些如何使用它們的例子: 包括用于避免碰撞或自動(dòng)制動(dòng)的傳感器的駕駛員輔助系統(tǒng)可以使用FPG編碼算法來部署,用于實(shí)時(shí)分析由工業(yè)過程中的移動(dòng)車輛或機(jī)器人上的攝像機(jī)捕獲的數(shù)據(jù),例如焊接應(yīng)用,其中物體可能以高速彼此接觸,從而導(dǎo)致對(duì)人類工人的損害/傷害以及設(shè)備故障。 通用計(jì)算語(yǔ)言可以部署在FPGA硬件上,使用主機(jī)和操作系統(tǒng)(如Linux)來構(gòu)建汽車或機(jī)器人的圖像識(shí)別模型,以及可以在3D圖形、并行計(jì)算等中使用的軟件算法。 網(wǎng)絡(luò)安全、數(shù)據(jù)包加密/解密和在線游戲平臺(tái)等網(wǎng)絡(luò)應(yīng)用最適合FPGA實(shí)施,因?yàn)榫W(wǎng)絡(luò)流量利用其靈活的并行計(jì)算能力會(huì)產(chǎn)生較小的延遲問題。一個(gè)主要的例子包括Atlas平臺(tái),該平臺(tái)由臉書工程師開發(fā),使用FPGA架構(gòu)來改進(jìn)他們的深度學(xué)習(xí)(ML)系統(tǒng),同時(shí)讓GPU驅(qū)動(dòng)的機(jī)器執(zhí)行其他任務(wù),而不僅僅是訓(xùn)練模型和服務(wù)最終用戶。 FPGAs的使用允許谷歌或臉書等基于云的機(jī)器學(xué)習(xí)提供商使用它們來實(shí)施其數(shù)據(jù)中心基礎(chǔ)設(shè)施,并以更快的速度訓(xùn)練模型,同時(shí)為最終用戶保持相同的延遲水平。 圖像處理軟件可以移植到FPGAss上運(yùn)行,F(xiàn)PGA用于PIxel和Arrow等相機(jī)公司使用的工業(yè)相機(jī)。他們聲稱,與使用GPU硬件的競(jìng)爭(zhēng)對(duì)手相比,使用FPGA架構(gòu)可以讓他們創(chuàng)造更高的性價(jià)比。 FPGA與GPU 靈活性 FPGAs在開發(fā)過程中提供了配置硬件模塊的高度靈活性。此外,與為算術(shù)邏輯單元(ALU)預(yù)先確定內(nèi)核的GPU不同,F(xiàn)PGA的ALU可以配置為處理一系列并行任務(wù),從而可以構(gòu)建具有多個(gè)vpu或兩種功能任意組合的系統(tǒng)。 硬件加速/并行計(jì)算:FPGAs建立在現(xiàn)場(chǎng)可編程門陣列上,因此與GPU和CPU相比,它們提供了更大的靈活性,可以在需要時(shí)輕松添加額外的處理單元,而不必?fù)?dān)心內(nèi)存總線不平衡。因此,這使它們成為需要密集數(shù)字處理的深度學(xué)習(xí)網(wǎng)絡(luò)的理想選擇,因?yàn)樗鼈兛梢暂p松添加額外的alu,而不必對(duì)現(xiàn)有的alu重新編程。 時(shí)鐘速度:與GPU相比,F(xiàn)PGAs的時(shí)鐘速度更快,從而提高了性能。對(duì)于數(shù)量相當(dāng)?shù)膬?nèi)核,對(duì)于I/O密集型應(yīng)用,如使用深度學(xué)習(xí)算法進(jìn)行模式識(shí)別的通信網(wǎng)絡(luò),F(xiàn)PGAs的性能明顯優(yōu)于GPU。 云計(jì)算:FPGAs使得構(gòu)建定制的硬件變得更加容易,這些硬件可以根據(jù)客戶端和用戶的要求輕松配置。這使得它們適用于云計(jì)算平臺(tái),在這種平臺(tái)上,拓?fù)淇梢栽谌魏谓o定的時(shí)間根據(jù)需求進(jìn)行更改,而不會(huì)產(chǎn)生額外的成本或繁瑣的開發(fā)時(shí)間表。 像任何其他技術(shù)轉(zhuǎn)變一樣,總會(huì)有一些缺點(diǎn):成本與靈活性。由于FPGA是可編程的,它們需要更通用的開發(fā)環(huán)境,因此通常比GPU更昂貴。此外,F(xiàn)PGAs不允許在生產(chǎn)中進(jìn)行重新配置,而這可以通過GPU輕松完成。 FPGAs受到其計(jì)算能力和存儲(chǔ)器帶寬的限制,因此由于需要使用大量權(quán)重的深度學(xué)習(xí)網(wǎng)絡(luò)所需的大容量SRAMs(靜態(tài)隨機(jī)存取存儲(chǔ)器),因此具有較慢的時(shí)鐘速度。這意味著FPGA通常用于較小的集群,有限的用于高端應(yīng)用,如自動(dòng)駕駛汽車和無(wú)人機(jī)等。然而,這種限制也有一個(gè)優(yōu)點(diǎn),因?yàn)楫?dāng)不使用FPGAs進(jìn)行DNN計(jì)算時(shí),它比GPU/CPU更便宜。 速度不夠——由于它們依賴外部存儲(chǔ)器,因此在每個(gè)時(shí)鐘周期進(jìn)行比較時(shí),它們比傳統(tǒng)的微處理器或GPU慢,因此不適合需要實(shí)時(shí)結(jié)果的計(jì)算密集型模擬,例如汽車應(yīng)用中使用的高分辨率相機(jī)處理算法。 上述例子讓我們深入了解了這些新架構(gòu)的敏捷性,這些新架構(gòu)旨在滿足自動(dòng)駕駛汽車、無(wú)人機(jī)和機(jī)器人對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)不斷增長(zhǎng)的需求——它們還突出了GPGPUs在加速網(wǎng)絡(luò)計(jì)算方面的使用。GPU比CPU具有巨大的優(yōu)勢(shì),特別是在執(zhí)行并行計(jì)算任務(wù)時(shí),而FPGAs與GPU相比具有許多優(yōu)勢(shì),主要是因?yàn)樗鼈兛梢栽谥圃旌笾匦屡渲,因此在設(shè)計(jì)任何類型的系統(tǒng)時(shí)都具有很大的靈活性。 然而,就像任何其他技術(shù)進(jìn)步一樣;隨著每個(gè)架構(gòu)中內(nèi)置更多功能,未來幾代產(chǎn)品將會(huì)有更大的進(jìn)步,實(shí)現(xiàn)更快的時(shí)鐘速度和更大的存儲(chǔ)器總線,從而使其競(jìng)爭(zhēng)對(duì)手難以趕上 有哪些公司在提供FPGAs? 市場(chǎng)領(lǐng)導(dǎo)者包括Xilinx和Altera,它們都是FPGA編程工具的主要供應(yīng)商,工程師使用這些工具根據(jù)自己的要求配置器件。 Xilinx和Altera是兩家最大的FPGA供應(yīng)商,IBM聲稱他們將使用他們的SoftLayer云來提供GPU和FPGA。微軟Azure和亞馬遜網(wǎng)絡(luò)服務(wù)也允許他們的用戶在其云計(jì)算平臺(tái)中選擇GPU和FPGAs。 汽車車道偏離警告系統(tǒng)的主要供應(yīng)商Mobileye正在使用英特爾的至強(qiáng)處理器和Altera現(xiàn)場(chǎng)可編程門陣列(FPGA)協(xié)處理器為其攝像頭供電。英特爾在2017年以153億美元收購(gòu)了Mobileye目前尚不清楚這些加速器在自動(dòng)駕駛項(xiàng)目中發(fā)揮的作用有多大,但它暗示了自動(dòng)化在發(fā)達(dá)和新興汽車市場(chǎng)都將發(fā)揮重要作用的未來。 Mobileye的協(xié)處理器被編程為處理高級(jí)駕駛輔助系統(tǒng)(ADAS)所需的數(shù)據(jù)處理——它可以處理來自Mobileye的EyeQ3傳感器的高維輸入信息,同時(shí)還可以降低處理器負(fù)載,從而直接降低功耗。這種組合解決方案將延遲降低到240毫秒左右,這被認(rèn)為是一項(xiàng)重大改進(jìn),因?yàn)榇蠖鄶?shù)攝像機(jī)的平均延遲為1秒。 3. 專用集成電路 ASICs通常是為單一應(yīng)用或目的而設(shè)計(jì)的,不能像FPGA或GPU那樣重新編程。與FPGAs和GPU相比,這使它們成為一個(gè)更高效的平臺(tái),因?yàn)樗鼈兛梢暂p松地針對(duì)特定任務(wù)進(jìn)行構(gòu)建——這些平臺(tái)是交易、游戲甚至加密貨幣挖掘等用例的理想選擇。 近年來,隨著英特爾和IBM等主要技術(shù)公司使用基于ASIC的系統(tǒng)來驅(qū)動(dòng)他們的云計(jì)算平臺(tái),ASIC越來越受歡迎。 與設(shè)計(jì)用于處理計(jì)算和圖形計(jì)算的FPGAs和GPU不同,ASICs專門用于要求高性能的計(jì)算,如加密貨幣礦工所要求的計(jì)算。ASICs比FPGAs具有更好的電氣特性,因此可以提供更高的計(jì)算速度,同時(shí)生產(chǎn)成本也更低,這使它們成為資金不是問題的情況下的首選——它們通常需要很少的外部存儲(chǔ)器,因此它們依賴于在小封裝中存儲(chǔ)大量數(shù)據(jù)的區(qū)塊鏈。 Nervana是由英特爾構(gòu)建的ASIC,它基于一種稱為深度學(xué)習(xí)三重內(nèi)容可尋址存儲(chǔ)器(TCAM)的新型架構(gòu),通過其每時(shí)鐘三次的提升為神經(jīng)網(wǎng)絡(luò)層提供了非常高的吞吐量。這使得Nervana能夠以低得多的價(jià)格提供比GPU更高的性能,這可能使日常消費(fèi)者以可承受的成本獲得人工智能加速器。 英特爾于2016年8月收購(gòu)了Nervana Systems,為該公司提供了大量培訓(xùn)和推理算法方面的專業(yè)知識(shí),這些技術(shù)現(xiàn)在正被用于其行業(yè)領(lǐng)先的Movidius視覺處理單元(vpu)中。此后,他們發(fā)布了面向工業(yè)和消費(fèi)者用例的VPU產(chǎn)品——這使得Nervana的技術(shù)被集成到英特爾的RealSense深度攝像頭、至強(qiáng)和酷睿處理器以及他們新發(fā)布的Movidius神經(jīng)計(jì)算棒中。 ASICs的優(yōu)勢(shì) ASIC在性能方面可能優(yōu)于FPGAs,因?yàn)樗鼈兙哂懈偷难舆t和更好的電氣特性,這就是比特幣ASIC如此強(qiáng)大的原因。與GPU和FPGAs相比,它們還提供了最高級(jí)別的安全性、能效和靈活性,因?yàn)樗鼈兛梢詧?zhí)行符合其設(shè)計(jì)規(guī)格的任何任務(wù)。 ASICs的缺點(diǎn) ASICs的主要缺點(diǎn)是,它們的制造需要巨額資本投資——這導(dǎo)致許多公司依賴GPU或FPGAs,它們需要較少的初始資金,只要在開發(fā)更有效的數(shù)字貨幣方面沒有重大進(jìn)展,仍然可以提供足夠的區(qū)塊鏈采礦率,因此它依賴比特幣等加密貨幣來實(shí)現(xiàn)財(cái)務(wù)收益。 然而,目前還不清楚ASICs的使用是否僅用于采礦,或者是否用于其他應(yīng)用,例如提供相對(duì)于GPU和FPGAs的競(jìng)爭(zhēng)優(yōu)勢(shì)。雖然云計(jì)算提供商可以向那些根據(jù)執(zhí)行區(qū)塊鏈采礦的投資回報(bào)預(yù)期選擇平臺(tái)的用戶提供激勵(lì),但如果沒有需要這種專用硬件來實(shí)現(xiàn)最大效率的加密貨幣,投資開發(fā)專用集成電路就沒有什么意義。 這使得使用GPU和FPGAs的加密貨幣礦商很難理解哪些因素將推動(dòng)未來的盈利能力,因?yàn)榇蠖鄶?shù)加密貨幣仍然無(wú)法預(yù)測(cè)它們對(duì)技術(shù)創(chuàng)新的反應(yīng)速度。 4. 什么是張量處理單元(TPU)? 張量處理單元(TPU)是由谷歌制造的,用于加速機(jī)器學(xué)習(xí)應(yīng)用。它被設(shè)計(jì)為在TensorFlow上運(yùn)行,由稱為tensors的多個(gè)處理原語(yǔ)構(gòu)成。張量是向量和矩陣向潛在的更高維度的推廣。 谷歌TPU技術(shù)的特點(diǎn) 谷歌聲稱,其第二代Maxwell架構(gòu)的64位80萬(wàn)億次浮點(diǎn)運(yùn)算變體的能效比通用CPU高出9倍。該架構(gòu)還包括對(duì)深度學(xué)習(xí)推理的特定支持,數(shù)據(jù)吞吐量比谷歌數(shù)據(jù)中心使用的第一代TPU高2到3倍。 每個(gè)時(shí)鐘周期能夠執(zhí)行八次混合精度操作,每次操作以16位浮點(diǎn)精度執(zhí)行,某些情況下以24位整數(shù)或32位浮點(diǎn)粒度執(zhí)行。谷歌支持的這種混合精度類似于半(16位)高斯舍入,但不同于英特爾至強(qiáng)融核協(xié)處理器支持的全(24位)舍入到最近位模式。 TPU的計(jì)算能力來自神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)用于提供最準(zhǔn)確的語(yǔ)言和圖像識(shí)別,以及實(shí)時(shí)解析結(jié)構(gòu)化數(shù)據(jù)。它是為推理而設(shè)計(jì)的,這是一個(gè)涉及激活預(yù)先訓(xùn)練的ML模型的步驟,通常比訓(xùn)練計(jì)算量更大。 張量處理單元(TPU)的容量是多少? 谷歌表示,其第二代TPU每秒可以執(zhí)行4500張圖像的推理(對(duì)于ResNet-50),這需要16個(gè)高端英偉達(dá)K80 GPUs才能達(dá)到一臺(tái)谷歌TPU的性能。谷歌進(jìn)一步聲稱,其新TPU架構(gòu)的32萬(wàn)億次浮點(diǎn)運(yùn)算變體提供了比第一代TPU高6倍的性能。 有哪些公司在使用張量處理單元? 一些公司已經(jīng)在其數(shù)據(jù)中心部署了張量處理單元,包括電子商務(wù)巨頭阿里巴巴以及搜索引擎巨頭百度和谷歌(Alphabet)。 英特爾還宣布了其首個(gè)名為L(zhǎng)ake Crest的TPU設(shè)計(jì),用于為制造、醫(yī)療保健、金融和服務(wù)行業(yè)的深度學(xué)習(xí)工作負(fù)載提供動(dòng)力。 現(xiàn)在,正如我所承諾的,我要提到一種不同的處理器,它在功能上模仿人腦。這被稱為“神經(jīng)形態(tài)處理器”。 可以買張量處理單元嗎?不要!你不能。TPU是谷歌唯一尚未出售的資產(chǎn)。盡管你可以以每小時(shí)每臺(tái)機(jī)器1.35美元的價(jià)格租用谷歌TPU作為谷歌云服務(wù)。 5. 神經(jīng)形態(tài)處理器 什么是神經(jīng)形態(tài)處理器? 神經(jīng)形態(tài)處理器被設(shè)計(jì)成在結(jié)構(gòu)和操作上盡可能接近人腦。這可以通過使用模擬電路來實(shí)現(xiàn),模擬電路進(jìn)行的計(jì)算類似于人腦中神經(jīng)元進(jìn)行的計(jì)算,這使它們可以用大量?jī)?nèi)存執(zhí)行一組復(fù)雜的操作,盡管操作速度較低。 在過去的幾年里,這些電路被設(shè)計(jì)成運(yùn)行深度學(xué)習(xí)算法,這些算法最初是為ASICs和其他形式的傳統(tǒng)處理硬件開發(fā)的。這使得神經(jīng)形態(tài)處理器在運(yùn)行人工智能應(yīng)用程序時(shí)能夠提供比其前輩更高的效率,同時(shí)還提供更低的功耗,從而使其成為比GPU和FPGAs更具成本效益的選擇。 誰(shuí)發(fā)明了神經(jīng)形態(tài)處理器? 神經(jīng)形態(tài)處理器的概念是由加州理工學(xué)院教授卡弗·米德首創(chuàng)的,他自1979年以來一直致力于開發(fā)模擬人腦的電路。 神經(jīng)形態(tài)處理器的優(yōu)缺點(diǎn) 神經(jīng)形態(tài)處理器的主要優(yōu)勢(shì)是,它們能夠以傳統(tǒng)處理器所需的一小部分能源成本為人工智能應(yīng)用提供高水平的性能。它們還具有高度的可擴(kuò)展性,可以集成到多種計(jì)算設(shè)備中,包括移動(dòng)電話和其他手持設(shè)備,以及能夠以最小的努力提供高水平性能的現(xiàn)場(chǎng)計(jì)算機(jī)。 然而,在執(zhí)行標(biāo)準(zhǔn)金融和數(shù)學(xué)運(yùn)算時(shí),神經(jīng)形態(tài)處理器在效率和性能方面仍然不如GPU和FPGAs。此外,它們有限的可擴(kuò)展性要求它們被結(jié)合到其他設(shè)備中以有效運(yùn)行,這也增加了啟動(dòng)成本。 神經(jīng)形態(tài)處理器的處理能力如何? 一個(gè)神經(jīng)形態(tài)處理器比谷歌的TPU更快,每秒處理100倍的幀,而使用的能量少1萬(wàn)倍。兩款處理器都在雅達(dá)利游戲Q*bert上進(jìn)行了測(cè)試,Neuromorphic以100萬(wàn)比1.4萬(wàn)的成績(jī)勝出。 IBM TrueNorth IBM TrueNorth目前是最強(qiáng)大的神經(jīng)形態(tài)處理器,容量為1.02萬(wàn)億次浮點(diǎn)運(yùn)算,功耗僅為10瓦,比英特爾酷睿i7-7700K實(shí)現(xiàn)類似性能所需的功耗低約7200倍。 隨著最新的人工智能加速器的推出,可能會(huì)降低成本,能耗和數(shù)據(jù)處理時(shí)間,對(duì)處理能力有限的擔(dān)憂正在消退。與神經(jīng)形態(tài)計(jì)算機(jī)一樣,最高可行的計(jì)算處理模型可以從大腦功能中復(fù)制出來。為了獲得最佳處理能力,智能設(shè)計(jì)的電路、高效的軟件代碼和更簡(jiǎn)單的算法是必不可少的。(剪報(bào)來源: http://thinkml.ai/ai-accelerators-hardware-for-artificial-intelligence-cpu/)
|