search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

CPU的兄弟居然這麼多…APU、BPU、DPU、EPU、FPU…字母表告急!

AI時代的XPU版摩爾定律:

每過18天,集成電路領域將多出一個xPU,直到26個字母被用完。

據不完全統計,已經被用掉的有:

APU -- Accelerated Processing Unit, 加速處理器,AMD公司推出加速圖像處理晶元產品。

BPU -- Brain Processing Unit, 地平線公司主導的嵌入式處理器架構,並應用於器ADAS產品中。

CPU -- Central Processing Unit 中央處理器, 目前PC core的主流產品。

DPU -- Dataflow Processing Unit 數據流處理器, Wave Computing 公司提出的AI架構;Data storage Processing Unit,深圳大普微的智能固態硬碟處理器。

FPU -- Floating Processing Unit 浮點計算單元,通用處理器中的浮點運算模塊。

GPU -- Graphics Processing Unit, 圖形處理器,採用多線程SIMD架構,雖然為圖形處理而生,但在Nvidia的人工智慧布局下,成為了人工智慧演算法的主要硬體選項。

HPU -- Holographics Processing Unit 全息圖像處理器, 微軟出品的全息計算晶元與設備。

IPU -- Intelligence Processing Unit, Deep Mind投資的Graphcore公司出品的AI處理器產品。

MPU/MCU -- Microprocessor/Micro controller Unit, 微處理器/微控制器,一般用於低計算應用的RISC計算機體系架構產品,如ARM-M系列處理器。

NPU -- Neural Network Processing Unit,神經網路處理器,是基於神經網路演算法與加速的新型處理器總稱,如中科院計算所/寒武紀公司出品的diannao系列。

RPU -- Radio Processing Unit, 無線電處理器, Imagination Technologies 公司推出的集合集Wifi/藍牙/FM/處理器為單片的處理器。

TPU -- Tensor Processing Unit 張量處理器, Google 公司推出的加速人工智慧演算法的專用處理器。目前一代TPU面向Inference,二代面向訓練。

VPU -- Vector Processing Unit 矢量處理器,Intel收購的Movidius公司推出的圖像處理與人工智慧的專用晶元的加速計算核心。

WPU -- Wearable Processing Unit, 可穿戴處理器,Ineda Systems公司推出的可穿戴片上系統產品,包含GPU/MIPS CPU等IP。

XPU -- 百度與Xilinx公司在2017年Hotchips大會上發布的FPGA智能雲加速,含256核。

ZPU -- Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位開源處理器。

當一個26個字幕被用完后,即將出現xxPU,xxxPU,並以更快的速度佔領起名界。

譚洪賀這篇文章更為詳細。

詳細盤點:

作者簡介:譚洪賀,資深IC工程師。博士畢業於清華大學,多年一直從事於數字集成電路開發工作。從DSP、ASIP到特定加解密演算法的ASIC低功耗實現,從音視頻編解碼的高性能設計到計算機視覺、語音識別的高效能實現,逐步進入AI領域。現任地平線機器人技術資深IC工程師,深度參與AI演算法在晶元端的實現工作。

APU

Accelerated Processing Unit。目前還沒有AI公司將自己的處理器命名為APU,因為AMD早就用過APU這個名字了。APU是AMD的一個處理器品牌。AMD在一顆晶元上集成傳統CPU和圖形處理器GPU,這樣主板上將不再需要北橋,任務可以靈活地在CPU和GPU間分配。AMD將這種異構結構稱為加速處理單元,即APU。

Audio Processing Unit。聲音處理器,顧名思義,處理聲音數據的專用處理器。不多說,生產APU的晶元商有好多家。音效卡里都有。

BPU

Brain Processing Unit。地平線機器人(Horizon Robotics)以BPU來命名自家的AI晶元。地平線是一家成立於2015年的start-up,總部在北京,目標是「嵌入式人工智慧全球領導者」。地平線的晶元未來會直接應用於自己的主要產品中,包括:智能駕駛、智能生活和智能城市。地平線機器人的公司名容易讓人誤解,以為是做「機器人」的,其實不然。地平線做的不是「機器」的部分,是在做「人」的部分,是在做人工智慧的「大腦」,所以,其處理器命名為BPU。相比於國內外其他AI晶元start-up公司,地平線的第一代BPU走的相對保守的TSMC的40nm工藝。BPU已經被地平線申請了註冊商標,其他公司就別打BPU的主意了。

Biological Processing Unit。一個口號「21 世紀是生物學的世紀」忽悠了無數的有志青年跳入了生物領域的大坑。其實,這句話需要這麼理解,生物學的進展會推動21世紀其他學科的發展。比如,對人腦神經系統的研究成果就會推動AI領域的發展,SNN結構就是對人腦神經元的模擬。不管怎麼說,隨著時間的推移,坑總會被填平的。不知道生物處理器在什麼時間會有質的發展。

Bio-Recognition Processing Unit。生物特徵識別現在已經不是紙上談兵的事情了。指紋識別已經是近來智能手機的標配,電影里的黑科技虹膜識別也上了手機,聲紋識別可以支付了...不過,除了指紋識別有專門的ASIC晶元外,其他生物識別還基本都是sensor加通用cpu/dsp的方案。不管怎樣,這些晶元都沒佔用BPU或BRPU這個寶貴位置。

CPU

CPU就不多說了,也不會有AI公司將自己的處理器命名為CPU的。不過,CPU與AI處理器並不衝突。

首先,很多公司的AI處理器中還是會使用CPU做控制調度。比如,wave computing用的是Andes的CPU core;Mobileye用了好幾個MIPS的CPU core;國內的某些AI晶元公司用的ARM的CPU core。

此外,在現有的移動市場的AP中,在CPU之外,再集成一兩個AI加速器IP(例如針對視覺應用的DSP,見VPU部分)也是一種趨勢。例如,華為近期就在為其集成了AI加速器的麒麟970做宣傳。

另外一種趨勢,做高性能計算CPU的公司也不甘錯過AI的浪潮。例如,

Adapteva 一家做多核MIMD結構處理器的公司。2016年tapeout的Epiphany V集成有1024個核。相對以前的版本,針對deep learning和加密增加了特定指令。

kalrayinc 一家做多核并行處理器的公司,有針對數據中心和自動駕駛的解決方案。最近公布了第三代MPPA處理器「Coolidge」的計劃,並融資$26 Million。計劃採用16nm FinFET工藝,集成80-160個kalray 64-bit core,以及80-160個用於機器視覺處理和深度學習計算的協處理器。

DPU

D是Deep Learning的首字母,以Deep Learning開頭來命名AI晶元是一種很自然的思路。

Deep-Learning Processing Unit。深度學習處理器。DPU並不是哪家公司的專屬術語。在學術圈,Deep Learning Processing Unit(或processor)被經常提及。例如ISSCC 2017新增的一個session的主題就是Deep Learning Processor。以DPU為目標的公司如下。

Deephi Tech(深鑒) 深鑒是一家位於北京的start-up,初創團隊有很深的清華背景。深鑒將其開發的基於FPGA的神經網路處理器稱為DPU。到目前為止,深鑒公開發布了兩款DPU:亞里士多德架構和笛卡爾架構,分別針對CNN以及DNN/RNN。雖然深鑒號稱是做基於FPGA的處理器開發,但是從公開渠道可以看到的招聘信息以及非公開的業內交流來看,其做晶元已成事實。

TensTorrent 一家位於Toronto的start-up,研發專為深度學習和智能硬體而設計的高性能處理器,技術人員來自NVDIA和AMD。

Deep Learning Unit。深度學習單元。Fujitsu(富士通)最近高調宣布了自家的AI晶元,命名為DLU。名字雖然沒什麼創意,但是可以看到DLU已經被富士通標了「TM」,雖然TM也沒啥用。在其公布的信息里可以看到,DLU的ISA是重新設計的,DLU的架構中包含眾多小的DPU(Deep Learning Processing Unit)和幾個大的master core(控制多個DPU和memory訪問)。每個DPU中又包含了16個DPE(Deep-Learning Processing Element),共128個執行單元來執行SIMD指令。富士通預計2018財年內推出DLU。

Deep Learning Accelerator。深度學習加速器。NVIDA宣布將這個DLA開源,給業界帶來了不小的波瀾。大家都在猜測開源DLA會給其他AI公司帶來什麼。參考這篇吧"從Nvidia開源深度學習加速器說起"

Dataflow Processing Unit。數據流處理器。創立於2010年的wave computing公司將其開發的深度學習加速處理器稱為Dataflow Processing Unit(DPU),應用於數據中心。Wave的DPU內集成1024個cluster。每個Cluster對應一個獨立的全定製版圖,每個Cluster內包含8個算術單元和16個PE。其中,PE用非同步邏輯設計實現,沒有時鐘信號,由數據流驅動,這就是其稱為Dataflow Processor的緣由。使用TSMC 16nm FinFET工藝,DPU die面積大概400mm^2,內部單口sram至少24MB,功耗約為200W,等效頻率可達10GHz,性能可達181TOPS。前面寫過一篇他家DPU的分析,見傳輸門AI晶元|淺析Yann LeCun提到的兩款Dataflow Chip。

Digital Signal Processor。數字信號處理器。晶元行業的人對DSP都不陌生,設計DSP的公司也很多,TI,Qualcomm,CEVA,Tensilica,ADI,Freescale等等,都是大公司,此處不多做介紹。相比於CPU,DSP通過增加指令并行度來提高數字計算的性能,如SIMD、VLIW、SuperScalar等技術。面對AI領域新的計算方式(例如CNN、DNN等)的挑戰,DSP公司也在馬不停蹄地改造自己的DSP,推出支持神經網路計算的晶元系列。在後面VPU的部分,會介紹一下針對Vision應用的DSP。和CPU一樣,DSP的技術很長時間以來都掌握在外國公司手裡,國內也不乏兢兢業業在這方向努力的科研院所,如清華大學微電子所的Lily DSP(VLIW架構,有獨立的編譯器),以及國防科大的YHFT-QDSP和矩陣2000。但是,也有臭名昭著的「漢芯」。

EPU

Emotion Processing Unit。Emoshape 並不是這兩年才推出EPU的,號稱是全球首款情緒合成(emotion synthesis)引擎,可以讓機器人具有情緒。但是,從官方渠道消息看,EPU本身並不複雜,也不需要做任務量巨大的神經網路計算,是基於MCU的晶元。結合應用API以及雲端的增強學習演算法,EPU可以讓機器能夠在情緒上了解它們所讀或所看的內容。結合自然語言生成(NLG)及WaveNet技術,可以讓機器個性化的表達各種情緒。例如,一部能夠朗讀的Kindle,其語音將根據所讀的內容充滿不同的情緒狀態。

FPU

先說一個最常用的FPU縮寫:Floating Point Unit。浮點單元,不多做解釋了。現在高性能的CPU、DSP、GPU內都集成了FPU做浮點運算。

Force Processing Unit。原力處理器,助你成為絕地武士。酷!

GPU

Graphics Processing Unit。圖形處理器。GPU原來最大的需求來自PC市場上各類遊戲對圖形處理的需求。但是隨著移動設備的升級,在移動端也逐漸發展起來。

NVIDIA 說起GPU,毫無疑問現在的老大是NVIDIA。這家成立於1993年的晶元公司一直致力於設計各種GPU:針對個人和遊戲玩家的GeForce系列,針對專業工作站的Quadro系列,以及針對伺服器和高性能運算的Tesla系列。隨著AI的發展,NVIDIA在AI應用方面不斷發力,推出了針對自動駕駛的DRIVE系列,以及專為AI打造的VOLTA架構。特別提一下VOLTA,今年5月份,NVIDIA發布的Tesla V100採用TSMC 12nm工藝,面積竟然815mm^2,號稱相關研發費用高達30億美元。得益於在AI領域的一家獨大,NVIFIA的股價在過去一年的時間裡狂漲了300%。最後,也別忘了NVIDIA家還有集成了GeForce GPU的Tegra系列移動處理器。

AMD 這幾年NVIDIA的火爆,都快讓大家忘了AMD的存在了。AMD是晶元行業中非常古老的一家晶元公司,成立於1969年,比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon來自於其2006年以54億美元收購的ATI公司(暴露年齡地說,本人的第一台PC的顯卡就是ATI的)。本文第一個詞條APU就是AMD家的產品。AMD新出的MI系列GPU將目標對準AI。

在移動端市場,GPU被三家公司瓜分,但是也阻止不了新的競爭者殺入。

ARM家的Mali Mali不是ARM的自創GPU品牌,來自於ARM於2006年收購的Falanx公司。Falanx最初的GPU是面向PC市場的,但是根本就無法參與到NVIDIA和ATI的競爭中去,於是轉向移動市場;並且Falanx最初的GPU的名字也不是Mali,而是Maliak,為了好記,改為Mali,來自羅馬尼亞文,意思是small,而不是我們熟悉的吃蘑菇救公主的超級瑪麗(SuperMALI)。

Imagination的PowerVR 主要客戶是蘋果,所以主要精力都在支持蘋果,對其他客戶的支持不足。但是,蘋果突然宣布放棄PVR轉為自研,對Imagination打擊不小,股價大跌六成。Imagination現在正在尋求整體出售,土財快追,但是,美國未必批。

Qualcomm的Adreno 技術來自於AMD收購ATI后出售的移動GPU品牌Imageon。有意思的是,名字改自於ATI的知名GPU品牌Radeon;

VeriSilicon的Vivante Vivante(圖芯)是一家成立於2004年的以做嵌入式GPU為主的晶元公司,於2015年被VSI收購。Vivante的市場佔有率較低。這裡多加一段小八卦,Vivante的創始人叫戴偉進,VSI的創始人叫戴偉民,一句話對這次收購進行總結就是,戴家老大收購了戴家老二。哦,對了,戴家還有一個三妹戴偉立,創立的公司名號更響亮:Marvell。

Samsung的。。。哦,三星沒有自己的GPU。作為一個IDM巨頭,對於沒有自家的GPU,三星一直耿耿於懷。三星也宣布要研發自家的移動端GPU晶元,不過要等到2020年了。

再簡單補充國內的兩家開發GPU的公司:

上海兆芯 兆芯是VIA(威盛)分離出來的。兆芯於2016年針對移動端出了一款GPU晶元ZX-2000,名字有點簡單直接。主要技術來源於威盛授權,GPU核心技術來自收購的美國S3 Graphics。

長沙景嘉微電子 於2014年推出一款GPU晶元JM5400。這是一家有國防科大背景的公司,與龍芯為合作夥伴,晶元主要應用在軍用飛機和神舟飛船上。

Graph Streaming Processor。圖形流處理器。這是ThinCI(取意think-eye)提出的縮寫。ThinCI是一家致力於打造deep learning和computer vision晶元的start-up,由4名Intel前員工創立於2010年,總部在Sacramento,在印度也有研發人員。ThinCI的視覺晶元瞄準了自動駕駛應用,投資方有世界頂級汽車零部件供應商公司日本電裝DENSO。在剛結束的hotchip會議上,ThinCI介紹了他們的GSP(於是本文作者將ThinCI從VPU部分移到了這裡),使用了多種結構性技術來實現任務級、線程級、數據級和指令級的并行。GSP使用TSMC 28nm HPC+工藝,功耗預計2.5W。

HPU

Holographic Processing Unit。全息處理器。Microsoft專為自家Hololens應用開發的。第一代HPU採用28nm HPC工藝,使用了24個Tensilica DSP並進行了定製化擴展。HPU支持5路cameras、1路深度感測器(Depth sensor)和1路動作感測器(Motion Sensor)。Microsoft 在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2將搭載一顆支持DNN的協處理器,專門用於在本地運行各種深度學習。指的一提的是,HPU是一款為特定應用所打造的晶元,這個做產品的思路可以學習。據說Microsoft評測過Movidius(見VPU部分)的晶元,但是覺得無法滿足演算法對性能、功耗和延遲的要求,所有才有了HPU。

IPU

Intelligence Processing Unit。智能處理器。以IPU命名晶元的有兩家公司。

Graphcore Graphcore公司的IPU是專門針對graph的計算而打造的。稍微說說Graph,Graphcore認為Graph是知識模型及相應演算法的非常自然的表示,所以將Graph作為機器智能的基礎表示方法,既適用於神經網路,也適用於貝葉斯網路和馬可夫場,以及未來可能出現的新的模型和演算法。Graphcore的IPU一直比較神秘,直到近期才有一些細節的信息發布。比如:16nm,同構多核(>1000)架構,同時支持training和inference,使用大量片上sram,性能優於Volta GPU和TPU2,預計2017年底會有產品發布,等等。多八卦一點,Graphcore的CEO和CTO以前創立的做無線通信晶元的公司Icera於2011年被Nvidia收購併於2015年關閉。關於IPU更細節的描述,可以看唐博士的微信公號的一篇文章,傳輸門:解密又一個xPU:Graphcore的IPU。

Mythic 另外一家剛融了$9.3 million的start-up公司Mythic也提到了IPU:「Mythic's intelligence processing unit (IPU) adds best-in-class intelligence to any device」。和現在流行的數字電路平台方案相比,Mythic號稱可以將功耗降到1/50。之所以這麼有信心,是因為他們使用的「processing in memory」結構。關於Processing in Memory,又可以大寫一篇了,這裡就不擴展了。有興趣的,可以google一下「UCSB 謝源」,從他的研究開始了解。

Image Cognition Processor。圖像認知處理器ICP,加拿大公司CogniVue開發的用於視覺處理和圖像認知的IP。跑個題,CogniVue一開始是Freescale的IP供應商,後來於2015年被Freescale收購以進一步加強ADAS晶元的整合開發;隨後,Freescale又被NXP 118億美元拿下;還沒完,高通近400億美元吞併了NXP。 現在NXP家的ADAS SOC晶元S32V系列中,就用到了兩個ICP IP。

Image Processing Unit。圖像處理器。一些SOC晶元中將處理靜態圖像的模塊稱為IPU。但是,IPU不是一個常用的縮寫,更常見的處理圖像信號的處理器的縮寫為下面的ISP。

Image Signal Processor 。圖像信號處理器。這個話題也不是一個小話題。ISP的功能,簡單的來說就是處理camera等攝像設備的輸出信號,實現降噪、Demosaicing、HDR、色彩管理等功能。以前是各種數碼相機、單反相機中的標配。Canon、Nikon、Sony等等,你能想到的出數碼相機的公司幾乎都有自己的ISP。進入手機攝影時代,人們對攝影攝像的要求也越來越高,ISP必不可少。說回AI領域,camera採集圖像數據,也要先經過ISP進行處理之後,再由視覺演算法(運行在CPU、GPU或ASIC加速器上的)進行分析、識別、分類、追蹤等進一步處理。也許,隨著AI技術發展,ISP的一些操作會直接被end-2-end的視覺演算法統一。

JPU

請原諒鄙人的辭彙量,沒什麼新奇的想法。。。。

KPU

Knowledge Processing Unit。 嘉楠耘智(canaan)號稱2017年將發布自己的AI晶元KPU。嘉楠耘智要在KPU單一晶元中集成人工神經網路和高性能處理器,主要提供異構、實時、離線的人工智慧應用服務。這又是一家向AI領域擴張的不差錢的礦機公司。作為一家做礦機晶元(自稱是區塊鏈專用晶元)和礦機的公司,嘉楠耘智累計獲得近3億元融資,估值近33億人民幣。據說嘉楠耘智近期將啟動股改並推進IPO。

另:Knowledge Processing Unit這個詞並不是嘉楠耘智第一個提出來的,早在10年前就已經有論文和書籍講到這個辭彙了。只是,現在嘉楠耘智將KPU申請了註冊商標。

LPU

誰給我點靈感?

MPU

Micro Processing Unit。微處理器。MPU,CPU,MCU,這三個概念差不多,知道就行了。

Mind Processing Unit。意念處理器,聽起來不錯。「解讀腦電波」,「意念交流」,永恆的科幻話題。如果採集大量人類「思考」的腦電波數據,通過深度學習,再加上強大的意念處理器MPU,不知道能否成為mind-reader。如果道德倫理上無法接受,先了解一下家裡寵物貓寵物狗的「想法」也是可以的嗎。再進一步,從mind-reader發展為mind-writer,持續升級之後,是不是就可以成為冰與火中的Skinchanger?

Mobile Processing Unit。移動處理器,似乎沒什麼意思。

Motion Processing Unit。運動處理器。解析人類、動物的肌肉運動?

題外話:並不是所有的xPU都是處理器,比如有個MPU,是Memory Protection Unit的縮寫,是內存保護單元,是ARM核中配備的具有內存區域保護功能的模塊。

NPU

Neural-Network Processing Unit。與GPU類似,神經網路處理器NPU已經成為了一個通用名詞,而非某家公司的專用縮寫。由於神經網路計算的類型和計算量與傳統計算的區別,導致在進行NN計算的時候,傳統CPU、DSP甚至GPU都有算力、性能、能效等方面的不足,所以激發了專為NN計算而設計NPU的需求。這裡羅列幾個以NPU名義發布過產品的公司,以及幾個學術圈的神經網路加速器。

中星微電子(Vimicro)的星光智能一號。中星微於2016年搶先發布了「星光智能一號」NPU。但是,這不是一個專為加速Neural Network而開發的處理器。業內都知道其內部集成了多個DSP核(其稱為NPU core),通過SIMD指令的調度來實現對CNN、DNN的支持。以這個邏輯,似乎很多晶元都可以叫NPU,其他以DSP為計算核心的SOC晶元的命名和宣傳都相對保守了。

Kneron 這是一家位於San Diego的start-up公司,針對IOT應用領域做deep learning IP開發。Kneron開發的NPU實現了39層CNN,28nm下的功耗為0.3W,能效200GFLOPs/W。其主頁上給出的另一個能效數據是600GOPs/W。此外,Kneron同時也在FPGA開發雲端的硬體IP。據可靠消息,Kneron也要在大陸建立研發部門了,地點涉及北京、上海、深圳。

VeriSilicon(芯原)的VIP8000。VSI創立於2001年。VSI於今年5月以神經網路處理器IP的名義發布了這款代號VIP8000的IP。從其公布的消息「VeriSilicon』s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second」來看,這款晶元使用的並不是其DSP core,而是內置了其2015年收購的Vivante的GPU core。按照VSI的說法,VIP8000在16nm FinFET工藝下的計算力超過3 TMAC/s,能效高於1.5 GMAC/s/mW。

DNPU。Deep Neural-Network Processing Unit。DNPU來自於KAIST在ISSCC2017上發表的一篇文章。我把DNPU當做是NPU的一種別名,畢竟現在業內做的支持神經網路計算的晶元沒有隻支持「非深度」神經網路的。關於DNPU可以參考「從ISSCC Deep Learning處理器論文到人臉識別產品」。

Eyeriss。MIT的神經網路項目,針對CNN的進行高能效的計算加速設計。

Thinker。清華微電子所設計的一款可重構多模態神經計算晶元,可以平衡CNN和RNN在計算和帶寬之間的資源衝突。

Neural/Neuromorphic Processing Unit。神經/神經形態處理器。這和上面的神經網路處理器還有所不同。而且,一般也不以「處理器」的名字出現,更多的時候被稱為「神經形態晶元(Neuromorphic Chip)」或者是「類腦晶元(Brain-Inspired Chip)」。這類AI晶元不是用CNN、DNN等網路形式來做計算,而是以更類似於腦神經組成結構的SNN(Spiking Neural Network)的形式來進行計算。隨便列幾個,都不是「xPU」的命名方式。

Qualcomm的Zeroth。高通幾年前將Zeroth定義為一款NPU,配合以軟體,可以方便的實現SNN的計算。但是,NPU似乎不見了蹤影,現在只剩下了同名的機器學習引擎Zeroth SDK。

IBM的TrueNorth。IBM2014年公布的TrueNorth。在一顆晶元上集成了4096個并行的core,每個core包含了256個可編程的神經元neurons,一共1百萬個神經元。每個神經元有256個突觸synapses,共256 Mlillion。TrueNorth使用了三星的28nm的工藝,共5.4 billion個晶體管。

BrainChip的SNAP(Spiking Neuron Adaptive Processor )。已經有了賭場的應用。

GeneralVision的CM1K、NM500 chip,以及NeuroMem IP。這家公司的CM1K晶元有1k個神經元,每個神經元對應256Byte存儲。雖然無法和強大的TrueNorth相提並論,但是已有客戶應用。並且,提供BrainCard,上面有FPGA,並且可以直接和Arduino以及Raspberry Pi連接。

Knowm 這家start-up在憶阻器(memristor)技術基礎上做「processing in memory」的AI晶元研發。不過,與前面提到的Mythic(IPU部分)不同的是,Known做的是類腦晶元。Knowm所用的關鍵技術是一種稱為熱力學內存(kT-RAM)的memory,是根據AHaH理論(Anti-Hebbian and Hebbian)發展而來。

Koniku 成立於2014年的start-up,要利用生物神經元來做計算,"Biological neurons on a chip"。主頁在倒計時,可能要有重要進展公布,期待。

OPU

Optical-Flow Processing Unit。光流處理器。有需要用專門的晶元來實現光流演算法嗎?不知道,但是,用ASIC IP來做加速應該是要的。

PPU

Physical Processing Unit。物理處理器。要先解釋一下物理運算,就知道物理處理器是做什麼的了。物理計算,就是模擬一個物體在真實世界中應該符合的物理定律。具體的說,可以使虛擬世界中的物體運動符合真實世界的物理定律,可以使遊戲中的物體行為更加真實,例如布料模擬、毛髮模擬、碰撞偵測、流體力學模擬等。開發物理計算引擎的公司有那麼幾家,使用CPU來完成物理計算,支持多種平台。但是,Ageia應該是唯一一個使用專用晶元來加速物理計算的公司。Ageia於2006年發布了PPU晶元PhysX,還發布了基於PPU的物理加速卡,同時提供SDK給遊戲開發者。2008年被NVIDIA收購后,PhysX加速卡產品被逐漸取消,現在物理計算的加速功能由NVIDIA的GPU實現,PhysX SDK被NVIDIA重新打造。

QPU

Quantum Processing Unit。量子處理器。量子計算機也是近幾年比較火的研究方向。作者承認在這方面所知甚少。可以關注這家成立於1999年的公司D-Wave System。DWave大概每兩年可以將其QPU上的量子位個數翻倍一次。

RPU

Resistive Processing Unit。阻抗處理單元RPU。這是IBM Watson Research Center的研究人員提出的概念,真的是個處理單元,而不是處理器。RPU可以同時實現存儲和計算。利用RPU陣列,IBM研究人員可以實現80TOPS/s/W的性能。

Ray-tracing Processing Unit。光線追蹤處理器。Ray tracing是計算機圖形學中的一種渲染演算法,RPU是為加速其中的數據計算而開發的加速器。現在這些計算都是GPU的事情了。

SPU

Streaming Processing Unit。流處理器。流處理器的概念比較早了,是用於處理視頻數據流的單元,一開始出現在顯卡晶元的結構里。可以說,GPU就是一種流處理器。甚至,還曾經存在過一家名字為「Streaming Processor Inc」的公司,2004年創立,2009年,隨著創始人兼董事長被挖去NVIDIA當首席科學家,SPI關閉。

Speech-Recognition Processing Unit。語音識別處理器,SPU或SRPU。這個縮寫還沒有公司拿來使用。現在的語音識別和語義理解主要是在雲端實現的,比如科大訊飛。科大訊飛最近推出了一個翻譯機,可以將語音傳回雲端,做實時翻譯,內部硬體沒有去專門了解。和語音識別相關的晶元如下。

啟英泰倫(chipintelli) 於2015年11月在成都成立。該公司的CI1006是一款集成了神經網路加速硬體來做語音識別的晶元,可實現單晶元本地離線大辭彙量識別。

MIT項目。今年年初媒體爆過MIT的一款黑科技晶元,其實就是MIT在ISSCC2017上發表的paper里的晶元,也是可以實現單晶元離線識別上k個單詞。可以參考閱讀「分析一下MIT的智能語音識別晶元」。

雲知聲(UniSound)。雲知聲是一家專攻智能語音識別技術的公司,成立於2012年6月,總部在北京。雲知聲剛剛獲得3億人民幣戰略投資,其中一部分將用來研發其稍早公布的AI晶元計劃,命名「UniOne」。據官方透漏,UniOne將內置DNN處理單元,兼容多麥克風、多操作系統。並且,晶元將以模組的形式提供給客戶,讓客戶直接擁有一整套雲端芯的服務。

Smart Processing Unit。聰明的處理器,聽起來很Q。

Space Processing Unit。空間處理器,高大上,有沒有。全景攝像,全息成像,這些還都是處理我們的生活空間。當面對廣闊的太陽系、銀河系這些宇宙空間,是不是需要新的更強大的專用處理器呢?飛向M31仙女座星系,對抗黑暗武士,只靠x86估計是不行的。

TPU

Tensor Processing Unit。Google的張量處理器。2016年AlphaGo打敗李世石,2017年AlphaGo打敗柯潔,兩次人工智慧催化事件給晶元行業帶來的衝擊無疑就是TPU的出現和解密。Google在2017年5月的開發者I/O大會上正式公布了TPU2,又稱Cloud TPU。相比於TPU1,TPU2既可以用於training,又可以用於inference。TPU1使用了脈動陣列的流處理結構,具體的細節可以參考如下的文章「Google TPU 揭秘」。

UPU

Universe Processing Unit。宇宙處理器。和Space Processing Unit相比,你更喜歡哪個?

VPU

Vision Processing Unit。視覺處理器VPU也有希望成為通用名詞。作為現今最火熱的AI應用領域,計算機視覺的發展的確能給用戶帶來前所未有的體驗。為了處理計算機視覺應用中遇到的超大計算量,多家公司正在為此設計專門的VPU。

Movidius(已被Intel收購)。Movidius成立於2006年,總部位於矽谷的San Mateo,創始人是兩個愛爾蘭人,所以在愛爾蘭有分部。Movidius早期做的是將舊電影轉為3D電影的業務,後期開始研發應用於3D渲染的晶元,並開始應用於計算機視覺應用領域(這說明:1,晶元行業才是高技術含量、高門檻、高價值的行業;2,初創公司要隨著發展調整自己的戰略)。Movidius開發的Myriad系列VPU專門為計算機視覺進行優化,可以用於 3D 掃描建模、室內導航、360°全景視頻等更前沿的計算機視覺用途。例如,2014年,谷歌的Project Tango項目用 Myriad 1幫助打造室內三維地圖;2016年,大疆的「精靈4」和「御」都採用了Movidius 的 Myriad 2晶元。採用TSMC 28nm工藝的Myriad2中集成了12個向量處理器SHAVE (Streaming Hybrid Architecture Vector Engine)。按照Movidius的說法,SHAVE是一種混合型流處理器,集成了GPU、 DSP和RISC的優點,支持8/16/32 bit定點和16/32 bit浮點計算,而且硬體上支持稀疏數據結構。此外,Myriad2中有兩個RISC核以及video硬體加速器。據稱,Myriad2可以同時處理多個視頻流。

Inuitive 一家以色列公司,提供3D圖像和視覺處理方案,用於AR/VR、無人機等應用場景。Inuitive的下一代視覺處理器NU4000採用28nm工藝,選擇使用CEVA的XM4 DSP,並集成了深度學習處理器(自己開發?或者購買IP?)和深度處理引擎等硬體加速器。

DeepVision 一家總部位於Palo Alto的start-up,為嵌入式設備設計和開發低功耗VPU,以支持深度學習、CNN以及傳統的視覺演算法,同時提供實時處理軟體。

Visual Processing Unit。這裡是visual,不是vision。ATI一開始稱自家顯卡上的晶元為VPU,後來見賢思齊,都改叫GPU了。

Video Processing Unit。視頻處理器。處理動態視頻而不是圖像,例如進行實時編解碼。

Vector Processing Unit。向量處理器。標量處理器、向量處理器、張量處理器,這是以處理器處理的數據類型進行的劃分。現在的CPU已經不再是單純的標量處理器,很多CPU都集成了向量指令,最典型的就是SIMD。向量處理器在超級計算機和高性能計算中,扮演著重要角色。基於向量處理器研發AI領域的專用晶元,也是很多公司的選項。例如,前面剛提到Movidius的Myriad2中,就包含了12個向量處理器。

Vision DSP。針對AI中的計算機視覺應用,各家DSP公司都發布了DSP的Vision系列IP。簡單羅列如下。

CEVA的XM4,最新的XM6 DSP。除了可以連接支持自家的硬體加速器HWA(CEVA Deep Neural Network Hardware Accelerator ),也可以支持第三方開發的HWA。前面提到的Inuitive使用了XM4。可以參考「處理器IP廠商的機器學習方案 - CEVA」。

Tensilica(2013年被Cadence以3.8億美元收購)的P5、P6,以及最新的C5 DSP。一個最大的特色就是可以用TIE語言來定製指令。前面微軟的HPU中使用他家的DSP。可以參考「神經網路DSP核的一桌麻將終於湊齊了」。

Synopsys的EV5x和EV6x系列DSP。可以參考「處理器IP廠商的機器學習方案 - Synopsys」。

Videantis的v-MP4系列。Videantis成立於1997年,總部位於德國漢諾頓。v-MP4雖然能做很多機器視覺的任務,但還是傳統DSP增強設計,並沒有針對神經網路做特殊設計。

WPU

Wearable Processing Unit。一家印度公司Ineda Systems在2014年大肆宣傳了一下他們針對IOT市場推出的WPU概念,獲得了高通和三星的注資。Ineda Systems研發的這款「Dhanush WPU」分為四個級別,可適應普通級別到高端級別的可穿戴設備的運算需求,可以讓可穿戴設備的電池達到30天的持續續航、減少10x倍的能耗。但是,一切似乎在2015年戛然而止,沒有了任何消息。只在主頁的最下端有文字顯示,Ineda將WPU申請了註冊商標。有關WPU的信息只有大概結構,哦,對了,還有一個美國專利。

Wisdom Processing Unit。智慧處理器。這個WPU聽起來比較高大上,拿去用,不謝。不過,有點「腦白金」的味道。

XPU

不如乾脆就叫XPU,X可以表示未知,一切皆有可能,類似X Man,X File,SpaceX。

就在這篇快收尾的時候,獲悉在今年的hotchip會議上,Baidu公開了其FPGA Accelerator的名字,就叫XPU。還沒有具體細節可說,拭目以待吧。

YPU

Y?沒想法,需要求助各位讀者了。

ZPU

Zylin CPU。挪威公司Zylin的CPU的名字。為了在資源有限的FPGA上能擁有一個靈活的微處理器,Zylin開發了ZPU。ZPU是一種stack machine(堆棧結構機器),指令沒有操作數,代碼量很小,並有GCC工具鏈支持,被稱為「The worlds smallest 32 bit CPU with GCC toolchain」。Zylin在2008年將ZPU在opencores上開源。有組織還將Arduino的開發環境進行了修改給ZPU用。

其他非xPU的AI晶元

寒武紀科技(Cambricon) 中科院背景的寒武紀並沒有用xPU的方式命名自家的處理器。媒體的文章既有稱之為深度學習處理器DPU的,也有稱之為神經網路處理器NPU的。陳氏兄弟的DianNao系列晶元架構連續幾年在各大頂級會議上刷了好幾篇best paper,為其公司的成立奠定了技術基礎。寒武紀Cambricon-X指令集是其一大特色。目前其晶元IP已擴大範圍授權集成到手機、安防、可穿戴設備等終端晶元中。據流傳,2016年就已拿到一億元訂單。在一些特殊領域,寒武紀的晶元將在國內具有絕對的佔有率。最新報道顯示,寒武紀又融了1億美元。

Intel Intel在智能手機晶元市場的失利,讓其痛定思痛,一改當年的猶豫,在AI領域的幾個應用方向上接連發了狠招。什麼狠招呢,就是三個字:買,買,買。在數據中心/雲計算方面,167億美金收購的Altera,4億美金收購Nervana;在移動端的無人機、安防監控等方面,收購Movidius(未公布收購金額);在ADAS方面,153億美金收購Mobileye。Movidius在前面VPU部分進行了介紹,這裡補充一下Nervana和Mobileye(基於視覺技術做ADAS方案,不是單純的視覺處理器,所以沒寫在VPU部分)。

Nervana Nervana成立於2014年,總部在SanDiego,以提供AI全棧軟體平台Nervana Cloud為主要業務。和硬體扯上關係的是,Nervana Cloud除了支持CPU、GPU甚至Xeon Phi等後台硬體外,還提供有自家定製的Nervana Engine硬體架構。根據 The Next Platform的報道「Deep Learning Chip Upstart Takes GPUs to Task」,Nervana Engine 使用TSMC 28nm工藝,算力55 TOPS。報道發布不到24小時,就被Intel收購了,全部48位員工併入Intel。Intel以Nervana Engine為核心打造了Crest Family系列晶元。項目代碼為「Lake Crest」的晶元是第一代Nervana Engine,「Knights Crest」為第二代。哦,對了,Nervana的CEO在創立Nervana之前,在高通負責一個神經形態計算的研究項目,就是上面提到的Zeroth。

Mobileye 一家基於計算機視覺做ADAS的以色列公司,成立於1999年,總部在耶路撒冷。Mobileye為自家的ADAS系統開發了專用的晶元——EyeQ系列。2015年,Tesla宣布正在使用Mobileye的晶元(EyeQ3)和方案。但是,2016年7月,Tesla和Mobileye宣布將終止合作。隨後,Mobile於2017年被Intel以$153億收入囊中,現在是Intel的子公司。Mobileye的EyeQ4使用了28nm SOI工藝,其中用了4個MIPS的大CPU core做主控和演算法調度以及一個MIPS的小CPU core做外設控制,集成了10個向量處理器(稱為VMP,Vector Microcode Processor)來做數據運算(有點眼熟,回去看看Movidius部分)。Mobileye的下一代EyeQ5將使用7nm FinFET工藝,集成18個視覺處理器,並且為了達到自動駕駛的level 5增加了硬體安全模塊。

比特大陸Bitmain 比特大陸設計的全定製礦機晶元性能優越,讓其大賺特賺。在賣礦機晶元之餘,比特大陸自己也挖挖礦。總之,晶元設計能力非凡、土豪有錢的比特大陸對標NVIDIA的高端GPU晶元,任性地用16nm的工藝開啟了自家的AI晶元之路。晶元測試已有月余,據傳功耗60W左右,同步在招攬產品、市場人員。最近的推文爆出了這款AI晶元的名字:「智子(Sophon)」,來自著名的《三體》,可見野心不小,相信不就即將正式發布。

華為&海思 市場期待華為的麒麟970已經很長時間了,內置AI加速器已成公開的秘密,據傳用了寒武紀的IP,就等秋季發布會了。還是據傳,海思的HI3559中用了自己研發的深度學習加速器。

蘋果 蘋果正在研發一款AI晶元,內部稱為「蘋果神經引擎」(Apple Neural Engine)。這個消息大家並不驚訝,大家想知道的就是,這個ANE會在哪款iphone中用上。

高通 高通除了維護其基於Zeroth的軟體平台,在硬體上也動作不斷。收購NXP的同時,據傳高通也一直在和Yann LeCun以及Facebook的AI團隊保持合作,共同開發用於實時推理的新型晶元。

還有一些諸如Leapmind、REM這樣的start-up,就不一一列舉。

結束語

AI晶元,百家爭鳴,機遇伴隨挑戰,今天你爭我奪,明天就可能併購。隨著這些「xPU」的不斷推陳出新,26個字母使用殆盡。但是,換個角度,其實也沒關係,索性起個獨特的名字。或者,搶先布局「processing in memory」路線,先佔個「xxxRAM」或「xxxMem」名字。

最後,安利一下清華汪玉老師的實驗室做的網頁NN Accelerator | NICS EFC Lab,收集了各種公開的神經網路加速器的數據,並進行了可視化,如圖。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦