HBM – High Bandwidth Memory – nové řešení paměťových problémů
10. 12. 2015 08:00 Rubrika: Technologie Autor: Jakub Pavlis
Obtížné navyšování kapacity, vysoká energetická náročnost a především nízká propustnost pro nejnovější aplikace, zejména ultravysoká obrazová rozlišení u nových displejů. To jsou všechno problémy, se kterými se dnes svět počítačových pamětí utkává. Hlavní zbraní tak zjevně nemůže být jen evoluce stávající technologie, ale přímo „skok jinam“. A ten by měla zajistit nová technologie 3D vrstvených pamětí.
Ve skutečnosti technologie až tak nová není a v některých specializovaných aplikacích zejména v síťovém světě se už používala – ale jako něco velice zvláštního, a tedy také drahého. Teď se ovšem dostává do rukou smrtelníkům, do běžných zařízení, je tedy dobré se o této technologii dozvědět více.
DDR technologie slouží CPU a GPU už nějaký pátek a začíná být zřejmé, že přes velkou míru vývoje a optimalizací začíná ztrácet dech. Problémů kolem nich je celá řada, pojďme si je nejprve trochu popsat. Z pohledu uživatele mobilních aplikací, jako jsou notebooky a tablety, je základním problémem vysoká spotřeba a nízká míra hustoty informace, a tento problém zasahuje i sotva nastupující DDR4 paměti. Aby vícejádrové procesory mohly čerpat informace z paměti dostatečně rychle, je třeba kvůli relativně „krátkému“ interface paměťových modulů (DDR3 i GDDR5 mají 64bitový interface) obklopit procesor řadou modulů. U dvoujádrových mobilních CPU to samozřejmě není až takový problém, ale velké desktopové procesory či dokonce serverové Xeony s až desítkami jader už narážejí na zásadní problémy. A což teprve grafické procesory, které jsou na paralelizované výpočty přímo specializované.
Velký počet modulů si také vyžádá nezanedbatelné množství energie, která se samozřejmě z části přetaví v teplo, a to nemluvím o dlouhých měděných či zlatých vodičích, které taky spotřebovávají energii a zvyšují odpory v signálové cestě. A tohle všechno je potřeba uchladit. A téměř úsměvným problémem jsou už i fyzické velikosti – u špičkových grafických karet musíte řešit, zda má váš desktop dostatečně velkou „krabici“, abyste tam kartu i s chladičem vůbec vměstnali. A v takovém případě je celkem jasné, že u notebooků si o podobném výkonu můžete nechat jen zdát.
Ještě větší problém představuje nedostatečný bandwidth, tedy šířka pásma neboli propustnost, u zpracování obrazových dat. S nástupem 4K obrazu se násobně a vlastně skokově zvedla výpočetní náročnost, a to spousta uživatelů nechce zůstat u jediného monitoru. Vysoké kapacity GDDR3 pamětí nejsou dány ani tak potřebou skladovat data, jako spíše se k nim přes relativně úzké sběrnice dostat. 8 GB GDDR5 tak je často využito jen ze třetiny či čtvrtiny, ale ve všech modulech jsou data rovnoměrně skladována, aby byla rychle k dispozici. A hodně modulů na velké ploše znamená také nárůst latencí.
Co s tím? Prvotní myšlenka byla jednoduchá. Moduly položené vedle sebe mají všechny tyto problémy, proč je tedy nenaskládat na sebe. Vznikla tak technologie stacked memory, tedy vrstvených pamětí. Dnes je na špici jejich vývoje jedna z nejvíce vizionářských firem v oboru – AMD. Praktické implementace možná nedokáže vždycky udělat dokonale a nad jejich schopností je prodat můžeme krčit rameny, ale vize jim upřít nejde. Společně se firmou Hynix se pustili do vývoje a dnes již i do výroby. První grafické karty osazené HBM paměťmi jsou již na trhu, byť jde jen o nejvyšší desktopové modely s jádry Fiji.
AMD Radeon R9 Fury X2 - dvě GPU jádra Fiji s HBM paměťmi
Jak vlastně HBM fungují? Vedle myšlenky naskládat paměti na sebe se v dlouhodobém pohledu sleduje ještě jedna strategie – naskládat všechny výpočetní komponenty „na sebe“, tedy zkrátit fyzické vzdálenosti v zájmu urychlení práce. Začalo to sloučením CPU a matematického koprocesoru (floating-point unit), pokračovalo severním můstkem (řadič paměti a sběrnic PCI-e), jižním můstkem, integrovanou grafikou a další na řadě jsou logicky paměti, ostatně třeba eDRAM v některých procesorech od Intelu jasně tento trend dokazují. I AMD se vydalo podobnou cestou. Naskládat fyzicky relativně velké paměti přímo „na“ procesor je zatím obtížné, zejména kvůli chlazení, jejich „přiblížení“ je ovšem nutné.
AMD společně s Hynix použily dvě základní taktiky. HBM naskládané na sebe nemusí být propojovány měděnými vodiči, ale rovnou křemíkem, cesty jsou navíc velice krátké. HBM paměti také umožňují použití násobně širší sběrnice – místo stovek bitů to jsou tisíce. Pro příklad – AMD Radeon R290X má 512bitovou sběrnici ke které je připojeno 16 paměťových modulů, každý zabírá šířku 32 bitů. Propustnost je tedy 320 GB/s za cenu obrovského vyzařování tepla (290 W TDP, byť většina samozřejmě připadá na GPU) a záboru velké plochy. Kapacita je při tom jen 4 GB. HBM paměti mají šířku sběrnice 1024 bitů na čip, skládají se 4 na sebe, výsledná propustnost při použití zatím maximálního 4GB modulu tak může činit až 500 GB/s (č x cca 100 GB/s). Přitom pracují s napětím pouze 1,3 V (GDDR5 a DDR3 s napětím 1,5 V, nejpokročilejší DDR4 s 1,2 V).
Aby bylo možné takový tok dat dostat včas přímo do GPU, bylo nutné změnit i připojení paměti k procesoru. Jak již bylo zmíněno výše, naskládáním na procesor to možné nebylo, takže přišla technologie křemíkového interposeru. Je to jednoduché – HBM se fyzicky „postaví“ hned vedle GPU a obě součástky se podloží křemíkovou destičkou, která vede signály plně křemíkovými cestami. Jak naznačuje obrázek, ušetřilo se spousta místa – z původních rozměrů 110 x 90 mm na 70 x 70 mm. Při porovnání 1 GB to výjde ještě rozdílněji – 1GB GDDR5 je obvykle tvořen čtyřmi čipy, výsledkem je plocha 672 mm čtverečních. HBM jsou mnohem menší a všechny čipy jsou naskládané na sebe, plocha je ve výsledku 35 mm čtverečních, tedy téměř 20x menší! Výrobci si mnou ruce.
První generace HBM má i svá omezení. Výrobce zatím nedokáže dodat větší než 1GB moduly a kvůli připojování k paměťovým kanálům zatím grafické karty od AMD nebudou moci mít více než 4 GB HBM, výrobce ovšem tvrdí, že díky optimalizaci driveru a řízení datových toků to bude stačit – vyšší datový tok zmenší potřebu držet data v paměti. NVIDIA je opatrnější a používání HBM ohlásila až k nadcházející generaci Pascal, která přijde během roku 2016. To by již měly být k dispozici HBM2, které nabídnou ještě vyšší datový tok (mluví se až o 1 TB/s) a snad i větší kapacity.
AMD počítá, že vrstvené HBM se během relativně krátké doby dostanou do většiny aplikací, s narůstajícími objemy výroby by jejich cena měla rychle klesat, koneckonců technologie jejich výroby se od současných až tak neliší. Hynix je v současné době vyrábí 20nm procesem a z dlouhodobého pohledu není důvodu, proč by se nemělo přejít na ještě menší. Časem je tak nejspíše najdeme i v běžných procesorech s integrovanou grafikou, pokud budou dostatečně nízké ceny, radost z nich budou mít i výrobci mobilních telefonů, jejich velikost, spotřeba i rychlost by jim měly vyhovovat a budeme zase kousek blíž snu, který propaguje třeba Microsoft se svými novými Lumiemi a dokovacími stanicemi – osobní a superpřenosný počítač.