GPU 성능 높여줄 후방지원군 ‘HBM2’

2016.05.15 11:18:46
  • 프린트


그래픽처리장치(GPU)는 그래픽 메모리 대역폭에 따라 적지 않은 성능 차이를 보인다. 그래픽카드를 판매할 때 메모리와 연결되는 버스(64비트, 128비트, 256비트)에 따라 가격이 크게 달라지는 것도 이 때문이다. 하지만 그동안 주력 그래픽 메모리로 사용한 GDDR5가 한계를 보이면서 새로운 기술을 필요로 하게 됐으며 고대역폭메모리(High Bandwidth Memory, HBM)가 등장하게 된 계기다 됐다.

HBM과 같은 고성능 그래픽 메모리가 필요한 이유는 그만큼 GPU의 성능이 높아져서다. 그래픽 메모리가 GDDR3에서 GDDR4, GDDR5, GDDR5X로 진화하고 있지만 기본적으로 D램을 바탕으로 만든 GDDR는 한계가 명확했다. 그래픽 메모리 대역폭을 무한정으로 늘릴 수 없는데다가, 설사 늘릴 수 있다고 하더라도 전력소비량도 함께 높아져서 다양한 문제를 불러일으킨다. GPU 자체가 이미 중앙처리장치(CPU)를 뛰어넘는 트랜지스터 덩어리가 된지 오래라 전력소비량이 상당한데 그래픽 메모리까지 이에 합세하면 도저히 효율면에서 감당하기 어려워진다. 전력소비량이 높다는 것은 단순히 전기를 많이 쓴다는 의미 이상이다. 그만큼 열이 많이 발생한다는 것이어서 적절한 타협점이 필요하다. 그래픽카드 상당수가 자기 덩치나 그 이상의 크기를 가진 방열판과 냉각팬을 가지고 있다는 점을 고려할 필요가 있다. 메모리 대역폭 대비 GPU의 성능을 고려해야 한다는 얘기다.

HBM의 핵심은 실리콘관통전극(Through Silicon Via, TSV) 기술에 있다. 지난 2013년 HBM을 ‘국제고체회로학회(ISSCC) 2014’에서 공개한 SK하이닉스는 29나노 공정으로 생산된 D램 다이 4개를 TSV 기술로 적층, 칩당 8Gb의 용량을 구현했다. 1.2볼트(V) 전압에서 1Gb당 8개의 정보 입출력(I/O)를 실시, 초당 128GB의 데이터를 전송할 수 있음을 증명했다. TSV를 이용한 적층 방식은 20나노 이하 D램 공정을 대체할 신기술로 평가받고 있다. 10나노대 공정의 평면 구조 D램은 극자외선(EUV) 노광장비의 성능개선 지연, 전하를 저장하는 커패시터의 A/R(Aspect Ratio) 문제로 개발 작업에 어려움이 적지 않아서다.

특히 전하 저장 유무로 1과 0을 판단하는 커패시터 용량을 사수하는 것이 도전 과제다. 공정 미세화가 이뤄질 수록 D램의 셀 면적은 좁아진다. 커패시터가 들어설 자리가 적어진다는 의미다. 커패시터 용량이 줄어들면 데이터 보관 시간이 짧아지고 전력 누출량은 증가해 불량률이 높아진다. D램 업체가 좁아진 셀 면적 위에서 커패시터를 수직으로 길쭉하게 올리는 방법으로 용량을 사수해왔지만 10나노대로 들어서면 커패시터 용량 사수가 불가능할 것이라는 설명이다. TSV 기술로 D램 칩을 적층하는 이유는 바로 집적도 확대를 통한 원가 절감, 병렬 데이터 처리 방식을 통한 성능 개선을 위해서다.

현재 HBM은 HBM2까지 상용화가 이뤄졌다. HBM2는 HBM1과 비교해 메모리 대역폭이 2Gbps로 늘어났으며 용량의 증가(8Gb)와 함께 에러보정기술(ECC)도 갖췄다. 특히 최대 메모리 대역폭이 1TB/sec에 달해 7Gbps GDDR5와 384비트 버스로 연결한 GPU의 성능이 고작 336GB/sec에 불과하다는 점을 고려하면 이론적으로 3배 가량의 성능을 가지고 있는 셈이다. 같은 조건에서 GDDR5X조차 최대 768GB/sec의 성능만을 발휘할 수 있으니 HBM2의 메모리 대역폭이 얼마나 넓은지 실감키 어렵다.

또한 HBM2는 4층 이상의 D램을 적층시켜 메모리 대역폭을 1024비트로 구성한 HBM1과 달리 2층 적층만으로도 같은 성능을 낼 수 있도록 했다. 더불어 레이턴시(지연시간)를 낮춰 성능을 끌어올릴 수 있는 ‘의사 채널(疑似, Pseudo Channel)’을 지원한다. 흥미로운 점은 같은 HBM2라도 삼성전자와 SK하이닉스의 설계에 차이가 있는 사실인데, 삼성전자가 한 개의 다이에 채널 2개, 의사 채널 4개를 구현했다면 SK하이닉스의 경우 같은 조건에서 채널 4개에 의사 채널 8개가 이뤄졌다는 점이다.

국제반도체표준협의기구(Joint Electron Device Engineering Council, JEDEC)가 규정한 내용으로는 삼성전자가 정답이다. SK하이닉스의 구성대로라면 신호 타이밍을 맞추기가 쉽지 않은데 이런 문제를 해결하기 위해 별도의 타이밍 조정 설계가 접목됐다. 다소 복잡하게 구성되어 있는 이유는 HBM1의 설계가 HBM2에 남아있기 때문이다. 최초의 HBM2를 이용한 엔비디아 ‘테슬라P100’에 SK하이닉스가 아닌 삼성전자 제품이 사용된 것도 이런 이유라고 풀이된다.

한편 삼성전자는 올해 상반기에 용량을 2배 올린 ‘8GB HBM2 D램’도 양산할 계획이며 차세대 초고해상도 그래픽카드에 최적의 솔루션을 제공할 것으로 기대된다. 향후 차세대 HBM 라인업을 더욱 확대해 초고속 컴퓨팅용 HBM 시장을 지속 선점하고 글로벌 IT 고객의 수요 증가세에 맞춰 HBM D램의 생산비중을 확대해 통해 네트워크, 서버 등 새로운 프리미엄 메모리 시장 성장세를 주도한다는 전략이다.

<이수환 기자>shulee@insightsemicon.com

  • 프린트