[리뷰] '크고 많다' 2세대 라이젠 스레드리퍼 – 1부

강형석 redbk@itdonga.com

짐 앤더슨 AMD 컴퓨팅&그래픽 사업 그룹 수석
부사장.
짐 앤더슨 AMD 컴퓨팅&그래픽 사업 그룹 수석 부사장.

[IT동아 강형석 기자] 드디어 본격적인 다중코어 경쟁이 시작됐다. AMD가 2세대 라이젠 스레드리퍼(2nd Gen Ryzen Threadripper)를 출시하면서다. 최대 32코어, 여기에 가상 명령어 흐름 처리 기술인 SMT(동시 멀티스레딩 - Simultaneous Multithreading)를 더해 64개의 코어가 작동하는 구조인 이 프로세서는 2018년 이후 컴퓨팅 환경을 변화시킬 기대주로 주목 받아 왔다.

AMD도 이 프로세서에 거는 기대가 남다르다. 지난 7월 26일, 페라리 박물관(이탈리아 마라넬로 소재)에서 진행된 테크데이에 연사로 나선 짐 앤더슨(Jim Anderson) AMD 컴퓨팅&그래픽 사업 그룹 수석 부사장은 "우리는 사용자가 무엇을 하던 최고의 성능을 제공하기 위해 고민했다. 요즘 PC를 사용하는 사람들은 게임도 잘 되어야 하고 동시에 스트리밍도 하며, 운영체제 뒤에 애플리케이션도 엄청 많이 실행한다. 이는 설계의 혁신을 요구하기에 이르렀다. 스레드리퍼는 이 모든 것을 가능하게 만드는 프로세서"라고 말할 정도였다.

과연 새로운 프로세서는 성능과 기능적 요소에서 얼마나 많은 발전을 이뤄냈을까? 먼저 만나게 될 라이젠 스레드리퍼 2950X와 2990WX를 간단히 확인해 보자. (성능 관련 기사는 2부에서 이어질 예정입니다.)

12nm 미세공정과 젠+ 설계로 '속도 향상'

2세대 AMD 라이젠 스레드리퍼의 핵심은 크게 4가지로 볼 수 있다. 첫째는 다중코어 성능 향상, 두 번째는 대규모 입출력 처리를 지원하는 기술 적용. 세 번째는 프로세서 구성을 위한 품질 관리, 네 번째는 다중코어 구현의 원동력인 설계 능력이다. 비슷한 부분도 얼핏 존재하지만 큰 틀에서 보자면 사용자가 다양한 장비를 자유롭게 사용하기 위한 기술들이 적용됐다는 의미일 것이다.

새 프로세서는 기본적으로 2세대 라이젠 프로세서에 기반한다. 12나노미터(nm) 미세공정이 적용되어 더 많은 트랜지스터 집적이 가능해졌고 이를 최적화한 젠(ZEN)+ 설계를 통해 통신 지연시간을 더 앞당겼다. 기본 작동속도는 빨라지고 지연 시간이 줄어드니까 실제 처리 과정이 개선되는 결과로 이어진다.

2세대 라이젠 프로세서에도 적용한 젠+ 설계로 성능을
높였다.
2세대 라이젠 프로세서에도 적용한 젠+ 설계로 성능을 높였다.

젠+ 설계를 통해 스레드리퍼는 1세대 대비 메모리 지연시간이 2%, 1차 캐시 지연시간이 8%, 2차 캐시 지연시간은 9%, 3차 캐시 지연시간은 15% 가량 개선됐다. 크지 않아 보이지만 조금이나마 효율적인 성능을 구현했다는 점에 주목하자. 작동속도는 제품에 따라 다르지만 4.4GHz까지 상승하도록 했다.

더 안정적인 성능을 구현하기 위해 AMD는 글로벌 파운드리에서 생산되는 코어 중 상위 5% 내에 해당하는 부품만 2세대 라이젠 스레드리퍼에 탑재한다는 점을 강조했다. 그만큼 높은 수율로 만들어진 부품을 활용하면 속도를 비교적 쉽게 끌어낼 수 있다는 장점이 있다.

스레드리퍼 시스템 하나면 어지간한 2-CPU 기반 워크스테이션 아쉽지 않은 시스템 구축이
가능하다.
스레드리퍼 시스템 하나면 어지간한 2-CPU 기반 워크스테이션 아쉽지 않은 시스템 구축이 가능하다.

상당히 큰 덩치를 가진 프로세서인데다 고성능 시스템을 목표로 하고 있기 때문에 여러 장치를 효과적으로 운영할 수 있는 부분을 여럿 제공한다. 가장 대표적인 것이 PCI-Express 레인(Lane) 수다. 일반 라이젠 프로세서가 32 레인 정도를 제공하는데, 스레드리퍼는 두 배에 해당하는 64 레인을 쓸 수 있다. 이는 그래픽카드를 6개 가량 연결하고, 고성능 SSD 등을 한꺼번에 다룰 수 있는 규모다.

여러 장치를 한 번에 운영한다는 것은 전문가 입장에서 매력적인 부분이 아닐 수 없다. 모든 것이 작업 효율을 높이는데 도움이 되기 때문이다. 이 부분은 1세대에 이어 지금까지 이어지는 특징 중 하나라고 봐도 무방하다.

라이젠 마스터 애플리케이션을 통한 성능 조율 기능이
다양해졌다.
라이젠 마스터 애플리케이션을 통한 성능 조율 기능이 다양해졌다.

2세대 라이젠 스레드리퍼는 사용자가 성능을 더 끌어내기 위한 요소들을 대거 제공한다. 대표적인 것이 프리시전 부스트(Precision Boost) 2와 프리시전 부스트 오버드라이브(PBO)다.

프리시전 부스트 2는 실제 다중 스레드의 작업 부하에 따라 작동속도를 향상시키는 기술이다. 이와 별개로 사용자는 AMD가 제공하는 라이젠 마스터(Ryzen Master) 소프트웨어를 통해 4개의 코어만(4-Core) 또는 모드 코어(All-Core)에 속도 향상이 가능하도록 설정 가능하다. 물론 어떻게 설정하는가에 따라 향상되는 속도 차이는 존재한다는 점 참고하자.

때문에 기본 작동속도가 존재하더라도 프리시전 부스트 기술을 쓰면 약간의 오버클럭이 이뤄진 것처럼 속도를 높여 데이터를 처리한다. 예로 3.0GHz가 기본속도라면 이를 조금 더 높여 3.3~3.4GHz 정도로 계속 작동하게 된다. 기본 속도가 높은 제품은 속도 상승 폭이 적을 수 있다.

2개의 코어를 짝지은 구조는 지켜봐야...

현재 가장 많은 코어를 집적한 데스크탑 프로세서가 될 2세대 라이젠 스레드리퍼. 하지만 구조적인 한계 역시 어느 정도 존재하고 있다. 특히 16코어 이상 라인업(2970WX, 2990WX)은 이 부분이 드러날 가능성이 남아 있다. 프로세서 자체가 여러 다이를 기판 하나에 담아 넣은 멀티 칩 패키징 형태로 만들어지기 때문이다. 2세대 라이젠 스레드리퍼는 16코어 이하 라인업(2920X, 2950X)은 다이 2개만, 그 이상(2970WX, 2990WX)은 4개를 사용한다.

라이젠 스레드리퍼 2990WX의 통신 구조.
라이젠 스레드리퍼 2990WX의 통신 구조.

16코어 이하 라인업은 기존 1세대 라이젠 스레드리퍼와 구조가 다르지 않기 때문에 큰 차이가 없지만 그 이상은 이야기가 달라진다. 실제 메모리와 접촉하게 되는 다이는 정해져 있고, 남은 다이는 우선권에 따라 추가 접근되는 형태다.

모든 2세대 라이젠 스레드리퍼 프로세서는 총 4개의 다이 중 0번과 2번이 각각 DDR4 메모리 채널에 접근할 수 있다. 동시에 PCI- 익스프레스(Express) 채널에도 접근 가능하다. 하지만 나머지 다이는 접근 권한이 없으며, 그저 각각의 다이와 인피니티 패브릭(Infinity Fabric)으로만 연결되어 있다. 그 과정에서 데이터 전송 대역에도 손실이 발생한다. 2920X와 2950X는 두 다이간 연결 대역이 초당 50GB에 달하지만 2970WX와 2990WX는 초당 25GB로 절반이 줄어든다.

충분히 뛰어난 속도이지만 애플리케이션 처리 환경에 따라 각 코어가 제대로 활동하지 않을 가능성 또한 남는다. 이를 극복하기 위해 AMD는 불균일 기억장치 접근(Non-Uniformed Memory Access, NUMA) 기술을 도입했다.

다수의 코어와 메모리 사이의 접근을 효율적으로 구현하기 위해 UDMA를
도입했다.
다수의 코어와 메모리 사이의 접근을 효율적으로 구현하기 위해 UDMA를 도입했다.

이는 인피니티 패브릭으로만 연결되어 있는 다이가 메모리에 접근하는 과정에서의 손실을 줄이기 위한 대안 중 하나로 풀이된다. 메모리 라인에 연결된 프로세서 다이가 이를 독점하게 되면 인피니티 패브릭에 연결된 다른 다이는 처리하는 동안 대기하는 상황이 벌어질 수 있다. NUMA를 도입하면 각 코어가 다른 메모리 주소에 접근하도록 도와주고 간섭을 줄이면서 성능을 최대한 확보할 수 있다.

비록 프로세서 다이와 메모리에 효율적으로 접근하는 과정을 처리하는 과정에서의 손실이 발생, 대역폭이 절반으로 줄어들더라도 다중코어가 처리하면서 얻는 이득이 더 크다고 판단했을 가능성도 있다. 부족한 부분은 메모리 속도를 높이면 어느 정도 해결할 수 있을 것이라는 계산도 있었을 것으로 예상된다.

또한, 상호 연결되는 프로세서 다이간 접근에 쓰는 에너지는 비트당 2피코줄(pJ – picoJoule) 수준이다. 흔히 업계는 1피코줄 수준을 이상적인 목표로 보고 있다. 그런 점에서 라이젠 스레드리퍼의 비트당 에너지는 큰 덩치를 고려했을 때 상당히 잘 억제되어 있는 것으로 보여진다.

2세대 라이젠 스레드리퍼 2950X/2990WX 톺아보기

이번에 공개된 2세대 라이젠 스레드리퍼는 2950X와 2990WX 두 가지. 13일부터 32코어(64스레드)를 가진 2990WX를 먼저 선보인 다음, 오는 31일에 16코어(32스레드) 기반의 2950X를 출시한다. 이어 10월 경에는 24코어(48스레드) 프로세서 2970WX와 12코어(24스레드) 프로세서인 2920X를 차례로 선보인다는 계획이다.

공격적인 가격 정책을 통해 시장을 확대하려는
전략이다.
공격적인 가격 정책을 통해 시장을 확대하려는 전략이다.

가격은 상당히 공격적으로 책정했다. 플래그십 프로세서가 될 2990WX가 1,799달러(원화 환산 약 204만 원 상당)다. 경쟁할 프로세서인 인텔 코어 i9 7980XE 익스트림 에디션이 최대 1,999달러(원화 환산 약 227만 원 상당)라는 점을 감안하면 말이다. 코어 수에서도 차이가 난다. 해당 제품은 18코어(36스레드) 프로세서다. 동일 선상에서 비교하기 어렵지만 단순 코어 수만 하더라도 14개 차이다.

구체적으로 보면 어쩔 수 없다. 8코어 프로세서 다이를 4개로 나눈 것과 18개 코어 다이가 하나인 것과는 구조상, 설계상 차이가 존재한다. 정답은 없다. AMD는 합리적인 고성능을 선택했다는 점이다. 이 부분은 최종 소비자들이 판단해야 할 몫이다.

라인업을 통틀어 보면 가격이 649달러(2920X), 899달러(2950X), 1,299달러(2970WX), 1,799달러(2990WX) 등이다. 일반 소비자 입장에서는 16코어(32스레드) 구조의 2950X가 매력적이며, 전문가 입장에서는 24코어(48스레드) 구성의 2970WX가 가격대 만족도가 좋을 것으로 전망된다.

작동속도는 WX 라인업이 모두 기본 3.0GHz에서 최대 4.2GHz로 X 라인업은 기본 3.5GHz에서 사양에 따라 4.3~4.4GHz로 작동하도록 만들었다. 아무래도 기본적인 구조가 동일하기 때문으로 보인다. WX는 프로세서 다이 4개, X는 2개만 작동하도록 설계됐다.

제품명에 따라 목적을 분명히 나눈 것도 이번 2세대 라이젠 스레드리퍼의 특징이다. 이전 세대에서는 고성능 데스크탑 프로세서 자체에 초점을 맞췄다면 이번에는 그 기조를 유지하면서 사용자 시장을 고성능 추구(X 시리즈)와 워크스테이션 성능을 기대하는 전문가(WX 시리즈)로 나눴다. 자세히 설명하면 X 시리즈는 게임과 실시간 방송 송출 등을 주로 하는 사용자를, WX 시리즈는 3D 렌더링이나 고화질 영상 변환이 주인 전문가를 겨냥한 것이다.

라이젠 스레드리퍼 2950X와 2990WX의
사양.
라이젠 스레드리퍼 2950X와 2990WX의 사양.

2990WX와 2950X. 각각의 사양을 확인해 보자. 코어 수는 두 프로세서가 정확히 두 배 차이를 보여준다. 각각 32코어, 16코어다. 이를 통해 구성되는 단계별 캐시(예비) 메모리 용량에도 차이를 보인다. 2990WX의 2차 캐시는 16MB, 3차 캐시는 64MB이지만 2950X는 그 절반만 제공된다. 열설계전력(TDP)는 코어 수가 많은 2990WX가 250W, 그보다 적은 2950X는 180W다.

작동속도는 2950X가 3.5GHz로 높다. 아무래도 코어 수가 적기 때문에 속도를 구현하는데 이점이 있었을 것으로 보인다. 최대 작동속도는 4.4GHz로 이는 일부 코어만 작동했을 경우다. 모든 코어가 작동했을 때의 최대 속도는 약 3.6GHz 정도로 높은 편은 아니다. 2990WX는 기본 3GHz에 최대 4.2GHz로 작동한다. 모든 코어가 작동했을 때의 최대 속도는 약 3.4GHz 정도였다.

2세대 라이젠 스레드리퍼. 좌측이 2950X, 우측이
2990WX다.
2세대 라이젠 스레드리퍼. 좌측이 2950X, 우측이 2990WX다.

2세대 라이젠 프로세서의 다른 장점은 기존 플랫폼을 그대로 쓸 수 있다는 부분이다. 1세대는 등장과 함께 호흡을 맞출 메인보드 칩셋 X399를 공개했었다. 소켓 TR4(LGA 4094) 규격으로 쿼드채널 DDR4 메모리 등이 주요 사양이었다. 새 프로세서도 이를 그대로 쓴다. 기존 스레드리퍼 사용자는 쓰던 메인보드에서 바이오스 업데이트만 하면 2세대로 업그레이드 가능하다.

신규 사용자도 기존 출시되어 있는 메인보드를 그대로 선택할 수 있다는 점에서 선택의 폭이 넓어지는 장점이 생긴다. 그만큼 다양한 가격대의 제품들이 시장에 판매되고 있어서다. 하지만 제품의 사양이나 목적을 분명히 따져 보는 것이 중요하다.

2개월 전부터 예고되었던 변화는 이제 시작했다. 그 카드를 AMD가 먼저 뽑았다. 동시에 고성능 컴퓨팅 시장은 어떤 방향으로 흘러갈까? 그것을 지켜보는 것도 꽤 흥미로운 일이 되어버렸다.

글 / IT동아 강형석 (redbk@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.