인텔, 세계 최대규모 뉴로모픽 시스템 공개

즐겨찾기추가

2024.05.01 (수)

기상청 제공

해당된 기사를 공유합니다
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사

IT/일반

인텔, 세계 최대규모 뉴로모픽 시스템 공개

업계 최초 11억 5천만 뉴런 뉴로모픽 시스템 할라 포인트(Hala Point), 보다 효율적이고 확장 가능하며 지속가능한 AI 향한 길 열어

이지혜 기자
등록 2024.04.18 10:21
조회수 1,250

인텔은세계최대뉴로모픽시스템을 발표했다. 코드명 ‘할라포인트(Hala Point)’인이대규모뉴로모픽시스템은최초로샌디아국립연구소(Sandia National Laboratories)에구축되었으며, 인텔로이히 2(Loihi 2)프로세서를활용해미래의뇌구조를모방한 AI 연구지원및현재 AI의효율성및지속가능성과관련된과제를해결하는것을목표로하고있다. 할라포인트는아키텍처개선을통해인텔의 1세대대규모연구시스템인포호이키스프링스(Pohoiki Springs)를발전시켰으며아키텍처개선을통해뉴런용량을 10배이상늘리고최대 12배까지성능을향상시켰다.

[사진자료] 인텔, 세계 최대규모뉴로모픽 시스템 공개_240418.jpg

인텔랩스(Intel Labs)의뉴로모픽컴퓨팅랩을담당하는마이크데이비스(Mike Davies) 디렉터는 “오늘날 AI 모델의컴퓨팅비용은지속불가능한속도로증가하고있다. 업계에는확장이가능한근본적으로새로운접근방식이필요하다”라며 “이러한이유로인텔은딥러닝효율성과뇌와유사한새로운학습및최적화기능을결합해할라포인트를개발했다. 할라포인트를통한연구가대규모 AI 기술의효율성과적응성을발전시킬수있기를기대한다”고밝혔다.

할라포인트는주로사용되는(메인스트림) AI 워크로드에적용시최첨단의컴퓨팅효율성을입증한최초의대규모뉴로모픽시스템이다. 특성 분석 결과, 기존 심층 신경망을 실행할 때 와트 당 15 TOPS/w 8-비트 연산 처리(TOPS는 초당 수행할 수 있는 단위 연산으로, 1 TOPS는 1초당 10억 단위 연산 수행)를 초과하는 효율성으로, 초당최대 20경연산, 즉 20페타옵스(petaops)를지원할수있는것으로나타났다. 이는 GPU 및 CPU 기반아키텍처가달성한수준에필적하거나이를능가하는수치다. 할라포인트의고유한기능은과학및엔지니어링문제해결, 물류, 스마트시티인프라관리, LLM(대형언어모델) 및 AI 에이전트와같은 AI 애플리케이션을위한실시간연속학습을가능하게할수있다.

샌디아국립연구소의연구원들은첨단두뇌규모컴퓨팅연구에할라포인트를사용할계획이다. 이연구소는장치물리학, 컴퓨터아키텍처, 컴퓨터과학및정보학분야의과학적컴퓨팅문제를해결하는데중심을둘예정이다.

샌디아국립연구소의크레이그빈야드(Craig Vineyard) 할라포인트팀장은 “할라포인트를활용하며샌디아팀의연산및과학적모델링문제를해결능력이향상되었다. 이규모의시스템으로연구를수행하면상업에서국방, 기초과학에이르기까지다양한분야에서 AI의진화에발맞출수있을것이다”고밝혔다.

현재할라포인트는미래상용시스템의기능을향상시킬연구용프로토타입이다. 인텔은이러한시사점들을통해 LLM이새로운데이터로부터지속적으로학습할수있는능력과같은실질적인발전으로이어질것으로기대하고있다. 이러한발전은광범위한 AI 배포시지속불가능한수준의모델훈련부담을크게줄일것으로기대해볼수있다.

딥러닝모델을수조개의매개변수로확장하는최근추세로인해 AI의지속가능성문제가심각해지고있으며최저레벨의하드웨어아키텍처에서혁신의필요성이강조되고있다. 뉴로모픽컴퓨팅(Neuromorphic Computing)은메모리와컴퓨팅을고도로세분화된병렬처리로통합하여데이터이동을최소화하는신경과학적인사이트를활용한근본적으로새로운접근방식이다. 이번달에개최된 ICASSP(International Conference on Acoustics, Speech, and Signal Processing)에서발표된결과에서로이히 2는새로운소규모엣지워크로드의효율성, 속도및적응성에서수배의향상을보여주었다.

[사진자료 2] 인텔, 세계 최대규모뉴로모픽 시스템 공개_240418.jpg

이전모델인포호이키스프링스에서수많은개선을거쳐발전한할라포인트는이제메인스트림기존딥러닝모델, 특히영상, 음성, 무선통신과같은실시간워크로드를처리하는주류기존딥러닝모델에뉴로모픽성능과효율성향상을제공한다. 예를들어, 에릭슨리서치(Ericsson Research)는올해 MWC(모바일월드콩그레스)에서발표한것처럼통신인프라효율성을최적화하기위해로이히 2를적용하고있다.

할라포인트의기반이되는로이히 2 뉴로모픽프로세서는비동기식, 이벤트기반 SNN(spiking neural networks), 통합메모리및컴퓨팅, 희소하고지속적으로변화하는연결(sparse and continuously changing connections) 등과같은뇌구조를모방한컴퓨팅원리를적용하여에너지소비및성능을대폭향상시켰다. 뉴런은메모리를통해통신하는대신서로직접통신하므로전체전력소비가적다.

할라포인트는전자레인지크기의 6랙유닛데이터센터섀시에인텔 4 프로세스노드에서생산된 1,152개의로이히 2 프로세서를패키징했다. 이시스템은최대 2,600와트의전력을소비하는 140,544개의뉴로모픽처리코어에분산된최대 11억 5천만개의뉴런과 1,280억개의시냅스를지원한다. 또한이시스템에는보조연산을위한 2,300개이상의내장형 x86 프로세서가포함되어있다.

할라 포인트는 프로세싱, 메모리, 통신 채널을 대규모 병렬화된 패브릭에 통합하여 총 16 PB/s(초당 페타바이트)의 메모리 대역폭, 3.5 PB/s의 코어 간 통신 대역폭, 5 TB/s의 칩 간 통신 대역폭을 제공한다. 이 시스템은 초당 380조 개 이상의 8비트 시냅스와 240조 개 이상의 뉴런 연산을 처리할 수 있다.

생체에서 영감을 얻은 스파이크 신경망 모델에 적용된 이 시스템은 인간의 뇌보다 20배 빠른 11억 5천만 개의 뉴런을 최대 용량으로 실행할 수 있으며, 더 낮은 용량에서는 최대 200배 빠른 속도로 실행할 수 있다. 할라 포인트는 신경과학 모델링 용은 아니지만, 올빼미 뇌나 카푸친 원숭이의 피질과 거의 동일한 수준의 뉴런 용량을 갖추고 있다.

로이히 기반 시스템은 기존 CPU 및 GPU 아키텍처보다 최대 50배 빠른 속도로 100배 적은 에너지를 사용해 AI 추론을 수행하고 최적화 문제를 해결할 수 있다1. 최대 10:1의 희소 연결과 이벤트 중심 활동을 활용함으로써 할라 포인트가 보여준 초기 결과에 따르면 이 시스템은 입력 데이터를 일괄적으로 수집할 필요 없이 15 TOPS/W2의 높은 심층 신경망 효율성을 달성할 수 있으며, 이는 카메라의 영상처럼 실시간으로 도착하는 데이터의 처리를 상당히 지연시키는 GPU의 일반적인 최적화 방식이다. 아직 연구 단계에 있지만, 지속적인 학습이 가능한 미래의 뉴로모픽 LLM은 계속 증가하는 데이터 세트를 주기적으로 재학습할 필요가 없어 기가와트-시(gigawatt-hours)의 에너지를 절약할 수 있을 것으로 보인다.

향후 계획: 샌디아 국립연구소에 할라 포인트를 제공한 것은 인텔이 연구 협력자들과 공유할 계획인 새로운 대규모 뉴로모픽 연구 시스템 제품군의 첫 번째 배포를 의미한다. 추가 개발을 통해 뉴로모픽 컴퓨팅 애플리케이션은 AI 기능의 실제 실시간 배포를 제한하는 전력 및 지연 시간 제약을 극복할 수 있게 될 예정이다.

인텔은 전 세계 주요 학술 단체, 정부 연구소, 연구 기관 및 기업을 포함한 200개 이상의 인텔 뉴로모픽 연구 커뮤니티(INRC) 회원사로 구성된 생태계와 함께 뇌를 모방한 AI의 경계를 넓히고 연구 프로토타입에서 업계 최고의 상용 제품에 이르기까지 이 기술을 향후 몇 년 동안 발전시키기 위해 노력하고 있다.

이지혜 기자의 전체기사 보기