
국내 연구진이 25대 컴퓨터로 2000초가 걸리던 연산을 1대의 GPU 컴퓨터로 처리할 수 있는 연산 프레임워크와 그래프를 압축 저장하는 HGF 포맷을 개발했다.
한국과학기술원(KAIST) 전산학부 김민수 교수 연구팀은 자체 기술 개발을 통해 메모리 저장부터 처리, 관리까지 초대규모 그래프 연산을 고속으로 처리할 수 있는 전체 연산 프레임워크 '지플럭스(GFlux)'를 개발했다고 27일 밝혔다. 또 연구팀은 이번에 GPU메모리에 맞게 그래프를 대폭 압축하는 HGF 포맷을 개발했다.
인공지능(AI) 분야에서 지식체계나 데이터베이스를 그래프로 저장하고 활용하는 사례가 급증하지만, 일반적으로 복잡도가 높은 그래프 연산은 GPU 메모리의 제한으로 매우 작은 규모의 그래프 등 비교적 단순한 연산만 처리할 수 있다는 한계가 있다.
그러나 연구팀이 개발한 '지플럭스' 프레임워크는 그래프를 GPU 처리에 최적화된 자체 개발 압축 포맷인 HGF로 변환하면 저장용량을 2배까지 늘릴 수 있다. 기존 표준 포맷인 CSR로 저장할 경우, 1조 간선 규모의 그래프 크기가 9테라바이트(TB)에 이르지만, HGF 포맷을 활용하면 이 크기를 4.6TB로 절반 가까이 줄일 수 있다.
연구팀이 개발한 '지플럭스' 프레임워크는 그래프 연산을 GPU에 최적화된 단위 작업인 '지테스크(GTask)'로 나누고, 이를 스케줄링 기법으로 GPU에 배분 및 처리하는 기술이다. 연구진은 "지플럭스 프레임워크는 엔비디아 쿠다(CUDA)의 통합 메모리(Unified Memory)에 의존하지 않고도 메모리를 통합관리할 수 있다"면서 "이를 통해 메모리 부족으로 겪는 연산 실패를 방지할 수 있다"고 설명했다.
연구팀은 삼각형 개수 세기와 같은 고난도 그래프 연산을 통해 지플럭스 성능을 검증했다. 약 700억 간선 규모의 그래프를 대상으로 한 실험에서 고속 네트워크로 연결된 컴퓨터 25대를 이용해 약 2000초가 걸리던 삼각형 개수 세기 연산을 GPU가 장착된 컴퓨터 1대로 1184초만에 처리하는 데 성공했다. 이는 단일 컴퓨터로 삼각형 개수 세기 연산을 성공적으로 처리한 현재까지 알려진 최대 규모의 그래프다.
삼각형 개수 세기는 그래프에서 서로 연결된 3개의 정점이 이루는 삼각형 형태의 관계를 모두 찾고 개수를 세는 연산으로 데이터 분석 및 인공지능에서 널리 활용된다.
'지플럭스' 프레임워크는 대규모 그래프에서의 다중 홉 질의 처리 성능을 획기적으로 향상시켜 대용량 그래프 데이터를 활용한 고속 분석이 필요한 다양한 산업 분야에서 폭넓게 활용될 수 있다. 검색, 추천, 이상 탐지, 경로 분석 등 그래프 기반의 서비스가 중요한 구글, 메타, 네이버, 카카오와 같은 대기업뿐 아니라 그래프 데이터를 적극적으로 활용하려는 스타트업과 연구기관에서도 적용 가능하다.
연구진은 "지플럭스 프레임워크는 GPU 메모리 크기와 무관하게 안정적인 처리 성능을 제공하며, 기존 기술로는 처리하기 어려웠던 조 단위 규모의 초대형 그래프도 단일 프레임워크로 고속 처리할 수 있다"며 "이로 인해 제한된 비용으로 인해 분석에 어려움을 겪는 기업들에게 합리적인 비용으로 효과적인 솔루션을 제공할 수 있게 됐다"고 말했다.
Copyright @ NEWSTREE All rights reserved.