NUMA 구조와 캐시 일관성 프로토콜의 관계

현대의 고성능 컴퓨터 시스템은 단순히 프로세서의 속도만을 높이는 것을 넘어, 여러 프로세서가 동시에 효율적으로 협력하도록 설계됩니다. 이 과정에서 ‘NUMA(Non-Uniform Memory Access) 아키텍처’와 ‘캐시 일관성 프로토콜’은 시스템의 성능과 안정성을 결정하는 핵심 요소로 작용합니다. 이 두 가지 개념은 복잡하게 들릴 수 있지만, 사실 우리가 매일 사용하는 다양한 서비스의 기반이 됩니다. 이 가이드에서는 NUMA와 캐시 일관성이 무엇이며, 이들이 어떻게 상호작용하고, 실생활에서 어떻게 활용되는지 쉽고 실용적인 관점에서 설명해 드리겠습니다.

Table of Contents

NUMA 아키텍처란 무엇일까요

NUMA는 Non-Uniform Memory Access의 약자로, 우리말로 ‘비균일 메모리 접근’이라고 번역할 수 있습니다. 이는 여러 개의 프로세서(CPU)가 각각 자신에게 물리적으로 가까운 메모리 영역을 가지고, 다른 프로세서의 메모리 영역에도 접근할 수 있지만, 이때 접근 속도가 달라진다는 특징을 가진 컴퓨터 아키텍처입니다.

왜 NUMA가 등장했을까요

과거에는 ‘SMP(Symmetric Multi-Processing)’라는 아키텍처가 주를 이뤘습니다. SMP는 모든 프로세서가 하나의 공유된 메모리 공간에 동일한 속도로 접근할 수 있는 구조입니다. 마치 모든 직원이 하나의 큰 사무실에 앉아 있고, 모든 서류가 중앙 서류함에 있어 누가 가져가든 동일한 시간이 걸리는 것과 같습니다. 하지만 프로세서의 수가 늘어나면서 이 공유된 메모리 버스는 병목 현상을 일으키기 시작했습니다. 너무 많은 프로세서가 동시에 메모리에 접근하려다 보니 대기 시간이 길어지고 전체 시스템 성능이 저하되는 문제가 발생한 것입니다.

이러한 한계를 극복하기 위해 등장한 것이 NUMA입니다. NUMA는 시스템을 여러 ‘노드(Node)’로 분할하고, 각 노드는 자체적인 프로세서와 로컬 메모리를 가집니다. 이렇게 하면 각 프로세서는 대부분 자신에게 가까운 로컬 메모리를 사용하게 되고, 메모리 버스 경합이 줄어들어 더 많은 프로세서를 효율적으로 연결할 수 있게 됩니다. 이는 마치 큰 회사를 여러 개의 작은 팀으로 나누고, 각 팀이 자신들의 업무에 필요한 서류함을 따로 가지는 것과 비슷합니다. 팀원들은 자기 팀 서류함에서 서류를 찾는 것이 가장 빠르고, 필요하다면 다른 팀의 서류함에서도 서류를 가져올 수 있지만, 이때는 시간이 조금 더 걸리는 식입니다.

NUMA의 장점과 도전 과제

NUMA의 가장 큰 장점은 바로 ‘확장성(Scalability)’입니다. 더 많은 프로세서와 메모리를 추가하여 시스템의 총 처리 능력을 크게 확장할 수 있습니다. 이는 데이터베이스 서버, 고성능 컴퓨팅(HPC), 가상화 환경 등 대량의 데이터를 처리하고 복잡한 연산을 수행해야 하는 분야에서 매우 중요합니다.

하지만 NUMA는 ‘비균일 메모리 접근 시간’이라는 도전 과제를 안고 있습니다. 만약 한 프로세서가 다른 노드의 메모리에 자주 접근해야 한다면, 로컬 메모리에 접근하는 것보다 훨씬 느려질 수 있습니다. 이로 인해 애플리케이션의 성능이 예상보다 낮게 나올 수도 있습니다. 따라서 NUMA 환경에서는 프로세서가 로컬 메모리를 최대한 활용하도록 애플리케이션과 운영체제가 협력하는 것이 중요합니다.

캐시 일관성 프로토콜의 중요성

NUMA 아키텍처와 함께 이해해야 할 또 다른 핵심 개념은 ‘캐시 일관성 프로토콜’입니다. 캐시는 프로세서 내부에 있는 매우 빠르고 작은 메모리 공간으로, 자주 사용되는 데이터를 임시로 저장하여 프로세서가 메인 메모리까지 가지 않고도 빠르게 데이터에 접근할 수 있도록 돕습니다. 하지만 여러 프로세서가 각자의 캐시를 가지고 데이터를 처리할 때 문제가 발생할 수 있습니다.

왜 캐시 일관성이 필요할까요

여러 프로세서가 동일한 데이터를 각자의 캐시에 가지고 있을 때, 한 프로세서가 그 데이터를 변경하면 다른 프로세서가 가지고 있는 캐시 데이터는 ‘오래된(stale)’ 데이터가 됩니다. 이렇게 되면 각 프로세서가 서로 다른 데이터를 보게 되어 시스템 전체의 데이터 무결성(Integrity)이 깨지고, 잘못된 계산 결과나 프로그램 오류로 이어질 수 있습니다. 캐시 일관성 프로토콜은 이러한 문제를 방지하고, 모든 프로세서가 항상 최신의 정확한 데이터를 볼 수 있도록 보장하는 규칙과 메커니즘의 집합입니다.

예를 들어, 여러 사람이 동시에 하나의 공유된 문서를 수정한다고 가정해 봅시다. 각자 자신의 컴퓨터에 문서를 다운로드하여 수정하고 있다면, 한 사람이 변경한 내용이 다른 사람의 문서에는 바로 반영되지 않을 것입니다. 이때 ‘캐시 일관성 프로토콜’은 마치 누군가 문서를 수정할 때마다 다른 사람들에게 “이 문서가 변경되었으니 다시 확인하세요!”라고 알려주거나, “지금부터 이 문서는 제가 수정할 것이니 다른 분들은 잠시 기다려주세요”라고 통제하는 역할과 같습니다.

캐시 일관성 프로토콜의 작동 원리

캐시 일관성 프로토콜은 크게 두 가지 방식으로 나뉩니다.

스누핑(Snooping) 기반 프로토콜:
모든 프로세서가 공유 메모리 버스를 ‘엿듣고(snoop)’ 있습니다. 어떤 프로세서가 캐시 데이터를 변경하면, 그 변경 사실을 버스에 알리고, 다른 프로세서들은 이 신호를 감지하여 자신들의 캐시에 있는 해당 데이터를 무효화(invalidate)하거나 업데이트합니다. 이는 비교적 적은 수의 프로세서를 가진 SMP 시스템에서 효과적입니다.
디렉토리(Directory) 기반 프로토콜:
각 메모리 블록에 대한 정보를 중앙 디렉토리나 분산된 디렉토리에 저장합니다. 이 디렉토리는 어떤 캐시가 특정 메모리 블록의 복사본을 가지고 있는지 추적합니다. 어떤 프로세서가 데이터를 변경하려 할 때, 디렉토리는 해당 데이터의 복사본을 가지고 있는 모든 캐시에 직접 무효화 메시지를 보냅니다. 이는 프로세서의 수가 많아 버스 트래픽이 과도해질 수 있는 NUMA 시스템에서 더 효율적입니다.

대부분의 최신 NUMA 시스템은 확장성을 위해 디렉토리 기반 캐시 일관성 프로토콜을 사용합니다.

NUMA와 캐시 일관성 프로토콜의 만남

NUMA 아키텍처에서 캐시 일관성 프로토콜은 더욱 복잡하고 중요해집니다. 각 노드가 자체 메모리와 프로세서를 가지고 있지만, 여전히 전체 시스템은 하나의 공유된 메모리 공간처럼 작동해야 하기 때문입니다.

NUMA 환경에서의 캐시 일관성 도전

NUMA 시스템에서는 한 노드의 프로세서가 다른 노드의 메모리에 접근할 수 있습니다. 이때, 다른 노드의 캐시에 있는 데이터와 일관성을 유지해야 합니다. 예를 들어, 노드 A의 프로세서가 노드 B의 메모리에 있는 데이터를 읽어와 자신의 캐시에 저장했다고 가정해 봅시다. 만약 노드 B의 프로세서가 같은 데이터를 변경한다면, 노드 A의 캐시에 있는 데이터는 무효화되어야 합니다. 이 과정에서 노드 간의 통신이 발생하며, 이는 로컬 캐시에서 데이터를 처리하는 것보다 훨씬 많은 시간과 자원을 소모합니다.

따라서 NUMA 시스템에서 캐시 일관성 프로토콜은 단순히 캐시 간의 데이터 동기화를 넘어, 노드 간의 효율적인 통신 메커니즘을 포함해야 합니다. 이 통신 오버헤드를 최소화하는 것이 NUMA 시스템의 성능을 최적화하는 핵심 과제입니다.

디렉토리 기반 프로토콜의 역할

NUMA 시스템에서 디렉토리 기반 프로토콜이 선호되는 이유는 스누핑 방식보다 확장성이 뛰어나기 때문입니다. 스누핑 방식은 모든 프로세서가 모든 버스 트랜잭션을 감시해야 하므로 프로세서 수가 많아질수록 버스 트래픽이 폭증합니다. 반면 디렉토리 기반은 각 메모리 블록에 대한 소유권 및 캐시 복사본 정보를 디렉토리가 관리하므로, 변경이 발생했을 때 관련된 캐시에만 통지하여 불필요한 트래픽을 줄일 수 있습니다.

이러한 디렉토리 정보는 각 노드의 메모리 컨트롤러에 분산되어 저장되기도 하며, 이를 통해 노드 간의 통신 부하를 줄이고 시스템 전체의 효율성을 높입니다.

실생활에서 NUMA와 캐시 일관성 이해하기

이론적인 개념들이 실제 우리 삶에 어떻게 영향을 미치는지 몇 가지 예를 통해 살펴보겠습니다.

데이터베이스 서버

대규모 데이터베이스 서버는 수많은 동시 접속자와 방대한 데이터를 처리해야 합니다. 이러한 서버는 종종 여러 개의 CPU 소켓을 가진 NUMA 아키텍처로 구성됩니다. 데이터베이스 관리 시스템(DBMS)은 NUMA를 인식하도록 설계되어, 특정 데이터베이스 테이블이나 인덱스를 특정 NUMA 노드의 로컬 메모리에 할당하고, 해당 데이터를 처리하는 프로세스나 스레드를 같은 노드의 CPU에 고정(pinning)하여 메모리 접근 지연 시간을 최소화합니다. 캐시 일관성 프로토콜은 여러 CPU 코어가 동시에 동일한 데이터 레코드를 읽고 쓸 때 데이터의 정합성을 보장합니다.

고성능 컴퓨팅 HPC

과학 연구, 기상 예측, 금융 모델링 등 고성능 컴퓨팅 환경에서는 수많은 병렬 계산이 이루어집니다. HPC 클러스터의 각 서버는 NUMA 아키텍처를 가지며, 병렬 처리 애플리케이션은 NUMA를 고려하여 데이터를 해당 프로세서의 로컬 메모리에 배치하고 작업을 분산시킵니다. 캐시 일관성은 분산된 작업들이 공유하는 중간 결과 데이터의 정확성을 보장하여 올바른 최종 결과를 도출하게 합니다.

가상화 환경

클라우드 컴퓨팅의 기반이 되는 가상화 환경에서도 NUMA는 중요합니다. 가상 머신(VM)이나 컨테이너에 CPU와 메모리 자원을 할당할 때, 하이퍼바이저(Hypervisor)는 물리적인 NUMA 노드를 인식하여 VM이 가능한 한 하나의 NUMA 노드 내에서 자원을 사용하도록 스케줄링합니다. 이는 VM의 성능을 최적화하는 데 도움을 줍니다. 만약 VM이 여러 NUMA 노드에 걸쳐 자원을 할당받으면, 원격 메모리 접근으로 인한 성능 저하가 발생할 수 있습니다.

효율적인 NUMA 활용을 위한 실용적인 팁

일반 사용자나 개발자가 NUMA 시스템의 성능을 최대한 끌어내기 위해 적용할 수 있는 실용적인 팁과 조언입니다.

NUMA 인식 프로그래밍

메모리 지역성(Memory Locality) 고려: 애플리케이션이 데이터를 사용할 때, 해당 데이터를 처리하는 스레드나 프로세서와 같은 NUMA 노드의 메모리에 데이터를 할당하도록 노력해야 합니다. 운영체제는 기본적으로 ‘첫 번째 터치(First Touch)’ 정책을 사용하는데, 이는 데이터가 처음 접근되는 프로세서의 로컬 메모리에 할당된다는 의미입니다. 이를 활용하여 데이터 초기화 작업을 특정 노드에서 수행할 수 있습니다.
공유 데이터 최소화: 여러 NUMA 노드에 걸쳐 공유되는 데이터의 양을 최소화하고, 불가피하게 공유해야 한다면 캐시 일관성 프로토콜의 오버헤드를 줄일 수 있도록 접근 패턴을 최적화해야 합니다.
라이브러리 활용: 일부 고성능 라이브러리(예: Intel MKL, OpenMP)는 NUMA를 인식하고 내부적으로 메모리 지역성을 최적화하는 기능을 제공합니다. 이러한 라이브러리를 적극적으로 활용하는 것이 좋습니다.

프로세스 및 스레드 고정 Affinity

CPU 어피니티 설정: 운영체제는 기본적으로 프로세스나 스레드를 여러 CPU 코어에 자유롭게 이동시키며 로드 밸런싱을 시도합니다. 하지만 NUMA 환경에서는 특정 프로세스나 스레드를 특정 NUMA 노드의 CPU 코어에 고정(pinning)하는 것이 성능에 유리할 수 있습니다. 이는 해당 스레드가 로컬 메모리에 더 쉽게 접근하도록 돕습니다.
`numactl` 명령어 활용: 리눅스에서는 `numactl` 명령어를 사용하여 특정 프로그램이 특정 NUMA 노드의 CPU와 메모리만 사용하도록 지정할 수 있습니다. 예를 들어, `numactl –membind=0 –cpunodebind=0 ./my_program` 명령은 `my_program`이 노드 0의 CPU와 메모리만 사용하도록 합니다.

메모리 할당 전략

NUMA-aware 메모리 할당: 일부 운영체제나 라이브러리는 NUMA를 고려한 메모리 할당 함수를 제공합니다. 예를 들어, 리눅스에서는 `mmap` 함수의 `MAP_LOCAL` 플래그나 `numa_alloc_onnode` 같은 함수를 사용하여 특정 NUMA 노드의 메모리를 명시적으로 할당할 수 있습니다.
대용량 페이지(Huge Pages) 사용: 대용량 페이지는 TLB(Translation Lookaside Buffer) 미스율을 줄여 메모리 접근 성능을 향상시킬 수 있습니다. NUMA 환경에서는 각 노드에 대용량 페이지를 적절히 할당하여 사용하면 더욱 효과적입니다.

모니터링 및 분석 도구 활용

`numastat` 확인: 리눅스 `numastat` 명령어를 통해 각 NUMA 노드별 메모리 사용량, 원격 메모리 접근 횟수 등을 확인할 수 있습니다. 이를 통해 애플리케이션이 NUMA 아키텍처를 얼마나 효율적으로 사용하고 있는지 파악할 수 있습니다.
프로파일링 도구: `perf`, `oprofile` 등 시스템 프로파일링 도구를 사용하여 애플리케이션의 메모리 접근 패턴과 병목 지점을 분석하고, NUMA 관련 성능 문제를 찾아낼 수 있습니다.

NUMA와 캐시 일관성에 대한 흔한 오해

NUMA는 항상 성능 저하의 원인이다

사실: NUMA는 대규모 시스템의 확장성을 위한 필수적인 설계입니다. NUMA가 없다면 현대의 고성능 서버나 슈퍼컴퓨터는 구현하기 어렵습니다. 원격 메모리 접근으로 인한 성능 저하는 분명 존재하지만, 이는 설계의 본질적인 부분이며, 애플리케이션이 NUMA를 인식하고 최적화된다면 오히려 SMP 시스템보다 훨씬 뛰어난 성능을 제공할 수 있습니다. 문제는 NUMA를 제대로 활용하지 못했을 때 발생합니다.

캐시 일관성은 운영체제가 알아서 다 해준다

사실: 캐시 일관성 프로토콜은 하드웨어 수준에서 작동하며, 운영체제는 이를 활용하여 프로세스와 스레드를 스케줄링하고 메모리를 관리합니다. 운영체제가 캐시 일관성을 ‘알아서 다 해주는’ 것은 아닙니다. 운영체제는 캐시 일관성 메커니즘을 기반으로 시스템을 안정적으로 운영하지만, 애플리케이션 개발자가 캐시 일관성의 원리를 이해하고 데이터 접근 패턴을 최적화하면 훨씬 더 나은 성능을 얻을 수 있습니다. 특히 거짓 공유(False Sharing)와 같은 캐시 일관성 관련 문제는 개발자의 코드 최적화가 필수적입니다.

전문가의 조언과 권장 사항

시스템 아키텍트나 성능 엔지니어들은 NUMA 환경에서의 최적화를 위해 다음과 같은 조언을 합니다.

측정하고 또 측정하라: “측정하지 않으면 최적화할 수 없다.”는 말이 있습니다. 특정 애플리케이션의 성능 문제를 해결하려면 먼저 정확한 데이터를 수집해야 합니다. `numastat`, `perf`, `top` 등 다양한 도구를 사용하여 CPU 사용률, 메모리 접근 패턴, 캐시 미스율 등을 면밀히 분석해야 합니다.
벤치마킹과 테스트: 실제 워크로드와 유사한 환경에서 다양한 NUMA 설정(예: `numactl` 옵션)으로 애플리케이션을 벤치마킹하고 테스트해야 합니다. 이론적인 최적화가 실제 환경에서 항상 최고의 결과를 가져오는 것은 아닙니다.
애플리케이션 특성 이해: 모든 애플리케이션이 NUMA 최적화로부터 동일한 이점을 얻는 것은 아닙니다. 메모리 접근이 잦고 병렬성이 높은 애플리케이션일수록 NUMA 최적화의 효과가 큽니다. 자신의 애플리케이션이 어떤 특성을 가지는지 깊이 이해하는 것이 중요합니다.
점진적인 최적화: 한 번에 모든 것을 바꾸려 하지 말고, 가장 큰 병목 지점부터 점진적으로 최적화해 나가야 합니다. 작은 변경이라도 측정 가능한 개선이 있다면 그것을 유지하고 다음 단계로 나아가는 것이 좋습니다.

자주 묻는 질문들

Q1 NUMA 시스템에서 성능을 최적화하려면 어떻게 해야 하나요

A1 가장 중요한 것은 ‘메모리 지역성’을 높이는 것입니다. 즉, 데이터를 처리하는 CPU와 해당 데이터가 저장된 메모리가 같은 NUMA 노드에 있도록 노력해야 합니다. 이를 위해 애플리케이션 코드 수준에서 데이터 구조를 NUMA 친화적으로 설계하거나, 운영체제 기능을 사용하여 프로세스/스레드를 특정 NUMA 노드에 고정하고(CPU 어피니티), 메모리 할당 시 특정 노드를 지정하는 방법을 활용할 수 있습니다. `numactl` 같은 도구를 이용한 실험도 큰 도움이 됩니다.

Q2 일반 사용자가 NUMA를 신경 쓸 필요가 있을까요

A2 대부분의 일반 사용자(웹 브라우징, 문서 작업, 게임 등)는 NUMA를 직접적으로 신경 쓸 필요가 없습니다. 최신 운영체제와 애플리케이션은 NUMA 환경에서 최대한 효율적으로 작동하도록 설계되어 있기 때문입니다. 하지만 데이터베이스 관리자, 시스템 엔지니어, 고성능 컴퓨팅 개발자 등 시스템의 최대 성능을 끌어내야 하는 전문가는 NUMA 아키텍처를 이해하고 최적화하는 것이 필수적입니다.

Q3 캐시 일관성 프로토콜이 소프트웨어 개발에 어떤 영향을 미치나요

A3 캐시 일관성 프로토콜은 개발자가 직접 코드를 작성하여 제어하는 대상은 아닙니다. 하지만 그 존재와 작동 방식을 이해하는 것은 매우 중요합니다. 특히 멀티스레드 프로그래밍 시 ‘거짓 공유(False Sharing)’와 같은 문제를 피하는 데 도움이 됩니다. 거짓 공유는 서로 다른 스레드가 독립적인 데이터를 사용하지만, 이 데이터들이 우연히 같은 캐시 라인(Cache Line)에 위치하여 불필요한 캐시 일관성 트래픽을 유발하는 현상입니다. 이를 피하기 위해 데이터 구조를 패딩(Padding)하거나 정렬하는 등의 기법을 사용할 수 있습니다.

비용 효율적인 NUMA 및 캐시 일관성 관리

최고의 성능을 위해 항상 최신 하드웨어로 업그레이드하는 것이 정답은 아닙니다. 기존 NUMA 시스템을 비용 효율적으로 활용하는 방법도 중요합니다.

소프트웨어 최적화 우선: 새로운 하드웨어 구매 전에, 현재 사용 중인 하드웨어에서 소프트웨어 최적화를 통해 얼마나 성능을 개선할 수 있는지 먼저 확인해야 합니다. NUMA 인식 프로그래밍, 프로세스/스레드 고정, 메모리 할당 전략 조정 등은 추가 비용 없이 성능을 향상시킬 수 있는 방법입니다.
오픈 소스 모니터링 도구 활용: 상용 성능 분석 도구는 비용이 많이 들 수 있습니다. `numastat`, `perf`, `htop` 등 리눅스에서 기본 제공되거나 쉽게 설치할 수 있는 오픈 소스 도구들을 적극적으로 활용하여 시스템의 NUMA 관련 성능을 모니터링하고 분석할 수 있습니다.
가상화 환경에서의 자원 할당 최적화: 가상 머신(VM)을 운영하는 경우, VM이 하나의 NUMA 노드 내에서 CPU와 메모리를 모두 할당받도록 구성하면 원격 메모리 접근으로 인한 성능 저하를 방지할 수 있습니다. 이는 기존 하드웨어 자원을 더욱 효율적으로 사용하는 방법입니다.
워크로드 분산 및 조정: 여러 애플리케이션을 실행하는 경우, 각 애플리케이션의 NUMA 요구 사항을 고려하여 워크로드를 분산하거나 스케줄링을 조정할 수 있습니다. 예를 들어, NUMA 민감도가 높은 애플리케이션은 전용 NUMA 노드를 할당하고, 그렇지 않은 애플리케이션은 남은 자원을 공유하도록 할 수 있습니다.