MS-S1 MAX 단일 서버 AI 대규모 모션 구축 튜토리얼

Minisforum MS-S1 MAX는 AMD Ryzen AI MAX+395 프로세서와 128GB LPDDR5X UMA 메모리를 탑재하여 최대 96GB의 공유 메모리를 동적으로 할당할 수 있습니다. 이를 통해 로컬 대규모 모델 실행에 강력한 연산 성능을 제공합니다. 로컬 AI는 MS-S1 MAX의 대용량 메모리와 멀티코어 이점을 활용하여 프라이버시를 보호하며 오프라인에서 실행 가능하고 지연 시간이 낮아 프라이빗 배포 요구에 적합합니다. 반면, 클라우드 AI는 풍부한 연산 성능, 빠른 업데이트, 다중 디바이스 협업이 강점입니다. 둘은 상호 보완적이며, 사무 협업과 로컬 독립 실행 환경에 따라 적절히 선택하여 데이터 보안과 효율성을 모두 확보할 수 있습니다.

본 가이드는 실제 테스트 환경(Windows 11 24H2 + AMD Adrenalin 25.10 RC 드라이버 + LM Studio)을 기반으로 작성되었으며, 하드웨어 최적화부터 모델 상호작용까지 전체 과정을 안내합니다.

1단계: BIOS 메모리 할당 최적화

목표: 시스템을 성능 모드로 설정하고, 공유 메모리를 96GB로 조정하여 하드웨어 잠재력을 최대한 활용합니다.

1. BIOS 진입: 재부팅 후 부팅 화면에서 Del 키를 반복해서 누릅니다.

2. 성능 모드 설정:Advanced → PowerLimit Setting → Performance

3.메모리 설정 변경:

Advanced → AMD CBS → NBIO Common Options → GFX Configuration

iGPU Configuration → UMA_SPECIFIED

UMA Frame buffer Size → 96 GB

4. 저장 후 재부팅: F4를 눌러 설정을 저장하고 재부팅합니다.

2단계: LM Studio 설치 (Windows 11)

LM Studio는 로컬에서 대규모 언어 모델을 실행하기 위한 소프트웨어로, 모델 다운로드, 관리 및 오프라인 추론을 지원합니다.

1.설치 파일 다운로드

https://lmstudio.ai에 접속하여 Windows 버전을 다운로드합니다.

2.설치 진행

설치 파일을 더블클릭하고 약관에 동의한 후 기본 경로를 유지하며 Next를 반복 클릭하여 설치를 완료합니다.

3.소프트웨어 실행

설치 완료 후 Run LM Studio를 체크하고 Finish를 클릭합니다. 별도 로그인 없이 사용 가능합니다.

소프트웨어 설정

설치 완료 후 설정으로 이동하여 System → Runtime에서 다음 옵션을 확인합니다. GGUF는 Vulkan llama.cpp로 선택하고, 업데이트가 있다면 최신 버전으로 업데이트합니다.

옵션 설명

옵션명

지원 하드웨어 유형

가속 필요 구성 요소

성능 특징

CPU llama.cpp (Windows)

모든 장치 (CPU 전용)

없음

가장 느림 (순수 CPU 연산)

ROCm llama.cpp (Windows)

AMD GPU (외장/일부 내장)

AMD ROCm 드라이버 + SDK

AMD GPU 고성능 가속

Vulkan llama.cpp (Windows)

AMD GPU (외장/내장 모두)

AMD 공식 그래픽 드라이버만 필요

AMD GPU 중간 수준 고성능 가속

CUDA llama.cpp (Windows)

NVIDIA GPU

NVIDIA CUDA 툴킷 + 드라이버

NVIDIA GPU 최적 가속

Vulkan 선택 이유: 실제 성능 비교

테스트 모델: GPU-OSS-20B
프롬프트: "새해 복 많이 받으세요" 주제로 1000자 작문 요청

옵션

tok/sec

첫 토큰 시간

CPU 사용률

CPU llama.cpp

17.24

0.21s

76%

Vulkan llama.cpp

62.08

0.16s

15%

ROCm llama.cpp

61.24

0.24s

13%

결론:

・Vulkan은 CPU 대비 3.6배 빠른 속도

・첫 응답 시간이 가장 짧아 거의 무지연

・CPU 사용률 낮고 GPU 활용도 높아 시스템 전체 쾌적

・AMD 공식 드라이버만 있으면 바로 사용 가능, 추가 설정 불필요

→ Windows + AMD 사용자에게 Vulkan이 가장 적합

3단계: 로컬 모델 다운로드

모델 다운로드 방법

1.　좌측 메뉴에서 돋보기 아이콘(모델 검색) 클릭

2.　모델명 입력 (부분 검색 가능)

3.　GGUF 형식과 원하는 양자화 버전 선택

4.　초록색 로켓 아이콘이 표시되면 지원 가능 → Download 클릭

추천 양자화: Q4-K-M

1. 모델 크기 약 1/4 수준으로 축소 (예: 7B 모델 14GB → 약 3.5GB)

2. 출력 품질 저하 최소화

3. 빠른 추론 속도 유지

모델 로드

1.Chat 탭으로 이동 → 상단 Select a model to load → 다운로드한 모델 선택

2.Load Model 클릭 후 로딩 완료되면 대화 시작 가능

3.로드 설정

4단계: 기본 대화

입력창에 프롬프트 입력 후 전송 (예: "산문 한 편 작성해줘")

우측 패널에서 Temperature (권장 0.7), Max Tokens (512~4096), System Prompt 조정 가능

New Chat 버튼으로 새 대화 시작, 주제별 분류 가능

⚠️ 주의사항 및 최적화 팁

발열 관리: 대규모 모델 실행 시 Performance 전원 모드를 유지하고, 듀얼 터보팬 + 히트파이프 냉각 시스템이 안정적으로 작동하도록 합니다.

모델 정리: 사용하지 않는 모델은 Local Models에서 삭제하여 공간 확보

토큰 속도 확인: 하단에서 Power User 모드로 전환하여 실시간 확인 가능

기타 로컬 AI 소프트웨어 추천

Ollama

경량 오픈소스 프레임워크, 명령줄 기반 간편 조작

GGUF/GGML 모델 지원

Open WebUI 연동 시 챗GPT 스타일 UI 사용 가능

AMD 하드웨어 호환성 개선 (v0.15.1 기준)

⚠️ Windows에서는 CPU 추론만 가능, AMD 내장 GPU의 Vulkan/ROCm 미지원

MS-S1 MAX의 96GB UMA 메모리와 RDNA 3.5 내장 GPU를 활용하려면 LM Studio(Vulkan) 또는 llama.cpp Vulkan 직접 구성 권장

부록: 주요 모델 출력 속도 참고

※ 위 속도는 MS-S1 MAX에서 96GB 메모리 설정 기준 실제 측정값이며, 드라이버 버전, 양자화 방식, 모델 구조에 따라 차이가 발생할 수 있습니다.

모델 이름(Model Name)

출력 속도Speed(tok/sec)

DeepSeek-R1-Distill-Qwen-1.5B-Q8

96.59

Qwen3-4B-Thinking-2507-GGUF

53.62

Qwen3-VL-30B-A3B

DeepSeek-R1-Distill-Qwen-7B-GGUF

42.33

gpt-oss-120b-GGUF

32.56

DeepSeek-R1-Distill-Qwen-7B-Q8

27.35

DeepSeek-R1-Distill-Llama-8B-Q8

24.58

gemma-3-12b-it-GGUF

22.25

DeepSeek-R1-Distill-Qwen-14B-GGUF

21.29

cogito-v2-preview-Llama-109B-MoE-GGUF

14.18

Llama-4-Scout-17B-16E-Instruct-GGUF

13.94

DeepSeek-R1-Distill-Qwen-14B-Q8

13.58

Qwen3-235B-A22B-Instruct-2507-GGUF-Q2

10.81

DeepSeek-R1-Distill-Qwen-32B-GGUF

10.04

Yi-1.5-34B

9.86

DeepSeek-R1-Distill-Qwen-32B-Q8

6.04

Llama 3.1 70B

4.8

DeepSeek-R1-Distill-Llama-70B-GGUF

4.75

DeepSeek-R1-Distill-Llama-70B-Q5

4.03