MS-S1 MAX 단일 서버 AI 대규모 모션 구축 튜토리얼
Minisforum MS-S1 MAX는 AMD Ryzen AI MAX+395 프로세서와 128GB LPDDR5X UMA 메모리를 탑재하여 최대 96GB의 공유 메모리를 동적으로 할당할 수 있습니다. 이를 통해 로컬 대규모 모델 실행에 강력한 연산 성능을 제공합니다. 로컬 AI는 MS-S1 MAX의 대용량 메모리와 멀티코어 이점을 활용하여 프라이버시를 보호하며 오프라인에서 실행 가능하고 지연 시간이 낮아 프라이빗 배포 요구에 적합합니다. 반면, 클라우드 AI는 풍부한 연산 성능, 빠른 업데이트, 다중 디바이스 협업이 강점입니다. 둘은 상호 보완적이며, 사무 협업과 로컬 독립 실행 환경에 따라 적절히 선택하여 데이터 보안과 효율성을 모두 확보할 수 있습니다.
본 가이드는 실제 테스트 환경(Windows 11 24H2 + AMD Adrenalin 25.10 RC 드라이버 + LM Studio)을 기반으로 작성되었으며, 하드웨어 최적화부터 모델 상호작용까지 전체 과정을 안내합니다.
옵션 설명
옵션명
지원 하드웨어 유형
가속 필요 구성 요소
성능 특징
CPU llama.cpp (Windows)
모든 장치 (CPU 전용)
없음
가장 느림 (순수 CPU 연산)
ROCm llama.cpp (Windows)
AMD GPU (외장/일부 내장)
AMD ROCm 드라이버 + SDK
AMD GPU 고성능 가속
Vulkan llama.cpp (Windows)
AMD GPU (외장/내장 모두)
AMD 공식 그래픽 드라이버만 필요
AMD GPU 중간 수준 고성능 가속
CUDA llama.cpp (Windows)
NVIDIA GPU
NVIDIA CUDA 툴킷 + 드라이버
NVIDIA GPU 최적 가속
Vulkan 선택 이유: 실제 성능 비교
테스트 모델: GPU-OSS-20B
프롬프트: "새해 복 많이 받으세요" 주제로 1000자 작문 요청
옵션
tok/sec
첫 토큰 시간
CPU 사용률
CPU llama.cpp
17.24
0.21s
76%
Vulkan llama.cpp
62.08
0.16s
15%
ROCm llama.cpp
61.24
0.24s
13%
결론:
・Vulkan은 CPU 대비 3.6배 빠른 속도
・첫 응답 시간이 가장 짧아 거의 무지연
・CPU 사용률 낮고 GPU 활용도 높아 시스템 전체 쾌적
・AMD 공식 드라이버만 있으면 바로 사용 가능, 추가 설정 불필요
→ Windows + AMD 사용자에게 Vulkan이 가장 적합
3단계: 로컬 모델 다운로드
추천 모델
※ 상세 속도 정보는 문서 하단 참조
모델명
추천 이유
주요 활용 분야
DeepSeek-R1-Distill-Qwen-7B
가볍고 배포 쉬움, 균형 잡힌 추론 능력
경량 질의응답, 문서 작업 보조, 기초 코드 생성
DeepSeek-R1-Distill-Qwen-14B
7B보다 우수한 성능, 큰 컨텍스트 윈도우
기업 지식베이스 QA, 복잡 문서 분석
Qwen3-VL-30B-A3B
멀티모달 플래그십, 이미지 이해 및 분석 가능
이미지-텍스트 결합 작업, 산업 검사, 문서 인식
DeepSeek-70B Q4_K_M
Q4-K-M 양자화로 정밀도와 리소스 균형
고급 프로그래밍, 과학 연산, 복합 추론
GPT-OSS-120B
대규모 파라미터, 강력한 성능, 커스터마이징 가능
기업용 AI 플랫폼, 에이전트 개발
추천 양자화: Q4-K-M
1. 모델 크기 약 1/4 수준으로 축소 (예: 7B 모델 14GB → 약 3.5GB)
2. 출력 품질 저하 최소화
3. 빠른 추론 속도 유지
모델 로드
1.Chat 탭으로 이동 → 상단 Select a model to load → 다운로드한 모델 선택
2.Load Model 클릭 후 로딩 완료되면 대화 시작 가능
3.로드 설정
4단계: 기본 대화
입력창에 프롬프트 입력 후 전송 (예: "산문 한 편 작성해줘")
우측 패널에서 Temperature (권장 0.7), Max Tokens (512~4096), System Prompt 조정 가능
New Chat 버튼으로 새 대화 시작, 주제별 분류 가능
⚠️ 주의사항 및 최적화 팁
발열 관리: 대규모 모델 실행 시 Performance 전원 모드를 유지하고, 듀얼 터보팬 + 히트파이프 냉각 시스템이 안정적으로 작동하도록 합니다.
모델 정리: 사용하지 않는 모델은 Local Models에서 삭제하여 공간 확보
토큰 속도 확인: 하단에서 Power User 모드로 전환하여 실시간 확인 가능
기타 로컬 AI 소프트웨어 추천
Ollama
경량 오픈소스 프레임워크, 명령줄 기반 간편 조작
GGUF/GGML 모델 지원
Open WebUI 연동 시 챗GPT 스타일 UI 사용 가능
AMD 하드웨어 호환성 개선 (v0.15.1 기준)
⚠️ Windows에서는 CPU 추론만 가능, AMD 내장 GPU의 Vulkan/ROCm 미지원
MS-S1 MAX의 96GB UMA 메모리와 RDNA 3.5 내장 GPU를 활용하려면 LM Studio(Vulkan) 또는 llama.cpp Vulkan 직접 구성 권장
부록: 주요 모델 출력 속도 참고
※ 위 속도는 MS-S1 MAX에서 96GB 메모리 설정 기준 실제 측정값이며, 드라이버 버전, 양자화 방식, 모델 구조에 따라 차이가 발생할 수 있습니다.
모델 이름(Model Name)
출력 속도Speed(tok/sec)
DeepSeek-R1-Distill-Qwen-1.5B-Q8
96.59
Qwen3-4B-Thinking-2507-GGUF
53.62
Qwen3-VL-30B-A3B
43
DeepSeek-R1-Distill-Qwen-7B-GGUF
42.33
gpt-oss-120b-GGUF
32.56
DeepSeek-R1-Distill-Qwen-7B-Q8
27.35
DeepSeek-R1-Distill-Llama-8B-Q8
24.58
gemma-3-12b-it-GGUF
22.25
DeepSeek-R1-Distill-Qwen-14B-GGUF
21.29
cogito-v2-preview-Llama-109B-MoE-GGUF
14.18
Llama-4-Scout-17B-16E-Instruct-GGUF
13.94
DeepSeek-R1-Distill-Qwen-14B-Q8
13.58
Qwen3-235B-A22B-Instruct-2507-GGUF-Q2
10.81
DeepSeek-R1-Distill-Qwen-32B-GGUF
10.04
Yi-1.5-34B
9.86
DeepSeek-R1-Distill-Qwen-32B-Q8
6.04
Llama 3.1 70B
4.8
DeepSeek-R1-Distill-Llama-70B-GGUF
4.75
DeepSeek-R1-Distill-Llama-70B-Q5
4.03

