Tagged#LLM推理

1 post found

oMLX 是专为 Apple Silicon 设计的本地 LLM 推理服务器，通过连续批处理和分层 KV Cache（热 RAM + 冷 SSD）实现 10 倍提速，丐版 Mac Mini 也能多并发跑大模型。