核心更新:
- Flash Attention 和 Ollama 引擎现已默认启用,显著提升视觉模型性能和内存效率
- 优化多 GPU 检测、长上下文处理和嵌入端点截断逻辑
- 改进错误渲染和 CPU 系统模型管理
新增模型:
- Ministral-3 / Mistral-Large-3: 边缘部署和企业级多模态模型
- Qwen3-Next / Devstral-Small-2: 高效推理和代码智能 Agent 模型
- Nemotron 3 Nano / Olmo 3/3.1: 高效 Agent 和开放科研模型
- nomic-embed-text-v2 / rnj-1: 多语言嵌入和 STEM 优化模型
关键词: Ollama, 模型更新, 嵌入API优化, 架构扩展, 错误修复
关于 Ollama:一款开源的、用于在本地运行和管理大型语言模型(LLM)的框架。