大模型
云端部署/本地离线 - Gemini 和 ChatGPT 属于云端在线用; Gemma 3 和 DeepSeek R1 则为离线部署用。
RAG(Retrieval Augmented Generation,检索增强生成)将大规模语言模型(LLM)与外部知识源的检索相结合,以改进问答能力。
LLM蒸馏技术:
将Teacher Model蒸馏为Student Model,虽然会损失部分能力,但可使其硬件要求降低;国内比较火的DeepSeek-R1即为蒸馏模型。
Mac mini M4 16GiB 内存丐版最大可部署 9GiB 大小的 DeepSeek-R1-Distill-Qwen-14B,Tokens/second为11.3、8B为19.6。
Ollama本地部署DeepSeek:
DeepSeek-R1 7B 4.7GB ollama run deepseek-r1
DeepSeek-R1 671B 404GB ollama run deepseek-r1:671b
LangChain(RetrievalQA) 或 AnythingLLM 通过RAG技术投喂知识库 - https://anythingllm.com/