如果你经常调用 OpenAI API,应该会发现一个很现实的问题:对话越来越长,响应越来越慢,钱包也越来越空。每次请求都要把之前的上下文重新处理一遍,模型根本不管你之前说过什么。这种重复劳动不仅浪费时间,还浪费钱。 OpenAI 推出的 Prompt Caching(提示缓存)就是来解决这个问题的。把已经处理过的内容缓存起来,后续请求直接复用,不用…
# 让LLM稳定输出JSON:结构化提示词实战指南 ## 背景介绍 在使用大型语言模型(LLM)进行开发时,我们经常需要让模型输出结构化的数据格式,比如JSON。JSON不仅是程序内部数据交换的标准格式,也是API响应、配置文件、数据存储的基础。然而,直接让LLM输出JSON时,经常会遇到各种问题:输出格式不稳定、混入markdown代码块标记、包…
## 背景介绍 开发过程中,我们经常需要和 GPT 模型打交道。网页版 ChatGPT 那种内容逐字冒出来的体验确实很爽,但用 API 调用时,默认是等模型生成完整个回复才给你。这就有问题了——等一个几千字的长回答,那段时间只能盯着空白屏幕干等。 流式输出(Server-Sent Events,简称 SSE)能解决这个问题。服务器边生成边发,客户端…
# Go + Ollama 实现本地 RAG 应用:从 Embedding 到问答 ## 背景介绍 大语言模型(LLM)很火,但让它回答私有数据里的问题没那么简单。直接微调模型成本太高,而且容易出现幻觉——模型会一本正经地编造答案。RAG(检索增强生成)提供了一条更务实的路径:先从知识库里检索相关文档,再让 LLM 基于这些文档生成答案。 Olla…