Go 语言调用 OpenAI Function Calling 实现结构化数据提取 背景介绍 开发 AI 应用时,有一个问题特别让人头疼:模型输出的内容格式不稳定,有时输出的内容很难直接用到后续的业务逻辑里。传统做法是通过 Prompt 工程来约束输出格式,或者用正则表达式解析响应,但这些方法总是不够靠谱。 OpenAI 在 GPT-4 系列模型中…
# Go 语言调用 OpenAI API 实现流式响应的完整指南 ## 背景介绍 在当今 AI 应用开发领域,与大语言模型(LLM)的交互已经成为许多应用的核心功能。OpenAI 的 GPT 系列模型提供了强大的自然语言处理能力,而流式响应(Streaming)是提升用户体验的关键技术之一。相比于等待完整响应一次性返回,流式响应可以让用户实时看到模…
深入讲解如何使用 Go 语言基于 Ollama 构建支持 ReAct 模式和 Function Calling 的本地 LLM Agent,包含完整代码示例和实战案例。
如果你经常调用 OpenAI API,应该会发现一个很现实的问题:对话越来越长,响应越来越慢,钱包也越来越空。每次请求都要把之前的上下文重新处理一遍,模型根本不管你之前说过什么。这种重复劳动不仅浪费时间,还浪费钱。 OpenAI 推出的 Prompt Caching(提示缓存)就是来解决这个问题的。把已经处理过的内容缓存起来,后续请求直接复用,不用…
# 让LLM稳定输出JSON:结构化提示词实战指南 ## 背景介绍 在使用大型语言模型(LLM)进行开发时,我们经常需要让模型输出结构化的数据格式,比如JSON。JSON不仅是程序内部数据交换的标准格式,也是API响应、配置文件、数据存储的基础。然而,直接让LLM输出JSON时,经常会遇到各种问题:输出格式不稳定、混入markdown代码块标记、包…
## 背景介绍 开发过程中,我们经常需要和 GPT 模型打交道。网页版 ChatGPT 那种内容逐字冒出来的体验确实很爽,但用 API 调用时,默认是等模型生成完整个回复才给你。这就有问题了——等一个几千字的长回答,那段时间只能盯着空白屏幕干等。 流式输出(Server-Sent Events,简称 SSE)能解决这个问题。服务器边生成边发,客户端…
# Go + Ollama 实现本地 RAG 应用:从 Embedding 到问答 ## 背景介绍 大语言模型(LLM)很火,但让它回答私有数据里的问题没那么简单。直接微调模型成本太高,而且容易出现幻觉——模型会一本正经地编造答案。RAG(检索增强生成)提供了一条更务实的路径:先从知识库里检索相关文档,再让 LLM 基于这些文档生成答案。 Olla…