Go归档 - HDGet

OpenAI Prompt Caching 完全指南：如何大幅降低 API 调用成本和延迟

2026-4-27 9:05

|

68

|

0

|

技术

1882 字

|

9 分钟

如果你经常调用 OpenAI API，应该会发现一个很现实的问题：对话越来越长，响应越来越慢，钱包也越来越空。每次请求都要把之前的上下文重新处理一遍，模型根本不管你之前说过什么。这种重复劳动不仅浪费时间，还浪费钱。 OpenAI 推出的 Prompt Caching（提示缓存）就是来解决这个问题的。把已经处理过的内容缓存起来，后续请求直接复用，不用…

AI Go

让LLM稳定输出JSON：结构化提示词实战指南

2026-4-26 9:05

|

69

|

0

|

技术

3210 字

|

14 分钟

# 让LLM稳定输出JSON：结构化提示词实战指南 ## 背景介绍在使用大型语言模型（LLM）进行开发时，我们经常需要让模型输出结构化的数据格式，比如JSON。JSON不仅是程序内部数据交换的标准格式，也是API响应、配置文件、数据存储的基础。然而，直接让LLM输出JSON时，经常会遇到各种问题：输出格式不稳定、混入markdown代码块标记、包…

AI Go

使用 Go 构建流式输出 ChatGPT CLI 工具

2026-4-22 9:04

|

46

|

0

|

未分类

1351 字

|

6 分钟

## 背景介绍开发过程中，我们经常需要和 GPT 模型打交道。网页版 ChatGPT 那种内容逐字冒出来的体验确实很爽，但用 API 调用时，默认是等模型生成完整个回复才给你。这就有问题了——等一个几千字的长回答，那段时间只能盯着空白屏幕干等。流式输出（Server-Sent Events，简称 SSE）能解决这个问题。服务器边生成边发，客户端…

AI Go

Go + Ollama 实现本地 RAG 应用：从 Embedding 到问答

2026-4-14 9:08

|

83

|

0

|

技术

1485 字

|

8 分钟

# Go + Ollama 实现本地 RAG 应用：从 Embedding 到问答 ## 背景介绍大语言模型（LLM）很火，但让它回答私有数据里的问题没那么简单。直接微调模型成本太高，而且容易出现幻觉——模型会一本正经地编造答案。RAG（检索增强生成）提供了一条更务实的路径：先从知识库里检索相关文档，再让 LLM 基于这些文档生成答案。 Olla…

AI Go Ollama

标签： Go