Open AI 发布了 GPT 最佳实践指南
最近很多人在 Twitter 上说感觉 GPT 最近模型质量下滑,怀疑 Open AI 偷偷更换了模型,所以 Open AI 重拳出击掏出了一个 GPT 提示词书写的最佳实践指南,这个指南只针对 GPT-4 会有更好的效果。感觉潜在的意思是不是模型差是你不会用。
如果你还没有 GPT-4 的API 权限可以在这里申请:https://openai.com/waitlist/gpt-4-api
另外他们还推出了一个检测模型质量的工具,你可以随时用这个工具来检测模型的输出质量是否下降可以在这里使用:https://github.com/openai/evals
他们还强调他们不会在不通知用户的情况下偷偷更改模型。
我这里也大概整理了一下最佳实践指南里的一些信息,他们一共整理了获得更好输出结果的六种提示策略:
- 写清楚说明:GPT 无法读懂你想法。如果输出太长,要求简短的答复。如果输出太简单,请要求专家级的写作。如果你不喜欢这种格式,请展示你希望看到的格式。GPT 对你想要什么的猜测越少,你获得好的结果的可能性就越大。
- 在你的查询中包含详细信息以获得更相关的答案
- 给模型设定对应的角色
- 三重反引号、XML 标记、章节标题等分隔符可以帮助区分要区别对待的文本部分。
- 有些任务最好指定为一系列步骤。明确地写出步骤可以使模型更容易理解
- 提供适用于所有示例的一般说明通常比通过示例演示任务的所有排列更有效,但在某些情况下提供示例可能更容易
- 要求模型生成具有给定目标长度的输出。目标输出长度可以根据单词、句子、段落、要点等的计数来指定
- 提供参考文本:GPT 可以自信地编造假答案,尤其是当被问及深奥的话题或引用和 URL 时。就像一张笔记可以帮助学生在考试中取得更好的成绩一样,为 GPT 提供参考文本可以帮助以更少的捏造来回答。
- 如果我们可以为模型提供与当前查询相关的可信信息,那么我们可以指示模型使用提供的信息来编写其答案。
- 如果输入已补充相关知识,则可以直接要求模型通过引用所提供文档中的段落来为其答案添加引文。
- 将复杂任务拆分为更简单的子任务:正如在软件工程中将复杂系统分解为一组模块化组件是一种很好的做法一样,提交给 GPT 的任务也是如此。复杂的任务往往比简单的任务有更高的错误率。此外,复杂的任务通常可以重新定义为更简单任务的工作流,其中早期任务的输出用于构建后续任务的输入。
- 对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。
- 对于需要很长对话的对话应用,总结或过滤之前的对话。另一种解决方案是动态选择与当前查询最相关的对话的先前部分
- 要总结一个很长的文档,比如一本书,我们可以使用一系列查询来总结文档的每个部分。节摘要可以被连接和总结生成摘要的摘要。这个过程可以递归地进行,直到总结了整个文档。
- 给 GPT 时间“思考”:如果要求将 17 乘以 28,你可能不会立即知道,但随着时间的推移仍然可以计算出来。同样,GPT 在试图立即回答而不是花时间找出答案时会犯更多的推理错误。在回答之前询问一系列推理可以帮助 GPT 更可靠地推理出正确答案。
- 有时,当我们明确指示模型在得出结论之前根据第一原则进行推理时,我们会得到更好的结果。
- 内心独白的想法是指示模型将本应对用户隐藏的输出部分放入结构化格式中,以便于解析它们。然后在将输出呈现给用户之前,对输出进行解析并仅使部分输出可见。
- 通常可以通过使用后续查询提示模型来查找它在先前传递中遗漏的任何摘录来获得更好的性能。
- 使用外部工具:通过为 GPT 提供其他工具的输出来弥补它们的弱点。如果一项任务可以通过工具而不是 GPT 更可靠或更有效地完成,请卸载它以充分利用两者。
- 如果作为输入的一部分提供,模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。嵌入可用于实现高效的知识检索,以便在运行时将相关信息动态添加到模型输入中。
- 不能依赖 GPT 自行准确地执行算术或长计算。在需要的情况下,可以指示模型编写和运行代码,而不是进行自己的计算。
- 系统地测试更改:如果可以衡量,提高绩效会更容易。在某些情况下,对提示的修改会在一些孤立的示例上获得更好的性能,但会导致在更具代表性的示例集上的整体性能变差。因此,为确保更改对性能产生积极影响,可能有必要定义一个综合测试套件(也称为“评估”)。
- 参考黄金标准答案评估模型输出:假设已知问题的正确答案应该参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含了多少所需事实。