Chat GPT 是如何训练的？

Spacemesh-浏览器

无论您是经验丰富的机器学习工程师还是只是好奇，您可能想知道：Chat GPT 是如何训练的？

由 OpenAI 开发的人工智能语言模型在推出后的短时间内就受到了广泛的欢迎。以至于该网站经常遇到服务器容量问题，阻止用户访问该网站。

在线模型能够执行大量任务，对您给出的几乎所有提示生成响应。但是，它是如何创建的？

首先，Chat GPT 建立在 OpenAI 的 GPT-3.5 的基础上。另一种更高级的语言模型，它建立在海量数据集之上，通常包含来自互联网的信息。

GPT-3.5 经过微调，因此可以以对话的形式与用户互动。让我们探索一下这种微调是什么样的！

根据 OpenAI 的说法，Chat GPT 是使用“人类反馈强化学习”（RLHF）进行训练的。最初，该模型经历了一个称为监督微调的过程，其中 OpenAI 培训师同时扮演人类用户和人工智能机器人的角色。

通过这种方式，培训师创建了一个对话序列以模拟人类的交流方式，然后将其添加到模型的数据集中以对其进行微调以用于对话用途。

Chat GPT 后来通过创建奖励模型得到改进，用于下一步——强化学习。这涉及 AI 培训师与工具交互以生成响应。然后根据质量从最好到最差对它们进行分级。

有了这些信息，OpenAI 可以使用自己的称为近端策略优化的技术进一步微调模型。如果您正在寻找有关此过程的详细信息，OpenAI 在其博客中对此进行了介绍。

OpenAI 的 Chat GPT 是一个大型语言模型。顾名思义，这些模型非常庞大，并且使用数十亿个参数构建。它们是一种深度学习算法，可以根据训练数据理解和生成文本。

这些类型的模型具有广泛的用途，包括创建聊天机器人、充当搜索引擎以及生成歌词和故事等创意内容。