无论您是经验丰富的机器学习工程师还是只是好奇,您可能想知道:Chat GPT 是如何训练的?
由 OpenAI 开发的人工智能语言模型在推出后的短时间内就受到了广泛的欢迎。以至于该网站经常遇到服务器容量问题,阻止用户访问该网站。
在线模型能够执行大量任务,对您给出的几乎所有提示生成响应。但是,它是如何创建的?
首先,Chat GPT 建立在 OpenAI 的 GPT-3.5 的基础上。另一种更高级的语言模型,它建立在海量数据集之上,通常包含来自互联网的信息。
GPT-3.5 经过微调,因此可以以对话的形式与用户互动。让我们探索一下这种微调是什么样的!
根据 OpenAI 的说法,Chat GPT 是使用“人类反馈强化学习”(RLHF)进行训练的。最初,该模型经历了一个称为监督微调的过程,其中 OpenAI 培训师同时扮演人类用户和人工智能机器人的角色。
通过这种方式,培训师创建了一个对话序列以模拟人类的交流方式,然后将其添加到模型的数据集中以对其进行微调以用于对话用途。
Chat GPT 后来通过创建奖励模型得到改进,用于下一步——强化学习。这涉及 AI 培训师与工具交互以生成响应。然后根据质量从最好到最差对它们进行分级。
有了这些信息,OpenAI 可以使用自己的称为近端策略优化的技术进一步微调模型。如果您正在寻找有关此过程的详细信息,OpenAI 在其博客中对此进行了介绍。
Chat GPT 是什么类型的机器学习?
OpenAI 的 Chat GPT 是一个大型语言模型。顾名思义,这些模型非常庞大,并且使用数十亿个参数构建。它们是一种深度学习算法,可以根据训练数据理解和生成文本。
这些类型的模型具有广泛的用途,包括创建聊天机器人、充当搜索引擎以及生成歌词和故事等创意内容。