要有效地进行微调,您需要正确设置数据格式,以便为模型提供关于从何处开始和停止生成文本的线索。
指标字符串
指示符字符串是您附加到提示末尾的符号或符号序列,以告诉模型您希望它在此字符串之后开始生成文本。
例如,如果您希望模型将项目分类为颜色,您可以使用像“->”这样的指示符字符串。数据集中的提示如下所示:
-
‘香蕉->’
-
‘石灰->’
-
‘番茄->’
您可以使用任何字符串作为指示符字符串,只要它没有出现在数据集中的其他任何地方。我们建议使用“\n###\n”。
停止序列
停止序列是另一个特殊符号或符号序列,用于告诉模型您希望它在该点之后停止生成文本。
例如,如果您希望模型生成一个单词作为补全,您可以使用“\n”(换行符)或“.”等停止序列。(period) 来标记完成的结束,像这样:
-
‘提示’:’香蕉->’,’完成’:’黄色\ n’
-
‘提示’:’石灰->’,’完成’:’绿色\ n’
-
‘提示’:’番茄->’,’完成’:’红色\ n’
调用模型
调用模型时,您应该使用数据集中使用的相同符号。如果您使用上面的数据集,您应该使用 ‘\n’ 作为停止序列。您还应该将“->”作为指示符字符串附加到您的提示中(例如提示:“柠檬 ->”)
对指示符字符串和停止序列使用一致且唯一的符号非常重要,并且它们不会出现在数据中的其他任何地方。否则,模型可能会混淆并生成不需要的或不正确的文本。
额外推荐
我们还建议在输出的开头附加一个空格字符。
准备好数据集后,您还可以使用我们的命令行工具来帮助格式化数据集。