跳转至

参数细节

频率和存在惩罚

在 Completions API 中发现的频率和存在惩罚可用于减少采样重复令牌序列的可能性。 它们通过直接修改 logits(非标准化的对数概率)和添加贡献来工作。

mu[j] -> mu[j] - c[j] _ alpha_frequency - float(c[j] > 0) _ alpha_presence

它们是:

  • mu[j] 是第 j 个符号的对数
  • c[j] 表示该令牌在当前位置之前采样的频率
  • float(c[j] > 0) is 1 if c[j] > 0 and 0 otherwise
  • alpha_frequency 是频率惩罚系数
  • alpha_presence 是存在惩罚系数

正如我们所看到的,存在惩罚是一次性的附加贡献,适用于至少采样一次的所有令牌,频率惩罚是与特定令牌已经采样的频率成正比的贡献。

如果目标只是在一定程度上减少重复采样,惩罚系数的合理值大约在 0.1 到 1 之间。 如果目标是强烈抑制重复,那么可以将系数增加到 2,但这可能会显著降低样本的质量。负值可以用来增加重复的可能性。