参数细节¶
频率和存在惩罚¶
在 Completions API 中发现的频率和存在惩罚可用于减少采样重复令牌序列的可能性。 它们通过直接修改 logits(非标准化的对数概率)和添加贡献来工作。
它们是:
- mu[j] 是第 j 个符号的对数
- c[j] 表示该令牌在当前位置之前采样的频率
- float(c[j] > 0) is 1 if c[j] > 0 and 0 otherwise
- alpha_frequency 是频率惩罚系数
- alpha_presence 是存在惩罚系数
正如我们所看到的,存在惩罚是一次性的附加贡献,适用于至少采样一次的所有令牌,频率惩罚是与特定令牌已经采样的频率成正比的贡献。
如果目标只是在一定程度上减少重复采样,惩罚系数的合理值大约在 0.1 到 1 之间。 如果目标是强烈抑制重复,那么可以将系数增加到 2,但这可能会显著降低样本的质量。负值可以用来增加重复的可能性。