质量重于数量：平衡大型语言模型的算法透明度、问责制和知识产权-数控专题

质量重于数量：平衡大型语言模型的算法透明度、问责制和知识产权

时间:2023-08-04 作者: 来源:中国工控网

在我们对推动算法革命的数据展开研究的过程中，算法透明度和问责制是核心原则。一些人可能误认为这种说法是在隐晦地呼吁公开知识产权。然而，经过细致入微的研究，我们发现了一个更加复杂的叙事，即大型语言模型和专有模型之间的区别。

大型语言模型是在综合文本数据集上训练而成的AI系统，其设计意图是根据输入内容生成类似人类的文本。“大型”一词体现了模型在参数数量和训练数据量上的规模。比如OpenAI 的GPT-3在训练时运用了一个包含1750亿个海量文本参数的巨大模型。这些模型必须能够理解它们生成的文本，通过辨别训练数据中的模式来生成并输出预测结果。一个不变的原则是：只有综合全面的高质量训练数据才能使模型生成准确的预测结果。

与之相反的是，“专有模型”通常由特定实体或公司创建。其设计、结构和算法保护创建者的知识产权。这个词往往指的是蓝图可供公众使用、修改和传播的开源模型。值得注意的是，专有模型与大型语言模型没有本质区别，使用“专有模型”这个术语是为了强调模型的其他特征。