生成式AI入门与AWS实战
上QQ阅读APP看书,第一时间看更新

2.2 token

需要注意的是,虽然基于文本的提示和补全被人类以自然语言句子的形式实现和解释,但是生成式AI模型将它们转换为一系列的token或者单词片段。通过以不同方式组合这些token,模型能够使用相对较少的token数量(通常模型词表中的token数量为30 000至100 000)来表示指数级数量的词表。

根据经验规则,通常每个单词约合1.3个token,但这个乘数可能会有所不同。在估算使用基于token计费的服务成本时,你可以使用1.3作为乘数。这些服务通常按百万个token计费。

使用这个相对较小的词表,模型能够在预训练阶段学习和理解人类语言。在预训练阶段,模型会学习训练数据中的数百万份文档。从模型的角度看,一份文档仅仅是模型词表中的token序列的组合。我们将在第3章中了解更多关于模型预训练阶段的信息。

机器学习和人工智能模型(包括生成式AI模型)依赖统计学和线性代数来进行计算,如概率建模、损失函数和矩阵乘法等。这些运算支持所有深度学习(Deep Learning)操作,它们倾向于处理数字而非原始文本、图像或视频。