简单认识大模型后缀的 8k、32k 和 128k

AI
AI 大模型,即人工智能大模型,是一种具有大规模参数和强大计算能力的人工智能模型。它通过对大量数据的学习和训练,能够实现复杂的任务和功能。本文将介绍什么是 8k、32k、128k。

AI 大模型,即人工智能大模型,是一种具有大规模参数和强大计算能力的人工智能模型。它通过对大量数据的学习和训练,能够实现复杂的任务和功能。

AI 大模型通常具备以下特点:

(1)其拥有庞大的参数量,这使得它能够存储和处理更多的信息,从而更好地理解和生成自然语言、图像、音频等各种类型的数据。

(2)AI 大模型具有强大的计算能力,能够快速地进行推理和决策。

(3)AI 大模型还可以通过不断地学习和优化,提高自身的性能和准确性。

在实际应用中,AI 大模型已经展现出了巨大的潜力。例如,在自然语言处理领域,它可以用于机器翻译、文本生成、问答系统等;在图像识别领域,它可以实现图像分类、目标检测、图像生成等任务;在语音处理领域,它可以进行语音识别、语音合成等操作。

当你在聊天中听见某某大模型 8k、32k、128k 术语时,你了解它们代表什么意思吗?有什么什么区别,如下图是 Moonshot 大模型的类型截图:

58c7c394468fd6c5bc3e3d6f9a6e2a0b_1722394462577-16c0a92a-4a81-4091-b9d4-1e114206d406_x-oss-process=image%2Fformat%2Cwebp.png

问题 1:上面图片的 8k、32k 和 128k 是什么意思?

指的是模型支持的最大上下文长度。具体说明:

  • moonshot-v1-8k:表示该模型支持 8K 的上下文窗口,即输入消息和生成的输出总和的长度限制在 8192(8 * 1024) 个 token 左右,适用于生成短文本等场景。

  • moonshot-v1-32k:支持 32K 的上下文窗口,输入和输出的总长度可达到约 32768 个 token,更适合处理一些较长文本的理解和生成任务。

  • moonshot-v1-128k:支持 128K 的长上下文窗口,输入和输出的总长度能达到约 131072 个 token,对于超长文本的处理更具优势,比如可以用于处理长篇小说创作、复杂的技术文档生成等对文本长度要求较高的任务。

问题 2:在 8k、32k 和 128k 之间,如何选择?

可从以下几方面考虑:

(1)根据任务文本长度

  • 8k:适用于处理短文本任务,如日常对话、简单的文本摘要、短新闻报道、简短的文案创作等,输入和输出的总长度一般在 8192 个 token 以下。

  • 32k:适合处理中等长度文本,像中篇小说章节、较长的学术论文片段、复杂一些的技术文档部分内容、多轮对话积累到一定程度但还不算特别长的情况等,通常输入输出总长度在 32768 个 token 左右。

  • 128k:用于超长文本处理,例如整部长篇小说、完整的大型技术手册、多卷本的学术著作、大量文档集合的综合分析等,其 131072 个 token 的长上下文窗口能很好地处理这类任务。

(2)基于应用场景需求:

  • 8k:在即时通讯、简单的智能客服场景中,能快速响应用户的简短提问和交流。在一些对实时性要求较高,且文本内容相对简单的交互场景中表现出色。

  • 32k:可应用于需要一定深度和连贯性的内容创作平台,如内容创作、智能写作助手等。在辅助撰写较长的文章、故事创作等方面,能更好地保持上下文的连贯性和逻辑性。还适用于一些专业领域的中度分析任务,如对专业论文的部分内容进行分析解读等。

  • 128k:在知识图谱构建、大型项目文档管理、深度学术研究等领域有优势。比如在构建知识图谱时,需要处理大量的关联文本数据;在大型项目中,对众多文档进行整体分析和知识提取等,它能一次性处理大量文本信息,减少分段处理可能带来的信息丢失和理解偏差。

(3)结合成本与效率因素:

  • 8k:价格相对较低,处理速度通常较快,在满足需求的情况下,能以较低成本快速完成任务。如果对成本较为敏感,且任务文本长度和复杂度不高,选择 8k 版本性价比更高。

  • 32k:在成本和处理能力上相对平衡,能以合理的价格处理中等难度和长度的文本任务。当 8k 版本无法满足文本长度需求,而 128k 版本又成本过高或处理效率不划算时,可选择 32k 版本。

  • 128k:单价相对较高,如果不是确实需要处理超长文本,可能会造成成本浪费。但对于那些必须处理超长文本且对结果质量要求很高,对成本不十分敏感的任务,它是最佳选择。

问题 3:1M tokens 什么意思?

“1M tokens”通常指的是 100 万个“token”。

“token”在不同的上下文中可能有不同的含义。例如,在自然语言处理中,“token”可以是单词、字符或者其他的文本单元。如果按照常见的字符来估算,假设平均每个“token”约为 4 个字符,那么 1M tokens 大约相当于 400 万个字符。

在 AI 大模型中,通常以“token”为单位对输入文本进行处理和理解,将文本转化为模型能够处理的向量表示。例如,对于句子 “I love AI”,可能会被分割为三个 token:“I”“love”“AI”。而在一些更精细的分词方式中,像中文的一些模型可能会把 “人工智能” 拆分成 “人工” 和 “智能” 两个 token,也可能将其作为一个整体 token,这取决于模型采用的分词算法和字典。


我们一定要给自己提出这样的任务:第一,学习,第二是学习,第三还是学习。 —— 列宁
0 不喜欢
说说我的看法 -
全部评论(
没有评论
关于
本网站专注于 Java、数据库(MySQL、Oracle)、Linux、软件架构及大数据等多领域技术知识分享。涵盖丰富的原创与精选技术文章,助力技术传播与交流。无论是技术新手渴望入门,还是资深开发者寻求进阶,这里都能为您提供深度见解与实用经验,让复杂编码变得轻松易懂,携手共赴技术提升新高度。如有侵权,请来信告知:hxstrive@outlook.com
公众号