当前位置：首页 >新闻动态 >新媒体服务

长文本才能似乎成为象征着大模型厂商出手的又一新“标配”

2023-10-14

长文本才能似乎成为象征着大模型厂商出手的又一新“标配”。

国外，OpenAI经过三次晋级，GPT-3.5上下文输入长度从4千增长至1.6万token，GPT-4从8千增长至3.2万token（token：模型输入和输出的基本单位）；OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token；LongLLaMA将上下文的长度扩展到25.6万token，甚至更多。

国内，光锥智能得悉，大模型草创公司月之暗面发布智能帮手产品Kimi Chat可支持输入20万汉字，按OpenAI的核算规范约为40万token；港中文贾佳亚团队联合MIT发布的新技能LongLoRA，可将7B模型的文本长度拓宽到10万token，70B模型的文本长度拓宽到3.2万token。

据光锥智能不完全统计，现在，国内外已有OpenAI、Anthropic、Meta、月之暗面等一大批顶级的大模型技能公司、组织和团队将对上下文长度的拓宽作为更新晋级的重点。

毫无例外，这些国内外大模型公司或组织都是资本商场热捧的“当红炸子鸡”。

OpenAI自不必说，大模型Top级明星研讨组织，斩获出资近120亿美元，拿走了美国生成式AI范畴60%的融资；Anthropic近期风头正盛，接连被曝亚马逊、谷歌出资消息，前后相差不过几天，估值有望到达300亿美元，较3月份翻五番；成立仅半年的月之暗面出道即巅峰，一成立就迅速完结首轮融资，取得红杉、真格、今天资本、monolith等一线VC的押注，商场估值已超过3亿美元，然后，红杉孵化式支持，循序完结两轮合计近20亿元融资。

大模型公司铆足劲霸占长文本技能，上下文本长度扩展100倍意味着什么？

表面上看是可输入的文本长度越来越长，阅览才能越来越强。

若将抽象的token值量化，GPT-3.5的4000 token最多只能输入3000个英文单词或者2000个汉字，连一篇公众号文章都难以读完；3.2万token的GPT-4到达了阅览一篇短篇小说的程度；10万token的Claude可输入约7.5万个单词，仅22秒就可以阅览完一本《了不得的盖茨比》；40万token的Kimi Chat支持输入20万汉字，阅览一本长篇巨著。

另一方面，长文本技能也在推动大模型更深层次的产业落地，金融、司法、科研等精艰深的范畴里，长文档摘要总结、阅览理解、问答等才能是其基本，也是亟待智能化晋级的练兵场。

参考上一轮大模型厂商“卷”参数，大模型参数不是越大就越好，各家都在通过尽可能地扩展参数找到大模型性能最优的“临界点”。同理，作为共同决定模型作用的另一项目标——文本长度，也不是越长，模型作用就越好。

有研讨已经证明，大模型可以支持更长的上下文输入与模型作用更好之间并不能直接画上等号。模型可以处理的上下文长度不是真正的关键点，更重要的是模型对上下文内容的运用。

不过，就现在而言，国内外对于文本长度的探索还远没有到达“临界点”状态。国内外大模型公司还在马不停蹄地打破，40万token或许也还仅仅开始。

一、为什么要“卷”长文本？

月之暗面创始人杨植麟告诉光锥智能，在技能研发过程中，其团队发现正是由于大模型输入长度受限，才造成了许多大模型应用落地的窘境，这也是月之暗面、OpenAI等一众大模型公司在当下聚焦长文本技能的原因所在。

比如在虚拟人物场景中，由于长文本才能不足，虚拟人物会忘掉重要信息；基于大模型开发剧本杀类游戏时，输入prompt长度不行，则只能减少规则和设定，然后无法到达预期游戏作用；在法律、银行等高精度专业范畴，深度内容分析、生成常常受挫。

在通往未来Agent和AI原生应用的道路上，长文本仍然扮演着重要的人物，Agent使命运转需要依托历史信息进行新的规划和决策，AI原生应用需要依托上下文本来保持连接、个性化的用户体验。

杨植麟认为，无论是文字、语音还是视频，对海量数据的无损压缩可以实现高程度的智能。“无损压缩或大模型研讨的发展曾极度依赖‘参数为王’模式，该模式下压缩比直接与参数量相关。但咱们认为无损压缩比或大模型的上限是由单步才能和执行的步骤数共同决定的。其间，单步才能与参数量呈正相关，而执行步骤数即上下文长度”。

上一篇：在长对话场景中，对话机器人还能够完成角色扮演

下一篇：取得多轮融资的小红书开端大举发力电商事务