Gemini 的數據分析能力並不像 Google 宣稱的那樣好 | TechCrunch =============== [跳到 [![Image 1: TechCrunch [![Image * 搜索 * * * * * * * * * * * * * [創業公司 * 更多 * [![Image 3: TechCrunch * 關閉子菜單 * * [雲端 * * * * * * * * * * * * * [合作夥伴 * [Crunchboard * [聯繫我們 Gemini 的數據分析能力並不像 Google 宣稱的那樣好 ================================================================= [Kyle 下午3:30 PDT • 2024年6月29日 ![图像4: 在这张照片插图中,Gemini的标志和Gemini网站上的欢迎信息显示在两个 **图像 ** Lorenzo Di Cola / NurPhoto / Getty Images Google 旗舰生成式 AI 模型 Gemini 1.5 Pro 和 1.5 的一个卖点是它们可以处理和分析的数据量。在新闻发布会和演示中,Google 反复声称这些模型能够通过它们的“长期上下文”完成以前不可能的任务,比如总结数百页的文档或在电影镜头中进行搜索。但是新的研究表明,这些模型实际上并不擅长这些任务。两项研究调查了 Google 的 Gemini 模型和其他模型在处理大量数据(如《战争与和平》长度的作品)时的表现。研究发现,Gemini 1.5 Pro 和 1.5 Flash 在回答关于大型数据集的问题时存在困难;在一系列基于文档的测试中,这些模型只有40%到50%的准确率。 “虽然 Gemini 1.5 Pro 等模型在技术上可以处理长期上下文,但我们发现很多情况表明这些模型实际上并没有真正‘理解’内容,” 马尔塞娜·卡尔平斯卡(Marzena Karpinska)告诉 TechCrunch,她是 UMass Amherst 的一名博士后研究员,也是其中一项研究的合著者。 Gemini 的上下文窗口不足 ———————————- 模型的上下文窗口是指模型在生成输出(例如额外文本)之前所考虑的输入数据(例如文本)。一个简单的问题,比如“谁赢得了2020年美国总统选举”,可以作为上下文,一部电影剧本、节目或音频剪辑也可以作为上下文。随着上下文窗口的增长,适应其中的文档的大小也会增加。Gemini 的最新版本可以将多达200万个标记作为上下文输入。(“标记”是原始数据的细分部分,比如单词“fantastic”中的音节“fan”、“tas”和“tic”。)这相当于大约140万个单词、两个小时的视频或22个小时的音频——是目前市面上可用模型中最大的上下文范围。 今年早些时候的一个简报会上,Google 展示了几个预先录制的演示,旨在展示 Gemini 的长期上下文能力的潜力。其中一个演示是让 Gemini 1.5 Pro 在阿波罗11号登月电视转播的剧本(约402页)中搜索包含笑话的引用,并找到一个看起来类似铅笔素描的场景。Google DeepMind 的研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)在主持演示时将该模型描述为“神奇”。他说:“\[1.5 Pro\] 在每一页、每个单词上执行这种推理任务。”这可能有些夸张。在前面提到的评估这些功能的研究之一中,Karpinska 和 Allen Institute for AI 和 Princeton 的研究人员要求模型评估用英语写的小说中的真假陈述。研究人员选择了最近的作品,以防止模型依赖先前的知识来“作弊”,并在陈述中穿插了对特定细节和情节的引用,如果没有完整阅读作品是无法理解的。给定一个陈述,比如“通过使用她作为 Apoth 的技能,Nusis 能够反向工程出由 Rona 的木箱中找到的试剂键打开的传送门的类型”,Gemini 1.5 Pro 和 1.5 Flash——在消化了相关的书籍之后——必须判断该陈述是真还是假,并解释他们的推理。 ![图像 **图像 ** UMass Amherst 测试了一本约26万字(~5
Share this content: