Google旗艦AI模型Gemini數據分析能力遭質疑,表現不如預期

Featured Image
Gemini 的數據分析能力並不像 Google 宣稱的那樣好 | TechCrunch =============== [跳到 [![Image 1: TechCrunch [![Image * 搜索 * * * * * * * * * * * * * [創業公司 * 更多 * [![Image 3: TechCrunch * 關閉子菜單 * * [雲端 * * * * * * * * * * * * * [合作夥伴 * [Crunchboard * [聯繫我們 Gemini 的數據分析能力並不像 Google 宣稱的那樣好 ================================================================= [Kyle 下午3:30 PDT • 2024年6月29日 ![图像4: 在这张照片插图中,Gemini的标志和Gemini网站上的欢迎信息显示在两个 **图像 ** Lorenzo Di Cola / NurPhoto / Getty Images Google 旗舰生成式 AI 模型 Gemini 1.5 Pro 和 1.5 的一个卖点是它们可以处理和分析的数据量。在新闻发布会和演示中,Google 反复声称这些模型能够通过它们的“长期上下文”完成以前不可能的任务,比如总结数百页的文档或在电影镜头中进行搜索。但是新的研究表明,这些模型实际上并不擅长这些任务。两项研究调查了 Google 的 Gemini 模型和其他模型在处理大量数据(如《战争与和平》长度的作品)时的表现。研究发现,Gemini 1.5 Pro 和 1.5 Flash 在回答关于大型数据集的问题时存在困难;在一系列基于文档的测试中,这些模型只有40%到50%的准确率。 “虽然 Gemini 1.5 Pro 等模型在技术上可以处理长期上下文,但我们发现很多情况表明这些模型实际上并没有真正‘理解’内容,” 马尔塞娜·卡尔平斯卡(Marzena Karpinska)告诉 TechCrunch,她是 UMass Amherst 的一名博士后研究员,也是其中一项研究的合著者。 Gemini 的上下文窗口不足 ———————————- 模型的上下文窗口是指模型在生成输出(例如额外文本)之前所考虑的输入数据(例如文本)。一个简单的问题,比如“谁赢得了2020年美国总统选举”,可以作为上下文,一部电影剧本、节目或音频剪辑也可以作为上下文。随着上下文窗口的增长,适应其中的文档的大小也会增加。Gemini 的最新版本可以将多达200万个标记作为上下文输入。(“标记”是原始数据的细分部分,比如单词“fantastic”中的音节“fan”、“tas”和“tic”。)这相当于大约140万个单词、两个小时的视频或22个小时的音频——是目前市面上可用模型中最大的上下文范围。 今年早些时候的一个简报会上,Google 展示了几个预先录制的演示,旨在展示 Gemini 的长期上下文能力的潜力。其中一个演示是让 Gemini 1.5 Pro 在阿波罗11号登月电视转播的剧本(约402页)中搜索包含笑话的引用,并找到一个看起来类似铅笔素描的场景。Google DeepMind 的研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)在主持演示时将该模型描述为“神奇”。他说:“\[1.5 Pro\] 在每一页、每个单词上执行这种推理任务。”这可能有些夸张。在前面提到的评估这些功能的研究之一中,Karpinska 和 Allen Institute for AI 和 Princeton 的研究人员要求模型评估用英语写的小说中的真假陈述。研究人员选择了最近的作品,以防止模型依赖先前的知识来“作弊”,并在陈述中穿插了对特定细节和情节的引用,如果没有完整阅读作品是无法理解的。给定一个陈述,比如“通过使用她作为 Apoth 的技能,Nusis 能够反向工程出由 Rona 的木箱中找到的试剂键打开的传送门的类型”,Gemini 1.5 Pro 和 1.5 Flash——在消化了相关的书籍之后——必须判断该陈述是真还是假,并解释他们的推理。 ![图像 **图像 ** UMass Amherst 测试了一本约26万字(~5

Share this content:

熱門内容

  • AI資訊
  • AI工具
  • AI繪圖指令
  • 食譜
  • ai生成圖片

    Introduction MyEdit  Midjourney DALL·E3 Stable Diffusio

    Read more


  • Janitor Ai

    Introduction Platform Overview 1 Account Terminati

    Read more


  • Stable Video Diffusion 穩定的圖片轉動畫Demo

    Stable Video Diffusion 穩定的圖片轉動畫Demo

    Stable Video Diffusion能讓你用一張圖片變成動畫. 限制 Share this conte

    Read more


  • HappyAccidents

    HappyAccidents

    HappyAccidents是一個提供預先訓練的AI模型庫的平台,讓使用者能夠輕鬆生成圖像而無需手動下載和上傳

    Read more


  • 文心一格

    文心一格

    「文心一格」是百度推出的一個基於文心大模型能力的AI藝術和創意輔助平台。該平台於2022年8月正式發布,利用百

    Read more


  • Ai Gallery

    Ai Gallery

    Ai Gallery為用戶提供了一個強大的工具,利用人工智慧技術根據用戶輸入提示產生令人驚嘆的圖像。但是要強調

    Read more


  • Graviti Diffus

    Graviti Diffus

    Graviti Diffus 是一個免部署的在線平台,專注於提供穩定擴散(Stable Diffusion)的

    Read more


  • Aitubo

    Aitubo

    Aitubo是一個AI創作工具,它提供了方便且強大的功能,讓使用者能夠透過文本和照片輸入來生成藝術作品。 Ai

    Read more


  • SeaArt

    SeaArt

    SeaArt AI是一款免費且強大的AI繪畫工具,它能夠幫助使用者無需專業技能,輕鬆生成高品質的繪畫作品。 S

    Read more


  • Diffusion Art

    Diffusion Art

    DiffusionArt是一個精選的開源AI藝術模型庫,專注於藝術、動漫和照片逼真圖像的生成,涵蓋數十個類別。

    Read more


  • 暖心薑汁撞奶

    暖心薑汁撞奶簡介:寒冬來一杯暖心薑汁撞奶,暖胃驅寒,口感滑嫩,甜辣交織,是港澳台地區秋冬季節的經典甜品。參考薑

    Read more


  • 零失敗雲耳蒸雞

    零失敗雲耳蒸雞簡介:一道簡單又健康的家常菜,利用蒸的方式保留雞肉的原汁原味,搭配雲耳增加口感層次,老少皆宜。準

    Read more


  • 清酒煮蜆

    清酒煮蜆簡介:這道菜以新鮮蜆為主要食材,用清酒烹煮,帶出蜆的鮮甜,簡單易做,是佐酒佳品。參考宋芝齡的食譜,選用

    Read more


  • 夏日清涼綠豆薏仁湯

    夏日清涼綠豆薏仁湯簡介:這道湯品結合綠豆的消暑解毒和薏仁的祛濕美白功效,非常適合港澳台地區炎熱潮濕的夏季飲用,

    Read more


  • 清酒煮蜆

    清酒煮蜆簡介:這道菜以新鮮蜆為主要食材,用清酒烹煮,帶出蜆的鮮甜,簡單易做,是佐酒佳品。準備時間:5分鐘烹飪時

    Read more


  • 夏日芒果軟芝士撻

    夏日芒果軟芝士撻簡介:這款甜點結合了香甜的芒果和濃郁的軟芝士,口感豐富,清新爽口,是夏日消暑的絕佳選擇,非常適

    Read more


  • 夏日清涼綠豆薏仁湯

    夏日清涼綠豆薏仁湯簡介:這道湯品結合綠豆的消暑解毒和薏仁的祛濕美白功效,非常適合港澳台地區炎熱潮濕的夏季飲用,

    Read more


  • 西洋菜陳腎潤肺湯

    西洋菜陳腎潤肺湯簡介:這道湯品結合西洋菜的清熱解毒、陳腎的滋潤以及陳皮的健脾化痰功效,非常適合乾燥的秋冬季節,

    Read more


  • 懷舊芋頭糕

    懷舊芋頭糕簡介:這道芋頭糕鹹香軟糯,充滿懷舊風味,是港澳台地區常見的點心,也是家常必備的美味。自家製作,健康又

    Read more


  • 沙嗲牛肉麵

    沙嗲牛肉麵簡介:在家也能輕鬆復刻茶餐廳風味的沙嗲牛肉麵!香濃的沙嗲湯底搭配嫩滑的牛肉片,絕對能滿足你的味蕾。準

    Read more