Google旗艦AI模型Gemini數據分析能力遭質疑,表現不如預期

Featured Image
Gemini 的數據分析能力並不像 Google 宣稱的那樣好 | TechCrunch =============== [跳到 [![Image 1: TechCrunch [![Image * 搜索 * * * * * * * * * * * * * [創業公司 * 更多 * [![Image 3: TechCrunch * 關閉子菜單 * * [雲端 * * * * * * * * * * * * * [合作夥伴 * [Crunchboard * [聯繫我們 Gemini 的數據分析能力並不像 Google 宣稱的那樣好 ================================================================= [Kyle 下午3:30 PDT • 2024年6月29日 ![图像4: 在这张照片插图中,Gemini的标志和Gemini网站上的欢迎信息显示在两个 **图像 ** Lorenzo Di Cola / NurPhoto / Getty Images Google 旗舰生成式 AI 模型 Gemini 1.5 Pro 和 1.5 的一个卖点是它们可以处理和分析的数据量。在新闻发布会和演示中,Google 反复声称这些模型能够通过它们的“长期上下文”完成以前不可能的任务,比如总结数百页的文档或在电影镜头中进行搜索。但是新的研究表明,这些模型实际上并不擅长这些任务。两项研究调查了 Google 的 Gemini 模型和其他模型在处理大量数据(如《战争与和平》长度的作品)时的表现。研究发现,Gemini 1.5 Pro 和 1.5 Flash 在回答关于大型数据集的问题时存在困难;在一系列基于文档的测试中,这些模型只有40%到50%的准确率。 “虽然 Gemini 1.5 Pro 等模型在技术上可以处理长期上下文,但我们发现很多情况表明这些模型实际上并没有真正‘理解’内容,” 马尔塞娜·卡尔平斯卡(Marzena Karpinska)告诉 TechCrunch,她是 UMass Amherst 的一名博士后研究员,也是其中一项研究的合著者。 Gemini 的上下文窗口不足 ———————————- 模型的上下文窗口是指模型在生成输出(例如额外文本)之前所考虑的输入数据(例如文本)。一个简单的问题,比如“谁赢得了2020年美国总统选举”,可以作为上下文,一部电影剧本、节目或音频剪辑也可以作为上下文。随着上下文窗口的增长,适应其中的文档的大小也会增加。Gemini 的最新版本可以将多达200万个标记作为上下文输入。(“标记”是原始数据的细分部分,比如单词“fantastic”中的音节“fan”、“tas”和“tic”。)这相当于大约140万个单词、两个小时的视频或22个小时的音频——是目前市面上可用模型中最大的上下文范围。 今年早些时候的一个简报会上,Google 展示了几个预先录制的演示,旨在展示 Gemini 的长期上下文能力的潜力。其中一个演示是让 Gemini 1.5 Pro 在阿波罗11号登月电视转播的剧本(约402页)中搜索包含笑话的引用,并找到一个看起来类似铅笔素描的场景。Google DeepMind 的研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)在主持演示时将该模型描述为“神奇”。他说:“\[1.5 Pro\] 在每一页、每个单词上执行这种推理任务。”这可能有些夸张。在前面提到的评估这些功能的研究之一中,Karpinska 和 Allen Institute for AI 和 Princeton 的研究人员要求模型评估用英语写的小说中的真假陈述。研究人员选择了最近的作品,以防止模型依赖先前的知识来“作弊”,并在陈述中穿插了对特定细节和情节的引用,如果没有完整阅读作品是无法理解的。给定一个陈述,比如“通过使用她作为 Apoth 的技能,Nusis 能够反向工程出由 Rona 的木箱中找到的试剂键打开的传送门的类型”,Gemini 1.5 Pro 和 1.5 Flash——在消化了相关的书籍之后——必须判断该陈述是真还是假,并解释他们的推理。 ![图像 **图像 ** UMass Amherst 测试了一本约26万字(~5

Share this content:

熱門内容

  • AI資訊
  • AI工具
  • AI繪圖指令
  • 食譜
  • ai生成圖片

    Introduction MyEdit  Midjourney DALL·E3 Stable Diffusio…

    Read more


  • Janitor Ai

    Introduction Platform Overview 1 Account Terminati…

    Read more


  • Stable Video Diffusion 穩定的圖片轉動畫Demo

    Stable Video Diffusion 穩定的圖片轉動畫Demo

    Stable Video Diffusion能讓你用一張圖片變成動畫. 限制 Share this conte…

    Read more


  • HappyAccidents

    HappyAccidents

    HappyAccidents是一個提供預先訓練的AI模型庫的平台,讓使用者能夠輕鬆生成圖像而無需手動下載和上傳…

    Read more


  • 文心一格

    文心一格

    「文心一格」是百度推出的一個基於文心大模型能力的AI藝術和創意輔助平台。該平台於2022年8月正式發布,利用百…

    Read more


  • Ai Gallery

    Ai Gallery

    Ai Gallery為用戶提供了一個強大的工具,利用人工智慧技術根據用戶輸入提示產生令人驚嘆的圖像。但是要強調…

    Read more


  • Graviti Diffus

    Graviti Diffus

    Graviti Diffus 是一個免部署的在線平台,專注於提供穩定擴散(Stable Diffusion)的…

    Read more


  • Aitubo

    Aitubo

    Aitubo是一個AI創作工具,它提供了方便且強大的功能,讓使用者能夠透過文本和照片輸入來生成藝術作品。 Ai…

    Read more


  • SeaArt

    SeaArt

    SeaArt AI是一款免費且強大的AI繪畫工具,它能夠幫助使用者無需專業技能,輕鬆生成高品質的繪畫作品。 S…

    Read more


  • Diffusion Art

    Diffusion Art

    DiffusionArt是一個精選的開源AI藝術模型庫,專注於藝術、動漫和照片逼真圖像的生成,涵蓋數十個類別。…

    Read more


  • 夏日清新苦瓜黃豆雞肉沙拉

    夏日清新苦瓜黃豆雞肉沙拉

    夏日清新苦瓜黃豆雞肉沙拉簡介:這道沙拉結合了苦瓜的清苦、黃豆的營養、雞肉的蛋白質和清爽的蔬菜,搭配特調醬汁,非…

    Read more


  • 夏至養生薏米雞肉飯

    夏至養生薏米雞肉飯

    夏至養生薏米雞肉飯簡介:夏至時節,濕熱加重,這款薏米雞肉飯利用薏米祛濕健脾,搭配雞肉補充蛋白質,做法簡單,營養…

    Read more


  • 夏至清潤冬瓜盅

    夏至清潤冬瓜盅

    夏至清潤冬瓜盅簡介:這道菜以冬瓜為主料,加入清熱祛濕的食材,湯清味鮮,非常適合夏至時節食用,能幫助清熱解毒,健…

    Read more


  • 夏日彩椒蔬菜快炒

    夏日彩椒蔬菜快炒

    夏日彩椒蔬菜快炒簡介:這道菜以多種色彩鮮豔的蔬菜為主,快炒的方式保留了蔬菜的爽脆口感和豐富營養,是一道清爽開胃…

    Read more


  • 懷舊砵仔糕

    懷舊砵仔糕

    懷舊砵仔糕簡介:這道傳統港式小食,口感彈牙、香甜而不膩,是許多人的童年美好回憶。 現在在家也能輕鬆製作,重溫經…

    Read more


  • 颱風天暖心料理:電飯煲薏米雞肉飯

    颱風天暖心料理:電飯煲薏米雞肉飯

    電飯煲薏米雞肉飯簡介:颱風天不想出門?這道電飯煲薏米雞肉飯簡單方便,同時兼顧去濕健脾,營養豐富,暖心又暖胃!準…

    Read more


  • 懷舊砵仔糕

    懷舊砵仔糕

    懷舊砵仔糕簡介:這道傳統港式小食,口感Q彈,甜而不膩,是許多人童年的美好回憶。準備時間:20分鐘烹飪時間:30…

    Read more


  • 夏日清爽馬蹄蘆筍蔬菜碗

    夏日清爽馬蹄蘆筍蔬菜碗

    夏日清爽馬蹄蘆筍蔬菜碗簡介:這道蔬菜碗以馬蹄、蘆筍等多種蔬菜為主要食材,搭配清爽的醬汁,口感豐富,清熱解暑,非…

    Read more


  • 萬用紫蘇豆豉醬拌麵

    萬用紫蘇豆豉醬拌麵

    萬用紫蘇豆豉醬拌麵簡介:這道麵食以自家製的萬用紫蘇豆豉醬為靈魂,香氣濃郁,拌麵蒸海鮮都非常適合。簡單快捷,非常…

    Read more


  • 惹味茄子煲

    惹味茄子煲

    惹味茄子煲簡介:這道菜以茄子為主角,搭配鹹香的肉末和濃郁的醬汁,經過砂鍋煲製,茄子軟糯入味,香味四溢,是夏日開…

    Read more