
想要快速上手大語言模型(LLMs)卻被眾多版本和繁複的命名搞得頭昏腦脹?別擔心,特斯拉前 AI 總監,現任 AI 教育機構創辦人卡帕西(Andrej Karpathy)將帶領你走入大語言模型的殿堂,一步步揭開這些神秘工具的真面目,並分享他的獨家使用秘訣!
卡帕西帶你深入淺出解析大語言模型
卡帕西將大語言模型比喻為一個巨大的壓縮檔案,利用網路上的海量數據訓練而成。模型通過預測序列中的下一個詞元(tokens)來生成回答,這些知識的更新時間點是有限的。因此,模型對於網路上熱門話題的記憶更深刻,而對於冷門資訊的記憶則較不準確。
就像人類大腦一樣,大語言模型的記憶容量也是有限的。過長的對話會分散模型的注意力,降低效能,因此卡帕西建議,除非對話內容能提供重要的脈絡,否則在轉換話題時,開啟新的對話框會是比較理想的做法。
市面上有許多不同的大語言模型,例如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Bard 和 xAI 等。卡帕西會根據任務的需求,在不同的模型上嘗試相同的指令,建立自己的「模型顧問團」,找出最適合的模型。
近期興起的「推理」模型,例如 OpenAI 的 o 系列,通過強化學習提高思考能力,能夠對指令进行更长时间的思考,提升答題準確度,特別適合需要較多思考步驟的複雜問題,例如數學、程式碼難題。然而,對於簡單的問題,推理模型就顯得有些大材小用了。
大語言模型可以利用工具來獲得超越自身神經網路知識的資料,完成特定任務。目前最實用的工具之一是網路搜尋功能,讓模型代替使用者進行關鍵字搜尋、點擊和閱讀網頁,以獲取所需答案。這項功能特別適合需要更新資訊的新聞事件或較小眾的資訊。另一個值得注意的工具是「深度研究」,結合網路搜尋功能和模型推理能力,進行更深入的研究。
卡帕西也分享了在 ChatGPT 上進行個人化設定的技巧。使用者可以開啟記憶功能,讓 ChatGPT 記錄自己的喜好和背景資訊,生成更符合個人需求的回答。此外,使用者也可以在自訂 GPT 中直接寫入自己的背景資訊、希望 ChatGPT 拥有的特質和任何希望 ChatGPT 記住的個人資訊。
其他延伸主題
相關實例
優勢和劣勢的影響分析
深入分析前景與未來動向
常見問題QA
相關連結:
Share this content: