ChatGPT答數學題正確率從98％驟降至2％

2023/07/21 13:43

研究發現，OpenAI的ChatGPT發布的最新模型GPT-4，在某些問題上的表現，比在3月時還要來得差。（路透）研究發現，OpenAI的ChatGPT發布的最新模型GPT-4，在某些問題上的表現，比在3月時還要來得差。（路透）

〔財經頻道／綜合報導〕人工智慧（AI）是今年科技行業最熱門的事物，不過發展似乎進入了瓶頸期，研究發現，OpenAI的ChatGPT發布的最新模型GPT-4，在某些問題上的表現，竟比在3月時還要來得差，其中在回答基礎數學問題的正確率，更是從98%下降到只剩2%。

根據史丹佛大學的1項研究發現，ChatGPT在執行某些任務的能力存在劇烈波動，該研究調查了GPT-3.5和GPT-4這2個模型，其中GPT-4在解決基礎數學問題上存在明顯變化。

研究人員發現，GPT-4在3月被問到17077是否為質數的問題時，回答正確率來到97.6%，不過到了6月，同樣問題的回答正確率掉到只剩2.4%。與此同時，GPT-3.5的狀況完全相反，3月時對同一問題的正確率僅為7.4%，6月時則來到86.8%。

當研究人員要求ChatGPT寫code或是進行視覺推理測試時，也出現了類似的不同結果。3月和6月、以及2個模型的巨大差異，不僅反映出了模型在執行特定任務的準確性，也反映了模型在某一方面的變化，對其他部份產生了不可預測的影響。

史丹佛大學計算機科學教授James Zuo表示，當我們調整大型語言模型，以提高其在某些任務上的性能時，實際上可能會產生很多意想不到的後果，這實際上可能會損害該模型在其他任務上的性能。

James Zuo表示，模型該如何回答問題，存在各種有趣的相關依賴性，這可能導致了我們觀察到的一些惡化的行為。

由於GPT-4沒有開源，James Zuo表示，因此我們也不知道模型本身、神經架構或是訓練數據哪個環節，產生了怎麼樣的變化。

不用抽不用搶現在用APP看新聞保證天天中獎　點我下載APP　按我看活動辦法

ChatGPT答數學題 正確率從98％驟降至2％