研究揭示大型語言模型學術寫作隱憂:引用連結錯誤頻繁

一項由UCLA研究人員於2025年8月7日在學術預印本平台arXiv上發表的論文《ArXivBench:何時應避免使用ChatGPT進行學術寫作》,深入探討大型語言模型(LLMs)在學術寫作中生成準確引用的可靠性。研究指出,儘管LLMs展現強大推理能力,卻頻繁生成錯誤的arXiv連結或引用不存在的論文,嚴重影響研究貢獻的正確歸屬。該研究引入「arXivBench」基準測試,評估LLMs在八個主要學科領域的表現,發現不同學科間的準確性差異顯著,其中Claude-3.5-Sonnet在生成相關且準確回應方面表現較佳。這項研究為評估LLMs在科學情境下的可靠性提供了標準工具,強調學術界在使用AI輔助寫作時需謹慎。

本文由AI協助編輯,詳細內容來自:ArXiv
https://arxiv.org/abs/2504.10496
#全球觀測
News Image

Post a Comment

較新的 較舊