亚洲精品一区二区三,图片区小说区亚洲,日韩高清二区

據上游新聞微信公眾號：“給娃兒輔導奧數題，問了多個AI平臺，每個答案都不一樣。”

近日，重慶家長劉先生向上游新聞記者反映：同一道奧數題，百度、阿里云、今日頭條等國內4個主流AI大模型平臺，竟然給出了不同的答案。

3月11日，上游新聞記者從百度客服及人工智能專家處了解到，人工智能大模型平臺并不是題庫，數據模型一直在學習完善中，尤其是在數學和邏輯方面。

同一道奧數題，劉先生得到結果為30分鐘、7分鐘兩種不同答案。/受訪者供圖

劉先生告訴上游新聞記者，自己的孩子上小學四年級，最近他在輔導孩子做奧數題，但自己并非理工科出身，感覺有些困難。因為他從事影視制作方面的工作，經常使用人工智能工具輔助，就想到使用類似平臺來幫忙。

劉先生將一道題輸入經常使用的百度的文心一言、阿里云的通義千問、今日頭條的豆包等4個主流人工智能大模型平臺進行測試。具體題目為：一天，萱萱到離自己家4000米的表哥家去玩。早晨7:20，萱萱從家出發向表哥家走去，每分鐘行60米，同時表哥騎車從家出發來接她。表哥到萱萱家后才發現萱萱已經走了，又立即返回去追，表哥騎車每分鐘行260米。當表哥追上萱萱后，帶著她一起回表哥家，這時騎車速度為每分鐘175米。請問：當他們到達表哥家時，還差幾分鐘就到8點?

“當時兩個（AI平臺）列出了推理過程，均給出了‘7分鐘’的答案，應該是對的。我覺得算得有點復雜，就又讓AI用適合小學五年級的算法再算一次，結果答案自此之后就不一致了。”在劉先生提供的截圖中，上游新聞記者看到，有的平臺會給出“30分鐘”的答案。

上游新聞記者測試時，要求AI重新計算，有的AI甚至給出了“還差-23分鐘就到8點”的離譜答案。劉先生感覺很困惑：“是不是AI自己不敢保證是正確的，多問幾遍它自己就把自己繞暈了，越回答越錯？”

記者得到了一個“-23分鐘”的答案。/截圖

11日，上游新聞記者致電文心一言會員服務熱線詢問此事，工作人員表示，“目前的系統回復不是每次都一模一樣的，它主要針對您的提問和您輸入問題的一個復雜性程度進行回復。如果是它輸出的結果是不滿意或者是有誤的，您可以及時點踩反饋，幫助文心一言進步。”

工作人員表示，反饋提交之后，后臺工作人員也會去不斷優化模型的一個能力，“因為AI生成的結果，是根據您輸入的一個需求和提示詞提供的，它是自動識別和理解您的一個意圖和需求，并提供相關的文本圖片，目前模型能力確實也在不斷地發展，需要時間?！?/p>

無獨有偶。在上海從事AI類自媒體的白先生（化名），也用孩子的數學題測試了國外的GPT4、Claude和Google Bard等AI平臺以及國內多個主流AI平臺，也發現了類似問題，甚至有的AI對題意都出現了理解錯誤。

一位國內人工智能方面的專家告訴上游新聞記者，目前主流的AI大模型平臺并不是數學題庫，“大數據模型一直在學習完善中，尤其是在數學和邏輯方面，所以很多產品對話框旁邊都有點贊點踩的圖標。通過這種方式反饋問題，模型才會學習完善。如果家長想要更精準的答案，更推薦給孩子使用學習機一類的AI產品。”

該專家表示，“即便是目前國際上一些數學、化學、物理等方面的專業性做題AI，也很難拿到奧賽滿分?！?/p>

據參考消息，今年1月，美國一個名為阿爾法幾何（AlphaGeometry）的AI系統，能做出國際數學奧林匹克（IMO）的30道幾何題中的25道，已經接近人類奧數金牌得主水平，該突破性成果甚至登上了著名的《自然》（Nature）雜志。

據報道，美國亞利桑那州立大學副教授沙卡里安，在2023年1月初用1000個數學問題對ChatGPT進行了測試，結果發現準確率只有60%，低于一般中學生的準確率。

牛津大學機器學習研究員西蒙·弗萊德爾，曾在一項研究中讓ChatGPT做了一系列數學任務，包括簡單的計算、數學證明題、搜索數學文獻和奧數題，結果也發現，ChatGPT在大多數任務上表現為“不及格”，在需要多層邏輯推導的題目上表現尤為糟糕。而最具迷惑性的是，哪怕ChatGPT做錯數學題，也會非常“迷之自信”地給出看起來權威的錯誤答案。

專家表示，AI的語言模型目標在于處理和理解人類的語言，更擅長生成類似人類的對話，而不是為了成為完美的數學計算器，“AI作為一種工具，只適用于那些最懂數學的人，而不是最不了解數學的人。在借鑒AI給出的答案之前，一定要加以驗證，不要過于依賴它?！?/p>