亚洲欧美日韩国产综合一区二区_亚洲偷精品国产五月丁香麻豆_精品久久久久久中文字幕202_久久国产亚洲精品美女_国产精品调教视频一区

吊打ChatGPT!GPT-4在多項考試中超過人類平均水平


【資料圖】

編譯 | 高騰
2023年3月14日,GPT-4正式發(fā)布。數(shù)據(jù)顯示,它在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上和人類相當(dāng),優(yōu)秀到令人難以置信!
根據(jù)產(chǎn)品白皮書,GPT-4在人類的多項考試中表現(xiàn)出色,包括美國律師考試(Bar)、美國法學(xué)院入學(xué)考試(LSATs)、SAT的閱讀和數(shù)學(xué)考試、GRE等。
例如,GPT-4在Bar考試?yán)飺魯×?0%的人類,在SAT閱讀考試中擊敗了93%人類,在SAT數(shù)學(xué)考試?yán)飺魯×?9%人類。
更令人驚訝的是,它的分?jǐn)?shù)幾乎是其前代GPT-3的兩倍。
OpenAI在其網(wǎng)頁上這樣總結(jié):“雖然在許多現(xiàn)實世界場景中的GPT-4能力還不及人類,但在各種專業(yè)和學(xué)術(shù)問題上和人類表現(xiàn)出相同的水平。”
OpenAI開發(fā)了一系列大型語言模型(LLM,large language model)。不久前火遍全球的ChatGPT用的語言模型是 GPT-3.5。雖然ChatGPT與GPT-4在隨意的談話中看起來很相似,但OpenAI 表示,在內(nèi)部評估中,GPT-4 產(chǎn)生正確回應(yīng)的可能性要比 GPT-3.5 高出 40%。
而且,GPT-4還是多模態(tài)的,不但可以接受文本輸入,還可接受圖像輸入。
在GPT4的發(fā)布會上,OpenAI的總裁和聯(lián)合創(chuàng)始人Greg Brockman就展示了一段它所擁有的強(qiáng)大編程能力:
首先在紙上簡單畫一個非常粗糙的草稿圖;然后拍照上傳給GPT-4,告訴它要做一個網(wǎng)站,讓它生成網(wǎng)站代碼;大約10秒鐘后,GPT-4給出了完整的網(wǎng)站代碼。
這效果應(yīng)該會讓眾多網(wǎng)站開發(fā)者感到巨大的壓力和職業(yè)危機(jī)。
雖然OpenAI發(fā)布上述統(tǒng)計數(shù)據(jù)確實令人驚嘆,但該公司也承認(rèn),GPT-4仍然存在與其前身相同的缺陷。
OpenAI在其網(wǎng)站上指出:GPT-4仍存在與早期GPT模型相似的局限性,它并不是“完全可靠的”,最新版本的GPT仍會“幻覺”事實并出現(xiàn)推斷錯誤。
“在使用LLM輸出時應(yīng)格外小心,特別是在容易出錯的語境下,具體的使用規(guī)則應(yīng)根據(jù)具體需求來確定,例如人工審查、加強(qiáng)背景理解甚至完全避免高風(fēng)險使用等規(guī)則。”OpenAI方面稱。
尤其值得關(guān)注的是,OpenAI正在加快更新迭代速度——GPT-3于2020年夏季發(fā)布;GPT 3.5于去年12月1日推出,并給世界帶來了ChatGPT;而現(xiàn)在,僅僅3個月左右,GPT-4就面世了。
雖然人們還在分析GPT-4的全部能力,但目前可以明確的一點是,AI領(lǐng)域有著不斷增長的發(fā)展動力和廣闊的市場前景。
如果有人想要體驗GPT-4,除了申請付費(fèi)版應(yīng)用,也可以免費(fèi)體驗。因為微軟已經(jīng)確認(rèn),新版本Bing正在GPT-4上運(yùn)行。如果在過去幾周內(nèi)你使用過新的Bing預(yù)覽版,那么你已經(jīng)體驗過這個強(qiáng)大模型的早期版本。
原文鏈接:
https://futurism.com/the-byte/gpt-4-exam-scores
GPT-4白皮書:
https://cdn.openai.com/papers/gpt-4.pdf

標(biāo)簽:

關(guān)閉
新聞速遞