當(dāng)?shù)貢r(shí)間13日,美國OpenAI公司展示了最新版本ChatGPT-4o的新技能:與使用者展開語音對話、識別圖像並展開討論、翻譯。據(jù)路透社報(bào)道,相比先前版本,GPT-4o與使用者對話基本無延遲,和人類反應(yīng)速度類似。即使對話中途被打斷,也能繼續(xù)下去。這些都是實(shí)現(xiàn)逼真語音對話的標(biāo)誌,也是當(dāng)前眾多AI語音助手普遍面臨的技術(shù)難點(diǎn)。在BBC看來,GPT-4o能夠結(jié)合文本、音頻和圖像內(nèi)容瞬間作出反應(yīng),目前在競爭中仍處於領(lǐng)先地位。
邁向更自然人機(jī)互動(dòng) 能回應(yīng)真人情緒
在當(dāng)天網(wǎng)絡(luò)直播的展示中,GPT-4o這款生成式AI工具利用其視覺和語音能力,指導(dǎo)演示者在紙上逐步解出一道方程式,而不是直接給出答案。它還展示了英語與意大利語互譯、用自拍照片識別情緒等能力。新模型將會免費(fèi)對外開放,而付款費(fèi)用可獲得更多限額。
OpenAI在直播時(shí)演示,用戶與ChatGPT對話時(shí)可立即獲得回應(yīng),並且能夠中途打斷ChatGPT的說話。GPT-4o能夠利用其視像和語音功能與研究人員對話,解決紙上的數(shù)學(xué)方程式。另一展示中,GPT-4o模型展現(xiàn)即時(shí)語言翻譯能力,亦能對研究人員的情緒作出回應(yīng)。
「GPT-4o」是「GPT-4」模型的更新版本,當(dāng)中的「o」代表「omni」,代表「全部」。新模型將免費(fèi)使用,原因是比過去的模型更具成本效益,並提供大量過往曾收費(fèi)的功能,例如線上搜尋、語音對話等,不過設(shè)有用量限制,當(dāng)?shù)竭_(dá)上限時(shí),會自動(dòng)切換到「GPT-3.5」。
OpenAI稱今次更新,是邁向更自然人機(jī)互動(dòng)的一步,因?yàn)樵贕PT-4o推出前,用戶使用語音模式與ChatGPT對話,GPT-3.5的平均延遲2.8秒,GPT-4延遲5.4秒。相反,GPT-4o可快至232毫秒內(nèi)對音頻輸入作反應(yīng),與人類在對話中的反應(yīng)時(shí)間相近,令人類與聊天機(jī)械人的對話交流,變得更自然。
OpenAI行政總裁奧特曼發(fā)文形容,與電腦的交流從未如此自然過,就像是在電影中出現(xiàn)過的AI一樣。OpenAI首席技術(shù)官穆拉蒂解釋,之前的模型是語音、文字和視覺協(xié)同工作,導(dǎo)致大量延遲,破壞沉浸式體驗(yàn),GPT-4o則將三者整合到同一個(gè)模型中,以消除所有延遲。
OpenAI希望以GPT-4o在激烈的AI技術(shù)競爭中保持領(lǐng)先。該公司2022年發(fā)布ChatGPT後,短時(shí)間內(nèi)每月活躍用戶增至1億。然而,研究機(jī)構(gòu)西米勒網(wǎng)絡(luò)公司的數(shù)據(jù)顯示,去年以來ChatGPT用戶人數(shù)呈現(xiàn)過山車式變化,近期才重回去年5月巔峰時(shí)期的水平。
谷歌推出聊天機(jī)械人Gemini應(yīng)對
另一方面,谷歌和OpenAI之間激烈的競爭態(tài)勢愈演愈烈。谷歌13日亦發(fā)布了一段視頻,展示了疑似經(jīng)過升級的Gemini聊天機(jī)械人。視頻中,Gemini以同時(shí)實(shí)時(shí)處理來自視頻和語音的輸入。
視頻展示了Gemini在一臺Pixel手機(jī)上流暢地處理實(shí)時(shí)視頻和語音提問,並準(zhǔn)確地提供信息。當(dāng)被問到正在進(jìn)行的布置工作時(shí),Gemini正確識別出這是為一個(gè)重要活動(dòng)做的準(zhǔn)備。整個(gè)對話過程自然流暢,Gemini還會詢問用戶注意到的細(xì)節(jié),成功識別出了該活動(dòng)為谷歌I/O開發(fā)者大會,並進(jìn)行了簡要介紹。
此外,微軟當(dāng)?shù)貢r(shí)間13日亦宣布向法國投資40億歐元,用於擴(kuò)展在當(dāng)?shù)氐碾?yún)端及AI業(yè)務(wù),並將會資助法國的AI技術(shù)及科技工業(yè),計(jì)劃把2.5萬塊最先進(jìn)的塊圖像處理器帶進(jìn)法國,預(yù)計(jì)至2027年可訓(xùn)練100萬人,及支援2500家AI初創(chuàng)公司。
近年來,開發(fā)更人性化、功能更強(qiáng)大的生成式AI工具競爭激烈。谷歌母公司Alphabet擬於14日召開谷歌開發(fā)者年度會議,預(yù)計(jì)屆時(shí)將展示谷歌開發(fā)的相關(guān)產(chǎn)品。馬斯克、科技DeepMind創(chuàng)始人之一穆蘇萊曼也分別投資開發(fā)了聊天機(jī)械人Grok和Pi,將擬人化特點(diǎn)作為產(chǎn)品主攻方向。
IMF警全球四成職位受AI衝擊
與此同時(shí),國際貨幣基金(IMF)也在對AI可能給全球勞動(dòng)力市場帶來的衝擊發(fā)出警告。IMF總裁格奧爾基耶娃13日表示,AI正如山呼海嘯般衝擊全球勞動(dòng)力市場,而全球政府和企業(yè)尚未對此做好準(zhǔn)備。格奧爾基耶娃預(yù)測,未來兩年,對於發(fā)達(dá)經(jīng)濟(jì)體而言,AI可能會影響60%的工作職位;而對於全球所有國家而言,AI可能將衝擊40%的工作職位。
格奧爾基耶娃表示:「我們幾乎沒有時(shí)間讓人們和企業(yè)做好準(zhǔn)備,如果我們管理得當(dāng),AI的確可以極大地提高生產(chǎn)力,但它也可能導(dǎo)致更多的錯(cuò)誤信息,當(dāng)然,還會加劇我們社會的不平等?!?/p>
頂圖:ChatGPT用戶人數(shù)去年呈過山車式變化,近期才重回去年5月巔峰時(shí)期的水平。 路透社