Monday, February 27, 2023

27 Feb 2023 - 中國互聯網巨頭們能否成功複製ChatGPT?(經濟一週「博立群股」專欄)

儘管過了幾個月,市場ChatGPT概念的短期炒作可能快會落幕然而在眾多炒作背後可能會質疑中國是否可以成功複製ChatGPT。事實上,我們認為要想複製一個OpenAI公司打造的ChatGPT的框架是能做到的,但是在數據品質的深度和準確性上可能會有差距。這個應用的本質是以GPT-3模型為框架,是一個開源軟體,因此在純技術層面中國的程式師也不會落後太多。 

AI的核心關鍵離不開算力,算法和數據。在算力方面,訓練AI模型高度依賴Nvidia的高端AI晶片i.e. A100 GPU。從2022年開始美國已經率先限制Nvidia向中國出口A100H100 GPU,但Nvidia也推出了特製的A800去替代A100專門服務中國市場,新晶片數據傳輸速率為400GB/s低於A100600GB/s。雖然算力不及美國的高端,但還是能彌補的。

在算法方面,一個行內的主流觀點是,儘管沒有率先做出GPT-3,但是在算法和大模型上也就落後半年到兩年。如百度的飛槳據聞涉足領域甚至更廣,但深度方面仍有差距。阿巴巴的達摩院也有類似OpenAI的訓練模型,在去年底其AliceMind對中文語言理解的水準首次超越人類的得分。要知道,過去中文語言理解是AI業界的難題之一,語言對話模型訓練需要讓機器對文字產生理解,英語會比中文的自然語言處理容易一些,導致用中文的準確性可能更低。

另外,較難的地方可能在於訓練AI模型的數據,大家可能會想,中國人口龐大,而且數字化程度高,不缺海量數據去訓練模型,但是筆者認為能夠滿足高品質大模型運轉的高品質文字數據,在中國是相對稀缺的。要知道OpenAI背後的數據庫是海量高品質的英語文字數據,英文訊息尤其是高品質訊息佔統治地位,2022年某統計顯示互聯網上開放訊息中文佔比僅1.3%,而英文占比63%,其中,高品質部分優勢更大,就連我們辦公最常用的Microsoft OfficeAzure在保護用戶隱私的前提下,背後收集的客戶數據也會給Microsoft加持的OpenAI去訓練模型,因此效果無疑會更優質。

最後由於ChatGPT的成本高昂,有人算過ChatGPT每次回答的成本是0.1/0.2美分,是Google每一頁展示成本的約10倍,可見即便是商業化也無法做到短期賺錢。筆者認為,在中國功利文化濃厚,互聯網行業內捲嚴重,互相廝殺急著賺錢的環境下,往往會把模型訓練和商業應用放在一起做,不如OpenAI更專注在訓練模型上,把商業應用交給下游去摸索,因此體驗起來的實際效果可能會不如ChatGPT,也很難長期大量資金去成就如OpenAI這樣不求盈利,為求推動人類未來進步的科技理想主義公司。

簡志健,持證監會持牌人士,博立聯合創辦人/中原資產管理投資總監
傅可怡,持證監會持牌人士,博立研究團隊/中原資產管理高級分析員
執筆之時,筆者及其客戶持有
Microsoft

No comments: