OpenAI又“炸場”了。近日,具備“聽、看、說”出色本領的“GPT-4o”亮相,新模型能夠處理50種不同的語言,還能讀取人的情緒。僅僅兩日后,OpenAI宣布與社交網(wǎng)絡Reddit建立合作伙伴關系,這個被稱為“美國貼吧”的平臺內(nèi)容,將被引入ChatGPT和其他產(chǎn)品中。
將兩條信息連起來看,當大眾驚嘆于AI的訓練速度時,不少業(yè)內(nèi)人士已嗅到一絲危機:全能,意味著需要更強大的語料庫來訓練AI,而優(yōu)質(zhì)的AI語料已經(jīng)越來越稀缺。
AI語料,簡單來說,就是用于訓練和優(yōu)化人工智能模型的數(shù)據(jù)集合。根據(jù)人工智能研究機構(gòu)Epoch的分析,在2026年前,科技公司很可能會耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù)。
數(shù)字經(jīng)濟發(fā)達的浙江,是國內(nèi)優(yōu)質(zhì)AI語料資產(chǎn)庫存區(qū)域之一。如何充分發(fā)揮AI語料的存量優(yōu)勢?應對AI語料短缺的預期,浙江如何先發(fā)布局?
優(yōu)質(zhì)中文語料是稀缺資源
在AI大模型技術路徑逐漸清晰、各方搶占算力迭代產(chǎn)品的當下,越來越多的業(yè)內(nèi)人士重新將目光投向驅(qū)動模型生成的“燃料”——語料。
“大模型就像初生的孩子,教它學習、成長的課本就是AI語料,編纂教材的過程就是構(gòu)建語料庫的過程。”杭州城市大腦有限公司總經(jīng)理申永生形象比喻。目前,我國10億參數(shù)規(guī)模以上的大模型數(shù)量已超100個,每一個都“嗷嗷待哺”,更優(yōu)質(zhì)更豐富的語料資源,才能支持其更新迭代。未來,AI語料將是行業(yè)爭奪的新戰(zhàn)場。
城市大腦即是通過“消化”“吸收”優(yōu)質(zhì)語料,形成分析研判能力,不斷提升社會治理與服務能力。“一方面,我們從各類用戶反饋端獲取語料,比如12345、留言箱、辦事窗口等信息,通過學習百姓與‘端’的互動數(shù)據(jù),讓城市大腦更智能;另一方面,政府信息公開的數(shù)據(jù)也是語料來源之一,基于這類天然可抓取的數(shù)據(jù),我們能提供匯總更多公共服務的信息。”申永生介紹。
盡管有雙重途徑獲取語料,但存量資源短缺的事實也擺在眼前。眾多大模型“饑腸轆轆”,但面對海量數(shù)據(jù)卻不能“饑不擇食”,因為原始數(shù)據(jù)需要經(jīng)過層層標注與篩選,才會變成有價值的語料。
中文優(yōu)質(zhì)語料的供給,更迫在眉睫。“中國大模型發(fā)展要獲得突破,必然依賴于中文優(yōu)質(zhì)語料庫的建立。”申永生分析,目前多數(shù)大模型的數(shù)據(jù)訓練多以英文為基礎,如在ChatGPT的訓練數(shù)據(jù)中,英文語料占比超92.6%,中文語料占比卻不足千分之一。語言的壁壘、流通的受限,使得中文優(yōu)質(zhì)語料在業(yè)內(nèi)成為“香餑餑”。
將語料數(shù)據(jù)化為生產(chǎn)力
在浙江,優(yōu)質(zhì)AI語料的存量優(yōu)勢明顯。
以阿里巴巴為代表的電商企業(yè),擁有產(chǎn)品材料、客戶互動數(shù)據(jù)、電商直播素材等大量電商相關AI語料;商湯科技、海康威視等企業(yè),在AI視頻識別方面積累了大量可用數(shù)據(jù);眾多MCN公司擁有海量短視頻素材;杭州的網(wǎng)絡文學作家村、之江編劇村等則是優(yōu)質(zhì)文本語料的儲藏地……
眼下,擁有語料“富礦”的浙企,已在暗自發(fā)力,利用自身擁有的語料資產(chǎn),開發(fā)和優(yōu)化自研工具庫,拓展行業(yè)AIGC工具的應用場景。
作為國內(nèi)電視劇行業(yè)的龍頭公司,華策集團正在探索將語料數(shù)據(jù)變?yōu)閯?chuàng)作生產(chǎn)力。企業(yè)擁有超5萬小時的影視素材,以及影視劇本、IP評估報告、宣發(fā)材料等文本素材,這些都是制作AI語料的原料。基于專業(yè)語料,華策集團AIGC應用研究院訓練并開發(fā)了一整套“影視劇本智能創(chuàng)作輔助系統(tǒng)”,集成了編劇助手、劇本評估、視頻檢索等多項功能。
“影視級別語料不僅質(zhì)量高,而且具有中華傳統(tǒng)文化特色,用影視語料訓練出的大模型克服了海外大模型國外元素多或質(zhì)量低下的問題。”華策集團AIGC應用研究院副院長沈雄介紹,在高質(zhì)量語料的基礎上,華策自研的“有風”大模型3分鐘內(nèi)就能完成一部IP作品的初篩,30分鐘內(nèi)能精確評估百萬字作品內(nèi)容,這樣的體量過去依靠人工需要一周以上的時間,極大地提高了工作效率。
另一家金融浙企同花順,擁有企業(yè)十幾年積累的自身數(shù)據(jù)及市場的公開金融數(shù)據(jù),這些數(shù)據(jù)涵蓋了股票、基金、債券等各種證券類型,囊括了財經(jīng)領域的公告、新聞、研報等九大類語料,預訓練金融語料達到了萬億級Tokens。
今年1月,同花順發(fā)布大模型問財HithinkGPT,成為市場上唯一集金融查詢、投資咨詢、資訊分析以及事件點評于一體的大模型。“專業(yè)的AI語料促進了大模型技術和業(yè)務的創(chuàng)新,為金融領域提供了研究和開發(fā)的基礎資源。”企業(yè)相關負責人表示,目前,同花順AI開放平臺可面向客戶提供智能金融問答、智慧政務平臺、數(shù)字虛擬人等多項AI產(chǎn)品及服務。
探路數(shù)據(jù)交易體系
隨著AI語料價值凸顯,眾多問題也浮出水面。今年初,《紐約時報》起訴OpenAI及其投資人微軟公司,指控二者未經(jīng)授權(quán)使用其數(shù)百萬篇文章訓練大模型,打響了語料維權(quán)“第一槍”。
采訪中,不少企業(yè)表示,目前企業(yè)的語料數(shù)據(jù)主要用于開發(fā)和優(yōu)化自研工具庫,尚未與其他公司達成商業(yè)合作。“語料數(shù)據(jù)產(chǎn)品交易潛力巨大,但存在諸多不確定性,企業(yè)的擔憂在所難免。”申永生分析,除了版權(quán)盜用的法律問題和訓練模型存在的道德風險、價值觀隱患,AI語料真正走向市場,最根本的是建立健全交易平臺和機制。
“這正是浙江搶占先機的重要方向。”申永生認為,浙江已在數(shù)字經(jīng)濟領域占領高地,在語料儲備較充足的基礎上,可以從建立數(shù)據(jù)交易所開始嘗試,探索一條語料交易的新路。對此,浙江已下出“先手棋”。2022年,中國(溫州)數(shù)安港開園,直面數(shù)據(jù)不能共享、不敢共享、不愿共享“三不”難題,在全國數(shù)據(jù)要素市場化改革中探路先行。
兩年來,改革通過構(gòu)建數(shù)據(jù)安全合規(guī)體系、司法保障體系等方面數(shù)據(jù)基礎制度,確保流通交易合規(guī),破解“不敢共享”難題;通過構(gòu)建數(shù)據(jù)金庫、聯(lián)合計算平臺、安全可信數(shù)據(jù)空間、公共數(shù)據(jù)授權(quán)運營域等數(shù)據(jù)基礎設施,為流通交易全過程提供技術保障,破解“不會共享”難題;通過構(gòu)建從數(shù)源歸集到數(shù)據(jù)產(chǎn)品流通交易的全鏈條產(chǎn)業(yè)生態(tài),營造成熟的數(shù)據(jù)市場,破解“不愿共享”難題。
開園至今,數(shù)安港已落地企業(yè)311家,發(fā)布數(shù)據(jù)產(chǎn)品344個,成交6.6億元;與國內(nèi)七大數(shù)交所簽署戰(zhàn)略合作協(xié)議,設立了10個國家級數(shù)據(jù)安全實驗室與創(chuàng)新基地。“隨著數(shù)據(jù)交易市場的開放與完善,其訓練出的大模型將為社會提供更精細化的服務,浙江數(shù)字經(jīng)濟將迎來新的飛升。”申永生說。
來源:浙江在線-浙江日報 | 撰稿:辛文 | 責編:張逸彬 審核:張淵
新聞投稿:184042016@qq.com 新聞熱線:135 8189 2583