欧美成人影片aⅴ免费观看,中文字幕欧美亚日,久久无码专区国产精品

您的位置：首頁 > 要聞新聞詳情

喂飽人工智能，浙江如何先發(fā)布局？

發(fā)布時間 | 2024-06-14 10:27:39

　　OpenAI又“炸場”了。近日，具備“聽、看、說”出色本領的“GPT-4o”亮相，新模型能夠處理50種不同的語言，還能讀取人的情緒。僅僅兩日后，OpenAI宣布與社交網(wǎng)絡Reddit建立合作伙伴關系，這個被稱為“美國貼吧”的平臺內(nèi)容，將被引入ChatGPT和其他產(chǎn)品中。

　　將兩條信息連起來看，當大眾驚嘆于AI的訓練速度時，不少業(yè)內(nèi)人士已嗅到一絲危機：全能，意味著需要更強大的語料庫來訓練AI，而優(yōu)質(zhì)的AI語料已經(jīng)越來越稀缺。

　　AI語料，簡單來說，就是用于訓練和優(yōu)化人工智能模型的數(shù)據(jù)集合。根據(jù)人工智能研究機構(gòu)Epoch的分析，在2026年前，科技公司很可能會耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù)。

　　數(shù)字經(jīng)濟發(fā)達的浙江，是國內(nèi)優(yōu)質(zhì)AI語料資產(chǎn)庫存區(qū)域之一。如何充分發(fā)揮AI語料的存量優(yōu)勢？應對AI語料短缺的預期，浙江如何先發(fā)布局？

　　優(yōu)質(zhì)中文語料是稀缺資源

　　在AI大模型技術路徑逐漸清晰、各方搶占算力迭代產(chǎn)品的當下，越來越多的業(yè)內(nèi)人士重新將目光投向驅(qū)動模型生成的“燃料”——語料。

　　“大模型就像初生的孩子，教它學習、成長的課本就是AI語料，編纂教材的過程就是構(gòu)建語料庫的過程。”杭州城市大腦有限公司總經(jīng)理申永生形象比喻。目前，我國10億參數(shù)規(guī)模以上的大模型數(shù)量已超100個，每一個都“嗷嗷待哺”，更優(yōu)質(zhì)更豐富的語料資源，才能支持其更新迭代。未來，AI語料將是行業(yè)爭奪的新戰(zhàn)場。

　　城市大腦即是通過“消化”“吸收”優(yōu)質(zhì)語料，形成分析研判能力，不斷提升社會治理與服務能力。“一方面，我們從各類用戶反饋端獲取語料，比如12345、留言箱、辦事窗口等信息，通過學習百姓與‘端’的互動數(shù)據(jù)，讓城市大腦更智能；另一方面，政府信息公開的數(shù)據(jù)也是語料來源之一，基于這類天然可抓取的數(shù)據(jù)，我們能提供匯總更多公共服務的信息。”申永生介紹。

　　盡管有雙重途徑獲取語料，但存量資源短缺的事實也擺在眼前。眾多大模型“饑腸轆轆”，但面對海量數(shù)據(jù)卻不能“饑不擇食”，因為原始數(shù)據(jù)需要經(jīng)過層層標注與篩選，才會變成有價值的語料。

　　中文優(yōu)質(zhì)語料的供給，更迫在眉睫。“中國大模型發(fā)展要獲得突破，必然依賴于中文優(yōu)質(zhì)語料庫的建立。”申永生分析，目前多數(shù)大模型的數(shù)據(jù)訓練多以英文為基礎，如在ChatGPT的訓練數(shù)據(jù)中，英文語料占比超92.6%，中文語料占比卻不足千分之一。語言的壁壘、流通的受限，使得中文優(yōu)質(zhì)語料在業(yè)內(nèi)成為“香餑餑”。

　　將語料數(shù)據(jù)化為生產(chǎn)力

　　在浙江，優(yōu)質(zhì)AI語料的存量優(yōu)勢明顯。

　　以阿里巴巴為代表的電商企業(yè)，擁有產(chǎn)品材料、客戶互動數(shù)據(jù)、電商直播素材等大量電商相關AI語料；商湯科技、海康威視等企業(yè)，在AI視頻識別方面積累了大量可用數(shù)據(jù)；眾多MCN公司擁有海量短視頻素材；杭州的網(wǎng)絡文學作家村、之江編劇村等則是優(yōu)質(zhì)文本語料的儲藏地……

　　眼下，擁有語料“富礦”的浙企，已在暗自發(fā)力，利用自身擁有的語料資產(chǎn)，開發(fā)和優(yōu)化自研工具庫，拓展行業(yè)AIGC工具的應用場景。

　　作為國內(nèi)電視劇行業(yè)的龍頭公司，華策集團正在探索將語料數(shù)據(jù)變?yōu)閯?chuàng)作生產(chǎn)力。企業(yè)擁有超5萬小時的影視素材，以及影視劇本、IP評估報告、宣發(fā)材料等文本素材，這些都是制作AI語料的原料。基于專業(yè)語料，華策集團AIGC應用研究院訓練并開發(fā)了一整套“影視劇本智能創(chuàng)作輔助系統(tǒng)”，集成了編劇助手、劇本評估、視頻檢索等多項功能。

　　“影視級別語料不僅質(zhì)量高，而且具有中華傳統(tǒng)文化特色，用影視語料訓練出的大模型克服了海外大模型國外元素多或質(zhì)量低下的問題。”華策集團AIGC應用研究院副院長沈雄介紹，在高質(zhì)量語料的基礎上，華策自研的“有風”大模型3分鐘內(nèi)就能完成一部IP作品的初篩，30分鐘內(nèi)能精確評估百萬字作品內(nèi)容，這樣的體量過去依靠人工需要一周以上的時間，極大地提高了工作效率。

　　另一家金融浙企同花順，擁有企業(yè)十幾年積累的自身數(shù)據(jù)及市場的公開金融數(shù)據(jù)，這些數(shù)據(jù)涵蓋了股票、基金、債券等各種證券類型，囊括了財經(jīng)領域的公告、新聞、研報等九大類語料，預訓練金融語料達到了萬億級Tokens。

　　今年1月，同花順發(fā)布大模型問財HithinkGPT，成為市場上唯一集金融查詢、投資咨詢、資訊分析以及事件點評于一體的大模型。“專業(yè)的AI語料促進了大模型技術和業(yè)務的創(chuàng)新，為金融領域提供了研究和開發(fā)的基礎資源。”企業(yè)相關負責人表示，目前，同花順AI開放平臺可面向客戶提供智能金融問答、智慧政務平臺、數(shù)字虛擬人等多項AI產(chǎn)品及服務。

　　探路數(shù)據(jù)交易體系

　　隨著AI語料價值凸顯，眾多問題也浮出水面。今年初，《紐約時報》起訴OpenAI及其投資人微軟公司，指控二者未經(jīng)授權(quán)使用其數(shù)百萬篇文章訓練大模型，打響了語料維權(quán)“第一槍”。

　　采訪中，不少企業(yè)表示，目前企業(yè)的語料數(shù)據(jù)主要用于開發(fā)和優(yōu)化自研工具庫，尚未與其他公司達成商業(yè)合作。“語料數(shù)據(jù)產(chǎn)品交易潛力巨大，但存在諸多不確定性，企業(yè)的擔憂在所難免。”申永生分析，除了版權(quán)盜用的法律問題和訓練模型存在的道德風險、價值觀隱患，AI語料真正走向市場，最根本的是建立健全交易平臺和機制。

　　“這正是浙江搶占先機的重要方向。”申永生認為，浙江已在數(shù)字經(jīng)濟領域占領高地，在語料儲備較充足的基礎上，可以從建立數(shù)據(jù)交易所開始嘗試，探索一條語料交易的新路。對此，浙江已下出“先手棋”。2022年，中國（溫州）數(shù)安港開園，直面數(shù)據(jù)不能共享、不敢共享、不愿共享“三不”難題，在全國數(shù)據(jù)要素市場化改革中探路先行。

　　兩年來，改革通過構(gòu)建數(shù)據(jù)安全合規(guī)體系、司法保障體系等方面數(shù)據(jù)基礎制度，確保流通交易合規(guī)，破解“不敢共享”難題；通過構(gòu)建數(shù)據(jù)金庫、聯(lián)合計算平臺、安全可信數(shù)據(jù)空間、公共數(shù)據(jù)授權(quán)運營域等數(shù)據(jù)基礎設施，為流通交易全過程提供技術保障，破解“不會共享”難題；通過構(gòu)建從數(shù)源歸集到數(shù)據(jù)產(chǎn)品流通交易的全鏈條產(chǎn)業(yè)生態(tài)，營造成熟的數(shù)據(jù)市場，破解“不愿共享”難題。

　　開園至今，數(shù)安港已落地企業(yè)311家，發(fā)布數(shù)據(jù)產(chǎn)品344個，成交6.6億元；與國內(nèi)七大數(shù)交所簽署戰(zhàn)略合作協(xié)議，設立了10個國家級數(shù)據(jù)安全實驗室與創(chuàng)新基地。“隨著數(shù)據(jù)交易市場的開放與完善，其訓練出的大模型將為社會提供更精細化的服務，浙江數(shù)字經(jīng)濟將迎來新的飛升。”申永生說。

來源：浙江在線-浙江日報 | 撰稿：辛文 | 責編：張逸彬審核：張淵

新聞投稿：184042016@qq.com 新聞熱線：135 8189 2583

原創(chuàng)

中國互聯(lián)網(wǎng)視聽節(jié)目服務自律公約 | 網(wǎng)絡110報警服務 | 12321垃圾信息舉報中心 | 友情鏈接

版權(quán)所有中國互聯(lián)網(wǎng)新聞中心電話: 057187567897 京ICP證 040089號

網(wǎng)絡傳播視聽節(jié)目許可證號:0105123 京公網(wǎng)安備110108006329號京網(wǎng)文[2011]0252-085號

關于我們 | 法律顧問：京衡律師事務所

亚洲精品第一在线影院,中文字幕人妻丝袜1页,又粗又大又黄又爽的免费视频,日本久久高清免费观看