柔性物流四向車“一車跑全倉”AR眼鏡可“同聲傳譯”
正在召開的2023中關村論壇上,“人工智能”無疑是最熱門的關鍵詞。無論是自動駕駛還是智能穿戴,是量子計算還是5G通信,甚至碳中和,眾多前沿科技的背后都離不開人工智能技術的支持??梢哉f,未來十年,人工智能將繼續(xù)改變各行各業(yè)以及普通人的生活。在本次論壇國際技術交易大會板塊、科博會展覽板塊,以及人工智能相關平行論壇上,北京青年報記者注意到,各大公司都帶來了最新人工智能科技成果,包括視覺通用分割模型SegGPT、5G音視頻交互應用、雙語數(shù)智人等等。
5G通信新應用
可視自助服務帶來交互新體驗
最新數(shù)據(jù)顯示,我國5G用戶已達5.61億,我國累計建成開通5G基站 231.2萬個,全球占比均超過60%。而一季度全國平均5G下載網速為334.98Mbps,峰值下載速率為472.92Mbps。如此快的網速,再加上人工智能的支持,除了用來刷社交網絡、日常辦公學習,還可以用來做什么?
中國聯(lián)通此次展出的“5G新通信智能交互平臺”,就應用了5G“大帶寬、低時延、泛連接”的特點,運用5G音視頻交互與AI原子能力,結合AR&VR、三維建模、智能交互等先進技術,做到了5G內生服務下的音視頻交互應用。平臺運用多媒體、三維建模、實時跟蹤、傳感、智能交互等技術,實現(xiàn)端到端的可視化、智能化新通信服務,為企業(yè)、政府等提供5G音視頻交互、智慧虛擬形象等功能。
如金融行業(yè)應用版平臺,用戶可以遠程接入銀行柜臺服務,享受與現(xiàn)場辦理同等的體驗及個人隱私保護;能源行業(yè)應用版平臺則重構了井場智能聯(lián)動系統(tǒng)應用體系,實現(xiàn)了井場資源數(shù)字化管理、井場巡護數(shù)字化編制。交通行業(yè)版平臺以5G新通信為基礎提供無障礙智能通信服務,為老年乘客提供可視化交互的智慧助老服務。
值得一提的是,該平臺在國產化適配與自主可控方面實現(xiàn)了平臺與國產手機芯片適配;平臺端支持國產化系統(tǒng),手機側適配華為麒麟芯片、聯(lián)發(fā)科天璣芯片,支持華為、小米、OPPO、VIVO、魅族系列國產手機。
“數(shù)智人”更聰明
與大模型融合能“聽懂你的話”
數(shù)智人,簡單來說就是虛擬人,借助擬人化的外表、人工智能的內核,數(shù)智人已經開始在眾多行業(yè)中商業(yè)化落地,輔助人工服務,提升企業(yè)運行效率。例如,數(shù)智人在金融、文旅、傳媒、公共服務、醫(yī)療、零售等行業(yè)場景中,可擔任坐席客服、理財顧問、播報主持、導游導覽角色;在文化娛樂場景,可以作為虛擬偶像、虛擬歌手等形成IP資產;在智能車載、智能交通、智能家居等場景,可以通過與智能設備結合,為用戶提供智能化服務。
騰訊云智能小樣本數(shù)智人生產平臺近日首次對外發(fā)布,只需要3分鐘真人口播視頻、100句語音素材,平臺便可通過音頻、文本多模態(tài)數(shù)據(jù)輸入,實時建模并生成高清人像,在24小時內制作出與真人近似的“數(shù)智人”。相較于照片生成、僅能呈現(xiàn)面部形態(tài)的數(shù)字人,小樣本數(shù)智人可根據(jù)文本設計手勢,唇動、口型、表情復現(xiàn)真人風格。
本屆中關村論壇,北青報記者也嘗試用數(shù)智人虛擬主播,代替真人主播出鏡,進行7×24小時的直播服務,吸引了諸多觀眾關注。
不過,以往的數(shù)智人,比起真人來,他們的思考能力明顯更弱。此次中關村論壇上,由智譜AI推出的 “智譜AI腦數(shù)智人”則更加聰明,它不再拘泥于固定的互動方式,而是初具理解人類指令意圖的能力。智譜AI由清華大學計算機系的技術成果轉化而來,公司于2022年合作研發(fā)了雙語千億級超大規(guī)模預訓練模型GLM-130B,并主導構建了高精度通用知識圖譜,把兩者有機融合為數(shù)據(jù)與知識雙輪驅動的認知引擎,并基于此千億基座模型打造ChatGLM。通過認知大模型鏈接物理世界的億級用戶、賦能元宇宙數(shù)字人、成為具身機器人的基座,賦予機器像人一樣“思考”的能力。此外,它還是一個既會中文又會英文的雙語數(shù)智人。
“無人駕駛”上街
最新行人預測模型呼之欲出
如今在亦莊等地,已經可以打到百度自動駕駛的車輛。未來,隨著技術發(fā)展和政策批準后,車上的安全員將會撤出,自動駕駛車輛會實現(xiàn)真正的無人化。
據(jù)百度公司介紹,無人駕駛技術核心是“百度汽車大腦Apollo平臺”,包括高精度地圖、定位、感知、智能決策與控制四大模塊。最新的Apollo已經進化到引入多個基于深度學習的模型、發(fā)布了基于語義地圖的低速行人預測模型、引入了基于語義地圖的模仿學習。
在本次中關村論壇上,曠視科技發(fā)布了自研智能托盤四向穿梭車系統(tǒng)。曠視智能托盤四向車作為柔性物流系統(tǒng)中的離散型設備,可以實現(xiàn)“一車跑全倉”。為什么說是“柔性物流”? 曠視表示,主要是因為它具有離散型設備、分布式控制兩大特點,用戶企業(yè)可以像搭積木一樣,根據(jù)需要靈活組合,柔性部署。其次,柔性則體現(xiàn)在整個系統(tǒng)的“動態(tài)可擴展”,用戶企業(yè)可以根據(jù)淡旺季以及業(yè)務增長等變化,隨時增減四向車數(shù)量,提升系統(tǒng)承載能力。
智慧城市更低碳
AI“管家”水電空調全都管
在智慧城市建設中,AI扮演著越來越重要的角色。例如,AI可以用于城市的基礎設施管理,例如自動監(jiān)測道路、橋梁和建筑物的結構健康狀況,以及檢測和修復道路上的裂縫和坑洼;AI可以幫助城市管理能源,例如通過分析能源使用數(shù)據(jù)來實現(xiàn)更高效的能源使用,以及優(yōu)化城市的能源系統(tǒng);AI也可以幫助城市保護環(huán)境,例如通過空氣質量監(jiān)測、垃圾處理和水資源管理等方面,提高城市的環(huán)境質量。
那么,如何利用AI給樓宇減碳來實現(xiàn)碳中和碳達峰的目標呢?恒華數(shù)元展示的基于樓宇大腦神經網絡系統(tǒng)碳管理平臺,從充分利用清潔能源的角度出發(fā),集中引用性價比較高的技術產品應用,遍及樓宇末端傳感感知節(jié)點和主要用能設備傳感感知節(jié)點,通過樓宇大腦邊緣計算服務器統(tǒng)一協(xié)調管理,使樓宇用能設備高效運轉,盡可能排除不必要的能源浪費,根據(jù)邊緣計算模型分析,樓宇各用能子系統(tǒng)能耗曲線處于平穩(wěn)運行狀態(tài)下,整體能耗是最低的。
其中,樓宇電力能耗應該占樓宇能耗的首位,針對樓宇弱電系統(tǒng)的特點,在不增加裝修施工的基礎上,研發(fā)出體積更小、計量準確、安裝便捷的一套弱電監(jiān)測及AI控制系統(tǒng),可以對樓宇的電力系統(tǒng)進行動態(tài)的監(jiān)控,確保無人區(qū)及時斷電,避免不必要的電力浪費。而樓宇空調系統(tǒng)耗能占到樓宇總能耗的40%,恒華數(shù)元通過和高校成立產學研基地深度合作研發(fā)出針對樓宇冷、熱源系統(tǒng)調優(yōu)的策略算法,形成了成熟的數(shù)據(jù)算法模型,使得空調系統(tǒng)節(jié)能率達到10%以上。目前,這一項目已在廣東、天津、江西、四川、湖北、安徽等省份落地。未來,居住小區(qū)、寫字樓、商場等,都將向著綠色低碳的方向“進化”。
AR眼鏡“同聲傳譯”
智能穿戴設備助力無障礙
隨著人工智能融入生活的方方面面,搭載人工智能的設備也趨于小型化,如智能手表可接聽電話、回微信、監(jiān)測運動情況等;智能眼鏡外形如普通眼鏡,戴上后可以接打電話、聽音樂等。
不過,中關村論壇上展示的這一智能眼鏡,則更實用。這款名為“亮亮聽語者智能眼鏡”是一款雙目光波導AR智能眼鏡。
VR眼鏡戴上后會沉浸在虛擬世界,AR眼鏡則不會阻擋視線,其將現(xiàn)實世界與虛擬世界進行融合,從而實現(xiàn)一些在現(xiàn)實世界中無法做到的功能。如聽力受損人群常常因“聽不清”、“聽不見”聲音而在工作、社交、學習過程中遇到困難,這款眼鏡可以將聲音信息轉換成文字在眼前顯示出來。它還具有同聲傳譯功能,可以識別不同國家的語言,同時轉換成漢字或者其他國家的文字呈現(xiàn)前,幫助用戶在國際語言交流的環(huán)境中方便理解。這款眼鏡輕巧便攜,機身僅重79g,相比于目前市面上200-300g的AR眼鏡,其自重非常適合長時間佩戴;還可以適配近視、遠視、散光、老花眼等情況的鏡片;眼鏡外側不漏光,保護隱私,內容僅自己可見;這款眼鏡還搭載了毫秒級實時字幕,降噪算法,5米內精準收音,轉譯準確率最高可達95%以上。據(jù)悉,該款產品目前已經具備量產能力。
隱私保護計算技術開源
應用于金融醫(yī)療保險等領域
隱私計算,也叫隱私保護計算,是指在保證數(shù)據(jù)提供方不泄露原始數(shù)據(jù)的前提下,對數(shù)據(jù)進行分析計算的一系列信息技術,實現(xiàn)數(shù)據(jù)在流通與融合過程中的“可用不可見”,從而實現(xiàn)數(shù)據(jù)價值的轉化和釋放。隱私保護計算對隱私數(shù)據(jù)提供了未來行業(yè)亟須的保護能力。本次中關村論壇展覽(科博會)上,螞蟻集團首次公布以關鍵基礎軟件為核心的開源完整版圖,9大核心技術全部開源,其中就包括隱私計算技術“隱語”。也就是說,這一技術平臺面向全球用戶開放,可無需調用和開發(fā)代碼,直接使用產品功能,幫助用戶低成本探索隱私計算應用場景。
據(jù)介紹,隱語目前已經在金融、醫(yī)療、保險等場景應用。如浦發(fā)銀行聯(lián)合螞蟻集團隱語平臺,識別出超過14.5萬名高風險用戶,阻止了數(shù)十億人民幣的高風險貸款的發(fā)放。在醫(yī)療方面,螞蟻隱私計算平臺和阿里云數(shù)字醫(yī)療團隊合作,為醫(yī)院搭建了面向醫(yī)院運營管理的數(shù)據(jù)融合平臺,為管理者提供數(shù)字化績效管理分析,幫助醫(yī)院建立精細化運營管理體系,減少醫(yī)院的經濟風險或臨床風險。此外,過往保險機構在理賠過程中,通過向醫(yī)療機構明文(即數(shù)據(jù)不加密)查詢被保險人的診療情況,將會獲得不必要的原始數(shù)據(jù)。而螞蟻的解決方案通過設定數(shù)據(jù)邏輯查詢,利用多方安全計算等隱私計算技術,使得保險公司只獲得是否理賠的查詢結果,不會獲得各種原始數(shù)據(jù),保護理賠用戶隱私。
聲音
大模型將改變世界 開發(fā)的同時應研究控制技術
ChatGPT是2023年最引人關注的科技界新事物之一,它的發(fā)布也引發(fā)了語言大模型狂潮,百度、阿里、知乎、商湯、京東等多個公司紛紛推出了其大模型。AI另一個重大領域——視覺GPT也亮相本屆中關村論壇:智源研究院視覺團隊正式推出通用分割模型 SegGPT,這是首個利用視覺提示完成任意分割任務的通用視覺模型。
據(jù)介紹,SegGPT使用時,擯棄語言類大模型的傳統(tǒng)思維,與機器交互時不使用文字而是使用圖像。比如用戶給出SegGPT一張圖并在上面將“彩虹”圈了起來,當用戶再給許多張包含有彩虹的圖片時,SegGPT就能自動識別上面的彩虹,并將這些部分圈出來??梢哉f,SegGPT “一通百通”:給出一個或幾個示例圖像和意圖掩碼,模型就能get用戶意圖,“有樣學樣”地完成類似分割任務。此外,SegGPT還“一觸即通”:通過一個點或邊界框,在待預測圖片上給出交互提示,識別分割畫面上的指定物體。利用這個特性,可以實現(xiàn)諸多功能,比如機器人機械手去拿西紅柿等物件時,機器人就可以迅速知道西紅柿的邊緣在哪里,既能拿起西紅柿,又不會捏碎,十分精準。
目前,國內大模型處在百花齊放、百家爭鳴的狀態(tài)下。百度創(chuàng)始人、董事長兼CEO李彥宏在中關村論壇上表示,人工智能再次成為人類創(chuàng)新的焦點,越來越多的人認可第四次產業(yè)革命正在到來。他強調:“大模型改變了人工智能,大模型即將改變世界?!敝袊こ淘涸菏俊⒅袊斯ぶ悄軐W會理事長戴瓊海也表示,人工智能將帶來多個方面的應用變革:面向科學研究新范式(宇宙起源、自然規(guī)律、生命奧秘);面向人民生命健康(AI藥物研發(fā)、遠程虛擬手術);面向經濟主戰(zhàn)場(虛擬創(chuàng)造、工業(yè)制造、靈境交互);面向國防重大需求(多源態(tài)勢分析、AI地空戰(zhàn)線部署)等等。
值得關注的是,面對新變化,也有人提出了警示。創(chuàng)新工場董事長、首席執(zhí)行官李開復表示,“AI仍會出錯,會一本正經地胡說八道,它只能被應用于生成內容初稿、開拓想法,而不能作為最終版本,AI需要持續(xù)的人工干預,避免謬誤或災難發(fā)生。此外,AI可能還存在一些法律及倫理問題,因此,AI并非適合所有的領域,只能應用于容錯度較高的應用中?!崩铋_復強調,“AI可能制造虛假信息,可能被不法分子利用來做針對性的欺騙用戶,因此,開發(fā)時,需要同時研究控制AI的技術和管理的法律法規(guī)?!?#xff08;李娜 溫婧)
相關稿件