加入收藏
 免費注冊
 用戶登陸
首頁 展示 供求 職場 技術(shù) 智造 職業(yè) 活動 視點 品牌 鐠社區(qū)
今天是:2026年3月17日 星期二   您現(xiàn)在位于: 首頁 →  技術(shù) → 工業(yè)電子(技術(shù)聚焦)
驅(qū)動增強終端側(cè)生成式AI體驗的技術(shù):多模態(tài)生成式AI
2024/6/11 11:44:42    
改善情境化和定制化一直是用戶體驗的長期需求。例如,消費者希望終端能夠自動利用來自智能手機數(shù)據(jù)和傳感器的情境信息和自定義偏好,讓體驗更直觀和無縫,比如基于當前位置、時刻和食物選擇偏好推薦餐廳用餐,創(chuàng)造愉悅體驗。

盡管生成式AI已展現(xiàn)出新興的和變革性的能力,但其仍有很大改進空間。類似多模態(tài)生成式AI等這樣的技術(shù)可應(yīng)對生成式AI更加情境化和定制化的體驗趨勢。多模態(tài)生成式AI模型輸入和輸出多種模態(tài),以提供更佳響應(yīng)和答案。

 
多模態(tài)AI模型能夠更好的理解世界


大語言模型(LLM)為純文本訓(xùn)練模型帶來了驚艷的能力。如果模型能夠支持包含更多知識的不同信息形式,能帶來怎樣的提升呢?

人類能夠通過語言和閱讀文字學到很多東西,但也需要通過各種感官和互動形成對世界的理解:
● 我們的眼睛讓我們能夠看到球在傾斜地面上滾動的場景,以及當球滾到沙發(fā)后面會如何消失。
● 我們的耳朵可以識別語音中的情緒或警報聲來源的方向。
● 我們與世界的接觸和互動讓我們知道如何用手握住泡沫塑料咖啡杯,以及如何在走路時避免摔倒。

類似的例子不勝枚舉。盡管語言可以描述幾乎所有這些事情,但它可能不如其他模態(tài)做得那么好或那么高效。

正如人類需要利用各種感官學習,生成式AI除了利用文本之外還可以使用更多其他模態(tài)學習:這正是多模態(tài)生成式AI模型的作用所在。

多模態(tài)生成式AI模型可基于一系列模態(tài)進行訓(xùn)練,包括文本、圖像、語音、音頻、視頻、3D、激光雷達(LIDAR)、射頻(RF)、以及幾乎任何傳感器數(shù)據(jù)。

通過利用所有這些傳感器,融合數(shù)據(jù),并更全面地理解世界,多模態(tài)生成式AI模型可以提供更佳答案。AI研究人員已經(jīng)做到了這一點,他們利用不同模態(tài)的一系列數(shù)據(jù)在云端訓(xùn)練多模態(tài)大模型(LMM),讓模型更“智能”。OpenAI GPT-4V和谷歌Gemini就是這類LMM。

這能給用戶帶來什么?舉例來說,LMM可以充當通用助手,接收任何模態(tài)的輸入,為更廣泛的問題類型提供大幅改進的答案。比如基于復(fù)雜的停車標志回答用戶可否停車,或基于振動噪音回答用戶該如何修理洗碗機故障。

下一步,部署LMM進行推理:盡管生成式AI推理可在云端運行,但在邊緣終端側(cè)運行有著諸多好處,比如隱私、可靠性、成本效益和即時性。例如,傳感器和相應(yīng)的傳感器數(shù)據(jù)來源于邊緣終端,因此在終端側(cè)處理和保存數(shù)據(jù)更具成本效益和可擴展性。
 

終端側(cè)LLM現(xiàn)在具備視覺理解能力


高通AI研究近期演示了全球首個在Android手機上運行的多模態(tài)LLM。我們展示了一個超過70億參數(shù)的大語言和視覺助理大模型(LLaVA),其可接受包括文本和圖像在內(nèi)的多種類型的數(shù)據(jù)輸入,并生成關(guān)于圖像的多輪對話。通過全棧AI優(yōu)化,LLaVA能夠在搭載第三代驍龍8移動平臺的參考設(shè)計上以實時響應(yīng)的速度在終端側(cè)生成token。

具有語言理解和視覺理解能力的LMM能夠賦能諸多用例,例如識別和討論復(fù)雜的視覺圖案、物體和場景。例如,視覺AI助手可以幫助視力障礙者更好地理解周圍環(huán)境并與之互動,從而提高生活質(zhì)量。
 

終端側(cè)LLM現(xiàn)在具備聽覺理解能力


在搭載驍龍X Elite的Windows PC上,高通近期還展示了全球首個在終端側(cè)運行的超70億參數(shù)的LMM,可接受文本和環(huán)境音頻輸入(如音樂、交通環(huán)境音頻等),并基于音頻內(nèi)容生成多輪對話。

音頻提供的更多情境信息可以幫助LMM針對用戶的提示給出更佳答案。我們很高興看到終端側(cè)LMM現(xiàn)已支持視覺、語音和音頻模態(tài),并期待對更多模態(tài)的支持。 

生成式AI時代剛剛開始,無限創(chuàng)新即將到來。
 

更多終端側(cè)生成式AI技術(shù)進步即將到來


打造能夠更好理解情境信息的AI模型是獲得更佳答案和體驗提升的必要條件,多模態(tài)生成式AI正是即將應(yīng)用于未來終端的最新變革性技術(shù)之一。歡迎閱讀博客第二部分,我將深入介紹LoRA,探究它將如何幫助應(yīng)對現(xiàn)有挑戰(zhàn),為消費者和企業(yè)規(guī);峁┣榫郴、定制化和個性化體驗。查詢進一步信息,請訪問官方網(wǎng)站http://www.qualcomm.cn/news/blogs/2024/05/blog-2024-05-30。(張怡,張底剪報)
→ 『關(guān)閉窗口』
 365pr_net
 [ → 我要發(fā)表 ]
上篇文章:AI工程師如何建立團隊在AI和AI方面的技能
下篇文章:AI TOPS和NPU性能指標指南
→ 主題所屬分類:  工業(yè)電子 → 技術(shù)聚焦
 熱門文章
 如何申請EtherCAT技術(shù)協(xié)會(ETG)會員資格 (200276)
 臺北國際計算機展(COMPUTEX 2015)參展商名… (107848)
 上海市集成電路行業(yè)協(xié)會(SICA) (96787)
 USB-IF Members Company List (89195)
 第十七屆中國專利優(yōu)秀獎項目名單(507項) (78097)
 蘋果授權(quán)MFi制造商名單-Authorized MFi Lic… (73526)
 臺北國際計算機展(COMPUTEX 2015)參展商名… (70797)
 中國130家太陽能光伏組件企業(yè)介紹(3) (59402)
 PLC論壇 (54257)
 中國130家太陽能光伏組件企業(yè)介紹(2) (50760)
 最近更新
 涉及圖形用戶界面的產(chǎn)品外觀設(shè)計專利申請指引 (12月18日)
 jpg、gif、png、webp等主流圖片格式選擇建議 (9月9日)
 AI演進推動5G與Wi-Fi連接方式的變革 (9月6日)
 晶振:人工智能時代的精密脈搏 (8月29日)
 晶振—機械臂高精度動作的“隱形指揮官” (8月29日)
 趨膚效應(yīng)(Skin Effect)對電子電器的影響及應(yīng)… (8月18日)
 一本面向設(shè)計工程師精心修訂和更新的《ESD應(yīng)用手冊… (3月10日)
 表皮電子學的代表作:石墨烯紋身 (2月26日)
 在晶圓級大規(guī)模生產(chǎn)中引入脈沖激光沉積(PLD)技術(shù) (1月21日)
 你聽說過PiezoMEMS技術(shù)嗎? (1月21日)
 文章搜索
搜索選項:            
  → 評論內(nèi)容 (點擊查看)
您是否還沒有 注冊 或還沒有 登陸 本站?!
關(guān)于我們 ┋ 免責聲明 ┋ 產(chǎn)品與服務(wù) ┋ 聯(lián)系我們 ┋ About 365PR ┋ Join 365PR
Copyright @ 2005-2008 365pr.net Ltd. All Rights Reserved. 深圳市產(chǎn)通互聯(lián)網(wǎng)有限公司 版權(quán)所有
E-mail:postmaster@365pr.net 不良信息舉報 備案號:粵ICP備06070889號