日产精品久久久_m麻豆传媒映画_激情久久久久_久久爆操_久久在草_亚洲a久久

報告服務熱線400-068-7188

2025年中國多模態(tài)大模型行業(yè)主要模型 主要多模態(tài)大模型處理能力表現出色【組圖】

分享到:
20 黃纓杰 ? 2025-05-22 15:00:52  來源:前瞻產業(yè)研究院 E57455G0

行業(yè)主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態(tài)大模型類型及綜合對比

視覺+語言的多模態(tài)大模型目前主流方法是:借助預訓練好的大語言模型和圖像編碼器,用一個圖文特征對齊模塊來連接,從而讓語言模型理解圖像特征并進行更深層的問答推理。這樣可以利用已有的大量單模態(tài)訓練數據訓練得到的單模態(tài)模型,減少對于高質量圖文對數據的依賴,并通過特征對齊、指令微調等方式打通兩個模態(tài)的表征。

圖表1:多模態(tài)大模型類型及綜合對比

多模態(tài)大模型類型-CLIP

CLIP是OpenAI提出的連接圖像和文本特征表示的對比學習方法。CLIP是利用文本信息訓練一個可以實現zero-shot的視覺模型。利用預訓練好的網絡去做分類。具體來說,給網絡一堆分類標簽,比如cat,dog,bird,利用文本編碼器得到向量表示。然后分別計算這些標簽與圖片的余弦相似度;最終相似度最高的標簽即是預測的分類結果。論文提到,相比于單純地給定分類標簽,給定一個句子的分類效果更好。比如一種句子模板A photo of a.,后面填入分類標簽。這種句子模板叫做 prompt(提示)。句子模板的選擇很有講究,還專門討論了prompt engineering,測試了好多種類的句子模板。提示信息有多種,下圖可以看到它用不同的類別替換一句話中不同的詞,形成不同的標簽。

圖表2:多模態(tài)大模型類型一:CLIP

模態(tài)大模型類型-Flamingo

Flamingo是一門多模態(tài)大型語言模型 (LLM)于 2022年推出。視覺和語言組件的工作原理如下:視覺編碼器將圖像或視頻轉換為嵌入(數字列表)。與CLIP不同,Flamingo可以生成文本響應。從簡化的角度來看,Flamingo是 CLIP +語言模型,并添加了技術,使語言模型能夠根據視覺和文本輸入生成文本標記。Flamingo的4個數據集:2個(圖像、文本)對數據集、1個(視頻、文本)對數據集和1個交錯的圖像和文本數據集。

圖表3:多模態(tài)大模型類型二:Flamingo

多模態(tài)大模型類型- BLIP

BLIP(Bootstrapping Language-lmage Pretraining)是由Salesforce在2022年提出的多模態(tài)預訓練模型,它旨在統(tǒng)一視覺語言任務的理解與生成能力,并通過對噪聲數據的處理來提高模型性能口。BLIP的創(chuàng)新主要有兩個方面:與CLIP相比,BLIP不僅處理圖像和文本的對齊問題,還旨在解決包括圖像生成、視覺問答和圖像描述等更復雜的任務。BLIP采用了“引導學習”的方式,通過自監(jiān)督的方式來增強模型對語言和視覺信息的理解。這些特點使其在處理圖像和文本數據方面展現了卓越的性能,成為眾多領域解決復雜問題的強大工具。

圖表4:多模態(tài)大模型類型三:BLIP

多模態(tài)大模型類型-LLaMA

使用視覺編碼器CLIP ViT-L/14+語言解碼器LLaMA構成多模態(tài)大模型,然后使用生成的數據進行指令微調。輸入圖片X經過與訓練好的視覺編碼器的到圖片特征Z,圖片特征Z經過一個映射矩陣W轉化為視覺Token H,這樣Vison Token Hv與Language Token Hq指令就都在同一個特征空間,拼接后一起輸入大模型。這里的映射層W也可以替換為更復雜的網絡來提升性能,比如Flamingo中用的gated cross-attentio,BLIP-2中用的Q-former。

圖表5:多模態(tài)大模型類型四:LLaVA

更多本行業(yè)研究分析詳見前瞻產業(yè)研究院《全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告

同時前瞻產業(yè)研究院還提供產業(yè)新賽道研究投資可行性研究產業(yè)規(guī)劃園區(qū)規(guī)劃產業(yè)招商產業(yè)圖譜產業(yè)大數據智慧招商系統(tǒng)行業(yè)地位證明IPO咨詢/募投可研專精特新小巨人申報十五五規(guī)劃等解決方案。如需轉載引用本篇文章內容,請注明資料來源(前瞻產業(yè)研究院)。

更多深度行業(yè)分析盡在【前瞻經濟學人APP】,還可以與500+經濟學家/資深行業(yè)研究員交流互動。更多企業(yè)數據、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】,性價比最高功能最全的企業(yè)查詢平臺。

前瞻產業(yè)研究院 - 深度報告 REPORTS

2025-2030年全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告
2025-2030年全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告

本報告前瞻性、適時性地對多模態(tài)大模型行業(yè)的發(fā)展背景、供需情況、市場規(guī)模、競爭格局等行業(yè)現狀進行分析,并結合多年來多模態(tài)大模型行業(yè)發(fā)展軌跡及實踐經驗,對多模態(tài)大...

查看詳情

本文來源前瞻產業(yè)研究院,內容僅代表作者個人觀點,本站只提供參考并不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯系:service@qianzhan.com) 品牌合作與廣告投放請聯系:0755-33015062 或 hezuo@qianzhan.com

如在招股說明書、公司年度報告中引用本篇文章數據,請聯系前瞻產業(yè)研究院,聯系電話:400-068-7188。

p10 q0 我要投稿

分享:

品牌、內容合作請點這里:尋求合作 ››

前瞻經濟學人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關注。

前瞻產業(yè)研究院

中國產業(yè)咨詢領導者,專業(yè)提供產業(yè)規(guī)劃、產業(yè)申報、產業(yè)升級轉型、產業(yè)園區(qū)規(guī)劃、可行性報告等領域解決方案,掃一掃關注。

前瞻數據庫
企查貓
作者 黃纓杰
產業(yè)研究院、分析師
893071
關注
212
文章
25
前瞻經濟學人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經濟學家互動交流讓您成為更懂趨勢的人

研究員周關注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經濟學人》APP提問

 
在線咨詢
×
在線咨詢

項目熱線 0755-33015070

AAPP
前瞻經濟學人APP下載二維碼

下載前瞻經濟學人APP

關注我們
前瞻產業(yè)研究院微信號

掃一掃關注我們

我要投稿

×
J
主站蜘蛛池模板: 久久精品国产只有精品2020 | 国产在线青青不卡 | 无人区乱码一区二区三区 | 精品亚洲AⅤ无码午夜在线网站 | 久久国产网 | 人妻少妇波多野结衣黑人 | 国语自产拍在线观看7m | 亚洲欧洲日韩精品 | 777亚洲欧美日韩精品中文中字幕 | 久久综合给合久久狠狠狠974 | 欧美日韩无砖专区一中文字 | 67194成在线观看免费 | 亚洲成年人网址 | 美女午夜福利4K视频在线观看 | 丰满少妇无码在线观看 | 国产精品麻豆久久 | 伊人手机在线观看 | 国产成综合 | 中国黄色片一级 | 亚洲精品一区二区无码夜色 | 大地资源中文在线观看官网第二页 | 好男人社区神马WWW在线影视 | 无码AV岛国片在线观看免 | 程视频精品视频一区二区三区欧 | 在线视频中文 | 中文字幕一区久久 | 亚洲人www | 亚洲精品久久久久久一区二区 | 欧美特级黄色 | 中文字幕123区 | 久久夜亚洲 | 亚洲一区国产视频 | 老熟女高潮喷了一地 | 一起艹在线观看 | 2021亚洲韩国精品乱码 | 亚欧美日韩香蕉在线播放视频 | 97综合视频 | 中文字幕在线亚洲日韩码 | av视频在线播放 | 精品国产第一区二区三区游戏推荐 | 97高清国语在线看免费观看 |