大模型生態(tài)縱深演化百融云創(chuàng)率先破局多模態(tài)

來源：太陽信息網(wǎng) 2023-11-16 11:34:48

OpenAI于近期發(fā)布第三代文生圖大模型DALL·E 3，可以在ChatGPT上加載使用；隨后，Meta推出AnyMAL，同樣能夠理解圖片并可生成文本回應(yīng)。一系列文生圖產(chǎn)品的推出，使得多模態(tài)熱度大增。

AI大模型生態(tài)正向縱深演化。純文本交互已經(jīng)不能滿足智能感知的全部需求，還需要結(jié)合音頻、視覺、圖片等形式。逐鹿大模型的互聯(lián)網(wǎng)巨頭及科技公司加緊開發(fā)多模態(tài)應(yīng)用，進(jìn)一步釋放AIGC生產(chǎn)力。

創(chuàng)新算法底層邏輯

“所有行業(yè)都值得用AI重做一遍”，在大模型對(duì)各行各業(yè)進(jìn)行顛覆性重構(gòu)的路上，面對(duì)不同場景的交互需求，除了傳統(tǒng)的文本之外，還需要云服務(wù)廠商將其模態(tài)應(yīng)用向圖片、語音、視頻、代碼等形式轉(zhuǎn)化。

這個(gè)過程絕非易事。看似簡單的交互，背后彰顯的是多個(gè)AI技術(shù)的綜合能力。

其中一大難題就是每種模態(tài)都具有特定的特征提取和分析方法，這需要?jiǎng)?chuàng)新算法和技術(shù)來處理不同模態(tài)間的數(shù)據(jù)。以視頻形態(tài)來說，市面上一直缺少良好的方法充分理解視頻場景，所以很多產(chǎn)品都只能按照某種固定邏輯生成，無法真正理解視頻元素的含義。

日前，微軟與OpenAI就ChatGPT5交流談到，OpenAI將攻克的一大目標(biāo)是通過對(duì)于算法底層邏輯的融合、創(chuàng)新，讓大模型能夠充分理解視頻內(nèi)容以及各角色主體之間的關(guān)聯(lián)，從而能夠按照特定語境生成深層次的視頻內(nèi)容。

再以音頻形態(tài)而言，不同于視頻重在對(duì)于多維信息的把握，音頻交互更強(qiáng)調(diào)對(duì)情感、意圖的充分掌握，由此語音識(shí)別的關(guān)鍵技術(shù)，是要充分捕獲情感、音色甚至是方言，從中準(zhǔn)確地抓取關(guān)鍵信息。

在音頻-文本的交互領(lǐng)域，國內(nèi)走在前沿的是百融云創(chuàng)。其自研的智能語音機(jī)器人ChatBOT基于Transformer架構(gòu)搭建算法模型，對(duì)于語音識(shí)別的準(zhǔn)確率達(dá)99%以上，能夠?qū)崿F(xiàn)“真人級(jí)”互動(dòng)體驗(yàn)。同時(shí)，ChatBOT不僅僅是對(duì)話機(jī)器人，而是一個(gè)幫助實(shí)現(xiàn)端到端結(jié)果交付的智能體。ChatBOT直接關(guān)聯(lián)商業(yè)機(jī)構(gòu)KPI，可以助力商業(yè)機(jī)構(gòu)實(shí)現(xiàn)資產(chǎn)運(yùn)營和用戶煥活流程的自動(dòng)化。

而除了算法層面外，百融云創(chuàng)相關(guān)人士表示，多模態(tài)的智能交互對(duì)于模型的工程架構(gòu)、響應(yīng)速度、資源配置等均提出了更高要求，以文本-語音交互為例，需要依托深刻的行業(yè)理解沉淀出高質(zhì)量配對(duì)的語料，才能實(shí)現(xiàn)流暢、準(zhǔn)確的用戶交互。

率先破局“AI輔助研發(fā)”

隨著大模型進(jìn)入拼落地、拼應(yīng)用的下半場，為了讓AI技術(shù)更加融入千行百業(yè)，多模態(tài)領(lǐng)域勢必會(huì)以更快的速度發(fā)展革新。

目前來看，多模態(tài)的主流構(gòu)建思路并不是重新訓(xùn)練一個(gè)大模型，而是在已經(jīng)訓(xùn)練好的大語言模型中“嵌入”圖像理解、語音識(shí)別等技術(shù)，也就是通過引入多模態(tài)的數(shù)據(jù)集來攻克跨領(lǐng)域的技術(shù)難點(diǎn)。例如，百融云創(chuàng)的產(chǎn)業(yè)大模型——BR-LLM便結(jié)合了NLP（自然語言處理）、智能語音等技術(shù)。

也有一些科技公司嘗試基于特定需求直接訓(xùn)練多模態(tài)基礎(chǔ)模型。但不論采取怎樣的方式，毫無疑問大模型生態(tài)下半場已經(jīng)打開。業(yè)內(nèi)人士認(rèn)為，隨著模型能力的增強(qiáng)，AI應(yīng)用范圍將不再局限于單一功能或者單個(gè)產(chǎn)品，而是會(huì)擴(kuò)圍到更廣闊的應(yīng)用場景。在這樣的背景下，能否快速、高效地將技術(shù)產(chǎn)品化，料成為決勝未來的關(guān)鍵因素。

此前，為了讓AI技術(shù)更加深入賦能垂直場景，百融云創(chuàng)優(yōu)化原有機(jī)器學(xué)習(xí)平臺(tái)ORCA，將其與生成式AI理念緊密結(jié)合，形成的全新產(chǎn)品ORCA-GPT可以利用BR-LLM的代碼生成能力，極大地降低模型產(chǎn)品開發(fā)部署的周期和成本。

同時(shí)，伴隨著與多模態(tài)發(fā)展相關(guān)的全新研究方向——“AI for Science”（AI輔助研發(fā)）逐漸嶄露頭角，百融云創(chuàng)率先捕捉到這一趨勢，依托BR-LLM基座，于近期推出了一款全新智能代碼生成助手——BR-Coder。

“BR-Coder將極大地提升程序員的開發(fā)效率，助力商業(yè)機(jī)構(gòu)研發(fā)提質(zhì)增效?！卑偃谠苿?chuàng)專家稱，BR-Coder不僅能生成研發(fā)代碼，還可以用于自動(dòng)生成測試用例和單元測試、解答技術(shù)問題，在保障企業(yè)數(shù)據(jù)資產(chǎn)安全的同時(shí)，提升模型生成代碼的一次采用率。展望后續(xù)，BR-Coder會(huì)進(jìn)一步增強(qiáng)與編譯環(huán)境的交互，為開發(fā)者提供更為全面和便捷的編程體驗(yàn)。

免責(zé)聲明：市場有風(fēng)險(xiǎn)，選擇需謹(jǐn)慎！此文僅供參考，不作買賣依據(jù)。

關(guān)鍵詞：

傳感物聯(lián)網(wǎng)

創(chuàng)2007年以來最低值！人民幣怎么了，還能漲回來嗎？

文邱牧子進(jìn)入9月份，人民幣對(duì)美元匯率走勢又起波瀾。以在岸人民幣為例
老公醉酒出上聯(lián)：“抱貂蟬，遇貴妃，問昭君，想西施”，老婆下聯(lián)牛

?圖片源于網(wǎng)絡(luò)如有侵權(quán)請及時(shí)聯(lián)系文末點(diǎn)擊在看感謝支持??
魔獸世界德魯伊變熊任務(wù)攻略魔獸世界德魯伊變熊任務(wù)

1、放棄是可以再接的，你看你放棄的是哪一步，就去找哪一步給任務(wù)的那
張九齡詩《西江夜行》楷書全文，切切故鄉(xiāng)情。

西江夜行張九齡〔唐〕遙夜人何在，澄潭月里行。悠悠天宇曠，切切故
打破開發(fā)商壟斷的“集資建房”模式，為何如此難以落地？

打破開發(fā)商壟斷的“集資建房”模式，為何如此難以落地？,住宅,開發(fā)商,

无码少妇1区a区|精品综合一区二区三区|国产日韩久久久久熟女|亚洲av自拍无码不卡无码|久99久视频精品免费观看|激情三级无码一二三区视频|久久精品国产99国产精品亚洲|亚洲国产一区二区三区在线观看

大模型生態(tài)縱深演化 百融云創(chuàng)率先破局多模態(tài)

傳感物聯(lián)網(wǎng)

大模型生態(tài)縱深演化百融云創(chuàng)率先破局多模態(tài)