5月13日,字節跳動旗下火山引擎開啟上海站的大模型巡展活動,一批新的大模型產品亮相。與此前大幅躍遷的產品更迭不同,小而專、聚焦實用,甚至是推出大模型工具,成為此次發布會產品的特點。
實用至上,火山引擎這場發布會可視為如今行業巨頭布局的一個縮影。“字節在大模型產品迭代上的思路越來越清晰,要能有可靠的商業場景,能被客戶用起來,這很重要。”一位接近字節跳動的相關人士表示,相比執著于“一鳴驚人”的大招,今年以來,“小步快跑”“多線程并進”成為字節發展的思路。
更小更便宜 實用至上
依靠短視頻崛起的字節跳動在視頻生成模型上有了新動作。5月13日,在上海站的發布會上,火山引擎發布了豆包視頻生成模型Seedance 1.0 lite,支持文生視頻、圖生視頻,視頻生成時長支持5s、10s,分辨率提供480P、720P。
“這是一款參數規模很小的模型,但同時依然能夠實現影視級的質量,且視頻生成速度大幅提升。”火山引擎相關負責人介紹道,這款產品可謂兼顧效果、速度、性價比。
“這次大模型優化的一個重要思路就是要在指令遵循方面進一步提升精度。”一位相關技術人士表示,通過優化語義理解能力,在生成視頻上可以更加精確控制人物表情、衣著服裝。包括一些文本中對于程度副詞的理解與響應,都做了不小的提升。
這樣的調整在持續優化模型推理成本的背景下,顯然有著更為明確的市場意圖。火山引擎希望這款大模型能夠在電商廣告、娛樂特效、影視創作、動態壁紙等場景中發揮更大的作用。在現場,不少電商客戶表示,如今不少的營銷廣告素材都可以通過相關大模型制作,從而降低制作成本與周期。
火山引擎發布的另一款大模型——豆包1.5·視覺深度思考模型也遵循了“實用至上”的思路。
數據顯示,豆包1.5·視覺深度思考模型(Doubao-1.5-thinking-vision-pro),激活參數僅20B,但具備強大的多模態理解和推理能力,在60個公開評測基準中,有38個取得業內最佳表現,在視頻理解、視覺推理、GUI Agent能力等方面均處于第一梯隊。
值得一提的是,該模型新增GUI Agent能力。基于強大的GUI定位性能,可在PC端、手機端等不同環境中完成復雜交互任務。例如,可對新開發的App功能進行自動化檢測。
布局AI生態
企業,無疑是這場大模型商戰中各方爭奪的焦點。火山引擎披露了如今的AI生態圖景:已在汽車、智能終端、互聯網、金融、教育科研、零售消費等行業廣泛落地,覆蓋4億終端設備、八成主流車企、70%系統重要性銀行和數十家證券基金公司、近七成C9頂級高校和100多家科研院所。
同時,火山引擎進一步介紹了Data Agent——這是一款面向企業的數據全場景智能體。從介紹來看,這款智能體具備主動思考、洞察、分析、行動能力,可以幫助企業挖掘數據資產價值,功能覆蓋數據分析、智能營銷等關鍵領域。
“火山引擎相關業務自成立之初就堅持內外統一,這樣既能保障對內服務,又能做好對外支持。”火山引擎總裁譚待說,這樣的原則在這場AI Agent的布局中依然適用,“通過技術和資源復用,我們能為內外客戶提供性價比更高的服務”。
為幫助開發者更便捷地利用AI提升開發效率,字節旗下國內首款AI原生IDE產品Trae也宣布升級。值得注意的是,此次更新后這一工具可以通過MCP讓AI主動調用外部工具等。
MCP即基于模型上下文協議,由國外大模型公司Anthropic開發,并于2024年11月正式發布。這一工具被譚待稱為類似HTML和HTTP的協議,因此被業內稱為AI領域的“萬能插座”。
這是字節跳動方面又一次對外釋放布局MCP協議的重要信號。譚待此前表示,統一協議有助于降低開發成本、加速行業發展。火山引擎將專注于企業端的垂類智能體開發,并為AI開發者提供便利工具。
“我們內部使用Data Agent進行數據分析,Trae也在內部應用,火山引擎要成為AI原生、AI實踐的典范,這樣才能助力客戶和開發者實現AI轉型。”在之前的采訪中,譚待如是表示。
(來源:上海證券報)