
最近我們發現,違規內容已經開始玩“文字游戲+隱喻圖片”的組合套路了。如卡通形象搭配隱喻文字,或文字合規但圖片暗藏玄機。
當違規內容進化出這種“多模態偽裝術”,傳統審核手段已經失靈,常常造成誤判或漏判。
比方說,視頻中正在播報新聞,畫面呈現的是涉案物品的圖片,字幕呈現的是“警方破獲新型毒品案”。

文本審核判斷字幕沒有問題,圖像識別則會認為畫面中有違禁品,這段視頻最終會被判斷為違規,因為單一的文本審核和單一的圖像審核無法結合起來理解稍顯復雜的場景。
面對這樣的挑戰,通過結合多種數據類型(如文本、圖片、視頻等)進行綜合分析的審核方式——多模態審核才可勝任。
僅有多模態審核的想法還不夠,關鍵在于如何讓它真正跑起來、跑得快。這就需要解決一個核心問題:如何讓多模態大模型在實際應用中達到可用的推理速度。
為了改善多模態大模型審核效率、效果的問題,匠數算法團隊最近完成了一項重要工作:將kimi-vl多模態大模型成功集成到SGlang推理框架中,并獲得了官方認可。
這項工作的核心挑戰是什么?
簡單來說,就像要讓一輛F1賽車在普通公路上跑出最佳性能,需要做大量的適配工作:
1.摸透“引擎構造”
在文檔資料稀少的情況下,團隊深入研究SGlang源碼,理解其多模態框架的運行機制,然后對kimi-vl模型進行改造,讓兩者能夠完美契合。
2.更換“高性能零件”
將kimi-vl中的一些計算組件替換為SGlang中更高效的算子,就像給汽車換上更好的發動機零件。
3.優化“傳動系統”
將kimi-vl的語言模型部分與SGlang中的deepseek-v2實現對接,充分利用各種高效推理算子(如fused_moe等),讓整個系統運行更流暢。
4.嚴格“路試驗證”
通過MMMU-Pro測試集驗證集成后模型的準確性,確保優化過程中沒有損失模型能力。
甚至在這個過程中,團隊還發現并幫助SGlang修復了一些bug。
我們有什么收獲呢?
1.實現推理效率優化
通過算子融合、代碼優化等手段完成適配,多模態大模型推理效率可獲得10倍左右的速度提升,從而可以高效率地將SGlang推理算子和框架利用到實際場景當中。
同樣審核1000張新聞圖片,假如原始模型要跑30分鐘,優化后可能僅需5分鐘,這種提速對要求審核時效性的場景來說至關重要。
2.實現跨模態語義理解
完成框架優化后的模型推理效率提升,從而讓模型同時分析文字與圖像的關聯語境具備落地應用的條件,在實際應用中便可以充分地運用多模態審核破解違規內容的“變形計”。
例如,識別“毒品”文字與警方繳獲畫面的組合,判斷為正常新聞場景,避免誤判;而特定的卡通形象搭配不當文字時,能快速識別潛在風險。
這就可以解釋文章開頭描述的場景,當單一文本/圖像識別不能充分理解復雜場景時,多模態審核可以補足這個短板,既能理解文字描述的內容、又能識別圖像傳達的信息,并將二者結合起來進行判斷是否違規,做到同時“看懂”文字和圖像的潛臺詞。
具備多模態審核能力的內容安全產品,可廣泛應用于同時具有文字/字幕和視頻/圖片畫面的場景中,如播放新聞、廣告的公共顯示屏,新聞網站,視頻平臺等場景,實現“圖文聯動審核”。
很多人說,在內容審核領域,AI技術是在幫助人們做一些“臟活累活”,但我們希望,即使面對“垃圾場清理工作”,也能做出一些技術美感。希望技術的提升能夠更好地幫助AI提高應用價值,讓真正需要高效率內容安全審核的場景,獲得AI技術的幫助。