
在大模型掀起技術狂潮的今天,一個容易被忽視的痛點正在困擾著業內的研發者:當你下載開源數據集準備訓練模型時,可能正在與大量違規內容“同臺共舞”。
在大模型訓練領域,開源數據集曾因免費與便捷成為開發者的“寶藏”,但隨之而來的是數據質量參差不齊、內容雜亂等的困境。
清洗1200萬+條數據,
把“舊貨市場”變成“圖書館”
開源數據集有時像無人打理的舊貨市場,違規內容像生銹的釘子,藏在一些不易被發現的角落。
多數開源平臺僅以“責任自負”的聲明來免責,而讓數據內容安全成了開發者的“自選操作”。

為了改善開源數據“泥沙俱下”的現狀,匠數科技算法團隊匯總了當前幾乎所有開源的中文數據集,其中包含10M條數據的中文數據集和2M條數據的英文數據集,用全自研的內容審核算法進行了嚴格而精細的清洗,過濾掉其中潛在的有害、敏感或違規內容,大大降低數據處理和模型訓練時可能出現的內容違規風險。

結構化分類與標注,
搭建明確易用的“圖書索引”
為了幫助研發人員盡可能地減少對數據集的預處理時間,我們根據任務內容將數據進行了標準化分類,并提取了每一類數據的關鍵詞構建標簽體系,研發人員根據分類取用所需類目的數據,即可進行針對性任務訓練。
算法團隊在分類和標注邏輯上充分考慮訓練需求,以使數據集達到“開箱即用”的水平。
此外,還將數據格式進行了統一處理,在為研發人員提供豐富語料的同時,提高數據的可操作性。
這一系列操作,為原本雜亂的數據集提煉出一套可以有序取用的“圖書索引”,極大提高模型訓練的效率和目標指向性。
免費開源共享,
結了一萬多次“善緣”
該數據集自上線第一天開始就免費開源,目前在全網的下載量已過萬,并被多個大模型訓練框架推薦,其中包括開源社區內最受歡迎的微調框架之一llama factory。

(部分應用)
在技術“狂飆”的時代,需有安全為基石,創新才能行穩致遠。在內容安全方面,我們自信匠數自研產品能夠幫助對內容清潔和過濾有需求的研發團隊、終端客戶提供有效的技術支持,也愿意共享數據成果,盡可能幫助大模型訓練少走彎路。