【例會預告】
會議名稱:數據科學與創(chuàng)新管理團隊例會
會議時間:2025年04月17日(周四)14:30-17:00
會議地點:經管樓607會議室
匯報人: 李虎峰
匯報題目:神經網絡中的知識蒸餾(Distilling the Knowledge in a Neural Network )
匯報摘要:
提高幾乎所有機器學習算法性能的一個非常簡單的方法就是在同一數據上訓練多個不同的模型,然后對它們的預測取平均值。然而,使用一整套模型進行預測非常繁瑣,而且計算成本過高,難以部署到大量用戶,尤其是在單個模型本身就是大型神經網絡的情況下。Caruana 和他的同事已經證明,可以將模型集成中的知識壓縮成一個更易于部署的單一模型,并且我們使用不同的壓縮技術進一步開發(fā)了這種方法。我們在 MNIST 數據集上取得了一些令人驚訝的結果,并且我們證明了,通過將模型集成中的知識提煉成一個單一模型,可以顯著改進一個被廣泛使用的商業(yè)系統(tǒng)的聲學模型。我們還引入了一種新型的集成模型,它由一個或多個完整模型和許多專家模型組成,這些專家模型可以學習區(qū)分完整模型容易混淆的細粒度類別。與專家模型的混合不同,這些專家模型可以快速并行地進行訓練。