Fast Llama 2 在 CPU 上採用稀疏微調與 DeepSparse

https://neuralmagic.com/blog/fast-llama-2-on-cpus-with-sparse-fine-tuning-and-deepsparse/

Neural Magic 宣布,他们现在支持 Llama 2 在 DeepSparse 中,并将他们的 Sparse Fine-Tuning 研究扩展到了 Llama 2 7B。他们使用了一些算法技术来量化 Llama 2 的权重和激活,并将其打包在 SparseML 中,供企业 ML 工程师使用。他们的研究显示,结合剪枝和量化技术,可以在 CPU 上加速 LLM 的推断过程,而不会降低准确性。

via Hacker News

November 23, 2023 at 03:12PM

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *