| Name | Modified | Size | Downloads / Week |
|---|---|---|---|
| Parent folder | |||
| README.md | 2023-10-26 | 1.8 kB | |
| Zhong Wen Yang Tuo Da Mo Xing Er Qi v3.2 source code.tar.gz | 2023-10-26 | 8.4 MB | |
| Zhong Wen Yang Tuo Da Mo Xing Er Qi v3.2 source code.zip | 2023-10-26 | 8.4 MB | |
| Totals: 3 Items | 16.8 MB | 0 | |
本次更新推出小参数量基座/聊天模型Chinese-LLaMA-2-1.3B和Chinese-Alpaca-2-1.3B,以及对投机采样解码策略的支持
🚀 Chinese-LLaMA-2-1.3B、Chinese-Alpaca-2-1.3B,投机采样解码策略
- 推出4层的小参数量中文LLaMA/Alpaca模型,使用和大模型相同数据量进行了中文预训练(Chinese-LLaMA-2-1.3B)和指令精调训练(Chinese-Alpaca-2-1.3B)。
- 投机采样是一种解码加速策略,借助能力稍弱但速度较快的小模型加速大模型的推理。其理论细节可查看相关论文。本次更新实现了投机采样解码策略,可使用小模型加速大模型的解码,并在
gradio_demo.py和inference_hf.py中添加了使用投机采样的参数。 - 经测试,A40-48G GPU上使用Chinese-Alpaca-2-1.3B模型加速Chinese-Alpaca-2-7B/13B模型推理,平均推理速度提升了1.3~1.6倍。详细用法和加速效果请参考wiki
注意事项:小参数量模型可以像7B/13B模型一样直接用于推理,但结果会比大模型差,建议用于投机采样加速大模型推理。
其他更新
- 添加了对kbits训练的支持 (#229)
- Peft相关更新和修复 (#246, [#251])
- FAQ:添加了问题12、13 (#249)
- C-Eval: 更新了prompt模板 (#255)
- LongBench: 更新了测试结果 (#259)
- LangChain: 更新了示例中的超参设置 (#271)
- 修复了推理脚本中量化推理相关问题 (#302)
- 适配了FlashAttention对推理的优化,现在可以在推理时搭配FlashAttention进行加速。使用方法参考wiki (#367)