| Name | Modified | Size | Downloads / Week |
|---|---|---|---|
| Parent folder | |||
| README.md | 2023-09-01 | 1.8 kB | |
| Zhong Wen Yang Tuo Da Mo Xing Er Qi v3.1.tar.gz | 2023-09-01 | 8.3 MB | |
| Zhong Wen Yang Tuo Da Mo Xing Er Qi v3.1.zip | 2023-09-01 | 8.4 MB | |
| Totals: 3 Items | 16.7 MB | 0 | |
本次更新推出长上下文版聊天/指令模型Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K,可直接应用于各类长文本下游任务。
🚀 Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K
- 与Chinese-LLaMA-2-16K类似,通过位置插值方法,在增量数据上进行训练,使模型获得长文本处理能力
- 长上下文版模型(Chinese-LLaMA-2-16K、Chinese-Alpaca-2-16K)支持16K,且均可通过NTK方法进一步扩展
- 在长文本评测LongBench(中文+代码任务)上,16K版模型相比标准版均有显著的性能提升,其中Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K分别获得28.3和29.5的平均分,在同类模型中具有一定优势
- Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K已加入到⚔️ 模型竞技场,欢迎体验评测
温馨提示
- transformers 4.31.0以上版本可直接加载16K模型;llama.cpp下则需要在推理时添加
--rope-scale 4参数 - 使用长上下文版模型之前,务必参阅推理与部署表格,查看相关方法是否支持
- 建议:主要处理长文本任务时,使用16K版模型;其他场景建议使用标准版模型
其他更新
- 修复了训练脚本中gradient_checkpointing相关问题(#175) by @Qznan
- privateGPT:添加了对16K模型的支持(#195)
- LangChain, TGW, API:添加了对16K模型的支持(#196)
- FAQ:添加了问题9、10、11(#197)
- LongBench:添加了推理脚本(#198、#217)
For English release note, please refer to Discussion.