Download Latest Version Zhong Wen Yang Tuo Da Mo Xing Er Qi v4.1 source code.zip (8.5 MB)
Email in envelope

Get an email when there's a new version of Chinese-LLaMA-Alpaca 2

Home / v3.1
Name Modified Size InfoDownloads / Week
Parent folder
README.md 2023-09-01 1.8 kB
Zhong Wen Yang Tuo Da Mo Xing Er Qi v3.1.tar.gz 2023-09-01 8.3 MB
Zhong Wen Yang Tuo Da Mo Xing Er Qi v3.1.zip 2023-09-01 8.4 MB
Totals: 3 Items   16.7 MB 0

本次更新推出长上下文版聊天/指令模型Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K,可直接应用于各类长文本下游任务。

🚀 Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K

  • 与Chinese-LLaMA-2-16K类似,通过位置插值方法,在增量数据上进行训练,使模型获得长文本处理能力
  • 长上下文版模型(Chinese-LLaMA-2-16K、Chinese-Alpaca-2-16K)支持16K,且均可通过NTK方法进一步扩展
  • 在长文本评测LongBench(中文+代码任务)上,16K版模型相比标准版均有显著的性能提升,其中Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K分别获得28.3和29.5的平均分,在同类模型中具有一定优势
  • Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K已加入到⚔️ 模型竞技场,欢迎体验评测

温馨提示

  • transformers 4.31.0以上版本可直接加载16K模型;llama.cpp下则需要在推理时添加--rope-scale 4参数
  • 使用长上下文版模型之前,务必参阅推理与部署表格,查看相关方法是否支持
  • 建议:主要处理长文本任务时,使用16K版模型;其他场景建议使用标准版模型

其他更新

  • 修复了训练脚本中gradient_checkpointing相关问题(#175) by @Qznan
  • privateGPT:添加了对16K模型的支持(#195)
  • LangChain, TGW, API:添加了对16K模型的支持(#196)
  • FAQ:添加了问题9、10、11(#197)
  • LongBench:添加了推理脚本(#198、#217)

For English release note, please refer to Discussion.

Source: README.md, updated 2023-09-01