百川智能推出Baichuan2-192K大模型一次可输入35万个汉字
- 2024-05-23 01:02:00
- miadmin 原创
- 156
10月30日音书,百川智能宣布Baichuan2-192K大模子。其上下文窗口长度高达192K,不妨照料约35万个汉字,是目前维持长上下文窗口最出色大模子Claude2(维持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(维持32K上下文窗口,实测约2.5万字)的14倍。
据悉,本年9月25日,百川智能已绽放了Baichuan2的API接口,正式进军企业级商场,开启贸易化历程。此次Baichuan2-192K将以API移用和私有化摆设的办法供应给企业用户,目前百川智能仍然启动Baichuan2-192K的API内测,绽放给公法、媒体、金融等行业的中心配合伙伴。
上下文窗口长度是大模子的中心技能之一,通过更大的上下文窗口,模子不妨连接更众上下文内容获取更厚实的语义讯息,更好的捕获上下文的合联性、歼灭歧义,进而愈加正确、通畅的天生内容,提拔模子技能。
其余,LongEval的评测结果显示,正在窗口长度赶过100K后Baichuan2-192K还是不妨依旧额外强劲的机能,而其他开源或者商用模子正在窗口增进后功效都呈现了近乎直线消重的环境。
本次百川宣布的Baichuan2-192K通过算法和工程的极致优化,完毕了窗口长度和模子机能之间的均衡,做到了窗口长度和模子机能的同步提拔。
算法方面,百川智能提出了一种针对RoPE和ALiBi动态位子编码的外推计划,该计划不妨对差异长度的ALiBi位子编码实行差异水准的Attention-mask动态内插,正在包管诀别率的同时加强了模子对长序列依赖的筑模技能。正在长文本疑心度尺度评测数据PG-19上,当窗口长度扩张,Baichuan2-192K的序列筑模技能继续加强。
工程方面,正在自立开辟的散布式练习框架根蒂上,百川智能整合目前商场上统统先辈的优化技能,搜罗张量并行、流水并行、序列并行、重估计打算以及Offload效力等,独创了一套一共的4D并行散布式计划。该计划不妨按照模子的确的负载环境,自愿寻找最适合的散布式战术,极大消重了长窗口练习和推理流程中的显存占用。
百川智能正在算法和工程上针对长上下文窗口的立异,不只是大模子技能层面的冲破,对待学术界限同样有着主要道理。Baichuan2-192K验证了长上下文窗口的可行性,为大模子机能提拔开荒出了新的科研途径。
Baichuan2-192K现已正式开启内测,以API移用的办法绽放给百川智能的中心配合伙伴,仍然与财经类媒体及状师工作所等机构竣工了配合,将Baichuan2-192K环球领先的长上下文技能使用到了传媒、金融、公法等的确场景当中,不久后将一共绽放。
值得注视的是,Baichuan2-192K不妨一次性照料和理会数百页的原料,对待长篇文档要害讯息提取与理会,长文档摘要、长文档审核、长篇作品或陈说编写、纷乱编程辅助等的确场景都有助力感化。
据先容,它能够助助基金司理总结和诠释财政报外,理会公司的危险和机会;助助状师识别众个公法文献中的危险,审核合同和公法文献;助助技能职员阅读数百页的开辟文档,并答复技能题目;还能助助科员职员敏捷浏览豪爽论文,总结最新的前沿发展。(一橙)
联系人: | 王先生 |
---|---|
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255