您现在的位置: 首页 观点 > > 正文
国内最小的大模型创业团队,靠另类创新出位
发布时间:2023-06-16 18:08:14 来源:天极大咖秀

拥有多年NLP经验的虎博科技,凭借自身独特的技术创新,打破“成本魔咒”,重新定义“短小精悍”。

国内大模型创业迎来了新面孔。

包含70亿参数和1800亿参数两个版本的大模型TigerBot正式亮相,一经推出,就以独特的实力,引起了外界瞩目。


(相关资料图)

从评测结果可见,TigerBot与OpenAI同规模模型的得分十分接近

作为一款国产自研的多模态大语言模型,TigerBot不仅能进行编程、画图、翻译,还支持多种办公场景下的任务,具有高效的学习能力、创造力和可控性。

更重要的是,借助更先进的微调算法,TigerBot在只使用少量参数的情况下,就能快速理解人类的问题,提升回答的准确性。

在同样50万条数据训练的情况下,TigerBot的收敛速度比斯坦福推出的Alpaca快5倍,在公开数据集上评测显示性能提升17%。

有点难以置信的是,研发了如此强劲大模型的团队,最初只有5个人,身为CEO兼首席科学家的团队Leader陈烨,担任了最核心的代码工作。

后来成员规模虽有扩充,但也只控制在了10人左右。

那么,这个在激烈的大模型竞争中,TigerBot背后的中国企业——虎博科技,究竟是怎样凭借犀利小团队杀出一条血路的呢?

01 重新定义“精悍”

众所周知,训练大模型所需的高昂算力、成本,一度使得ChatGPT这样的通用大模型,成为了少数科技巨头的专利。

然而,拥有多年NLP经验的虎博科技,却凭借自身独特的技术创新,打破了这一“成本魔咒”,并重新定义了何谓“短小精悍”。

具体来说,为了降低模型的训练成本和难度,虎博科技在以下几个方面进行了创新:

指令完成监督微调

所谓指令完成监督微调,主要就是让模型更加理解人类提出的各种问题。

如果模型像一个学生,那么问题就像一个作业。

如果老师只是给学生一个作业,不告诉他这个作业要考察什么知识点,要用什么方法来解答,那么学生可能会很困惑,于是有些问题的回答质量往往就不佳。

面对这样的问题,以往人们想到的办法,是通过微调和提示的方式,来让模型变得“更通人性”。

具体来说,微调是在大量的任务相关的数据上,重新训练模型的参数,这就像给了学生一本厚厚的辅导书,虽然可以让他学得更好,但也会花费很多时间和精力。

而提示则是在每个问题前加上一些特殊的单词或符号,就像给学生一个小抄,让小抄引导他写出正确答案,但这一方法也需要老师花心思制作小抄,而且小抄的内容也会限制学生的应变能力。

对此,TigerBot的应对之策,是使用一种标记语言(Mark-up Language),在每个问题前加上一些特殊的符号。

这相当于给每个作业打上了“标签”。

如此一来,学生就能明白,这个作业是数学题,要用加减乘除来解答;那个作业是英语题,要用翻译来解答;从而让模型快速地理解了各种问题。

但别看只是个“打标签”的小小改动,真正要践行这样的技术创新,却绝非易事。

因为标记语言并不是一种简单的任务标签,它需要有一定的语法规则和语义表达能力,才能让 LLMs(大模型) 准确地理解和执行指令。

其次,标记语言并不是一种独立的技术,要让 LLMs 能够有效地利用标记语言来完成各种任务,还需要借助预训练、微调、元学习等其他多种技术。

因此,整合各种技术并设计一种通用且易用的标记语言,是一项具十分前沿的创新性工作,涉及多个方面的挑战和难点。

唯有那些具备深厚理论基础和实践经验的团队,才能做出这类突破。

突破并行训练难关

除了模型的底层架构上的改进外,TigerBot另一大降低训练难度和成本的创新,就是突破了deep-speed等主流框架中的若干内存和通信问题,实现了千卡环境下训练数月无间断。

在此之前,要想千卡环境下进行数月无间断的训练,会面临很大的技术难点。

这里可以用一个形象的比喻说明:

想象一下,在一个拥挤的马路上,用很多辆小车来运送一座大山,要花费多大的时间和精力?要面对怎样的拥堵和阻碍?

在这里,“小车”就象征着每个 GPU 的内存空间,“大山”象征着模型的参数和梯度。

虽然我们有一千辆小车可以用,但是每辆小车的载重能力都很有限,远远不够装下整座大山。

另一方面,模型的参数和梯度需要在多个 GPU 之间频繁地交换和更新,需要消耗很多的通信资源。

这就像是要把一座大山从一个地方运到另一个地方,需要经过很多次的装卸和转运,不仅会耽误时间,还会消耗大量的资源。

对此,TigerBot主要使用了三个技术,来进行并行训练的优化。

首先,TigerBot 使用了一种叫做ZeRO的技术,它可以把模型的参数和梯度分散到多个 GPU 上,从而减少每个 GPU 的内存占用。

这就像是把大山分成很多小块,然后用不同的小车来运送一部分小块。这样,每辆小车就不会超载了,而且可以同时出发,提高训练的效率。

其次,TigerBot 使用了一种叫做DeepSpeed的技术,它可以根据模型的参数和梯度的大小和分布,自动地选择最合适的通信方式和路径。

这就像是一个智能导航系统,它可以根据货物的重量和目的地,自动地选择最快的交通工具和路线,从而大大节约了时间和资源。

再次,TigerBot 使用了一种叫做BF16的技术,它可以降低模型的精度要求,从而减少计算的复杂度和内存的需求。

这就像是将同等大小的山体碎块换成了塑料或纸板,从而大大从降低运输的负担。

借由着这些技术,虎博科技每月在训练上的开销,能够节省数十万。

这也是为什么,他们能以10人左右小团队,在几个月时间内实现“媲美”OpenAI壮举的原因之一。

02 正向突变

除了上述提到的技术外,虎博科技在大模型方面,还运用ensemble和probabilistic modeling的方法,让模型在创造性和可控性上做出了适当的权衡。

同时,针对中文连续性强、多义歧义情况多等问题,虎博科技通过不断吸取开源模型和代码中的优点,从tokenizer到训练算法上,都做了相应优化。

而这些提升性能、降低成本的技术创新,和自然界中的生物面临环境压力时,所激发出的“突变”和“进化”,有着异曲同工之妙。

面对训练大模型所需的巨量算力、数据时,实力并不强劲的中小企业,也感到了某种“演化压力”。

为了在这场AI竞赛中不被时代抛弃,部分中小企业,只能被倒逼着选择了一种更能降本增效的技术策略。

然而,这样的“压力”,却并不总是能激发正向的“突变”与“进化”,部分实力羸弱的企业,可能直接倒在了这场残酷的大模型竞争中,还有的企业干脆选择了投机取巧,以炒作和公关来吸引融资。

既然如此,那虎博科技是如何在这样的压力下,完成正向“突变”的呢?

谈到这个问题,我们就不得不提起虎博科技的创始人兼CEO——陈烨。

某种程度上,与OpenAI的Sam Altman一样,陈烨也是一个心怀科技理想的天才创业者。

在AI领域的造诣上,陈烨不仅三次获得人工智能顶级会议(KDD和SIGIR)最佳论文奖,在人工智能和机器学习领域发表了20余篇具有业界影响的论文,并拥有10余项专利。

并且还曾在美国的微软、eBay和Yahoo担任主任科学家和研发总监等职位,成功实施过多个深具业界影响力的人工智能系统。

而每一个对AI技术进行过深度研究的人,都明白这项技术的远大意义。

这样的人,如果想在AI领域干一番事业,就绝不会仅仅只是为了赚钱。

在2017年,陈烨成立了虎博科技,开始专注于NLP技术的应用落地,愿景是用AI赋能下一代搜索引擎,连接人与全球信息,让人们获取知识更简单。

然而,再远大的理想,也要有现实的支撑。

深谙AI技术发展路径的陈烨明白,人工智能的进步与迭代,需要漫长的研发周期,虽然短期来看,资本市场对这类技术有着很大热情,也产生了很多泡沫,但如果长时间未能看见实际的应用或产出,各路资本就都会纷纷人走茶凉。

面对这个问题,理性而成熟的陈烨,选择了一条更为稳健的道路,来坚守自己的理想。

在彼时的国内AI赛道上,智能金融成为了陈烨首先瞄准的目标。

这是因为,金融行业的运转,往往伴随着巨大的数据量,且与教育、医疗等行业相比,金融领域的很多数据都是公开、且易于获取的。

于是,结合自身的NLP技术,虎博科技研发的新一代智能金融信息搜索引擎——虎博搜索诞生了。

虎博搜索的数据覆盖 了A 股、港股及美股,包括行情、公告、研报、新闻等多维度信息。

利用语义挖掘、知识图谱、机器翻译等核心技术,虎博搜索不仅实现了口语化交流问答,并且还通过精确的数据抽取,以及跨越语言的功能,从海量信息中挖掘到深层次信息,并提供了本地编辑、报告全文、溯源定位等多种功能。

而这些功能背后的深度学习、知识图谱、文本生成等技术,都是未来大模型所必将涉及的关键点。

在此后的发展历程中,虎博科技又自主研发了各大金融领域的关键技术,包括智能推荐、翻译、舆情分析等,而由此积累的NLP经验,也为后来的TigerBot的诞生夯实了工程基础。

03 总结

纵观TigerBot诞生的过程,我们可以发现,这是一个既守住了饭碗,又赢得了理想的故事。

科研出身的陈烨,有技术,也有情怀,但却并没有在现实与理想之间顾此失彼,而是以用户需求为导向,结合自身的技术优势,开发出多种适用于不同场景的AI产品。

在此过程中,其依据对技术前沿趋势的敏锐洞察,逐步提高了自身的开发能力和工程化水平,从而在后来的大模型研发中,突破了主流框架中的技术难点和瓶颈。

如果说,当下的大模型竞争,是一场物竞天择的竞赛,那么唯有那些在广泛的产品和服务中,积累了足够多技术因子的企业,才能在压力和挑战面前,完成“进化”与“突变”。

标签:

国内最小的大模型创业团队,靠另类创新出位

拥有多年NLP经验的虎博科技,凭借自身独特的技术创新,打破“成本魔咒

淳熙二年_淳熙

1、淳熙(1174年-1189年)是南宋孝宗赵昚的第三个和最后一个年号,共计

我国首艘!成功交付

6月16日,由中海油能源发展股份有限公司(以下简称“海油发展”)投资

火灾隐患曝光

火灾隐患曝光单位地址江汉区前进四路燕马巷185号单位名称武汉轩和物业

环球热点!iPhone 15 Pro独创功能实装

据最新的爆料消息透露,下一代iPhone15Pro的相机将再次经历一次大幅升

花旗集团大厦节能改造:制冷系统运行费用降低 40%,每年减碳超 2600 吨|世界关注

作者|雪小顽编辑|苏建勋建筑行业是碳排放的大户,建筑降碳一直是备受外

甲基丁二酸商品报价动态(2023-06-16)

交易商品牌 产地交货地最新报价甲基丁二酸 含量:99%定州旭阳科技有限

1-5月中国汽车类零售总额同比小幅增长

中新社北京6月16日电(记者闫晓虹)中国汽车工业协会16日披露,2023年1-5

武汉五月天演唱会官网订票2023

官方购票平台:大麦网|纷玩岛2023五月天武汉演唱会加场演出日期:2023

什么是高仿手机品牌_什么是高仿手机

1、内屏仿屏与原装请区别主要体现在以下三方面:2、  显示效果方面:

全球观天下!SAP Spartacus 开源项目中 $skipComponentStyles 的作用介绍

SAP Spartacus 和 Angular 开发的前端应用中的 $skipComponent

环球时讯:涪陵这些“口袋公园”你去过没

近年来,涪陵区大力实施“增绿添园”工程,把公园装进城市“口袋”。用

贾跃亭被限制高消费, “现身”国内论坛演讲

6月15日,在第十五届中国汽车蓝皮书论坛上,贾跃亭以FF创始人兼首席产

全球观焦点:AI袭来,新变局下量化投资如何应对?景顺长城黎海威:积极拥抱人工智能

AI袭来,不仅是资本市场的投资热点,更让量化这种与生俱来与之相关性更

深圳安信证券招聘暑期实习生金融科技专场(2024-2025届)|今热点

一、招聘对象及相关要求面向对象:2024届-2025届全日制本科以上在校生

云南红河州着力提升“政府+金融”综合服务质效

□朱珠本报记者黄小军近年来,云南红河哈尼族彝族自治州(以下简称“红

奥托华格纳代表作_维克托奥比纳相关内容简介介绍-当前视点

维克托·奥比纳(VictorNsoforObinna),1987年03月25日出生于尼日利亚

世界新资讯:赋值增强中小企业持续发展力

中小企业是我国最具活力的企业群体,是建设现代化产业体系、推动经济高

每日简讯:下一站幸福电视剧百度云链接(下一站幸福电视剧百度云)

来为大家解答以下的问题,一站幸福电视剧百度云链接,下一站幸福电视剧

用上理想同款1.5T 石头董事长造车最新进展:首款硬派SUV申报|今热点

用上理想同款1 5T石头董事长造车最新进展:首款硬派SUV申报

宝馨科技设综合能源服务子公司,业务含智能机器人销售

企查查APP显示,江苏宝馨综合能源服务有限公司成立,法定代表人为刘乐

高考志愿填报莫被“服务”带偏-全球新资讯

十年寒窗,一朝交卷,填报志愿,就在眼前。

当前动态:陆军07迷彩服生产厂家及价格(中国陆军07式迷彩服)

1、大太阳下边穿07数码!热死人呐,让你穿一会就完蛋了,07是厚风衣型作

全球微速讯:潮福城大酒楼(潮福城)

福城大酒楼,潮福城这个问题很多朋友还不知道,来为大家解答以上的问题

观焦点:有劲儿谈恋爱没劲儿表演,她又翻车了?

这姐,除了做爱豆什么都做了。

知否mp3百度下载(知否mp3免费下载)|世界新资讯

龙腾光电:6月15日融资买入30.61万元,融资融券余额9384.84万元 当前关注

旧金山电动车市场份额超50%,全美排行第一-当前热文

含有维生素c最多的食物是哪种食物_含有维生素C最多的水果|环球通讯

efa是什么脂肪酸(efa是什么营养物质)

iphone黑屏没反应怎么办_iphone黑屏没反应 焦点快播

天天热点!想你爱你留不住你亲爱的你求歌名(想你爱你留不住你是什么歌)

上影节丨《乘船而去》首映,这个有关浙江德清的故事怎么讲 环球时快讯

2022年河南省中考满分作文:为正能量发声 全球今日报

12306放票是几点_12306放票时间网上订票几点开始放票

包粽子 学民俗……这里“花式”迎端午

中国5月份国民经济继续恢复|世界观焦点

四川省人民政府2023年立法计划印发(全文)_焦点短讯

世界微资讯!宇宙飞船怎么画复杂_宇宙飞船怎么画

环球简讯:无期迷途新狂级禁闭者是谁 无期迷途6.15新狂级角色介绍

沪深300指数突破3900点,日内涨0.93%。_热点聚焦

设备描述符请求失败驱动程序错误_设备描述符请求失败 讯息

焦点热讯:生物脱附原理与地面机械脱附仿生理论与技术_关于生物脱附原理与地面机械脱附仿生理论与技术介绍

读后提神醒脑的哲理文案 全球焦点

《毒液3》上映日期公布,将与《小丑2》票房争锋,你会选择哪一部 环球热推荐

国家统计局:5月16-24岁劳动力调查失业率为20.8%-每日消息

世界关注:上海市科技金融服务站长宁站正式成立!

天天速看:【古韵甘肃】城市的历史记忆—兰州握桥

陆股通增仓幅度排行榜(附股)

【天天聚看点】沈阳地铁1号线站点_沈阳地铁1号线

焦点要闻:谷歌或面临分拆风险!欧盟对谷歌滥用广告垄断地位提出指控

张瑶老公(张瑶对象) 全球看热讯

深入海底是不是成语(深入海底是成语吗)

长沙有哪些艺术大学排名一览表类一览表

天天亮点!小米后盖彩膜值得贴吗

雷迪克:我们应该为利拉德想要胜利以及他对波特兰的忠诚而鼓掌

天秤座的特点和性格(天秤座的真正性格特征讲解)

川发龙蟒接待财通证券股份有限公司等多家机构调研 环球新要闻

【环球聚看点】美国女脱口秀演员恶搞MH370事件犯众怒,马来西亚要求国际刑警组织协查其下落

每日热闻!江苏海安县工业园区发展有限公司_关于江苏海安县工业园区发展有限公司简述

热点评!临淄赵家徐姚遗址:万年文化史中夺目的“淄博元素”

美国计划购买1200万桶石油,补充其战略石油储备 焦点快播

博士入户广州条件? 当前热门

优化营商环境|平桥区五里店街道办事处:召开银企对接座谈会-世界时讯

6.5英寸手机多少厘米(6 5英寸手机多大)

今日热文:安徽蚌埠:第八次!获评全国无偿献血先进市|天天观天下

热议:湖南九旬老妇生日花近10万找人抬棺,体验葬礼

内蒙古赤峰松山区一店铺发生燃气泄漏闪爆事故,致2死4伤

燃气灶电池多久换一次就没电了_燃气灶电池多久换一次 信息

皇马其实已经放弃?曼联成超级土豪,这一点就注定姆巴佩会加盟!

江西全面推进小型水库实行专业化管护

“大反攻”!两大万亿赛道火了 CPO概念股持续走强|焦点资讯

白夜极光初始角色怎么选择 新手初始角色选择推荐

刘若英的歌曲后来歌词_后来歌词刘若英歌词

月湖大市场D区(对于月湖大市场D区简单介绍)_今日观点

x 广告
x 广告

Copyright ©  2015-2022 华中自然网版权所有  备案号:京ICP备12018864号-26   联系邮箱:2 913 236 @qq.com