英文训练AI大模型比中文更便宜,为什么会这样?
admin
2023-08-01 13:55:26
0

原标题:英文训练AI大模型比中文更便宜,为什么会这样?

如今国内市场的“百模大战”正如火如荼,无论是BAT这样的传统豪强,还是美团、字节跳动这样的新兴巨头,乃至科大讯飞等传统AI厂商都已入局。但提到AI大模型,似乎大家还是认为ChatGPT、Bing Chat、Bard等海外厂商的相关产品往往更加好用。

事实上,这并非错觉。近期牛津大学进行的一项研究就显示,用户所使用的语言对于大型语言模型(LLM)的训练成本有着密切的联系。

根据这一研究结果显示,按照OpenAI采用的服务器成本衡量和计费方式,让一个LLM处理一句缅甸掸语的句子需要198个词元(tokens),但同样的句子用英语写则只需17个词元。据统计,简体中文的训练费用大约是英语的两倍,西班牙语是英语的1.5倍,而缅甸的掸语则是英语的15倍。词元通常是指语料中文字存在的最小单位,但它的具体指代则是多变的,既可以是字、也可以是分词结果的词。

由于AI业界目前会使用词元来代表通过OpenAI或其他厂商API访问大模型所需的计算成本,所以也就意味着牛津大学的这项研究表明,英语才是目前训练大模型最便宜的语言,其他语言的成本则要大得多。

那么为什么会造成这一现象呢?用中文本身相比于英文更加复杂来解释显然并不科学,毕竟现代语言学是欧洲创建起来的,甚至现代汉语的语法分析原理也脱胎于西方的语法分析原理。

汉藏语系的语法结构与印欧语系相去甚远,参照印欧的屈折型语法来看以汉语为代表的孤立型语法,当然会觉得复杂。然而,词元(tokens)是以OpenA视角里中的训练成本来定义的,不是以字符来划分。而且,英文单词间是存在空格的,对英文文本处理时可以通过空格来切分单词。然而中文词之间不存在天然地空格,并且中文词是由多个字构成的,所以对于中文文本处理之前首先要进行分词。

真正导致用英文训练AI大模型成本更低的原因,是OpenAI等厂商的分词算法与英文以外其他语言的语义理解技术不到位有关。以OpenAI为例,作为一家美国公司,其团队在训练大模型时必然会选择以英语语料为起点,标注人工的投入显然也是英语系最方便,毕竟这会直接影响到大模型训练的强度和产出,也是为什么他们选择的人工标注团队在肯尼亚,而后者作为英联邦国家,以英语为官方语言、且教育水平较高。

AI理解不同语言不是通过翻译,而是直接学习相关语言的文本。那么AI大模型使用不同语言的能力差别又从何而来呢?答案是不同语言语料的丰富程度。此前百度的“文心一言”在内测过程中出现文生图不符实际的情况,就曾有主流观点认为,这是由于中文自然语言处理领域缺乏高质量中文语料所导致的结果。

而语料则是AI大模型的基础,生成式AI的原理大概可以总结为,通过大量的语料库进行训练,再从各种类型的反馈中进行流畅的学习,并根据需要对反馈进行整理,以建立相应的模型,从而使得AI能够对人类的问题做出相应的回答和决策。AI大模型之所以比以往的AI产品表现得更“聪明”,单纯是因为语料规模更大,比如OpenAI的GPT-3就拥有1750亿的参数量。

“力大砖飞”其实是当下大模型的底层逻辑,在这种情况下,语料基本就决定了它们的上限。语料肯定是越多越好,但如今的事实,却是英文才是目前互联网世界中使用人群规模最大、使用频率最高的语言。在去年6月,W3Techs又一次发布的全球互联网网页统计报告中就显示,英语仍一骑绝尘,占比高达六成(63.6%)以上,俄语为第二名(7%),中文则仅有1.3%、排名第八。

当然,W3Techs的统计只包含了网站,这也是为什么占全球网民五分之一的中文互联网中,能够拿得出手的网站仅占全球网站的1.3%。毕竟由于国内发达的移动互联网生态,App才是主体,大量信息已经聚集在了各式各样的App中,并且这些信息也难很通过爬虫获取,所以也导致其很难进行准确的统计。

这样的状态自然也导致了汉语语料库的匮乏,因为AI行业的惯例是使用互联网公开数据,而App里的数据则是属于运营方的,违规抓取App内数据是妥妥的违法行为。而国内互联网大厂将信息牢牢控制在自家App里,进而也导致了公开的中文语料不增反减。

不同于海外市场Reddit、Twitter这类愿意卖数据的平台,将无边界扩张思维铭刻在脑海里的国内互联网巨头,几乎每一家都在贪大求全,而敝帚自珍更是成为了各家共同的选择。既然互联网上的公开信息是以英文为主,即使国内的AI大模型训练往往也是从英文为起点,所以文心一言会出现“英翻中”的现象也就不足为奇了。

归根结底,AI大模型使用不同语言的训练成本,其实和该语言构筑的互联网生态繁荣程度呈现正相关。例如丹麦语、荷兰语等小语种使用者在互联网上留下的内容过于匮乏,就导致训练AI大模型使用它们来输出内容不光成本更高,而且效果也更差。但更加不妙的是,由于马太效应的影响,英文在AI领域的强势地位还或将会持续增强。

因此国内市场的AI大模型想要更好用,获得足够、且高质量的语料库是关键。互联互通这个已经被提出多时的概念真正被贯彻的那一刻,或许才是中文AI大模型比肩ChatGPT们的时候。

相关内容

热门资讯

原创 1... 在人民币收藏领域,1元纸币因其流通时间长、版本多样、设计独特而备受关注。每个时代的1元纸币都承载着独...
全柴动力新提交1件商标注册申请 证券之星消息,根据企查查数据显示,近日安徽全柴动力股份有限公司新提交1件商标注册申请。商标申请详情如...
【1月1日】相约升钟湖 共赴这... 看南部网推荐百家号 获取精彩独家资讯! 爆料微信:15520870888 正文 升钟湖“庆元旦...
国家5A景区,吉林省+1! 12月27日,文化和旅游部发布《文化和旅游部关于确定19家旅游景区为国家5A级旅游景区的公告》,吉林...
1月1日元旦,记得提醒家人吃这... 1月1日元旦,记得提醒家人吃这4道“开运菜”福满财多寓意好,欢乐过新年! 时光如梭,转眼间2024年...
原创 阿... 做客的、赛前排名第19的升班马伊普斯维奇队迎来了英超第18轮的较量,伊普斯维奇队此役做客PK赛前排名...
力源信息新提交1件商标注册申请 证券之星消息,根据企查查数据显示,近日武汉力源信息技术股份有限公司新提交1件商标注册申请。商标申请详...
航天工程新注册《总包造价软件V... 证券之星消息,近日航天工程(603698)新注册了《总包造价软件V1.0.1》项目的软件著作权。今年...
国家通知!这种疫苗,调整了!明... 重要提醒!! 孩子们打的一类疫苗 有调整!!! 根据《关于国家免疫规划百白破疫苗和白破疫苗免疫程序调...
1月1日起,暂停!广东紧急通知 今天(12月27日) “广东税务”发布最新通告 2025年1月1日00:00至1月5日24:00 暂...
2025年1月1日!交通管制! 12月25日 阳泉市交警一大队发布 关于2025年阳泉市矿区新年登高 全民健身活动期间 交通管制的通...
陕鼓动力将于1月13日召开股东... 金融界12月27日消息,陕鼓动力发布公告,将于2025年1月13日召开第1次临时股东大会,网络投票同...
1+1观影团《误判》甄子丹“以... 由黄百鸣、甄子丹联合监制,甄子丹导演的贺岁档动作电影《误判》将于12月27日正式与观众见面。片中,曾...
上海气温暴跌至零下5℃!冷空气... 上海人注意! 北方有一股冷空气正在南下 今天5点钟 它的前锋已经到达华东地区北部 预计今天下午开始影...
突发!以色遭高超音速导弹袭击,... 据央视新闻,当地时间12月27日,也门胡塞武装发言人叶海亚·萨雷亚发表声明称,胡塞武装使用“巴勒斯坦...
颐和园:2025年1月1日起游... 新京报讯 据颐和园官微消息,北京市颐和园管理处12月27日发布温馨提示: 颐和园于2024年10月至...
哈尔滨市出租车计价新规明年1月... 近日,哈尔滨市交通运输局、哈尔滨市发展和改革委员会联合印发《关于印发哈尔滨市巡游出租汽车计价规则的通...
英超-近13场仅1胜!哈兰德点... 央视网消息:英超第18轮,曼城主场迎战埃弗顿。上半场格瓦迪奥尔中柱,B席破门,阿坎吉踢空+刘易斯漏人...
北京菜市口百货股份有限公司党委... 北京商报讯(记者 王维祎)12月26日,由北京市商务局指导,北京日报报业集团和北京市商业联合会共同主...
哈尔滨冰雪大世界勉强盈利,小型... 文|劲旅网 哈尔滨冰雪大世界一经开业,再次成为今年绝对顶流。尽管票价高达300元+,但丝毫阻拦不住...