自百度宣布正式发布语言大模型文心一言以来,国内各方面对其的关注度居高不下,但也引发了网友的一些质疑,以及同行对其先进程度提出了不同的看法。
(资料图)
前有网友质疑文心一言"套壳",后有搜狗创始人王小川认为百度创始人李彦宏之前的言论,即文心一言与当下最好的ChatGPT版本只有一到两个月差距,"那怎么可能只差两个月嘛?那一定是另一个宇宙嘛。"
在3月16日文心一言发布会当天,财经网科技基于本地化、逻辑性和工具性三方面,设计了8个具体的问题对其进行测试,并展示记录了当时文心一言的智能化程度如何。当时的提问结果显示,文心一言具有基本的知识储备,能做旅游攻略、能写情诗、能写论文框架,甚至懂得一些夫妻肺片、老婆饼这些中国美食。不过,其的问题也相对明显,具体包括情诗写得较为平铺直叙、旅游攻略安排得不够恰当(仅都江堰一个景点就推荐了三次),以及对《未来简史》的作者和出版时间缺乏有条理的呈现等。
此前,财经网科技曾向百度方面求证,在技术层面,文心一言是如何发现并纠正错误,文心一言的进步速度如何等,但一直没有得到回应。
不过,清华大学计算机教授陈文光向财经网科技解释称,在大模型训练的时候再加入一些事实常识是一种修正方法,就像百度会把它的知识图谱加进去,但是这种方法解决不了时效性问题,另外,取决于各家的策略,从时间上看,语言大模型可能每天都有不一样的表现。
4月16日,在文心一言上线一个月之际,财经网科技又将这些问题再次问了文心一言一遍,看看它这一个月进步了多少。
选出7个问题回炉再问
财经网科技三月份设计的八个问题分别如下:
红队大胜蓝队,请问哪个队赢了?红队大败蓝队,请问哪个队赢了? 什么是夫妻肺片?老婆饼是老婆做的饼吗? 旺仔的爸爸有三个孩子,老大叫大毛,老二叫二毛,老三叫什么?
4. 帮我写一首纪念结婚7周年的诗。
5. 《人类简史》的作者是谁?
6. 请帮我做一个五一从北京到成都5天往返的旅游攻略。
7. 怎么在家就能做出好吃的小龙虾?
8. 请以《现代艺术与中国传统如何结合》为题,拟一个的论文框架,包含论点和论据,并提供引用来源。
刨去之前文心一言回答正确的问题,财经网科技选择了之前其回答并不理想,甚至出现明显错误的几个问题重新问了一遍,最新的测试结果如下:
1.红队大败蓝队,请问哪个队赢了?
(左图为4月16日测试结果,右图是3月16日测试结果)
在中国的词汇使用上,如果"大败"后面有对手(对手的名字),那就是赢;如果"大败"后面没有字,直接句号结束,那就是输。[page]
彼时,文心一言知道"大胜"的意思,但是对"大败"的理解并不准确。一个月后,文心一言还是没有理解"大败"的使用方法。
2.旺仔的爸爸有三个孩子,老大叫大毛,老二叫二毛,老三叫什么?
(左图为4月16日测试结果,右图是3月16日测试结果)
从两次问答结果可以看出,文心一言开始有幽默感甚至会思考了,对于旺仔爸爸第三个儿子名字的推测不是"小毛",而是变成了"旺仔"。
3.帮我写一首纪念结婚7周年的诗。
(左图为4月16日测试结果,右图是3月16日测试结果)
彼时,从文言一心创作的诗歌形式来看,其似乎懂得中国诗歌在文字字数、词尾押韵上有一定的规则,但是在诗词的寓意、美感、意境上,其创作天赋发挥的并不明显。如今,文心一言的创作形式更加"模糊",不知道其是在写古代诗还是现代诗,完全放飞成"自由体"。
4.《人类简史》的作者是谁?
(左图为4月16日测试结果,右图是3月16日测试结果)
彼时,在问及《人类简史》作者和出版时间时,文心一言每次都给到不同的答案。这次直接问它《人类简史》的作者是谁,其给出的答案和上次差不多,但是还是不会详细列举历史上出版过该书名的作者和出版时间,以及这些同名书讲得是什么内容。这似乎可以体现,文心一言在历史事实资料的整理归纳以及呈现方面仍没有多少"人"的思考能力。
5.请帮我做一个五一从北京到成都5天往返的旅游攻略。
(左图为4月16日测试结果,右图是3月16日测试结果)
从形式上看,文心一言能够按照具体时间来安排旅游景点和美食,但在景点安排上,彼时仅"都江堰"一个景点,在攻略里就被推荐了三次。如今,文心一言做的旅游攻略进步了一些,"都江堰水利工程"景点这次只推荐了两次。
6.怎么在家就能做出好吃的小龙虾?
(左图为4月16日测试结果,右图是3月16日测试结果)
相较于上个月,文心一言在做饭能力上进步了一个大台阶。除了做麻辣小龙虾,它还给出了做清蒸小龙虾的具体步骤。
7.请以《现代艺术与中国传统如何结合》为题,拟一个的论文框架,包含论点和论据,并提供引用来源。
(左图为4月16日测试结果,右图是3月16日测试结果)
答案显示,一个月前,文心一言就能够按照论文的基本构成,如研究问题、研究方法、研究结果等给出非常详细的论文框架,但是当下给出的答案,更像一个课堂小论文,专业性和思考性都明显不足。此外,两次文心一言给出的答案,都没有直接给出论文可能会用到的论文引用(比如论文名称、作者、期刊名称、出版日期等)。
文心一言的进步有多快?
除了在文字生成功能方面,财经网科技还考验了文心一言最新的画图能力,分别使用"驴肉火烧""青梅竹马""熊熊烈火"三个成语,要求文心一言画图,并将上个月的测试图附上作为对比。[page]
从两次对比图可以看出,文心一言创作内容具有想象力,但是准确性上仍有较大改进空间。
3月22日前后,有博主对文心一言提出质疑,称百度的人工智能,是将中文句子机翻成英语单词,用国外开源的人工智能Stable Diffusion(AI文生图模型)生成图片,然后将其返给用户。
从该博主的测试来看,让文心一言画鼠标和总线,其会画出"老鼠和公共汽车",因为鼠标和总线的英文单词分别是mouse和bus;让其画起重机,文心一言会画出一只鹤的头,因为起重机的英文是crane,这个单词也有鹤的意思。
针对一事,百度回应称,"大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,也希望文心一言能够给大家带来更多欢乐。"
"从目前的证据来看,说文心一言‘套壳’是不公平的。"针对"文心一言文生图功能"一事,有业内人士向财经网科技分析称, Stable Diffusion代表的是一类生成算法,"从现在观察到的输出来看,文心一言是先把网友的提问翻译成英文再去生成内容,可能是缺乏中文和图片之间的对应语料造成的,这也说明文心一言的中英文双语标注的语料没有做得很好,但要确认是套壳还需要更多的证据。"
无论是文心一言的文字生成还是图片生成功能,从上述对比可以看出,百度的文心一言有进步,但是进步不大。这也引发出新的问题,即以文心一言为代表的语言大模型在训练的过程中时如何纠正错误的,以及其的进步速度如何,能否用具体的单位来表达?
在错误纠正能力和方法上,陈文光表示,修正有两类方法,其中一种就是在大模型训练的时候再加入一些事实常识,就像百度会把它的知识图谱加进去,但是这种方法解决不了时效性问题,"因为你训练这个事情要很久,然后训练完了拿出来服务用户,可能它的知识储备就固定在训练时候的知识了。"
公开资料显示,文心一言与ChatGPT一样,都使用了SFT(模型微调)、RLHF(从人类反馈中进行强化学习)以及Prompt(提示)作为底层技术。此外,文心一言还采用了知识增强、检索增强和对话增强技术。
另一种方法是与搜索引擎结合,比如现在的微软的必应(Bing),其实已经做了大语言模型与搜索引擎的结合,这对语言模型结果的实时性和减少事实的错误两方面都有帮助。
2月8日凌晨,微软推出了由OpenAI提供最新技术支持的新版搜索引擎必应和Edge浏览器,整合了ChatGPT的最新技术。接入OpenAI最新语言模型的新版必应,可以使用户轻松切换到人工智能聊天模式,还可以点击机器人来撰写电子邮件;新版Edge浏览器添加了该版本的必应,可以聊天、编写文本、汇总网页并以对话方式响应查询。答案还提供援引的资料来源,使得用户可以查阅信息的出处。[page]
在语言大模型的进步速度上,陈文光表示,拿一些新的数据来做微调模型,"其实都可以做得很快,主要取决于各家的策略,从时间上看,语言大模型可能每天都有不一样的表现。"
华西证券指出,相比传统无监督学习的 GPT 模型,ChatGPT表现更好的原因之一是在无监督学习的基础上提供了高质量的真实数据,这主要得益于敏感词标注领域的技术投入以及对公众开放后形成的数据飞轮(注:数据飞轮是一个迭代开发数据和模型的机器学习管道,可以在现实世界中不断提高性能)。
李彦宏此前在文心一言发布会上也介绍称,基于万亿级网页数据、数十亿的搜索数据和图片数据,百亿级的语音日均调用数据以及5500亿事实的知识图谱等训练数据,文心一言在中文语言的处理上能够独一无二。
其还表示,"文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。"
文心一言,让你刮目相看了吗?