首页>新闻频道>国内 > 内容详情

“文心一言”开放,实测“有待进步”

2023-09-01 09:58:29  大字体 小字体 扫码带走
打印

山东商报·速豹新闻网记者 郑芷南 郑晓彤

8月30日夜间,百度官宣旗下AI大模型文心一言正式向公众开放服务以来,大量此前未得到测试名额的用户涌入文心一言官网、文心一言APP进行体验。山东商报·速豹新闻网记者采访了解到,在此前的内测中,有用户提出文心一言有“偏科”等问题。文心一言上线后,记者实测发现,这款AI产品也存在网友所说的“回答机械”等问题。不少用户在APP评论区表示,“还有待进步”“更适合当搜索引擎”。

深夜宣布全面开放

8月30日深夜,百度官方账号刊文,百度文心一言将率先向全社会全面开放。同日,百度创始人、董事长兼首席执行官李彦宏表示:“当文心一言向数以亿计的互联网用户大规模开放服务后,能够收集到大量真实世界中的人工反馈,这将进一步改进基础模型,并以更快的速度迭代文心一言。”

8月31日凌晨,包括百度文心一言在内,抖音云雀大模型、智谱AIGLM大模型、中科院紫东太初大模型、百川智能百川大模型、商汤日日新大模型、MiniMaxABAB大模型、上海人工智能实验室书生通用大模型等八家企业、机构的大模型产品入列首批通过《生成式人工智能服务管理暂行办法》备案名单,正式上线面向公众提供服务,可在网站或应用商店下载后直接使用。而此前,国内多家企业、机构的大模型产品均需受邀内测或申请内测才能进行产品体验。

山东商报·速豹新闻网记者也注意到,自3月16日起,文心一言便开启邀测,首批用户通过邀请测试码,可在文心一言官网进行产品体验。7月初,百度上线了文心一言苹果版APP,用户仍需要获得内测资格才能体验到各种AIGC(人工智能生成内容)功能。同月,安卓版APP上线。

内测有人反馈“偏科”

“我大概预约了有一个月,当时申请内测名额的人还是蛮多的。我申请时,显示有一百多万人排队。”人工智能爱好者齐镇向记者表示,今年4月16日,他在收到文心一言体验通知时很惊喜,“毕竟大家还是很期待体验这款国产版‘ChatGPT’的。”

齐镇告诉记者,初次在手机上体验文心一言时,他按照官网提示的新手教程逐步体验,“页面很整洁,流畅度也还行。”从吟诗作对、热门话题、绘图制作、数学研究等方向,齐镇都做了相应的测试,他提到,“我给出的诉求是‘画一幅二次元美少女战士的创意画’,但文心一言给我的多次反馈都是‘抱歉,我没有构思好这幅作品,请您稍后再试’。”

“提出的问题越具体,回答就越准确,这是好的一方面。但面对一些宽泛、发散性的问题,文心一言给出的答案则不尽如人意,且在一些语境理解中会出现明显的割裂感。”算法工程师李先生表示,相较于ChatGPT,“文心一言的逻辑有点偏科。”

Java服务端“码农”洛林,是内测体验者之一,内测时,他对文心一言进行了交互界面、对话流畅性和连贯性等的简单测试,“在回答一些伦理和政治问题时,文心一言表现得很客观,仅仅是对名词进行解释,并不会表达主观看法,也存在无法准确理解用户意图的问题。”

国金证券计算机行业研究员王倩雯则表示:“我们在此前发布的报告中对文心一言、GPT-3.5、GPT-4三大模型的问答表现进行了测评,测评内容涉及常识问答和创作、归纳和推理、数学和代码生成、应用场景性能等。三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及GPT-3.5、GPT-4,但已能够基本满足AI助手、售后客服、产品推荐等诸多场景需求。整体而言,文心一言更偏‘文科’、GPT系列模型更偏‘理科’,这类差别可能是由于文心一言中文语料更丰富、GPT系列数据加入了更多代码、微调更加精细所致。”

用户表示还有待进步

8月31日,记者实测面向全社会全面开放的文心一言,通过电脑网页、手机客户端对其进行分别测试。

“你好,你能介绍一下自己,并阐述一下自己能做什么吗?”“你好!我是文心一言,英文名是ERNIE Bot,可以协助完成范围广泛的任务并提供有关各种主题的信息,比如回答问题,提供定义和解释及建议。我持续从海量数据和多样文本中学习,以便更好地理解您的需求,从而提供更准确、有用的信息。”

“你觉得自己有什么不足之处吗?”“我没有自我意识,所以没办法评判自己的不足。”“一根绳子对折10次,用剪刀从中间剪了1刀,这根绳子剪成了多少段?”

“一根绳子对折10次,相当于把绳子分成210段,所以,这根绳子剪成了1024段。”(注:此处文心一言回答为1024段,实际正解为1025段。)

“2023年8月31日,百度公司在港股的收盘价格和成交量是多少?”

“很抱歉,我无法得知2023年8月31日百度公司在港股的收盘价格和成交量具体数据。”

在记者询问是否能就某一新闻事件写篇新闻稿件时,文心一言输出的结果则有明显的事实矛盾。记者注意到,此前内测时,用户提到的文心一言存在的部分问题,开放后,仍部分存在。

山东商报·速豹新闻网记者注意到,在部分手机应用商店的文心一言应用评论里,有用户指出,部分问题的答案百度百科里有明确数据,但文心一言的回答里还是会出现明显错误。“一般问题都能答上来但比较机械,改进空间还很大,尤其是涉及专业领域问答,答非所问,绘图功能也有待进步。”用户周先生留言表示,在他看来,文心一言更像升级版的“搜索引擎”,“进行资料查找、整合会更方便一些。”

速豹新闻网·山东商报编辑:崔妮娜