Bing Chat 越来越“傻”，可微软却解决不了这个问题

2023-08-16 15:55:49 来源：三易生活

(资料图)

随着时间的推移，AI 聊天机器人越来越不好用这件事，似乎已经成为了全球用户的共同体验。其中例如微软的 Bing Chat，即使有着 GPT-4 的支持、并打开了创造力模式，也经常会出现经常回避问题或是无法给出回复的情况。在海外社交媒体 Reddit 上，就有诸多网友吐槽 Bing Chat 已经变得没有乐趣可言，回答的内容不再风趣、不再快乐，让人感觉是冷冰冰、没有人性的机器。

更有甚者，在有用户试图要求 Bing Chat 围绕某个虚构人物进行演绎时，在明知相关讨论是无害的情况下，Bing Chat 居然认为这一行为存在风险。事实上，微软方面也承认了 Bing Chat 性能下降的事实，并在给出的相关回复中表示，正在积极监测用户的反馈，并计划在不久的将来做出改变、以解决相关问题。

其实自今年 2 月初内测以来，New Bing 已经经过了大大小小的几次更新，从一开始的 " 牛 Bing"、到后来被 " 赛博阉割 " 成 "New 病 "，再到现在提供精准、平衡、创造力三种模式，微软方面一直在试图做一款让所有人满意的 AI 大模型。但现在看来，似乎有点适得其反了，而 ChatGPT 这类大语言模型（下文简称为 LLM）之所以能够在 2022 年秋季开始走红，在 AI 热退烧之后重新点燃外界对于其未来的热情，靠的就是 ChatGPT 比以往任何同类产品都更智能，或者说更像人。

无独有偶，ChatGPT 如今也开始被用户吐槽逐渐出现了速度变慢、回复冗长重复、聊天主题单一无趣等问题。其实这类聊天机器人产品性能下降并非孤立事件，在不同厂商的 LLM 中都有发生。

事实上，业界也早已关注到这一现象。例如为了验证 ChatGPT 的行为如何随时间变化，斯坦福大学和加州大学伯克利分校的研究人员就测试了 GPT-4 在今年 3 月和 6 月的两个版本，测试内容横跨数学问题、回答敏感问题、代码生成和视觉推理四个部分。

最终的测试结果也确实证明了 ChatGPT 能力的衰减，例如在数学和视觉推理部分，研究人员使用了思维链（chain-of-thought，CoT）技术，让 LLM 来模拟人类思考的过程，并帮助其生成一个推理路径，将复杂的推理问题分解为多个简单的步骤，而不仅仅只是从语料库中直接拟合出最终答案。

然而结果显示，GPT-4 的性能发生了显著的漂移，从 3 月到 6 月，GPT-4 关于数学问题的准确率一路从 97.6% 降至 2.4%，同时回答长度也减少了超过 90%。

而在视觉推理方面，6 月的 GPT-4 在部分此前在 3 月曾正确回答的查询上，反而又出现了错误。即对于 3 月能给出正确结果的问题，6 月反而就做不到了。

如今相当多程序员每天都在使用的 AI 编写代码，但研究人员发现，在 3 月时 GPT-4 输出的代码中有超过 50% 是可直接执行的，可这一数字到了 6 月就仅有 10%。而且这还不是最夸张的，在回答敏感问题方面，GPT-4 的直接回答率已经从 21% 降至 5%，甚至在拒绝回答不当问题时，6 月版本的 GPT-4 也倾向于不向用户提供解释。

通常来说，事物的发展往往是呈螺旋形上升，具体到信息技术领域更呈现出了跨越式前进的状态，" 今不如古 " 的情况可以说是绝无仅有。那么问题就来了，出现 " 科研靠考古 " 这种情况只有一种可能，那就是行业整体曾崩溃过、如今又在重建。但 AI 大模型可是纯粹的前沿科技，并不存在类似的问题，所以这其中肯定是有蹊跷的。

目前在网络上最主流的声音，是 ChatGPT、Bing Chat 能力下降是为了平衡用户体验的结果。毕竟 ChatGPT 生成的内容是需要消耗算力的，用户越多需要的算力就会随之增加，但 OpenAI、微软购买算力资源的速度在这半年以来，却无法与用户增长相匹配，所以就导致了响应速度的下降，用户得排队向这类产品提问，而且提问数量被限制的情况也早已发生。所以在这种情况下，降低性能来平衡响应速度就是不难想到的一种解决方案。

当然，更深层次的核心矛盾是 AI 伦理问题，也就是数月前曾引起诸多讨论的 "AI 可能给人类带来灭绝风险 "，对于 AI 的担忧甚至让 OpenAI 创始人奥特曼走上了美国参议院的听证会，更让他这几个月来一直在全球各地 " 布道 "。不受控制的 AI 会成为毁灭人类文明的罪魁祸首，这无疑是科幻小说的一个重要题材，因此对于 AI 失控的担忧也是这一技术自诞生以来就存在的。

由此也衍生出了一个控制 AI 的概念 "AI 对齐 "，即要求 AI 系统的目标要与人类的价值观和利益对齐，使其符合设计者的利益预期，不会产生意外的有害后果，比如生成各种不当言论等内容。事实上，微软、OpenAI 这列企业搞 AI 对齐是必然，例如微软在 2016 年发布的聊天机器人 Tay 就曾出现过发表种族歧视内容的情况，也直接导致它出师未捷身先死。

但强行让 AI 遵守人类的价值观本身就是反直觉的事情，想要让 AI 与人类对齐，开发者就需要指定正确的目标函数，需要证实应当提供什么样的反馈才能正确引导 AI。此外甚至还需要证明提供这些反馈是合理的，而这无疑堪称是当下难以解决的技术难题。那么问题也就来了，如果想要让一个人不胡思乱想，并矫正其思维模式，最直接的方式是什么？当然是诺贝尔奖中的黑历史前脑叶白质切除术了，直接就把人类的思维能力从物理层面消灭。

回到 AI 领域也是一样，由微软研究院发布的一篇论文证实对 AI 大模型所进行的任何 AI 对齐行为，都会损失其准确性和性能，因为 ChatGPT 这类产品是基于人类反馈的强化学习来构建智能，人工强行干预的 AI 对齐会阻碍大模型对任务理解的真实程度。所以自然而然的，AI 大模型的性能就出现了开局即巅峰的情况。

但无论是算力紧张、还是 AI 伦理限制，短时间来看几乎都是无解的，因此用户体验高开低走也是必然，相关企业也不太可能解决得了这一问题。

【本文图片来自网络】

关键词：

中原按揭：7月香港共有1059宗资助房屋按揭登记环比减超六成

最后一页

精彩推荐

2022-08-07 湖南全面落实“三高四新”战略定位上半年GDP达2.3万亿元
2021-10-26 坚持带旅行团做核酸发现4例确诊常态化防疫需要更多董司机
2021-10-26 光纤变身从信号传输的“血管”到监测的“神经”
2021-10-26 学生研制“蜘蛛一号” 让焊接更智能，效率高10倍
2021-10-26 发挥自身优势，深职院助力帮扶对象“拔穷根”
2021-10-26 四位亲历者讲述：重返联合国新中国代表团带去“闪闪红
2021-10-26 评论：擅闯白虎展区被刑拘是一堂警示课
2021-10-26 北京：6人违反防疫规定被立案侦查
2021-10-26 天坛公园第40届菊花展开幕万余盆菊花打造沉浸式观赏体验
2021-10-26 评论：不能任由“二手车媛”招摇过市
2021-10-26 化解“社恐”焦虑关键要善处虚拟世界

度假

# 禾迈股份百元股缩水逾一成上海谊众、石英股份等跻身千元股阵营 # 热带雨林里，他的青春在绽放 # 爱，让聋听交流无障碍 # 疫情之下的戏剧节：如何变危机为生机

经济

商务

更多>