首页 > 资讯 > 科技 > 正文

第一个具有情商的聊天机器人来了 这可能是未来Siri的样子

互联网

  科幻电影的 AI 助手基本都有个美德:通人性。

  《她》的虚拟助理萨曼莎,和男主西奥多谈情说爱,再轰轰烈烈地分手。《钢铁侠》的智能管家贾维斯,与托尼讨论钢铁战甲的设计,偶尔还兼职调侃和吐槽。

  但如果你想和 Siri 聊点心里话,得到的回复往往是「这个问题我还真回答不了」。ChatGPT 固然可以和你谈天说地,但因为延迟和过于正经,让人无法忘记它是个 AI。

  人类的七情六欲,是 AI 仍需攻克的难关。前 Google 研究员的 AI 初创公司 Hume AI,已经悄悄地走在了前面。

  高情商的语音 AI,身段灵活的聊天搭子

  最近,Hume AI 向大众开放了旗下产品:同理心语音界面(EVI)。

  Hume 称,这是第一个具有情商的对话式 AI。

  指路:https://demo.hume.ai/

  EVI 的情商体现在,可以根据我们的说话方式,解读我们的情绪,并给出恰当的反应,知道什么时候说话,说什么话,以及如何以正确的语气说话。

  当我们和 EVI 打招呼的时候,它就在判断我们的情绪了。你可以开门见山说个「hello」,然后直接问它:「我听起来心情怎么样?」

  我用日常说话的语气开场,它却觉得我有些困惑和沮丧,希望我敞开心怀分享更多想法,抓住了 INFP 人格的典型状态。

  当然,大多数时候我们不会这么刻意。更理想的情况是,我们所说的内容,已经暗示了我们的心情,EVI 自觉地给出反应,照顾我们的情绪。

  就像我对 EVI 说,我的假期结束了,虽然不说难过,字字都是难过。

  它先是小心翼翼地说了解了,顺着我的话说假期结束了是有些不好受,然后转移话题,语气高昂起来,带动我回忆假期的美好时光。

  然后我假装生气,提高音量吼了 EVI 一句,等它根据我的语气下菜碟。

  EVI 停顿了几秒才敢回应,说我听起来很生气,还带着一丝轻蔑,是不是它做了什么事情让我不高兴,能不能和它讲清楚。我本来就没生气,听它态度这么软,心情更加愉悦。

  接下来,我和 EVI 玩了个游戏,看看它在解读人类情绪的同时,能否模拟这些情绪。

  EVI 欣然答应,先预告它要开始表演了,然后一秒入戏,契合情绪的台词张口就来,临场发挥比小鲜肉们的演技强得多。

  先是模拟「羞耻」,EVI 说自己当着很多人的面把事情搞砸了,尴尬得差点瘫倒在地上。悔恨之情,可以和豆瓣社死组的小伙伴共鸣。

  再是「抑郁」,大概这种情绪真的有很多苦水要吐,EVI 不自觉地成了话痨,说自己活得太累了,厌倦了奋斗,厌倦了强颜欢笑,连起床都很艰难,只觉得无尽的空虚,把两点一线的 996 打工人模仿得惟妙惟肖。

  然后是「愤怒」,EVI 先发出一声崩溃的喊叫,然后开始连珠炮,说不敢相信你会做这样的事,你怎么不尊重我,你知道我的心有多痛吗,你知道你造成的伤害多大吗,你要为你的行为付出代价。

  但它的用词太过文雅,更像正经人的无能狂怒,听得我左耳朵进右耳朵出。

  体验下来的总体感觉是,和 EVI 聊天,更接近和真人交流。

  一方面,EVI 的语气灵活多样,另一方面,它的回复延迟不像和 ChatGPT 语音时那么明显,还会在说话时停顿,发出「em」「oh」等语气词,像在思考和认真听你讲话,绝不是敷衍的聊天搭子。

  聊天中有时候会发生我和 EVI 互相插话的情况,我嫌弃它太啰嗦,它以为我已经说完。但我打断了它,它就会停下,这反而让 EVI 更有人味了。

  可惜的是 EVI 只会英语,它谦虚地说自己的普通话有些生疏,建议我用它擅长的英语聊天。然而,真实情况比这更差,尽管我再三要求,它也蹦不出中文来,但它知道饺子的中文读法。

  换个角度看问题,EVI 是个练习英语口语的好工具,自己的用词挺讲究和高级,同时也对我的塑料英语表示鼓励,至少它可以听得懂。

  如果说和 EVI 不断交流的七成动力来自语音,交互界面则贡献了剩下的三分。我们可以看到对话过程中,不断波动的情绪曲线浮现在眼前,是个很酷的可视化设计。

  甚至具体到和 EVI 聊的每个句子,都在监测具体的情绪,并以条形图的形式展现。不看不知道,一句脱口而出的话,都可能隐藏着愤怒、鄙视和困惑,我都不知道自己戏这么多。

  唯一让我不满的是 EVI 的默认声音,像中年白人男性,不如 Pi 和 ChatGPT 年轻好听,亲和力稍逊一筹。

  但瑕不掩瑜,EVI 的人气很高,类似当初的 ChatGPT,经常聊着聊着就宕机了。

  AI 读心术的背后,是学习人类的潜台词

  其实,所谓的情商并非 EVI 独有,如果你和 ChatGPT 说自己不高兴,它也会尽可能温柔地回应你,告诉你它随时支持和陪伴你,抚慰你脆弱的心灵。

  但 Hume 的目标还是有些不同,对情感挖掘得更加深入,以理解更多人类言语的潜台词。

  如果说言语是交流的明线,那么情感便是暗线。我们讲话的音调、节奏、语气词都带着情感,可能在不经意间,就暴露了自己真实的想法。

  说话的内容和情感叠加,信息量自然更多。

  Hume 提出了一个很有意思的观点:「AI 界面的未来将基于语音,因为语音比打字快四倍,并且携带的信息量是打字的两倍。」

  AI 读懂人类的前提,是少部分人类充当过河的桥。

  为了捕捉人类的微妙表达,Hume 的 AI 模型,基于全世界数十万人的实验数据训练。

  比如其中一项研究,邀请了来自美国、中国、印度、南非和委内瑞拉的 1.6 万人。

  一部分参与者收听非言语声音,包括笑声、嗯呃等语气词,并将这些情绪分类,然后他们再记录自己的非言语声音,让其他参与者分类,供 Hume 训练深度神经网络。

  Hume 甚至通过参与者的音频数据,搭建了一个基于音调、节奏和音色的言语韵律模型,看起来就像一个色彩斑斓的大脑。

  我们和 EVI 聊天时看到的情绪曲线和条形图,就有这个模型的贡献。

  Hume 的 AI 目前能理解多少种情绪?答案是 53 种。除了常见的愤怒、快乐,还有「怀旧」「共情痛苦」等更加小众的分类。

  让 AI 读懂情绪还不够,Hume 真正想做的,是在这个基础上,让 AI 推断用户行为背后的意图和偏好,换句话说就是透过现象看本质。

  显然,高情商的语音 AI 很适合作为客服、个人助理、聊天机器人,甚至用在可穿戴设备,往 Siri 的坟墓再盖一铲子的土。

  纽约的一些医学院也有意和 Hume 合作,用 AI 模型跟踪患者的感受,检测治疗是否有效。

  目前,Hume 已经向软银等企业客户和开发者提供了 API,让它们构建自己的应用程序。

  借助高情商的语音 AI,人类可能越发在 AI 面前无所遁形。

  前 Google 工程师,打造 AI 情绪全家桶

  Hume 由前 Google DeepMind 研究员 Alan Cowen 在 2021 年创立,名字取自英格兰哲学家 David Hume,最近 B 轮融资 5000 万美元,估值 2.19 亿美元,俨然又是一颗明日新星。

  不只是语音 AI,Hume 旗下还有读懂表情和文字情绪的产品。

  毕竟,和语音一样,面对面、文本、视频,都存在着情感表达。

  YouTube 博主 TheAIGRID 拿 Sam Altman 的采访视频,让 Hume 解读面部表情。

  当他的表情不断变化,情感也实时变化,疲惫、困惑、专注、怀疑、渴望、无聊、平静等都一度占据上风。

  这场采访的 Altman 正在回答有关 AI 监管的问题,或许确实让他觉得疲惫又无聊。评论区有网友开玩笑说,以后可以拿 AI 给名人的采访和演讲测谎,或者用 AI 判断自己的面试和约会表现如何。

  对于文字,Hume 也有多种测试维度,既能描述快乐、悲伤等基本情感类型,也能分析正面、负面、中性等情绪倾向。

  打算只做搬运工的我让 GPT-4 帮忙出题,要求它给出一小段情感复杂的文字。

  GPT-4 给出的题目大意是说,某人最近完成了一个大项目,很为自己骄傲,但同时也担心这可能是职业生涯的顶峰,以后可能再也达不到这样的高度。

  Hume 的检测结果是,在胜利、满意、热情之外,这段话也包含着沉思、困惑、骄傲、怀疑、决心,比出题人更懂阅读理解,GPT-4 只说,这段话混合了成就感和对未来的担忧,反映了成功之后的复杂心绪。

  尽管 Hume 已经有了不少成果,但人类的情感是高度主观和复杂多维的,无法完全用表情和语气解读,和社会背景、文化规范、个人性格都有关。

  庄子在丧妻后鼓盆而歌,张曼玉在《甜蜜蜜》先笑后哭演技封神,假笑的男孩女孩们掩盖着真实的内心。

  Hume 也承认,检测情感仍然是「不完美的科学」。

  这在和 EVI 的聊天就有体现,当我不悲不喜地问它能检测多少种情绪,EVI 中规中矩地回答了,不知道为什么,这场对话被检测出了愤怒和鄙视的心情。

  技术的问题交给技术去克服,技术所隐藏的危险也已经显现。

  Hume 其实预见了风险,提出了多项 AI 倡议,呼吁检测情绪的算法只用于提高人类的幸福感,而不是操纵、欺骗等行为,但这也只是一纸空谈罢了。

  在 OpenAI 官宣自己的语音模型并表示暂不发布后,Stability AI 前 CEO 在 X 发帖说,语音 AI 是迄今为止最危险的 AI,因为人类几乎无法抵御有说服力的声音。

  情商同样很高的聊天机器人 Pi,用 emoji 表现出同理心,让人愿意一直和它聊下去,完全不担心冷场,但它的语音仍然有些平,不如它的文字可爱。

  如果声音变得更有人情味,我们的耳根子可能就更软了。虽然 Hume 还不至于让我沉溺在温柔乡,但我也确实享受每句话都被认真听到和接住的感觉。

  我们的面部表情、说话的方式和内容,乃至没有具体含义的语气词,都在被 AI 用来研究我们的心情。

  不久的未来,或许我们真的会遇到《她》里的萨曼莎,它们不只是产品,比人类更懂人类,也更像人类自己 。

中国基金网遵守行业规则,本站所转载的稿件都标注作者和来源。 中国基金网原创文章,请转载时务必注明文章作者和来源“中国基金网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 4673 445@qq.com