您当前的位置: 全球新闻网 > 国内 > 专访58同城詹坤林:“灵犀”智能语音语义平台助力58同城产业化

专访58同城詹坤林:“灵犀”智能语音语义平台助力58同城产业化

发布日期:2021-10-12

杨晶佳 赵芙瑶10月10日,2021大数据科技传播与应用高峰论坛暨“科创中国”试点城市推进式在湖南衡阳召开,论坛上揭晓了“大数据科技传播奖”,其中,来自58同城AI Lab的“灵犀”智能语音语义平台团队,摘得团体奖-创新奖。

事实上,随着我国大数据、人工智能等新兴产业飞速发展,语音识别技术已经日趋成熟,AI语音机器人也已不算新鲜事物,不过,在复杂的方言口音、多变的口语化表达面前,人工智能变“人工智障”的尴尬现象层出不穷。

作为58同城自研的智能语音语义识别平台,能听懂带方言口音的“塑料”普通话、能理解缺字少字的口语化表达;在和C端用户对话沟通过程中不仅可以回答用户咨询,还能主动反问用户获取商机信息,并能向B端商家及时传达商机;节省大量人力成本、每月创造数百万收入……“灵犀”究竟是怎么做到的?

论坛现场,58同城AI Lab负责人詹坤林接受中国科技新闻网专访,就上述问题进行了分享。

58同城AI Lab负责人詹坤林接受中国科技新闻网专访

用自己的数据训练自己的模型 中台与前台构建虚拟项目组协作共赢

中国科技新闻网:在智能语音语义识别领域,科大讯飞、百度等都有长期的积累和成熟的应用,58同城定位生活服务平台,自研“灵犀”的契机是什么?“灵犀”为58同城带来了哪些改变?

詹坤林:我们选择自研智能语音语义识别系统主要基于三点考虑:一是58同城每年会产生超过千万小时的语音数据,而第三方语音识别技术的采买价格是每小时几块钱不等,若采买第三方技术,每年将花费数千万元,成本非常高。

第二是我们的场景较垂直化,包括房产、招聘、汽车、本地生活服务等等垂直领域场景产生的语音数据,直接使用第三方通用的语音识别引擎识别效果并不好,在我们这种垂直业务场景下需要去做语音识别模型的定制优化。所以我们选择自研“灵犀”,用自己的数据去训练自己的模型,并针对不同业务做定制优化,最终的效果是超越第三方的。

第三点是自研更加灵活,可以快速响应业务需求,随着我们的业务发展,相应场景下语音数据也会不断发生变化,语音识别模型需要持续更新迭代,如果我们采买第三方语音识别技术,更新优化模型需要再付费,并且需要时间,而自研系统可以保证持续的更新迭代,并能根据业务需求进行定制优化。

基于以上三点,我们打造了“灵犀”智能语音语义平台,它包括基础语音识别、NLP自然语言处理能力,支持人机对话、人-人对话内容分析两大功能,并针对58同城多样化的业务场景开发了智能聊天助手、智能外呼助手、智能语音质检系统等数十款AI应用,灵活满足各类需求的同时,也提高了人效、收入和用户体验,为公司产业化升级贡献了一份力量。

中国科技新闻网:当下,AI中台的概念比较火热,根据介绍,“灵犀”是一个公共的智能语音语义平台,也属于AI中台类产品,58同城则包含房产、招聘、汽车、本地生活服务等众多前台业务。那么,58同城AI中台和前台业务是如何协作,来实现共赢的?

詹坤林:“灵犀”智能语音语义平台确实是一个AI中台产品,这个平台可以应用到不同的业务方,比如刚才说的招聘、房产、汽车、本地生活服务等等。我们的协作模式一般分为两方面,一是我们去给这些业务线推广“灵犀”,告诉他们哪些场景可以用到“灵犀”,当给某个业务方推广能力时,我们会分享其他业务的成功应用案例,我们也会调研业界的成熟应用,给业务线提供参考。二是由于“灵犀”在58同城内部已经有了一定基础,比如说房产业务线已经在使用我们这个平台的功能,那招聘业务线可能听到类似的应用就会主动来找我们,向我们提需求。

当需求确定之后,我们AI中台和前台业务会构建一个虚拟项目组,以协同项目的形式进行协作,前台和中台密切配合,共同设定目标,双方围绕统一的目标去开展业务,最终实现共赢。在我们的经验中,这种虚拟项目组的形式下,前台和中台开放协作,最终能取得较好的成果,我们当前所有项目都以这种方式进行。

58同城AI Lab负责人 詹坤林

定制性优化使方言口音更易懂 智能机器人边回答边反问

中国科技新闻网:据了解,“灵犀”的语音转写文本准确率达到了90。58同城业务覆盖招聘、房产、汽车、金融等多个领域,除各领域专有词汇外,客户们还可能有复杂的方言口音,“灵犀”如何克服这些难点,实现语音转写高准确率?

詹坤林:首先,不同的业务确实有不同的专业术语,比如房产经纪人、招聘HR都有各自的术语,针对这些我们会区分出不同的业务线、标注不同的语音数据,建立声学模型、语言模型等等,进行定制性优化,解决不同业务线的问题。

方言口音是整个语音识别技术面临的一个难点。当前我们主要解决的是带方言口音的普通话,对于我们来说,58同城的定位是本地生活服务平台,它有很强的地域性,我们会针对全国不同的城市去做优化。我举个例子,比如湖南这边有长沙话,很多人可能就会讲带长沙话口音的普通话,目前基本全国所有城市,带一点方言口音的普通话我们都能够识别。但我们当下还没有在纯方言识别上去投入,纯方言语音的识别是语音领域的难点,这里需要较大的投入成本,我们可能会针对性分析应用场景,并作详细评估,不排斥采买第三方的纯方言识别技术。

中国科技新闻网:据介绍,58同城用“灵犀”打造了IM文本对话机器人,当用户联系商家时,由机器人和用户对话,在对话过程中,机器人如何判断是否形成有效商机?确定商机后,机器人如何将用户的具体意愿及需求转达给商家?

詹坤林:这个问题是指我们的黄页商家智能聊天助手这个应用,我先大概介绍一下背景,当用户有保洁、搬家、维修等需求时会通过微聊58同城自研的IM聊天工具以文本对话的方式联系58同城平台上的商家,而商家由于工作繁忙往往无法及时回复用户,造成商机流失。为了解决该问题,黄页业务线构建了一支人工客服团队,由人工客服来代替商家接待用户,当人工客服和用户沟通完形成有效商机信息后再转交给商家,从而帮助商家获客。在这样的场景下,我们应用“灵犀”平台中的人机对话平台打造了文本对话机器人,当用户来联系商家时,先由机器人接待,若机器人能够聊出商机则结束对话,若不能则转接人工客服,这种人机协作的方式可以大大节省客服人力。

这里的有效商机指什么呢?比如对搬家用户而言,用户会提供起点、终点以及需要的车型等基本诉求,在和用户聊天的过程中,机器人就会根据对话,识别出相关信息,形成有效商机,更有利于商家的及时高效处理。同时,也还会通过智能外呼机器人去主动打电话提醒商家来处理商机,以进一步促进服务的效率。

当然,在这个过程中我们也很注重C端用户的体验,保障机器人对话的流畅性,比如在聊天过程中,根据用户咨询的问题,机器人就会去理解用户的意图,然后把问题的答案给到用户。第二是我们的机器人会在适当时机主动询问用户相关订单需求信息,比如他是从北京的回龙观搬到大兴,这时我们机器人又会去识别用户说的这句话,通过自然语言处理技术,把回龙观和大兴识别出来。所以“灵犀”IM文本机器人相当于是有两个主要功能,一是回答用户的提问,二是向用户反问,通过这样来回、多轮次的沟通,最终获取有效商机。

中国科技新闻网:根据有效商机转化率指标来评价,“灵犀”机器人的能力已经达到了商机组人员的80水平,甚至有的已经超过了商机组人员。那么,当前机器人的工作量相当于多少商机组人员的工作量?和真人相比,“灵犀”机器人还有哪些提升空间?

詹坤林:“灵犀”作为智能化产品需要不断进行机器学习,举例来看,我们正在优化中的一个应用——黄页销售智能外呼助手。黄页业务线的销售团队会以电话销售的方式来向商家客户推荐会员产品。黄页销售团队由商机组、销售组两类人员构成:商机组人员的工作任务是与客户沟通商机方面的需求,将意向客户标记为有效商机,交由销售组人员进一步提供服务;销售组会跟进客户需求,在一段时间内,帮助客户了解并认可会员产品,并成为会员。在这样的销售模式下,商机组人员的工作任务较标准化,我们应用“灵犀”平台中的人机对话平台打造了语音对话机器人,形成了销售智能外呼助手,将商机交给机器人自动外呼,由机器人来和客户对话,对话结束后自动判断是否继续跟进客户。当前我们机器人在全国的平均水平达到了人工销售的80,已经使用的机器人相当于50名商机组人员人效,并正在全国逐步推广。

至于为什么机器人只有人工80的水平,关键在于AI对话永远是在标准化的场景中更有优势,而在更复杂的个性化场景里,机器人就很难达到人工的水平,不过我们的80是全国几十个城市的平均水平,其实在部分城市我们的机器人已经超过了人工的水平,比较困难的是在一些方言口音比较重的地区,语音识别的准确率没有那么高,就会影响机器人的理解和判断能力。

58同城AI Lab负责人 詹坤林

数十款AI应用提高用户体验“灵犀”从应用中来到应用中去

中国科技新闻网:“灵犀”的智能语音质检系统能将对话转为文本,进行语义理解,且语义标签准确率已经达到了95。通常语义理解要比语音识别更加困难,人们在日常沟通中会省略很多字词,语气、重音等等也会导致语义变化,“灵犀”是如何克服这些困难,提高语义标签准确率的?

詹坤林:其实语音识别和语义理解的困难不好对比,语音识别的难点在于方言口音、嘈杂环境等等,语义理解的难点在于用户的语言习惯,比如多说几个字、少说几个字,这个在我们的机器学习模型里叫语料,比如一句话里少了几个字但含义不变,我们会收集大量的语料把它标注出来,机器学习模型就会在下一次遇到类似语料的时候识别出相应的标签,这样就解决了口语化表达中少字的问题。

最难的可能就是您说到的语气变化的问题,比如在情感类型的表达场景下,用户反问和质疑、声调高和声调低都会对语义产生影响,这也是学术界和工业界研究的难点,不过在我们目前的应用场景里,这类问题其实占比很小,可能连1都不到,所以它的影响也还好。

中国科技新闻网:在“灵犀”智能平台衍生出的数十款AI应用中,哪款应用付费用户最多?整体盈利状况如何?除了58同城,“灵犀”能否为其他企业提供智能语音语义技术支持?

詹坤林:刚才我们讲到的黄页商家智能聊天助手产品已经进行了商业化,命名为“微聊管家”,向商家进行售卖,当前每月开通该功能的商家数量过万家。

另外,“灵犀”具备为同类型的公司提供智能语音语义识别技术的能力,类似百度云、腾讯云,但目前我们还没有对外开放,因为涉及到一些商业合作层面的事宜。

中国科技新闻网:与纯粹的语音识别公司不同,58同城的“灵犀”是从应用中来,到应用中去,这里面你认为最大的区别是什么?58同城所掌握的用户数据以及场景是不是其核心竞争力?

詹坤林:“灵犀”不仅有语音识别,还包括了语义理解,也就是上层的NLP自然语言处理这一块,而很多传统的纯语音识别公司可能只做语音识别部分,就是把语音转成文本。

“灵犀”的核心竞争力是什么呢?首先,我们的优势是积累了大量的垂直业务场景的语音数据,像房产、招聘、汽车、本地生活服务这些生活服务领域的所有语料就是我们的平台价值所在,基于这样多元化的业务场景,打造语音识别模型,它比业界通用的语音识别模型效果要好。

另外,我们贴近业务场景,在58同城产业化升级的大背景下,灵犀作为AI中台会和业务深入协同合作,通过深钻业务打造的AI应用能够有效提高58同城平台上B端商家、C端用户的用户体验、人效,这也是我们的核心竞争力所在。