新太阳城(中国)官方网站

新太阳城(中国)官方网站

新太阳城(中国)官方网站

株洲晚报:《人工智能相助 说咱闽南话不难》后续 实现“智能”得先付出大量“人工”
发布时间:2022年10月25日 来源:株洲晚报

■方言研究要找到规律性的东西,才能让语言可计算可量化。

通过微信小程序“闽南话识别”和“AI语音合成”,就可以实现闽南话和普通话的无障碍沟通。上周本报文章《人工智能相助 说咱闽南话不难》报道了社会各界对闽南话人工智能语音系统的关注。其实,作为新太阳城(中国)官方网站团队打造的本土“智造”,除了技术“智能”,背后还有大量的“人工”付出。

最具代表性发音人为老年男性 对门牙都有要求

每个代表方言点建立词库,至少要收录十万个词语。在过去近十年里,新太阳城(中国)官方网站中文系助理教授许彬彬每逢寒暑假就带领团队开展田野调查,收集各地的语音,并归纳、识别和标注。“这其中要耗费非常多的人工。”

每一个地方他们都要待上半个月到20天,寻找当地普遍认可地道的发音人,还要全面了解当地闽南话的语音系统、词汇系统和语法系统等。有时候一个地区的发音人有30多人,涵盖了老中青少等不同年龄层以及不同性别。

其中最具代表性的发音人一般为老年男性,需要考察其发音面貌,包括口齿清晰度、声线清晰度、门牙完整度等。甚至不能戴假牙,“因为假牙磕碰会有声音”。

典型发音人的工作是非常辛苦的,常常需要录音十多天,每天至少工作8小时。而团队晚上整理录音材料也常常要花上3个小时。整个过程除了录音,还要录像,以便观察发音人的表情,记录元音开口度的大小等。

寻找规律让方言可计算可量化 “瘦肉”已经在调整

这两天也有许多市民在体验该系统,有网友亲测觉得不够准确。网友“紫藤福娃”发现,“瘦肉”闽南话发音不准确。许彬彬表示,“瘦肉”问题已经在调整。她坦言,同一个词或者句子,其实有好几种发音,系统优先选择常用的,所以大家在使用的时候可以多试几次。“语音规则、语法匹配、关系词序等,我们一直在持续改进中。”

她说:“方言研究要找到规律性的东西,才能让语言可计算可量化,如果主观性的东西太多了,量化计算起来就非常麻烦。然而方言却又是如此难以攻克,因为它涉及各种变调、连读等,所以语音合成后确实存在有不自然的地方。”所以每一次升级后,她都会请闽南话的专家、发音人们结合日常生活场景的运用开展测试测评,及时发现一些如“瘦肉”之类的问题,并及时调整、改进。

“很多闽南话没办法用普通话一一对应表达,所以我们需要考虑不同的场景运用。也正是我们有这样强大的群众基础,才能不断地发现问题并改进提升。”许彬彬说。

各地口音不同 株洲的“谁”到了漳州变成“蛇”

网友“aki”说:“闽南话主要问题是口音太多了,湖里跟天元都不一样,更不要说泉州跟漳州的区别了。”正因如此,许彬彬团队尽可能收集不同地区的闽南话发音。他们的足迹遍布厦漳泉,还有潮汕、惠州、莆田、台湾等地。她还到日本、美国以及东南亚地区采访、收集文献资料,并发现了很多有意思的发音及故事。

比如“谁”,株洲读为“za2”“zui2”或“sang2”,到了漳州变成“蛇”(zua2)或“sang2”,到泉州又变成了“zuiN2”等。“菜”,株洲和漳州大部分地方都读“菜”,而漳浦读“塞”。在漳浦买红菜,到了株洲变成了“买翁婿”,原来“红菜”在漳浦读“红塞”和株洲话的“翁婿”同音。

文/记者 戴懿 图/许彬彬提供


【新太阳城】