发布时间:2021-12-28 分类: 电商动态
11月20日,爱树智慧发布了中文普通话真实可爱童声合成(TTS)开源数据集。该数据集由真实儿童语音记录,是中文儿童语音合成数据集的子集,时长15分钟,文本以日常语言为主。据了解,完整的数据集包含2235个句子,时长超过2小时。这也是第一次用孩子的声音进行TTS录制。
随着智能终端市场的扩大,人机交互逐渐成为与智能世界对话的入口。在人机交互过程中,自然性和表达性
TTS数据是影响语音合成效果的重要因素。由于TTS数据采集和标注的严格要求,完成的数据集很少。从采集的角度来说,录音需要在专业的录音棚进行,并且要严格控制噪音水平,这样才能最大限度地还原说话人的声音。在录音过程中,还要求专业的录音机和监听音箱在场,以便及时纠正录音过程中的错误。从标注环节来看,TTS数据标注分为四个层次,包括语音校对、韵律层次、音素边界分割和分词。为了充分保留说话人的语义表达和发音习惯,标注准确率一般在99%左右。
智能设备用户“低龄化”趋势明显,带动了对儿童语音数据的需求。受儿童识字水平和合作的限制,市面上的儿童声音TTS数据库很少,大部分都是成人模仿的。儿童TTS语料库呈现出明显的供需失衡。
爱数智慧发布的TTS儿童语音开源数据集的采集环境是符合NC-20标准的录音室,数据按照孩子的发音习惯进行全链条转录标注。考虑到句内停顿和句间停顿对听力理解的影响,在音素边界分割中,播音员不仅要分割元音边界,还要准确分割句子中的沉默和句子的开头和结尾。
说话人是影响TTS数据质量的重要因素。这个数据集的发音是妞妞,一个4岁的孩子。2019年初,在数百名4-6岁的孩子中,发音节奏好的妞妞脱颖而出。因为好的发音节奏可以给用户带来更好的听感。
与热爱数字和智慧的工作人员接触,了解到妞妞活泼开朗,喜欢看《冰雪奇缘》和《小马宝莉》。录音休息的时候,想看动画片的时候会粘着工作人员宠着。录音工作已经结束很久了,当工作人员提到妞妞的时候,他们的话语中依然充满了深深的失望和欣赏。这份发自内心的欣赏也让我们期待这份真实可爱的童声!
这家公司的初衷是为智能世界提供足够的数据生产力。我们也期待AI数字智慧能够以更高质量的数据解锁更多的应用场景,服务更广泛的客户。