V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
James369
V2EX  ›  程序员

各位用哪家的 TTS 引擎,有没有可以根据语气情感进行发声的

  •  
  •   James369 · 2022-07-22 09:38:15 +08:00 · 4474 次点击
    这是一个创建于 616 天前的主题,其中的信息可能已经有所发展或是发生改变。

    文字转语音,现在有很多厂都有相关 SDK/API 可以使用,但很多都像机器人一样没有感情的在念。想了解下有没有真正基于 NLP 技术的,带情感语气的。

    比如,下面 2 行文本:

    1. 她脸色大变,生气地说:“给我滚出去”。
    2. 他轻声地说:“嘘,我们从后门偷偷溜进去”。
    

    那么,TTS 在朗读第 1 句的时候,应该是语气比较重,比较大声急促。而朗读第 2 句的时候,应该是比较轻声,轻缓的。这样长时间听下来,用户也就不会犯困了。

    26 条回复    2022-07-23 23:04:46 +08:00
    fengfuliu
        2
    fengfuliu  
       2022-07-22 09:44:20 +08:00
    xieyqxie
        3
    xieyqxie  
       2022-07-22 09:44:58 +08:00
    没那么先进吧,hhhh
    lonewolfakela
        4
    lonewolfakela  
       2022-07-22 09:46:42 +08:00
    只说这两句话的话,我感觉微软的“云枫(预览)”语音的效果比较好……
    Itoktsnhc
        5
    Itoktsnhc  
       2022-07-22 09:47:47 +08:00
    @Itoktsnhc 如果需要特别好的效果还是得手调,除非基于 NLP 在加上情感分析
    James369
        6
    James369  
    OP
       2022-07-22 09:51:03 +08:00
    @Itoktsnhc 恩,就是有情感自动分析
    James369
        7
    James369  
    OP
       2022-07-22 09:51:20 +08:00
    @fengfuliu 这个风格不错,不知道能不能自动识别
    ajt2520
        8
    ajt2520  
       2022-07-22 09:55:10 +08:00 via Android
    微软的 TTS 引擎还是不错的
    Belmode
        9
    Belmode  
       2022-07-22 10:01:26 +08:00   ❤️ 2
    1 、微软 Speach Stdio TTS 支持 http 和 SDK
    2 、讯飞语音配音制作 TTS 支持 http
    3 、小爱语音 TTS 支持 http 和 SDK
    James369
        10
    James369  
    OP
       2022-07-22 10:03:17 +08:00
    @lonewolfakela 没找到这个“云枫”引擎,是 Edge 上用的那个吗
    Belmode
        11
    Belmode  
       2022-07-22 10:19:44 +08:00
    或者手写 SSML 其实也可以的。
    p2pCoder
        12
    p2pCoder  
       2022-07-22 10:32:12 +08:00
    国内外大厂的内容创作部门,这一方面做的比较多,而且有刚需场景
    不过是没有对外商用的
    raycool
        13
    raycool  
       2022-07-22 10:53:21 +08:00
    这种应该是根据 SSML 来进行调整的,NLP 情感分析后生成 SSML
    geekvcn
        14
    geekvcn  
       2022-07-22 10:53:26 +08:00 via Android
    微软 TTS 效果最好,你 edge 选中你的文字朗读就能体验了
    byzf
        15
    byzf  
       2022-07-22 14:08:26 +08:00
    意思是以后机器人小姐姐就能用甜甜的声音给我推销贷款了。
    lingo
        16
    lingo  
       2022-07-22 15:59:28 +08:00   ❤️ 2
    <speak
    xmlns="http://www.w3.org/2001/10/synthesis"
    xmlns:mstts="http://www.w3.org/2001/mstts"
    xmlns:emo="http://www.w3.org/2009/10/emotionml"
    version="1.0"
    xml:lang="en-US"
    >

    <voice name="zh-CN-XiaoxiaoNeural">
    <prosody rate="0%" pitch="7%">
    雪姨不停地敲门
    <mstts:express-as style="angry">
    “出来!给我滚出来!你有本事找女人,你有本事开门-呀!”。
    </mstts:express-as>
    </prosody>
    </voice>
    </speak>


    以上复制到一楼的微软 TTS 里 SSML 输入框
    James369
        17
    James369  
    OP
       2022-07-22 16:42:11 +08:00
    @byzf 坏人,不过这不是我做的东西,我做的是书籍朗读
    laoyur
        18
    laoyur  
       2022-07-22 16:43:20 +08:00
    锅内自媒体,大部分都是同一个男声,真的听得想吐了。
    我自己是不听这些垃圾货的,但是架不住败家娘们总是听这玩意
    大部分都是从油管上扒回来的视频,去掉声音截个片段,配几句台词,TTS 配个音就发出来赚流量了
    jstony
        19
    jstony  
       2022-07-22 17:11:49 +08:00
    关键词:SSML ,配合微软 tts ,效果一级棒。
    jackma0571
        20
    jackma0571  
       2022-07-22 17:12:59 +08:00
    借楼问下,在 dy 上经常刷到一个台湾腔小姐姐的配音,是怎么弄的,经常在一些股票相关的短视频里听到
    James369
        21
    James369  
    OP
       2022-07-22 17:28:07 +08:00
    @jstony SSML 要能够自动生成,这样才能自动化
    lonewolfakela
        22
    lonewolfakela  
       2022-07-22 18:00:08 +08:00
    @James369 #10 1L 和 2L 发的那个地址上有个 demo ,语音选“云枫(预览)”
    rpman
        23
    rpman  
       2022-07-22 22:30:48 +08:00 via iPhone
    @xieyqxie 很多商业 TTS 都有了,我在前司就做这个
    TTS 已经卷到插呼吸停顿和重读了
    Aloento
        24
    Aloento  
       2022-07-23 02:48:39 +08:00
    所以说还是 Azure 好
    yinshang
        25
    yinshang  
       2022-07-23 11:22:08 +08:00
    工作原因,经常用到配音。
    个人感受是微软的最好,语气什么的更贴近真人。
    讯飞太拉跨了,机器感太强。
    leeg810312
        26
    leeg810312  
       2022-07-23 23:04:46 +08:00 via Android
    @James369 完全符合预期的语气语调来转语音是不可能自动化的,同一句话用不同语气说出来可能是完全不同的效果,现有的 nlp 是做不到这么智能判断的,不要奢望没有人工后期调整。微软 Azure 是目前 AI 提供商中这个业务做得最好的,
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5233 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 05:43 · PVG 13:43 · LAX 22:43 · JFK 01:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.