Jarvis:一个值得关注的多模态端到端人机对话框架,针对所有行业适配
說到應(yīng)用級的人機對話框架,很多人可能首先想到的是RASA開源項目。不過,今天跟大家簡要分享一個功能更為豐富、性能更為強勁的多模對話框架——Jarvis,非常值得對話系統(tǒng)從業(yè)者關(guān)注一下。
Jarvis是英偉達(dá)于2019年發(fā)布的人機對話服務(wù),不同于大部分的開源項目,Jarvis主打的是深度對話模型的部署和推理效率,因此更具實用價值。有過對話系統(tǒng)開發(fā)經(jīng)驗的從業(yè)者知道,對話系統(tǒng)中離不開的語音識別(ASR)、對話理解等模塊不僅難以開發(fā),而且往往模型非常重,導(dǎo)致系統(tǒng)會產(chǎn)生明顯的延時,導(dǎo)致實際應(yīng)用中經(jīng)常不得不用精度更弱但速度更快的方案取而代之。而基于Jarvis開發(fā)的對話系統(tǒng),不僅支持了語音識別、對話理解等若干深度學(xué)習(xí)模型,而且實現(xiàn)了端到端的實時對話,可以將系統(tǒng)級的延遲降低到300ms以內(nèi),若是使用GPU部署,更是相比CPU部署可以再提高7倍的吞吐量。
此外,Jarvis框架內(nèi)集成了若干重要的預(yù)訓(xùn)練對話模型和集成工具,以及若干經(jīng)過英偉達(dá)深度優(yōu)化的視覺、語音和NLU服務(wù)(services),使得開發(fā)者可以非常容易實現(xiàn)多用戶、多上下文的復(fù)雜對話場景,進(jìn)而開發(fā)虛擬對話助理、多用戶說話人對話內(nèi)容分離、智能外呼助手等實際應(yīng)用。
這里貼了一張Jarvis內(nèi)集成的技能圖
可以看到Jarvis不僅支持了傳統(tǒng)的語音識別、對話喚醒、對話理解、對話生成、語音生成等對話模塊,而且還集成了手勢識別、嘴唇活躍度檢測、凝視檢測、物體識別等視覺方面的技能,這些技能使得高效開發(fā)多模態(tài)對話應(yīng)用真正成為了可能。
此外,雖然Jarvis做了大量精度、效率方面的優(yōu)化,但是開發(fā)者實際使用起來卻非常容易上手。如下圖,只需要 4步 就能啟動一個屬于自己的對話服務(wù)了!
服務(wù)啟動成功示例圖:
服務(wù)啟動完成后,我們就可以輕松的使用client端的API來向服務(wù)器請求對話服務(wù)了,僅需兩行代碼:
詳細(xì)搭建流程傳送門:
https://developer.nvidia.com/nvidia-jarvis
感興趣的小伙伴快去試試吧!
總結(jié)
以上是生活随笔為你收集整理的Jarvis:一个值得关注的多模态端到端人机对话框架,针对所有行业适配的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不卷学术了,这次卷一波NLP实战落地经验
- 下一篇: 图解强化学习