當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Jarvis：一个值得关注的多模态端到端人机对话框架，针对所有行业适配

發(fā)布時間：2024/7/5 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 Jarvis：一个值得关注的多模态端到端人机对话框架，针对所有行业适配小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

說到應(yīng)用級的人機對話框架，很多人可能首先想到的是RASA開源項目。不過，今天跟大家簡要分享一個功能更為豐富、性能更為強勁的多模對話框架——Jarvis，非常值得對話系統(tǒng)從業(yè)者關(guān)注一下。

Jarvis是英偉達(dá)于2019年發(fā)布的人機對話服務(wù)，不同于大部分的開源項目，Jarvis主打的是深度對話模型的部署和推理效率，因此更具實用價值。有過對話系統(tǒng)開發(fā)經(jīng)驗的從業(yè)者知道，對話系統(tǒng)中離不開的語音識別（ASR）、對話理解等模塊不僅難以開發(fā)，而且往往模型非常重，導(dǎo)致系統(tǒng)會產(chǎn)生明顯的延時，導(dǎo)致實際應(yīng)用中經(jīng)常不得不用精度更弱但速度更快的方案取而代之。而基于Jarvis開發(fā)的對話系統(tǒng)，不僅支持了語音識別、對話理解等若干深度學(xué)習(xí)模型，而且實現(xiàn)了端到端的實時對話，可以將系統(tǒng)級的延遲降低到300ms以內(nèi)，若是使用GPU部署，更是相比CPU部署可以再提高7倍的吞吐量。

此外，Jarvis框架內(nèi)集成了若干重要的預(yù)訓(xùn)練對話模型和集成工具，以及若干經(jīng)過英偉達(dá)深度優(yōu)化的視覺、語音和NLU服務(wù)（services），使得開發(fā)者可以非常容易實現(xiàn)多用戶、多上下文的復(fù)雜對話場景，進(jìn)而開發(fā)虛擬對話助理、多用戶說話人對話內(nèi)容分離、智能外呼助手等實際應(yīng)用。

這里貼了一張Jarvis內(nèi)集成的技能圖

可以看到Jarvis不僅支持了傳統(tǒng)的語音識別、對話喚醒、對話理解、對話生成、語音生成等對話模塊，而且還集成了手勢識別、嘴唇活躍度檢測、凝視檢測、物體識別等視覺方面的技能，這些技能使得高效開發(fā)多模態(tài)對話應(yīng)用真正成為了可能。

此外，雖然Jarvis做了大量精度、效率方面的優(yōu)化，但是開發(fā)者實際使用起來卻非常容易上手。如下圖，只需要 4步就能啟動一個屬于自己的對話服務(wù)了！

服務(wù)啟動成功示例圖：

服務(wù)啟動完成后，我們就可以輕松的使用client端的API來向服務(wù)器請求對話服務(wù)了，僅需兩行代碼：

詳細(xì)搭建流程傳送門：
https://developer.nvidia.com/nvidia-jarvis

感興趣的小伙伴快去試試吧！

總結(jié)

以上是生活随笔為你收集整理的Jarvis：一个值得关注的多模态端到端人机对话框架，针对所有行业适配的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：不卷学术了，这次卷一波NLP实战落地经验
下一篇：图解强化学习