科大讯飞程坤:用AI技术引领输入方式新变革
近日,訊飛輸入法上線“智能拍照輸入”功能,該功能基于科大訊飛新一代視覺A.I.技術(shù),融合手寫識(shí)別和機(jī)器翻譯等技術(shù),打造拼音、手寫、語(yǔ)音之外的輸入交互方式。關(guān)于訊飛輸入法“智能拍照輸入”功能的特點(diǎn)以及產(chǎn)品愿景,網(wǎng)易科技獨(dú)家專訪了科大訊飛輸入法業(yè)務(wù)部總經(jīng)理程坤。
除了鍵盤和語(yǔ)音,你還可以這樣輸入?
一款新產(chǎn)品的發(fā)布,或者全新產(chǎn)品功能的推出,作為用戶來(lái)講,最關(guān)心的莫過(guò)于其功能特點(diǎn)所在。關(guān)于訊飛輸入法“智能拍照輸入”功能特點(diǎn),程坤將其總結(jié)為三點(diǎn)。
首先,在使用場(chǎng)景層面,訊飛輸入法“智能拍照輸入”基于科大訊飛的整體A.I.能力,擴(kuò)展和延伸了文字掃描功能。用戶通過(guò)“拍照”就能搞定各種復(fù)雜信息的錄入,程坤介紹到,訊飛輸入法“智能拍照輸入”除了基礎(chǔ)的文字識(shí)別之外,還可以通過(guò)拍照識(shí)別表格內(nèi)容并生成可編輯的excel文檔,對(duì)于包含文本外復(fù)雜信息的素材,也可將其恢復(fù)為word格式的可編輯文檔,解決了多種辦公場(chǎng)景的用戶剛需。此外,在教育場(chǎng)景中,用戶通過(guò)拍照,也可以將手寫的數(shù)理符號(hào)、公式等內(nèi)容轉(zhuǎn)化為電子版,輕松完成輸入。
其次,在識(shí)別的效果層面,除了對(duì)印刷體的識(shí)別,訊飛輸入法還支持手寫體識(shí)別,即使角度扭曲、圖片模糊、超遠(yuǎn)距離,依然可以準(zhǔn)確識(shí)別。語(yǔ)言方面,除了中文還支持英、日、韓、德等多種主流語(yǔ)種語(yǔ)言的識(shí)別輸入,中英文混合識(shí)別。
此外,訊飛輸入法“智能拍照輸入”擴(kuò)展了輸入的智能性,其智能批改功能,用戶通過(guò)簡(jiǎn)單的拍照操作就可以完成對(duì)小學(xué)數(shù)學(xué)多種題型的批改。
智能拍照輸入是如何克服研發(fā)難題的?
針對(duì)以上幾個(gè)產(chǎn)品特點(diǎn),程坤也介紹了訊飛在研發(fā)過(guò)程中遇到的技術(shù)難點(diǎn)以及解決方案。
程坤談到,圖像識(shí)技術(shù)實(shí)際上也是一種感知智能,在產(chǎn)品研發(fā)過(guò)程中,需要借助海量訓(xùn)練的數(shù)據(jù),而得到這些數(shù)據(jù)的渠道和方法尤為重要,“印刷體的數(shù)據(jù)在網(wǎng)上很容易找到,然而手寫體由于不同人書寫風(fēng)格的不同,加以光線等影響因素,數(shù)據(jù)很難得到。”程坤表示。為了解決這個(gè)問(wèn)題,訊飛通過(guò)自然場(chǎng)景的數(shù)據(jù)增強(qiáng)技術(shù),采用人工智能技術(shù)生成批量訓(xùn)練數(shù)據(jù),解決了前期數(shù)據(jù)量不足的問(wèn)題。
同時(shí),針對(duì)數(shù)學(xué)公式的識(shí)別,印刷體的識(shí)別相對(duì)較易實(shí)現(xiàn),但手寫體的識(shí)別,依然存在極大挑戰(zhàn)。程坤介紹,由于數(shù)學(xué)公式涉及左右、上下等符號(hào)角標(biāo),考慮符號(hào)與符號(hào)之間較小的像素比,導(dǎo)致很多情況下難以區(qū)分。此外,不同人的書寫習(xí)慣也存在很大差異。為了能提高數(shù)學(xué)公式的識(shí)別準(zhǔn)確度,科大訊飛采用了基于樹形結(jié)構(gòu)建模的解決方案。首先從局部識(shí)別,區(qū)分符號(hào)大小,排除干擾因素,進(jìn)而提取需要進(jìn)行識(shí)別的主體,大大提升了識(shí)別效果。
人工智能技術(shù)讓輸入更快更準(zhǔn)更聰明
談到這一功能的研發(fā)初衷,程坤表示:“一開始是因?yàn)榭吹搅烁鞣N各樣的用戶需求,比如很多人都經(jīng)歷過(guò)的想要把圖片或者pdf,書報(bào)雜志、手寫的會(huì)議紀(jì)要上的文字快速變成可編輯的電子版,或者購(gòu)買、查看一些商品/物品使用說(shuō)明是小語(yǔ)種,或者一些數(shù)學(xué)公式不知道怎么輸入,當(dāng)時(shí)就想,作為手機(jī)端高頻應(yīng)用服務(wù)的輸入法,能否將這些用戶需求一并考慮進(jìn)來(lái),擴(kuò)大信息輸入的外延,借助科大訊飛新一代視覺A.I.技術(shù),讓大家在不同應(yīng)用場(chǎng)景下通過(guò)手機(jī)拍照功能實(shí)現(xiàn)文字信息一鍵錄入,我們認(rèn)為,輸入法絕對(duì)不止是單純的打字工具,更是一個(gè)集信息輸入、查詢、獲取、娛樂(lè)于等各種功能的信息處理平臺(tái),希望能通過(guò)人工智能技術(shù)探索新的輸入方式,滿足用戶不斷變化的需求。”
在程坤看來(lái),這也是整個(gè)訊飛輸入法產(chǎn)品功能的研發(fā)動(dòng)因,希望基于科大訊飛在人工智能領(lǐng)域的一系列積累,以及對(duì)于用戶使用痛點(diǎn)的不斷挖掘,從而不斷提出可行性解決方案。“訊飛輸入法現(xiàn)階段的發(fā)展重點(diǎn)就是不斷將AI技術(shù)融入到更多的使用場(chǎng)景中,為用戶提供系統(tǒng)化的輸入解決方案,滿足用戶在不同場(chǎng)景下的個(gè)性化輸入需求。”
被問(wèn)及訊飛輸入法的產(chǎn)品愿景,程坤將其闡述為三個(gè)層次:場(chǎng)景化、人群多元化以及智能情感化。程坤談到,例如用戶在即時(shí)通訊和游戲時(shí)使用輸入法,就存在明顯的使用場(chǎng)景的差別,而對(duì)于不同的用戶人群,例如學(xué)生、商務(wù)人士、老人等,又有基于不同使用需求的人群劃分。“年輕人喜歡游戲、喜歡皮膚表情,而商務(wù)人士也許只需要高效輸入。”程坤表示,基于此。訊飛推出諸如“長(zhǎng)輩模式”、“無(wú)障礙模式”等,希望針對(duì)不同人群的使用習(xí)慣,滿足他們的輸入體驗(yàn)。
最后,程坤希望訊飛輸入法在更智能的同時(shí),可以擁有更加感性的使用體驗(yàn)。程坤認(rèn)為,目前的用戶與輸入法的交互,更多的是一個(gè)被動(dòng)的過(guò)程,訊飛輸入法希望借助科大訊飛人工智能技術(shù)的持續(xù)發(fā)展和進(jìn)步,朝著更快更準(zhǔn)更聰明的方向邁進(jìn),使輸入法產(chǎn)品演變?yōu)榫邆渑惆楣δ艿那楦谢a(chǎn)品,最終進(jìn)化成一個(gè)有情感、智能的助手角色。
總結(jié)
以上是生活随笔為你收集整理的科大讯飞程坤:用AI技术引领输入方式新变革的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 歌词摇摆摇摆是什么歌啊?
- 下一篇: 台积电提高驱动芯片代工价格 加剧终端厂缺