vuepc端实现数据加载_多模态注意力机制+多模态数据,完全实现端到端课堂活动检测|ICASSP 2020...
本文解讀的是 ICASSP 2020 論文《MULTIMODAL LEARNING FOR CLASSROOM ACTIVITY DETECTION》,作者來自好未來。
作者 | 李 航
編輯 | 叢 末
論文地址:https://arxiv.org/abs/1910.13799
1
研究背景
在教育領域,課堂活動檢測(Class Activity Detection)一直是一個熱門話題。自1980年開始就不斷有人在這方面進行研究,之前已有研究證明,通過分析學生和老師在課堂中的行為,可以使人更容易注意到并糾正老師和學生在上課時犯的錯誤。通過這種方式,可以同時提升老師的教學技能和學生的學習效率。
目前大多數教學質量檢測的方法都是基于高質量、細粒度的課堂活動記錄來實現的,這些記錄通常需要包括老師和學生的說話內容以及對應時間等信息。然而,除非同時讓老師和學生都各自佩戴上獨立的收聲設備,如麥克風,否則課堂中老師和學生各自單獨的活動記錄是非常難以獲取的。而實際上,大部分現有教室都只有單獨的一個收聲設備,只能獲取課堂進行中包含多人說話混合的音頻,這就使得相應的研究很難進行。
因此,基于上述背景,我們的研究團隊根據實際課堂環境產出的多種模態的數據,使用了多模態注意力機制將多種模態的數據進行結合,提出了一種先進的可以通過課堂混合音頻來提取課堂活動信息的方法。
具體而言,我們使用課堂錄音及其自動轉錄出的文本,將它們視作兩種模態的數據,并將這兩種模態的數據通過多模態注意力機制進行結合,充分發揮各自的優勢,達到準確判斷課堂錄音中的每句話的相應說話人角色的目的。并且,不同于部分研究中需要預先錄制授課老師聲紋數據用于分離老師說話部分的方法,我們設計的方法完全實現從教室錄音設備到最終結果的端到端課堂活動檢測。
2
預備知識
1、問題定義
給定
為一節課堂錄音切分出的片段序列,記為
,其中表示這節課中的第 i 句對話,N 表示這節課的總對話數。令
表示對應的標簽序列,記為
,其中
表示每個音頻片段的說話人是學生還是老師。對于每個片段,我們提取它的音頻特征
和文本特征
。
和
分別表示兩種特征的維度。令和表示片段序列的音頻特征和文本特征,其中
。結合上文提到的課堂活動檢測任務的內容,我們現在可以將此任務定義為一個序列標注問題:
給定一個課堂錄音片段序列及其對應的音頻特征和文本特征,我們的目標是找到最有可能的課堂活動類別序列
:
其中 Y 為所有可能的標簽序列。
2、相關工作
通過課堂音頻或者視頻對于老師和學生的課堂行為研究具有很長的歷史,例如,Owens[1]等人提出了DART系統(Decibel Analysis for Research in Teaching),用來分析預測課堂中花費在單獨說話(如:演講),混合說話(如:討論)或者無人說話(如:思考問題)等活動上的時間。Cosbey[2]等人通過使用RNN網絡對DART系統的表現進行了提升。Mu[3]等人提出了ACODEA框架(Automatic Classification of Online Discussions with Extracted Attributes)用來對在線討論進行全自動的切割和分類。
與我們的研究最相似的,是Wang[4]等人提出的LENA系統,他們基于此系統對課堂中的三種活動進行了識別:教師講課、課堂討論以及學生小組活動。我們與Wang等人的研究的不同之處在于:我們提出了一種全新的多模態注意力機制,用于在真實課堂環境中進行課堂活動檢測。而Wang等人的研究仍然需要教師全程佩戴LENA系統,從而可以通過音量與音色的差異來區分學生和老師的說話時間段。
對于本文定義的目標任務,一種簡單直觀的方法是將說話人分離與說話人角色識別作為兩個獨立的模型,采用兩階段結合的方式進行連接。這也是在已有研究中被實踐且證實有效的方法。然而,這種兩階段方法存在著一些明顯的弊端:首先,不同階段的模型所產生的誤差會在整個預測流程中進行積累,導致最終結果的不準確;其次,兩個獨立任務分別優化是非常缺乏效率的,單一階段的優化并不能完全保證最終結果的提升;最后也是最重要的,由于兩個階段的分離,多模態信息之間的交互被完全忽略了。
3
技術細節
1、數據描述
圖1(a):課堂活動檢測數據形式
在正式開始介紹我們的方法之前,首先描述一下本文實驗所基于的數據形式。首先,我們的音頻數據均來源于教室內單一的麥克風,收錄了整節課堂的完整錄音。我們的文本數據來源于使用自動語音識別(ASR)系統對麥克風收錄得到的課堂錄音進行轉錄得來。圖1(a)中展示了一段學生與老師的對話數據,圖中文本框的顏色區分了不同的說話人,藍色文本框表示老師說話內容,黃色文本框表示學生說話內容。從圖中我們可以看出,對話的內容包含大量的信息,其中一些句子可以非常容易的分辨出說話人的角色。以第三個句子為例,該說話人說:“How is your day in school”,從句子的內容可以很容易的判斷出該說話人應該是老師。然而,并不是所有的句子都像這樣容易判斷,比如圖中對話的前兩句問候語句,很難分辨出說話人是老師還是學生。
圖1(b):課堂活動檢測數據形式
為了解決這些通用對話內容造成的說話人角色難以分辨的問題,我們想到了使用同一說話人所說的其他具有角色特點的語句一同幫助進行判斷,如圖1(b)中所示。舉例來說,圖中展示的第一句對話很難分辨出說話人角色,但如果我們知道第一句話與第三句話屬于同一個人說的,那我們可以很輕易的判斷出第一句話也是老師所說。至于如何判斷出第一句話與第三句話屬于同一個說話人所說,則需要從音頻信息入手,通過兩句話的說話人音色的相似度進行判斷。在這里,音頻信息的作用像是一座橋梁,將同一說話人的對話信息連接整合到了一起使它們易于判斷。
2、模型結構
圖2:(a) 整體模型結構 (b) 多模態注意力層
模型整體結構如圖2(a)中所示,主要包含3個部分:1、特征提取層,用于提取單個模態的特征;2、多模態注意力層,用于混合兩個模態的信息;3、輸出層,用于最終輸出判斷每句話的說話人角色。
1)特征提取層
本文所使用的文本數據與音頻數據均是來源于完整的課堂數據,并且使用ASR的VAD(Voice Activity Detection)模塊切分得到句子級別的數據。文本特征和音頻特征來源于兩個事先預訓練得到的編碼器。音頻特征的編碼器為使用GE2E[5]在大量不同說話人音頻數據上訓練得到,用于將一段音頻信號編碼為一個特征向量;文本特征來源于使用word2vec在大量課堂錄音經過ASR轉錄得到的文本上訓練的詞向量,通過Mean-Pooling層,將一句文本編碼為一個特征向量。因此,對于課堂錄音中的每一句話i,我們通過不同的預訓練編碼器,從音頻與文本兩個方面提取了句子在不同模態下的特征信息。
2)多模態注意力機制
在得到每句話的文本特征向量與音頻特征向量之后,將它們輸入進一個多模態注意力層,如圖2(b)中所示。我們令
,其中Q、K和V是經典自注意力機制(self-attention)中的Query、Key和Value;
。注意力權重矩陣
通過Q與K的點乘結果經過softmax歸一化計算得到。最后,多模態混合表征 H,通過A與V的點乘計算得出,完整的公式如下:
將混合表征(
)與每句話的文本特征(
)拼接后(
)輸入一個BiLSTM網絡,用于引入整堂課的上下文信息。最后將BiLSTM的輸出經過一個全連接層之后輸出預測該句話的說話人是老師還是學生。
3)注意力正則項
圖3:注意力正則項
為了使得多模態注意力機制能夠更好的發揮作用,更加準確的預測相同說話人的音色相似度,我們設計了一個注意力正則項來對不同說話人的音頻之間的注意力權重進行懲罰,如圖(3)中所示。具體來說,在3.2.2的多模態注意力機制中,注意力權重矩陣表示了整堂課所有切分出的句子兩兩之間的說話人音色相似度,我們約束注意力矩陣中對應不同說話人的音色相似度的項越小越好:
(1)
其中,
代表了本節課中切分出的第 i 句話與第 j 句話。
4)訓練損失函數
本文所提出的模型的訓練損失函數包含兩個部分,第一個部分是標準的二分類交叉熵(BCE)損失:
(2)
第二個部分則是(1)式中的注意力正則項,將兩項相加就得到了最終的損失函數:
(3)
其中為超參數,用來控制注意力正則項所占的比重。
4
實驗
表1:線上課堂與線下課堂測試集上的實驗結果,
與
分別表示學生與老師的
指標
本文實驗中,我們收集了兩種類型的數據用于實驗,分別來源于線上課堂與線下課堂。線上課堂數據包含400節來源于第三方平臺的線上課堂,線下課堂數據包含50節來源于線下教室的監控設備收錄的課堂數據。每節課的數據如3.2.1中所說,按照ASR的VAD模型剔除靜音片段,將包含人聲的部分切分為以句為單位的小片段,每個片段的標簽為老師或學生。對于那些包含多人混合說話的片段,我們將其標注為片段中主要說話人的角色。
我們使用線上課堂數據中的350節課作為訓練集,包含大約350個小時的音頻與對應的ASR轉錄文本,并使用剩下的50節線上課程與全部50節線下課程數據作為測試集。
為了證明我們的方法的有效性,我們設置了一系列的baseline模型用于對比實驗,實驗結果如表1中所示。
表中前4個模型,我們將模型的輸入從多模態輸入改變為單一模態輸入,并嘗試了不同的模型結構, 用于驗證我們的多模態結合方法的有效性。其中第1與第3個模型為分別使用了單一音頻與文本特征的BiLSTM模型;第2與第4個模型為分別使用音頻與文本特征的結合了傳統注意力機制的BiLSTM模型。
表中第5個模型將3.2.2中的多模態注意力機制改為了將兩個模態的特征簡單拼接,用于驗證我們設計的多模態注意力機制的有效性。
表中第6與第7個模型使用了2.2中最后一段提到的兩階段模型,并選用了不同類型的第一階段說話人分離模型,用于對比驗證我們設計的端到端模型的有效性。第6個模型為使用了譜聚類模型[6]作為第一階段模型,對同一說話人片段進行聚類后輸入給第二階段模型進行角色分類;第7個模型為使用了UIS-RNN[7]作為第一階段的說話人分離模型。這兩種模型分別代表了不同時間段內的SOTA模型。
從表中可以看出,我們設計的端到端多模態注意力模型在線上課堂與線下課堂測試集上都超過了所有baseline模型,顯示了該模型的優越性。
參考文獻:
[1] Melinda T Owens, Shannon B Seidel, MikeWong, Travis E Bejines, Susanne Lietz, Joseph R Perez, Shangheng Sit,ZahurSaleh Subedar, Gigi N Acker, Susan F Akana, et al.,“Classroom sound can beused to classify teaching practices in college science courses,” Proceedings ofthe National Academy of Sciences, vol. 114, no. 12, pp. 3085–3090, 2017.
[2] Robin Cosbey, Allison Wusterbarth, andBrian Hutchinson, “Deep learning for classroom activity detection from audio,”in ICASSP. IEEE, 2019, pp. 3727–3731.
[3] Jin Mu, Karsten Stegmann, ElijahMayfield, Carolyn Rose, and ′ Frank Fischer, “The acodea framework: Developingsegmentation and classification schemes for fully automatic analysis of onlinediscussions,” International Journal of Computersupported CollaborativeLearning, vol. 7, no. 2, pp. 285–305, 2012.
[4] Zuowei Wang, Xingyu Pan, Kevin FMiller, and Kai S Cortina, “Automatic classification of activities in classroomdiscourse,” Computers & Education, vol. 78, pp. 115–123, 2014.
[5] Li Wan, Quan Wang, Alan Papir, andIgnacio Lopez Moreno, “Generalized end-to-end loss for speaker verification,”in ICASSP. IEEE, 2018, pp. 4879–4883.
[6] Quan Wang, Carlton Downey, Li Wan,Philip Andrew Mansfield, and Ignacio Lopz Moreno, “Speaker diarization withlstm,” in ICASSP. IEEE, 2018, pp. 5239–5243.
[7] Aonan Zhang, Quan Wang, Zhenyao Zhu,John Paisley, and Chong Wang, “Fully supervised speaker diarization,” inICASSP. IEEE, 2019, pp. 6301–6305.
總結
以上是生活随笔為你收集整理的vuepc端实现数据加载_多模态注意力机制+多模态数据,完全实现端到端课堂活动检测|ICASSP 2020...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 罗永浩公司被曝欠薪 暴力裁员?当事人给出
- 下一篇: html5倒计时秒杀怎么做,vue 设