学霸君
責(zé)編:錢曙光,關(guān)注架構(gòu)和算法領(lǐng)域,尋求報(bào)道或者投稿請發(fā)郵件qianshg@csdn.net,另有「CSDN 高級架構(gòu)師群」,內(nèi)有諸多知名互聯(lián)網(wǎng)公司的大牛架構(gòu)師,歡迎架構(gòu)師加微信qshuguang2008申請入群,備注姓名+公司+職位。
學(xué)霸君簡史
學(xué)霸君于 2012 年 11 月份成立,CEO 張凱磊在天津組建團(tuán)隊(duì),他以前是做教育這一塊的,所以當(dāng)時(shí)考慮的還是做教育這塊,經(jīng)過一系列的頭腦風(fēng)暴,最終選擇了學(xué)生課后作業(yè)、試卷答疑等高頻的行為做目標(biāo)。
2013 年,第一版拍照搜題 APP 上線,這個(gè)時(shí)候還是半人工的,也有機(jī)器拍照搜題的能力,但還是有機(jī)器無法解決問題的時(shí)候,這就要調(diào)動人工答疑部門,幫他們進(jìn)行收集或者答題,給答案。
2014 年 5 月 30 日,學(xué)霸君上線了很重要的版本,這個(gè)版本以后是完全的自動化系統(tǒng)。在這個(gè)系統(tǒng)里面,將會完完全全用電腦和服務(wù)器完成,包括從用戶拍照到上傳圖片,到數(shù)據(jù)分析,到題庫搜索,到給出答案等過程。之后,2014 年 8 月 30 日的時(shí)候,我們又上線了第二個(gè)重要版本,在這個(gè)版本里面,最火熱的搜題技術(shù)取代了傳統(tǒng)的技術(shù)。通過更新,我們搜題命中率從 65% 提高到了 75%,用戶達(dá)到 100 萬。然后到去年 1 月 30 日,第三版系統(tǒng)正式上線,加入了另外一個(gè)技術(shù),進(jìn)一步提高了系統(tǒng)的能力,命中率達(dá)到 87%。
2015 年 8 月 30 日,第三版系統(tǒng)臨近新版本的迭代,命中率達(dá)到 93%,用戶已經(jīng)達(dá)到 2200 萬,累計(jì)搜索達(dá)到 10 億次。隨后,2015 年 9 月,我們推出 1V1 在線實(shí)時(shí)答疑系統(tǒng)。到今年 4 月份,用戶大概 4 千萬左右,拍照搜題日活躍將近 200 萬,1V1 的實(shí)時(shí)答疑每天到 2 到 3 萬單,完成了 20 億次學(xué)生拍照搜題,以及 200、300 萬在線視頻答疑的數(shù)據(jù)。
1V1 實(shí)時(shí)答疑
為什么推出實(shí)時(shí)答疑?因?yàn)椴粌H現(xiàn)在,包括我們自己當(dāng)年作為學(xué)生的時(shí)候也有這個(gè)情況,比如很多時(shí)候?qū)懸粋€(gè)作業(yè),可能我們思考很長時(shí)間還是無法解決問題,這種情況往往就同學(xué)之間互相咨詢一下,很少想到麻煩老師,因?yàn)橄氲嚼蠋熆赡軙r(shí)間比較少。然后,學(xué)生就會有很多問題累計(jì)在這個(gè)地方,時(shí)間一久就不了了之,我們再也不會考慮解決這樣的問題了。
同時(shí),我們發(fā)現(xiàn)市場上二三線城市老師薪酬比較低,空閑時(shí)間比較多。我們做調(diào)查時(shí)發(fā)現(xiàn),有些三線城市老師即使是特級職稱,有十多年的教學(xué)經(jīng)驗(yàn),每個(gè)月工資可能也只有三千塊,他們的薪酬是相對上海一線城市來說是很低的,但是因?yàn)樗麄冇羞@么多年的教學(xué)經(jīng)驗(yàn),已經(jīng)不需要花太多時(shí)間備課,所以空閑時(shí)間比較多。
大家也知道,我們這個(gè)教育培訓(xùn)市場很大,因?yàn)榧议L是不計(jì)成本的,會愿意投入大量的金錢,希望自己的孩子能夠提高他們成績。
基于這三方現(xiàn)狀,我們推出了實(shí)時(shí)答疑。
此外,雖然很多學(xué)生和老師之間距離千山萬水,但利用現(xiàn)在方便的移動端、電腦端和互聯(lián)網(wǎng),我們能夠大幅度縮短彼此之間距離,僅僅通過幾秒的連接,就可以把一個(gè)優(yōu)秀老師,送到一個(gè)待需要解決問題的學(xué)生面前。
在這之前,通過拍照搜題,可以進(jìn)行相應(yīng)的關(guān)鍵詞搜索,獲取類似題目,然后返還給學(xué)生,幫助他們搞明白怎么解這道題。但是,有一些學(xué)生即使看到類似的題目和答案,還是沒有辦法理解這道題目。所以我們提供在線答疑,老師跟學(xué)生「見面」以后,學(xué)生上傳題目,老師在點(diǎn)陣筆上面進(jìn)行解答,包括畫圖,同時(shí)所有的記錄都會實(shí)時(shí)反饋到學(xué)生的界面上面,這樣可以讓學(xué)生和老師進(jìn)行實(shí)時(shí)的互動,進(jìn)而解決學(xué)生的困惑,做到今日難題今日畢。
大規(guī)模數(shù)據(jù)采集
當(dāng)年做第一個(gè)產(chǎn)品時(shí),思考的核心問題就是,怎么樣才能夠獲取一個(gè)個(gè)學(xué)生的信息,然后根據(jù)不同學(xué)生的情況,通過統(tǒng)計(jì)分析找到不同的知識弱點(diǎn),進(jìn)行針對性的傳授。就像外面線下教育的一對一培訓(xùn)一樣,我們也是走這樣的方向。現(xiàn)在有一個(gè)很流行的詞語叫做自身學(xué)習(xí),都是一個(gè)意思。
所以接下來的問題就是,如果碰到一個(gè)學(xué)生,怎么知道他的具體情況呢?我們打算先從他們?nèi)粘=佑|的書和試卷著手。其實(shí)最早的時(shí)候我們就已經(jīng)覺得,學(xué)生答疑是很好的切入點(diǎn),學(xué)生每天都有高頻的需求,希望能解決作業(yè),但是我們要解決這樣的問題,首先的一個(gè)問題就是怎么做文字識別和文字提取。一開始我們想,不就是光學(xué)的識別嗎?購買一些產(chǎn)品或者使用一些公開的 API 應(yīng)該就能夠解決,但是后來發(fā)現(xiàn)市場上沒有現(xiàn)成的技術(shù),沒有能夠達(dá)到適合我們方向的應(yīng)用。
我們在實(shí)驗(yàn)當(dāng)中發(fā)現(xiàn),學(xué)生在上傳的時(shí)候不會像我們做測試那么規(guī)則,極端情況下,可能學(xué)生在考試的時(shí)候也會偷偷拍照,這樣產(chǎn)生的圖片就會有各種各樣的問題,包括形變、模糊,或者框架、線條等等,所以我們不僅要識別中文,還要識別英文,以及是不是單雙欄,是不是有圖片或者表格等等。
識別技術(shù)
2013 年初,開始拓展自己的一套核心識別技術(shù),先是從印刷體的中文識別入手,然后逐漸走到現(xiàn)在的手寫、試卷識別,還有版面分析、高并發(fā)圖象處理框架,以及公式識別、英文識別、表格識別、圖象識別、自然語言處理等等。我們通過針對性研發(fā),適應(yīng)不同的平臺,然后成立圖象識別、數(shù)據(jù)挖掘等小組,支撐這一系列的技術(shù)研發(fā)。
在做文字識別的時(shí)候,最早還是用傳統(tǒng)的方法,比如說真人相機(jī)等等,識別率接近 93%。現(xiàn)在我們用最流行的深入學(xué)習(xí)技術(shù),大家可能也有一些了解,像是最近阿爾法狗的比賽。我們目前在做的中文識別,訓(xùn)練字符已經(jīng)達(dá)到了 20 個(gè)億,單字符識別率達(dá)到 95%。
這是用戶上傳的圖片,在做過一些相應(yīng)的預(yù)處理后,我們會把里面的每個(gè)文字塊切割出來,把它們放進(jìn)我們的識別網(wǎng)絡(luò)進(jìn)行處理,最后得出識別結(jié)果。同時(shí),我們也把這種學(xué)習(xí)技術(shù)用到很多其他的領(lǐng)域,比如圖象恢復(fù)技術(shù)。
我剛剛講的,為什么我們當(dāng)時(shí)沒法用市面上的一些 OCR 技術(shù),就是因?yàn)閷W(xué)生上傳的圖片實(shí)在是太難以辨認(rèn)了。我們后來通過生物學(xué)技術(shù)進(jìn)行解決,首先收集、標(biāo)注大量圖片,同時(shí)搭建 GPU 集群訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),然后通過生成模型來進(jìn)一步應(yīng)用。
手寫識別
我們也有手寫識別,在學(xué)生上傳的題目和作業(yè)里面,不只是印刷體,比如我們平時(shí)見到的課本教材,還有很多老師布置的作業(yè),或者學(xué)生自己摘抄的內(nèi)容,都屬于手寫內(nèi)容。這里面有很多挑戰(zhàn),我們需要濾除無關(guān)內(nèi)容,要進(jìn)行版面分析,要識別出不同的字,然后判斷它們屬于什么樣的結(jié)構(gòu),最后再次識別,通過自然語言處理,進(jìn)一步提高識別率。
上面是一個(gè)例子,也是用戶上傳的圖片,這一塊也是利用生物學(xué)技術(shù)做的,現(xiàn)在識別率大概在 96% 左右。
我們最終的目的是希望能夠通過這樣的交互系統(tǒng),跟學(xué)生互動,并且在跟學(xué)生進(jìn)行講解的時(shí)候,所有的圖形都可以通過這個(gè)系統(tǒng)變成可以轉(zhuǎn)的立方體,方便跟學(xué)生交互,可以更好地幫助一些空間想象能力相對來說稍微弱一點(diǎn)學(xué)生。同時(shí),我們也有一個(gè)數(shù)據(jù)挖掘團(tuán)隊(duì),將所有題目里面關(guān)鍵詞埋入知識圖譜,方便學(xué)生檢索相應(yīng)的知識,比如說在一篇朱自清課文里,不僅有朱自清的生平介紹,還有視頻等等。此外,數(shù)學(xué)引擎也可以幫助學(xué)生解決問題,我們通過建立一些自動解答系統(tǒng),可以自動回答一些比較簡單,類似于 K12 這種級別的數(shù)學(xué)題目。
智能化版面分析和題目提取
我們目前正在做智能化版面分析和題目提取,如果可以識別學(xué)生的一張卷子,可以做多題答疑或者試卷分析,甚至可以做到一本教科書或者參考書分析,比如哪些題目適合學(xué)生做,哪些題目不需要去做等等。此外,我們還可以通過應(yīng)用來打包一些內(nèi)容,比如視頻、音頻、知識庫等等。
圖像云
我們的目標(biāo)是希望建立一個(gè)圖像云,讓學(xué)生可以通過終端發(fā)送圖像請求,然后利用我們圖像云的識別技術(shù),包括語音識別、手寫識別、版面識別等等,幫助他們處理各種各樣的問題。
最核心技術(shù):分發(fā)策略
實(shí)際上,這個(gè)產(chǎn)品背后的邏輯蠻簡單的,如果學(xué)生對于系統(tǒng)給予的解答不是特別明白,他們就可以像用 UBER 或者滴滴打車一樣,直接連接老師,隨時(shí)隨地在線解決問題。雖然這個(gè)邏輯本身是比較簡單和清楚的,但背后還是需要一個(gè)核心技術(shù),就是怎么樣去分發(fā),怎么樣讓最合適的老師給學(xué)生解題。每個(gè)老師的上線時(shí)間都不一樣,有的老師上午上線,有的老師晚上才有空,還有的老師科目不一樣,比如英語、化學(xué)等。除了這些之外,考綱也不一樣,以后可能全國考綱會慢慢統(tǒng)一,但至少這幾年我們的考綱還不太一樣,所以每個(gè)老師的講題方式也不太一樣,這就需要根據(jù)不同老師的狀況,推送給不同的學(xué)生。而學(xué)生實(shí)際上也有不同的情況,我們當(dāng)時(shí)做過測試,很多學(xué)生在下午的上課時(shí)間發(fā)送問題,但當(dāng)時(shí)老師們并沒有空。還有就是,不同學(xué)生對價(jià)格的敏感程度不一樣,獲取結(jié)果的期待值也不一樣。
最后,通過系統(tǒng)調(diào)度,會對學(xué)生上傳的題目做一個(gè)導(dǎo)航,把該題目進(jìn)行知識分解,形成細(xì)分的知識圖譜。接著對學(xué)生畫像,如果學(xué)生經(jīng)常需要答疑或者經(jīng)常上傳一些題目,會慢慢獲取學(xué)生的信息,這樣能清楚地知道,學(xué)生到底哪一塊不足,哪一塊比較擅長,我們也會經(jīng)過老師的多次答疑之后,分析答疑數(shù)據(jù)或者學(xué)生的評價(jià),這樣也就給老師做了一個(gè)畫像。根據(jù)這些信息,就可以利用系統(tǒng)進(jìn)行智能調(diào)度,從而完成老師與學(xué)生之間的配對。
知識導(dǎo)航體系
有一個(gè)教研團(tuán)隊(duì),他們會把初高中的語文、數(shù)學(xué)、外語等科目進(jìn)行知識點(diǎn)的分類,既用到一些人工的方法,也用到一些機(jī)器學(xué)習(xí)的技術(shù),從多個(gè)維度進(jìn)行挖掘,最終形成我們所需要的知識導(dǎo)航體系。
舉例來說,對高中數(shù)學(xué)的東西,可以分成 7 個(gè)板塊,包括立體幾何、代數(shù),算法與框圖等等,大概有 22 個(gè)章節(jié),550 個(gè)知識點(diǎn),3529 個(gè)題型,然后在難度上分為 4 個(gè)等級。學(xué)生上傳題目以后,如果他是高中數(shù)學(xué)題,我們首先就要找高中老師,然后判斷是哪個(gè)板塊的題目,這樣繼續(xù)往下走,確定是什么類型的題目,最后決定選擇哪位老師。
學(xué)生畫像
在目前的教育系統(tǒng)里,學(xué)生大部分都是接受相同的教育,而我們希望的是,能夠通過學(xué)生畫像給他們提供針對個(gè)人特點(diǎn)的服務(wù),比如根據(jù)年級、地區(qū)、對知識點(diǎn)的掌握程度,以及學(xué)習(xí)能力等等,給他們畫出一個(gè)圖表,最后基于這些圖表,為學(xué)生匹配更合適的服務(wù)。
老師畫像
同樣,我們也需要給老師進(jìn)行畫像,因?yàn)槊總€(gè)老師的能力是不一樣的,所以我們就通過每次老師講解的時(shí)間,和學(xué)生對他的評分,以及一些自動化試檢或以及人工試檢,來對老師進(jìn)行畫像,得出他們擅長的領(lǐng)域或者教學(xué)習(xí)慣。
我們的系統(tǒng)大家應(yīng)該已經(jīng)知道了,像 UBER 或者滴滴一樣,學(xué)生需要答疑,老師看到答疑請求之后可以選擇,到底這個(gè)題目講還是不講,通過這樣的智能分析系統(tǒng),我們可以慢慢獲取老師信息。
答疑供應(yīng)預(yù)測
剛才講到,不同地區(qū)的教綱是不一樣的,所以當(dāng)學(xué)生提出了答疑需求的時(shí)候,我們會最優(yōu)先地給他選擇最合適的老師和時(shí)間。這個(gè)調(diào)度過程就像是工業(yè)上的供應(yīng)預(yù)測,每個(gè)省份、每個(gè)知識點(diǎn)對應(yīng)的老師,以及老師的上線時(shí)間具有強(qiáng)烈的隨機(jī)性,這就需要從不同角度對個(gè)人情況進(jìn)行分析,然后形成時(shí)間模型,預(yù)測學(xué)生下一次的請求,并同時(shí)計(jì)算老師是不是在線或者能不能回答這個(gè)問題。
答疑供給庫存模型
這個(gè)有點(diǎn)類似于工程上的供給庫存模型,我們首先考慮的是兩個(gè)狀態(tài),一個(gè)是老師的答疑供給庫存,一個(gè)是學(xué)生的答疑需求,以此形成老師的答疑庫存隊(duì)列,然后通過 Markov 進(jìn)行預(yù)測。
把不同隊(duì)列的狀態(tài)建立方程以后,利用我們的公式,讓它最后產(chǎn)生的結(jié)果概率等于 1 ,然后通過解線性方程組得到最優(yōu)解,最后預(yù)測出老師庫存隊(duì)列的長度和等待時(shí)間,以及學(xué)生需求隊(duì)列的長度和等待時(shí)間。
之前的數(shù)據(jù)比較復(fù)雜,其實(shí)簡單來說,我們的目標(biāo)就是能夠最大化地答題,增加答疑總量,同時(shí)希望每個(gè)老師的答疑得分要比較高,還有就是要降低學(xué)生提問的流失率,降低老師的閑置率和其他成本。當(dāng)然了,這個(gè)目標(biāo)是建立在老師的實(shí)際調(diào)配量小于最大量的基礎(chǔ)下。
通過設(shè)計(jì)這樣的制度,可以方便以后我們要做的排班系統(tǒng),包括直播講課、直播答疑等等。基于這個(gè)系統(tǒng),我們也可以更加合理地分配自己的能力,因?yàn)槲覀冇幸恍┦侵苯庸蛡虻膬?nèi)部老師,但也有一些外部兼職老師,有了排版系統(tǒng),我們就可以根據(jù)實(shí)際的情況選擇自動排班,這一方面能保證答疑的質(zhì)量,另一方面也能降低成本。
下一個(gè)數(shù)據(jù)采集目標(biāo):1000 萬高質(zhì)量 1V1 視頻樣本
總的來說,我們是希望通過這樣的調(diào)度系統(tǒng),以最優(yōu)化的策略幫助學(xué)生更快地提高成績,同時(shí)也能夠讓老師更有效地答疑,并提高他們的收入。如果我們的系統(tǒng)比較差,那么學(xué)生的體驗(yàn)就會很糟糕,老師也就會認(rèn)為這樣的平臺使用價(jià)值不是很高。我們現(xiàn)在的目標(biāo)就是,能夠通過這樣的在線答疑系統(tǒng),生成大量的,比如說 1000 萬高質(zhì)量的 1V1 視頻樣本,讓我們可以進(jìn)一步做更多的分析,最后形成以「學(xué)霸君」為平臺的拍照搜題、1V1 實(shí)時(shí)答疑的平臺。
小結(jié)
學(xué)霸君最主要做的業(yè)務(wù)是以數(shù)據(jù)、技術(shù)、分析為支撐的,以此提供給學(xué)生一些定制化的,或者個(gè)人化的實(shí)時(shí)答疑學(xué)習(xí)、內(nèi)容推薦、自適應(yīng)練習(xí)等等。而這些內(nèi)容都是通過一系列技術(shù)性的收集,包括利用技術(shù)進(jìn)行統(tǒng)計(jì)、分析、預(yù)測來最終實(shí)現(xiàn)
總結(jié)
- 上一篇: ICML论文|这违反直觉的“升噪”方法,
- 下一篇: 解密谷歌机器学习忍者项目,如此培养人工智