提高软件开发、软件维护的效率和质量的利器
點擊上方藍字關注我們
提高軟件開發、軟件維護的效率和質量的利器
SnowGraph可將知識圖譜融入機器對無結構文本的處理過程之中,進而為復用者提供準確、有效的智能問答服務,從而提高軟件復用過程的效率與質量。
北京大學的鄒艷珍副教授所在團隊提出了基于大數據的軟件項目知識圖譜構造及問答方法,設計并實現了相應的軟件項目知識圖譜構造及智能問答平臺SnowGraph,并在Apache開源社區以及國內著名軟件企業成功展開應用實踐。該技術成果具有很好的通用性與可擴展性,能夠對未來可能出現的新的知識需求、知識來源,以及知識抽取、關聯、提煉方法進行適應與支持,有效提高了軟件項目理解和軟件復用的效率。該研究以“基于大數據的軟件項目知識圖譜構造及問答方法”為題發表在《大數據》2021年第1期。
01 為什么要構建軟件知識圖譜?
軟件項目在其整個生命周期中形成并積累了大量的數據,如源代碼、郵件列表、缺陷報告和問答文檔等。這些數據中蘊含了規模龐大、結構復雜、語義關聯豐富的軟件知識,能夠幫助軟件開發人員理解軟件功能,進行軟件復用。然而,組織、利用這些知識面臨著以下挑戰:(1)軟件規模擴大引發的軟件知識爆炸問題;(2)軟件數據中蘊含的信息在多源異構數據中呈碎片化分散的形態;(3)大量信息是以無結構文本的形式表示的,如代碼標識符、代碼注釋、郵件、用戶手冊、缺陷描述。因此,亟需構建一個語義關聯豐富的軟件知識圖譜。
02?取得了哪些重大突破?
針對上述問題,鄒艷珍副教授所在團隊設計并實現了相應的軟件項目知識圖譜構造及智能問答平臺SnowGraph,其系統框架如圖1所示。
圖1 SnowGraph平臺的系統框架
具體的,首先針對傳統軟件項目知識圖譜需要開發人員熟悉并掌握Cypher語法,人工將用戶意圖轉化為Cypher查詢語句,學習成本較高的問題,鄒艷珍副教授所在團隊提出了一種基于自然語言的知識庫/知識圖譜查詢方法。該方法能夠將用戶的自然語言問句自動轉化為Cypher形式化查詢語句,有效支持了面向軟件項目知識圖譜的自然語言問答,降低了開發人員的學習成本。然后提出了融合代碼知識的智能問答方法,借助軟件項目的知識圖譜來計算不同單詞之間的潛在語義相關度,從而對候選文本集合進行篩選與評估,返回更準確的答案。與現有的基于LDA、Word2Vec等統計學習方法的文檔搜索改進策略相比,該方法借助軟件項目源代碼中的代碼實體對自然語言文本的語義進行結構化表示,并利用代碼實體之間的結構依賴關系實現了對文本之間的潛在語義關聯的更直接、更有效的挖掘與利用,顯著提高了文檔搜索的效果。
03?下一步的工作內容是什么??
未來,基于軟件開發過程中的更多數據類型,進一步的工作是進行軟件知識圖譜知識實體的擴充,以及建立更多的語義關聯,并提供更精準的交互式智能問答服務。
研究詳情請閱原文:
http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021002
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的提高软件开发、软件维护的效率和质量的利器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 16进制数怎么判断正负
- 下一篇: 试分析下列程序段:请选择(L1、L2、L