日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

“华为杯”第十八届中国研究生数学建模竞赛一等奖经验分享

發布時間:2023/12/10 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 “华为杯”第十八届中国研究生数学建模竞赛一等奖经验分享 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

遲來很久的經驗分享,有幫助別忘了點贊哦!!!

簡介

距離去年參與研究生數學建模并獲得全國一等獎已經過去了一年,由于一直比較忙也沒有抽空來對之前的比賽做一個總結,最近看到師弟們在準備參與今年的競賽,于是寫了這篇文章來做一個簡單的經驗總結。

賽前準備

  • 組隊分工
    一般的話是三個人組隊,我的建議是一個人負責建模和編程,另外兩個人負責論文內容(包括撰寫和可視化素材),這是我們實踐中發現雄安率比較高的一種分工方式,當然這里有個前提就是負責編程的這個人的能力要比較強,要對算法和建模都比較了解。換言之,一般計算機這邊會選擇數據挖掘類的題目,因此這個負責編程的人要對數據挖掘的一些生態比較熟悉(我們組是我負責這一塊的,我對Python的數據挖掘競賽的一些生態都比較了解,包括pandas、numpy、scipy、scikit-learn、xgboost、matplotlib、seaborn、plotly等庫)。另外兩個人負責論文的撰寫,這個也很重要,因為最終呈現給評委的就是論文,很少有人去看代碼這些補充材料的,所以一定要格式規范且美觀。
  • 算法準備
    負責算法和建模的編程人員需要學習相應的生態庫,比如matlab生態或者python生態,熟悉一種即可,然后要對一些主流的機器學習算法有所實戰經驗,因為實際上數學建模周期很短,很少會采用一些深度學習模型,更多的時候還是現有機器學習模型的組合調優。同時也要熟悉一些可視化工具庫,python這邊的話用的多的是matplotlib、seaborn和plotly等,這些數據分析或者模型決策的可視化有利于豐富論文內容并幫助理解(誰不喜歡看圖呢)。此外,其實歷年的優秀解法都有類似之處,需要去看看前幾年的優秀論文并體會其中的建模思路,有利于最后一問的思路展開。
  • 論文準備
    負責論文撰寫的人在準備階段,需要大量閱讀之前的優秀論文,學習其排版組織、前后邏輯、章節劃分等可取之處,比如他們摘要怎么寫的有亮點、總結怎么拔高、文中什么時候公式說明什么時候圖表說明、這一章怎么分小結的。同時,為了便于理解,可以在序章插入文章結構圖之類的,這就要求會使用思維導圖(xmind)、流程圖(visio)等軟件。此外還要學會如何導入參考文獻到word中,畢竟論文最后需要一些參考文獻作為佐證。此外要準備好論文模板(一般官方會給),以便于短暫的比賽期內能夠迅速合作撰寫,可以考慮Word自帶的在線協作。
  • 賽中安排

    我們選擇是當時選題量非常大的一道非常經典的數據挖掘類賽題,即2021年的D題“抗胰腺癌候選藥物的優化建?!?。賽題說明里面包括背景介紹、數據集介紹及建模指標、需解決問題,我們重點關注后面二者?!皵祿榻B及建模指標”這部分告訴我們如何去理解數據集,這部分很重要,有助于后面的特征工程,然后會大體闡述這個賽題的最終任務是什么,但是不是狠具體?!靶杞鉀Q問題”這部分就是本次賽題需要解決的四個具體任務,一般是一個問題在論文里寫一章來解答。

    問題1:

    很具有代表性的一個挖掘題,其實就是做一個特征選擇,注意是特征選擇而不是降維,降維會破壞原有的特征,而本題是為了找到更加合理的少部分特征。針對問題一,針對化合物的729個分子描述符進行變量選擇,選出對生物活性影響最大的20個分子描述符并按照重要性排序。首先,設計了二階段粗篩-細篩策略,粗篩階段建立基于隨機森林的遞歸特征消除模型(RF-RFE),細篩階段建立基于相關性分析的特性篩選模型。接著,對模型分階段進行求解,第一階段先從所有變量中挑選出35個候選變量,第二階段再從候選變量中消除高相關性的低排名變量,得到20個核心變量及其貢獻度排名。最后,采用變量分布性檢驗和相關性檢驗確定所得變量的合理性。


    其中,借助seaborn進行相關性分析如下,我們消除掉部分高相關的。

    問題2:


    這題是一個常規的回歸問題,是在第一問的基礎上進行的,我們就是采用了一些強樹模型進行對比。針對問題二,建立化合物對ERα生物活性的定量預測模型,參與建模的變量不超過問題一的20個。首先,考慮到化合物生物活性值pIC50由IC50變換得到,且與藥物活性正相關,因此建立pIC50預測模型,再進行目標轉換得到對應的IC50值。其次,分別建立基于梯度提升回歸、支持向量機回歸、極端梯度提升回歸的ERα生物活性預測模型,并對三種模型的預測效果進行分析。最后,對模型進行Sobol敏感性分析,探究核心變量與ERα生物活性的內在聯系。

    敏感性分析如下。

    問題3:

    這題是個典型的分類問題,我們對每個指標建立一個分類模型,共計5個模型,模型的構建思路是基于基模型進行集成模型搭建。針對問題三,建立化合物的Caco-2、CYP3A4、hERG、HOB、MN的性質分類預測模型。首先,分析得出上述五種性質均存在類別不均衡的問題,采用過采樣策略進行樣本平衡,以保證后續模型具有非偏向魯棒性。然后,通過交叉驗證法確定變量使用策略,以歸一化后的全部分子描述符作為建模依據。接著,分別建立基于決策樹、邏輯回歸、支持向量機的基分類模型,并采用投票法(Voting)和堆疊法(Stacking)策略構建集成分類模型,并對上述模型進行預測效果分析。最后,通過模型決策面的可視化確定了構建的分類模型具有較強的復雜特征適應能力且分類準確。


    投票法模型的決策邊界二維可視化。

    問題4:

    這題應該是這整個賽題的壓軸題,這是一個比較開放的任務,我們已經得到了很不錯的分類和回歸模型,他們可以用來衡量一個化合物的好壞,那么現在你能否利用這些已有的模型,生成一些不錯的藥物呢?其實就是已知模型,反搜索一些合適的特征,我們這邊采用了比較經典的遺傳算法。針對問題四,探究分子描述符擁有更好生物活性和ADMET性質的條件。首先,設計了基于ADMET性質和ERα生物活性聯合任務評分策略,并以最大化該得分為目標函數,以20個核心變量為決策變量,以其在數據集中的現有范圍經過20%擴張后作為約束,建立核心變量優化的規劃模型。其次,采用精英保留的遺傳算法對模型進行求解,并對算法關鍵內容進行針對性設計,確定的大部分核心變量優質范圍均相比于賽題樣本縮小50%以上。最后,對優秀樣本進行合理性驗證,證明了遺傳得到的子代樣本具有較強的綜合性能。


    具體優化函數公式比較多,上面只給出基礎思路,因為每個人建模思路都可能不一樣。下圖是迭代搜索的一些參數搜索。

    注意點

    • 第一,摘要要通過加粗等方式給人展現亮點,因為據傳言一審主要看摘要‘;總結要體現優點和缺點,以及一些展望。文中合適的時候就可以給出一些可視化,比如模型可視化、預測可視化、流程可視化,畢竟評審人也是人,還是比較喜歡元素豐富的作品。
    • 第二,一定要對每個題目有明確的結果在論文中說明,不要方法說了半天在驗證集上很好用,最后沒有在測試集上進行推理并給出結果。也就是說,針對問題的每一章都要有一節明確為模型預測結果。
    • 第三,提交截至前一天會要求填寫論文的md5校驗碼,這時候一定要根據PDF文件生成校驗碼提交,并且此后這個PDF絕對不能修改,任何改動都不可以。

    總結

    研究生數學建模對于實戰功力的提升非常巨大,而且強度有點大,那些深夜肝論文的日子終會稱為有趣的回憶,最后附上獲獎證書。

    總結

    以上是生活随笔為你收集整理的“华为杯”第十八届中国研究生数学建模竞赛一等奖经验分享的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。