日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP太卷,我去研究蛋白质了~

發布時間:2023/12/20 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP太卷,我去研究蛋白质了~ 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為什么“單詞”被省略了:單詞的本質是含義簡單且可以高頻重復的信息,句子的本質是經過多個單詞不斷消歧最終包含指向性含義的信息。從基因角度來看,大的片段相當于句子,對這些片段再分段起單詞作用,密碼子(每三個核苷酸)對應一個氨基酸,本質上還是字母。從蛋白質角度來看,二級結構中由氫鍵造成的較為規律的折疊、螺旋可以視作單詞,能實現特定功能的蛋白質才稱得上句子。

參考文獻

  • 理論基礎,思想很重要,但論證得并不好:

    Cadeddu, A., Wylie, E. K., Jurczak, J., Wampler‐Doty, M., & Grzybowski, B. A. (2014). Organic chemistry as a language and the implications of chemical linguistics for structural and retrosynthetic analyses. Angewandte Chemie International Edition, 53(31), 8108-8112.

  • 綜述類,關聯NLP方法和應用領域的表格挺有價值的:

    ?ztürk, H., ?zgür, A., Schwaller, P., Laino, T., & Ozkirimli, E. (2020). Exploring chemical space using natural language processing methodologies for drug discovery.?Drug Discovery Today, 25(4), 689-705.

  • 首度提出Protein Vector(Protvec)和Gene Vector(Genevec)的概念:

    Asgari, E., & Mofrad, M. R. K. (2015). Continuous distributed representation of biological sequences for deep proteomics and genomics.?PLoS ONE, 10(11), 1–15.

  • Protein與word embedding的結合:
    Bepler, T., & Berger, B. (2019). Learning protein sequence embeddings using information from structure. 7th International Conference on Learning Representations, ICLR 2019, 1–17.

  • 雖然漫畫中將2018年Schwaller發表的Seq2Seq(被期刊接收且效果好,見6)視作這個方法在生物分子領域的第一次成功應用,但做這方面的論文一般都會引用這篇作為一切故事的開端。兩個韓國高中生的作業,能做到這樣真的很厲害了:

    Nam, J., & Kim, J. (2016). Linking the neural machine translation and the prediction of organic chemistry reactions. arXiv preprint arXiv:1612.09529.

  • Seq2Seq最佳:
    Schwaller, P., Gaudin, T., Lanyi, D., Bekas, C., & Laino, T. (2018). “Found in Translation”: predicting outcomes of complex organic chemistry reactions using neural sequence-to-sequence models.?Chemical science, 9(28), 6091-6098.

  • 另一篇比較有價值的Seq2Seq:
    Karimi, M., Wu, D., Wang, Z., & Shen, Y. (2019). DeepAffinity: Interpretable deep learning of compound-protein affinity through unified recurrent and convolutional neural networks.?Bioinformatics, 35(18), 3329–3338.

  • 漂亮的標題漂亮的intro,但內容不是很驚艷的BERT應用:

    Vig, J., Madani, A., Varshney, L. R., Xiong, C., Socher, R., & Rajani, N. F. (2020). Bertology meets biology: Interpreting attention in protein language models. arXiv preprint arXiv:2006.15222.

  • 萌屋作者:白鹡鸰

    白鹡鸰(jí líng)是一種候鳥,天性決定了會橫跨很多領域。已在上海交大棲息四年,目前以圖像語義為食,但私下也對自然語言很感興趣,喜歡在賣萌屋輕松不失嚴謹的氛圍里浪~~形~~飛~~翔~~

    因為剛開始Ph.D.,文章還統統是放在天上的衛星,接下來會盡早與大家正式見面的!知乎ID也是白鹡鸰,歡迎造訪。

    后臺回復關鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    有頂會審稿人、大廠研究員、知乎大V和妹紙

    等你來撩哦~

    總結

    以上是生活随笔為你收集整理的NLP太卷,我去研究蛋白质了~的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。