NLP太卷,我去研究蛋白质了~
為什么“單詞”被省略了:單詞的本質是含義簡單且可以高頻重復的信息,句子的本質是經過多個單詞不斷消歧最終包含指向性含義的信息。從基因角度來看,大的片段相當于句子,對這些片段再分段起單詞作用,密碼子(每三個核苷酸)對應一個氨基酸,本質上還是字母。從蛋白質角度來看,二級結構中由氫鍵造成的較為規律的折疊、螺旋可以視作單詞,能實現特定功能的蛋白質才稱得上句子。
參考文獻
理論基礎,思想很重要,但論證得并不好:
Cadeddu, A., Wylie, E. K., Jurczak, J., Wampler‐Doty, M., & Grzybowski, B. A. (2014). Organic chemistry as a language and the implications of chemical linguistics for structural and retrosynthetic analyses. Angewandte Chemie International Edition, 53(31), 8108-8112.
綜述類,關聯NLP方法和應用領域的表格挺有價值的:
?ztürk, H., ?zgür, A., Schwaller, P., Laino, T., & Ozkirimli, E. (2020). Exploring chemical space using natural language processing methodologies for drug discovery.?Drug Discovery Today, 25(4), 689-705.
首度提出Protein Vector(Protvec)和Gene Vector(Genevec)的概念:
Asgari, E., & Mofrad, M. R. K. (2015). Continuous distributed representation of biological sequences for deep proteomics and genomics.?PLoS ONE, 10(11), 1–15.
Protein與word embedding的結合:
Bepler, T., & Berger, B. (2019). Learning protein sequence embeddings using information from structure. 7th International Conference on Learning Representations, ICLR 2019, 1–17.
雖然漫畫中將2018年Schwaller發表的Seq2Seq(被期刊接收且效果好,見6)視作這個方法在生物分子領域的第一次成功應用,但做這方面的論文一般都會引用這篇作為一切故事的開端。兩個韓國高中生的作業,能做到這樣真的很厲害了:
Nam, J., & Kim, J. (2016). Linking the neural machine translation and the prediction of organic chemistry reactions. arXiv preprint arXiv:1612.09529.
Seq2Seq最佳:
Schwaller, P., Gaudin, T., Lanyi, D., Bekas, C., & Laino, T. (2018). “Found in Translation”: predicting outcomes of complex organic chemistry reactions using neural sequence-to-sequence models.?Chemical science, 9(28), 6091-6098.
另一篇比較有價值的Seq2Seq:
Karimi, M., Wu, D., Wang, Z., & Shen, Y. (2019). DeepAffinity: Interpretable deep learning of compound-protein affinity through unified recurrent and convolutional neural networks.?Bioinformatics, 35(18), 3329–3338.
漂亮的標題漂亮的intro,但內容不是很驚艷的BERT應用:
Vig, J., Madani, A., Varshney, L. R., Xiong, C., Socher, R., & Rajani, N. F. (2020). Bertology meets biology: Interpreting attention in protein language models. arXiv preprint arXiv:2006.15222.
萌屋作者:白鹡鸰
白鹡鸰(jí líng)是一種候鳥,天性決定了會橫跨很多領域。已在上海交大棲息四年,目前以圖像語義為食,但私下也對自然語言很感興趣,喜歡在賣萌屋輕松不失嚴謹的氛圍里浪~~形~~飛~~翔~~
因為剛開始Ph.D.,文章還統統是放在天上的衛星,接下來會盡早與大家正式見面的!知乎ID也是白鹡鸰,歡迎造訪。
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結
以上是生活随笔為你收集整理的NLP太卷,我去研究蛋白质了~的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式系统设计步骤
- 下一篇: html中文本信息导出表格中,大量wor