【NLP】NLP爱好者学习资源推荐汇总
導讀:本文旨在整理匯總一些NLPer的學習資源,包括書籍、在線課程、博客等。本文中涉及的原始失效鏈接均已剔除或替換,博客部分均整理為近期仍在更新的博客,歡迎文末留言區交流補充。
書籍篇
《Speech and Language Processing》
第三版:
https://web.stanford.edu/~jurafsky/slp3/?
作者:Daniel Jurafsky & James H. Martin
主要內容:
本書內容涵蓋了自然語言處理的方方面面,從底層的詞法分詞、語法分析和語義分析,到和應用更為接近的自然語言處理任務,如信息抽取、機器翻譯、自動問答、文本摘要、對話系統等。書中將自然語言處理、計算語言學以及語音識別等內容融合在一起,把各種技術相互聯系起來,讓讀者了解怎樣才能最佳地利用每種技術,怎樣才能將各種技術結合起來使用。本書在國內有中譯本《自然語言處理綜論》。
《Foundations of Statistical Natural Language Processing》
電子版:https://nlp.stanford.edu/fsnlp/?
作者:Chris Manning & Hinrich Schütze
主要內容:本書涵蓋的內容十分廣泛,分為四個部分,共16章,包括了構建自然語言處理軟件工具將用到的幾乎所有理論和算法。全書的論述過程由淺入深,從數學基礎到精確的理論算法,從簡單的詞法分析到復雜的語法分析,適合不同水平的讀者群的需求。本書在國內有中譯本《統計自然語言處理基礎》
《Introduction to Information Retrieval》
電子版:https://nlp.stanford.edu/IR-book/?
作者:Chris Manning、Prabhakar Raghavan & Hinrich Schütze
排名/搜索領域的一本好書。本書在國內有中譯本《信息檢索導論》
《Neural Network Methods in Natural Language Processing》
電子版:http://u.cs.biu.ac.il/~yogo/nnlp.pdf
作者:Yoav Goldberg
對NLP領域神經網絡應用的深入介紹。
《統計自然語言處理(第2版)》
作者:宗成慶
主要內容:本書介紹了統計自然語言處理的基本概念、理論方法和最新研究進展,內容包括形式語言與自動機及其在自然語言處理中的應用、語言模型、隱馬爾可夫模型、語料庫技術、漢語自動分詞與詞性標注、句法分析、詞義消歧、篇章分析、統計機器翻譯、語音翻譯、文本分類、信息檢索與問答系統、自動文摘和信息抽取、口語信息處理與人機對話系統等。
《自然語言處理的表示學習》
本書是一本完整介紹自然語言處理表示學習技術的著作。書中全面介紹了表示學習技術在自然語言處理領域的最新進展,對相關理論、方法和應用進行了深入介紹,并展望了未來的重要研究方向。
《神經網絡與深度學習》
丘錫鵬老師的書,一方面是出版時間很新(20年5月),另一方面是書相對較小,不會給初學者造成太大壓力。
《深度學習》
《深度學習》(花書)不是一次就能讀完讀透的,已經有基礎的同學可以當作工具書來用,在碰到難題或者面試前都可以翻翻。沒有基礎的同學最好先看上一本。除了深度學習之外,經典的統計方法也是需要了解的,業界也有一些應用場景,像分詞這樣對速度要求高的任務不必要上神經網絡,經典方法足矣。
《自然語言處理入門》
這本是HanLP的作者何晗出品的,HanLP是Github上一個21k的項目,基于Java高效地實現了分詞、詞性標注等通用句法、語義任務,雖然不是研究層面的,但在工業界應用十分廣泛,很多公司的分詞基礎組件都是基于HanLP改的。何晗大佬的這本書主要從統計算法角度講解,側重于句法分析任務的理論和實踐。
《數學之美》
數學之美是吳軍老師很經典的科普讀物,用易懂的語言和故事帶我們了解一個個NLP應用。書不厚,適合閑暇時間閱讀。
《知識圖譜與深度學習》
劉知遠老師、韓旭博士和孫茂松教授20年中出品的書,系統地介紹了知識圖譜相關模型及應用,還有各模型的實驗測評。
《智能問答》+《機器翻譯》+《知識圖譜》
這三本18年底出版的系列書籍是周明、李沐、趙軍三位大佬分別署名的,主要是對該領域進行體系化地分類,再介紹歷任模型、數據集等,可以當綜述看。
《文本情感分析》
由中科院靳小龍團隊在19年11月出版,比較新,系統地介紹了情感分析領域。
《機器閱讀理解算法與實踐》
斯坦福博士、微軟研究員朱晨光20年初的書,除了閱讀理解外還介紹了NLP基礎,并講到了最新的BERT,同時配有閱讀理解模型代碼,適合初入該領域的同學。
《百面系列》
Hulu團隊出品,基本是面試必備了。雖然基礎都學了,但面試時總會發現有知識點遺漏,這兩本可以幫忙迅速補救。
《動手學深度學習》
李沐在19年中出版的實戰書,雖然使用了MXNet這個框架,但概念的講解和Python實現都不錯,適合快速上手。目前的深度學習框架都差不多,蹭別人源碼時用pytorch和tensorflow都有可能,不用太拘泥,初入門時主要學習模型的邏輯。
本書代碼庫:
https://github.com/diveintodeeplearning/d2l-zh?
《自然語言處理實戰》
如果不想看MXNet,可以參考這本比較新的書,20年底出版,配有Keras代碼,比其他深度學習框架都容易些。
《TensorFlow自然語言處理》
19年7月出版,從詞向量到文本生成都有講,還不錯。
《Machine Learning Yearning》
作者:吳恩達
吳恩達《Machine Learning Yearning》中文版pdf下載
一本培養機器學習思維的書
《機器學習》/《機器學習公式詳解》/《統計學習方法》
《機器學習公式詳解》是《機器學習》配套的公式推導書籍。Python 實現李航老師的《統計學習方法》一書中所有算法代碼庫地址:https://github.com/WenDesi/lihang_book_algorithm
《Pattern Recognition and Machine Learning》
本書中文譯名《模式識別與機器學習》,簡稱 PRML,出自微軟劍橋研究院實驗室主任 Christopher Bishop 大神之手。PRML 是模式識別和機器學習領域的經典著作,出版于 2007 年。該書作者 Christpher M. Bishop 是模式識別和機器學習領域的大家。PRML 深入淺出地介紹了模式識別與機器學習的基本理論和主要方法,不僅適合初學者學習,而且對專業研究人員也有很大的參考價值。?
下載主頁:https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book
本書代碼:?
http://prml.github.io/
PRML python 代碼鏈接:
https://github.com/ctgk/PRML
PRML習題答案:
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/05/prml-web-sol-2009-09-08.pdf
ChillyRain 的"PRML Notes"系列博文
http://chillyrain.is-programmer.com/categories/7613/posts
在線課程篇
斯坦福大學自然語言處理入門課程?
教師:Dan Jurafsky & Chris Manning
https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269
斯坦福CS224d:用深度學習做自然語言處理?
教師:Richard Socher
http://cs224d.stanford.edu/syllabus.html?
與Manning的入門課程相比,這門課講解了更高級的機器學習算法,以及用于NLP的深度學習和神經網絡架構。這是斯坦福大學自然語言小組的基于深度學習的自然語言處理的課程。主要介紹了自然語言處理領域廣泛應用的網絡結構(例如循環神經網絡、卷積神經網絡以及遞歸神經網絡等)及其在自然語言處理的經典任務,例如分類任務(情感分類),序列標注任務(實體識別),序列到序列的生成任務(機器翻譯)的實際應用。
Oxford Deep Learning for NLP class
教師:Phil Blunsom. (2017) Class by Deep Mind NLP Group.
https://github.com/oxford-cs-deepnlp-2017/lectures
DeepMind團隊成員在牛津大學教授基于深度學習的自然語言處理的課程。內容涉及到詞嵌入,基于循環神經網絡的語言模型,基于循環神經網絡和卷積神經網絡的文本分類,基于循環神經網絡的條件語言模型(廣泛應用于機器翻譯、文本摘要等)及其中的注意力機制,以及基于深度學習模型的自動問答等主要自然語言處理的任務。
CS224n
http://web.stanford.edu/class/cs224n/?
斯坦福的深度學習的自然語言處理,包括視頻、PPT講義。
吳恩達的機器學習
https://www.coursera.org/learn/machine-learning#syllabus?
這是機器學習的經典視頻。這門課程由吳恩達老師主講,可以說是機器學習入門的最熱門課程,絕大部分初學者是看這門課入門機器學習的。有人在github開源了吳恩達機器學習個人筆記,用Python復現了課程作業,star數達到20000+,地址:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
吳恩達深度學習課程筆記:
https://github.com/fengdu78/deeplearning_ai_books
李宏毅老師的系列課程
http://speech.ee.ntu.edu.tw/~tlkagk/courses.html
林軒田老師的課程,機器學習基石和機器學習技法
主頁:
https://www.csie.ntu.edu.tw/~htlin/mooc/?
主頁可以找到課程資料以及視頻鏈接。沒梯子也可以B站看。
教程習題解答:
https://github.com/Doraemonzzz/Learning-from-data
深度學習框架篇
Keras
官方文檔:
https://github.com/keras-team/keras中文文檔:
https://keras-cn.readthedocs.io/en/latest/
Tensorflow
官方文檔:
https://github.com/tensorflow/tensorflow中文文檔:
http://www.tensorfly.cn/中文教程:
https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial例子:
https://github.com/aymericdamien/TensorFlow-Examples
Pytorch
官方文檔:
https://github.com/pytorch/pytorch中文文檔:
https://pytorch.apachecn.org/#/例子:
https://github.com/yunjey/pytorch-tutorial超全資源:
https://github.com/bharathgs/Awesome-pytorch-list
論文篇
國內有一個關于計算機的排名叫
CCF推薦排名(原鏈接丟失,以下長長的鏈接建議到瀏覽器打開):
https://blog.csdn.net/cxqiang2013/article/details/44837425?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic&dist_request_id=1328740.37902.16169828571462503&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic
里面包羅了計算機各大領域的會議期刊排名,比如計算機體系結構、計算機網絡、人工智能、數據挖掘等等。CCF 推薦排名把會議和期刊被分成 A,B,C 三類。但是這個國內人搞的,國外基本不看這個。不過被推到這里的會議/期刊質量都還算不錯。
國外把 ACL、EMNLP、NAACL、COLING 被稱為 NLP 四大頂會,其中唯獨ACL在CCF里面是 A 類,可見在 ACL 中一篇文章是很難的。ACL 學會在北美和歐洲召開分年會,分別稱為NAACL和EACL。
ACL 學會下設多個特殊興趣小組,其中比較有名的諸如 SIGDAT、SIGNLL 等。而 EMNLP 則是 SIGDAT 組織的國際會議。比較有名的還有 SIGNLL 組織的 CoNLL。
NLP/CL 也有自己的旗艦學術期刊 Computational Linguistics 和 ACL 創辦的期刊 TACL。
作為交叉學科,也有很多相關領域值得關注。主要包括:信息檢索和數據挖掘領域:SIGIR、WWW、KDD、WSDM 等和人工智能領域: AAAI、IJCAI 等。
博客篇
Google研究博客
https://research.googleblog.com/
語言日志博客(Mark Liberman)
http://languagelog.ldc.upenn.edu/nll/
Sebastian Ruder’s blog
http://ruder.io/
Jay Alammar’s illustrated blog
http://jalammar.github.io/
NLP Highlights hosted by Matt Gardner and Waleed Ammar
https://podcasts.apple.com/us/podcast/nlp-highlights/id1235937471
蘇劍林的博客
https://kexue.fm/
其他篇
100 Days Of ML Code:
地址:
https://github.com/Avik-Jain/100-Days-Of-ML-Code
中文版地址:
https://github.com/Avik-Jain/100-Days-of-ML-Code-Chinese-VersionDeep Learning with Python:
地址:
https://github.com/fchollet/deep-learning-with-python-notebooks
中文版鏈接:
https://pan.baidu.com/s/1Fsc1gg8D8E39XhQZ_nRn2Q?
提取碼:indzReddit 超高贊免費 NLP 課程:
地址:
https://github.com/yandexdataschool/nlp_course一個提供了很多機器學習問題的當前最優結果的項目:
地址:
https://github.com//RedditSota/state-of-the-art-result-for-machine-learning-problems跟蹤 NLP 當前最新技術進度的項目:
地址:
https://github.com/yuquanle/NLP-progress川大畢業極客創建項目深度學習500問:
地址:
https://github.com/yuquanle/DeepLearning-500-questions匯集了40個關于中文 NLP 詞庫項目:
地址:
https://github.com/yuquanle/funNLP機器學習/深度學習/自然語言處理/C/C++/Python/面試筆記:
地址:
https://github.com/yuquanle/Algorithm_Interview_Notes-Chinese清華大學 NLP 組 github,很多 paper 的整理:https://github.com/thunlp/
AI Challenger 2018 baseline方法:
地址:
https://github.com/AIChallenger/AI_Challenger_2018一份很全面的機器學習算法資料,包括視頻、代碼、Demo:
地址:
https://github.com/trekhleb/homemade-machine-learning200 多個最好的機器學習、NLP 和 Python 相關教程:
地址:http://suo.im/5fTvIN機器學習小抄(像背單詞一樣理解機器學習):
地址:
https://pan.baidu.com/s/1eQpA1DknCJCgjMS8QMLOJQ?提取碼:b79u?
在JupiterNotebook下利用python和一些數據科學庫實現的nlp基礎教程,包括情感分析,句子生成等nlp基本內容
https://github.com/adashofdata/nlp-in-python-tutorial
東北大學自然語言處理實驗室維護的自然語言處理和機器學習綜述論文項目
https://github.com/NiuTrans/ABigSurvey
歡迎交流指正
參考資料:
[1]https://mp.weixin.qq.com/s/NKUvSe0qPpXgb4bE2ZrwfA
[2]https://mp.weixin.qq.com/s/7m90zihmoGZABP7Ib4aYIA
[3]https://mp.weixin.qq.com/s/_TWehfGCT6sKoZzYGQBsCw
[4]https://mp.weixin.qq.com/s/3WfIY5I8rJh-hs7xJRoE5A
[5]https://zhuanlan.zhihu.com/p/88404821
[6]https://mp.weixin.qq.com/s/TOPHDo4YfRVr4h6V92I-xw
[7]https://mp.weixin.qq.com/s/s7jqVhs5a6WdfsYsDFs9Vg
[8]https://mp.weixin.qq.com/s/ZB6cFfjaGJ7MiBQLb6SI4A
[9]https://mp.weixin.qq.com/s/nekdcpdhTPkyggMXzzVT2w
[10]https://www.6aiq.com/article/1584520876427
[11]https://mp.weixin.qq.com/s/po_zYjcGA01msd90bb9jRg
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【NLP】NLP爱好者学习资源推荐汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows7系统如何设置远程连接
- 下一篇: Windows11怎么关机重启?Wind