Python文本数据分析与挖掘,外版畅销书中文版火爆上市
出版社:中國青年出版社—北京中青雄獅數碼傳媒科技有限公司
大數據時代,用Python快速分析挖掘更有價值的信息!
一個以大數據與人工智能技術為核心的新的工業革命時代已經來臨,大數據在企業決策中扮演著越來越重要的角色,數據經過高效的智能數據分析與挖掘等人工智能技術處理后,可以產生巨大價值,創造智能,方便生活?,F在“統計分析和數據挖掘”已躋身最受歡迎的求職技能行列,數據分析師的薪酬待遇也遠遠超過平均薪資水平。
《Python文本數據分析與挖掘》數據分析師初學者必備,書中用簡單明快的例子演示應用效果,并配有視頻展示,下載資料包即可獲取視頻和二維碼,不會讓你感覺枯燥摸不到頭腦。
本書特點
特點1:
引進外版機器學習領域暢銷書!專注于如何快速應用!
特點2 :
作者的實戰經驗總結!100%干貨分享,導入篇→基礎篇→實踐篇,循序漸進。
特點3:
案例都配對應視頻講解,隨時隨地學習無壓力!下載資料包即可獲取視頻和案例二維碼!
特點4:
提供在線交流群,與志同道合小伙伴一起加油!
內容簡介
《Python文本數據分析與挖掘》將自然語言處理技術和統計處理技術視為工具,不會涉及到其繁瑣的原理、數學定理等。書中利用操作簡便的Python程序包來處理文本數據,探索文本挖掘可以幫我們做到的事情,而非用尖端的技術進行程序設計。書中用簡單明快的例子演示應用效果,并配有視頻展示,下載資料包即可獲取視頻和案例二維碼!
本書通過5個章節介紹相關知識,第1章介紹文本挖掘的整體印象;在第2章中概括介紹了本書后面用到的Python的必要知識;第3章中介紹文本處理相關的基本概念和觀點;第4章中利用Python學習作為基礎處理的頻率分析方法和其能得到的結果;最后,在第5章中介紹文本挖掘需要用到的各種具體方法以及在Python中的處理步驟。
作者簡介
【日】山內長承:1975年畢業于東京大學工學部電子工學專業。1977年完成工學專業課程碩士課程。1978年進入斯坦福大學電氣工學專業,1984年退出博士課程,進入日本艾比·艾姆東京基礎研究所工作。2000年加入到東邦大學理學部情報科學科,任東邦大學理學部情報科學科教授。
精彩文摘
1.1 什么是文本挖掘
文本挖掘是指從文本數據中把信息挖掘出來,如同從大量沙土中找出被掩埋的寶貴鉆石,文本挖掘是從大量文本數據中找出被掩埋的“有意義的信息”。
通過使用自然語言處理技術和統計學工具,從大量的文本數據中提取出壓縮后有意義的信息。在這里,我們分別使用“文本數據”和“信息”這兩個詞。先說文本數據,比如各種各樣的文件、在社交平臺上發布的信息、關于產品或服務的問卷調查結果,這些數據的產生都有原本的目的。也就是說,我們是為了寫文件、為了在社交平臺上發布信息、為了評價產品或服務等目的,才去寫作各種文本,而這些文本就是我們輸入的“數據”。文本挖掘,就是從這些數據入手,比如從社交平臺中提取出最近的流行趨勢,從問卷調查中提取出對某種商品或服務的整體評價和出現的問題(圖1-1)。而上面說的從社交平臺上提取的流行趨勢、通過問卷得到的評價和問題,和原來的文本數據相比,被大幅度地壓縮了。我們把壓縮后得到的東西稱為“信息”。
2.4.3 圖表、圖形繪制庫Matplotlib
Matplotlib主要是繪制二維圖表、圖形、圖像的庫。Matplotlib不僅可以繪制畫面,還可以直接在文件中輸出畫面。Matplotlib有很多功能,其中輔助函數pyplot是可以繪制簡單圖表的程序包,本書也會使用這個功能來繪制圖表,下面我們先來看一下繪制點的簡單制圖程序(例2.3)。
Matplotlib除了可以繪制點,還可以繪制直線圖、折線圖、柱狀圖等圖形。接下來我們來看一下使用Matplotlib繪制的折線圖(例2.4)。
執行程序后可以看到圖2-5中的折線圖效果。
在之后的數據分析中,我們也可以通過柱形圖分析有效信息。使用Matplotlib繪制柱形圖的方法如例2.5所示。
可以看到如圖2-6所示的效果。
內頁展示
目錄
前言
第1章 文本挖掘的概要
1.1 什么是文本挖掘
1.2 應用實例
第2章 Python概要和實驗準備
2.1 什么是Python
2.2 編寫、運行程序的環境
2.3 Python的語法規則
2.4 可用于文本挖掘的程序包
2.5 數據的準備
第3章 文本分割和數據分析的方法
3.1 文本的構成元素
3.2 統計分析、數據挖掘的基本方法
3.3 文本挖掘特有的方法
第4章 頻率統計的實際應用
4.1 文字單位的出現頻率分析
4.2 單詞的出現頻率分析
第5章 文本挖掘的各種處理示例
5.1 連續·N-gram的分析和利用
5.2 詞的重要性和TF-IDF分析
5.3 基于KWIC的檢索
5.4 基于單詞屬性的積極消極分析
5.5 基于WordNet的同義詞檢索
5.6 句法分析和關聯分析的實際操作
5.7 語義分析和Word2Vec
附錄 Python編程環境的簡單安裝
A.1 什么是開發環境
A.2 在Windows10上的安裝
A.3 開始使用Jupyter Notebook
A.4 作業結果的保存和Jupyter Notebook的結束
今日福利
贈送?5?本書籍,書籍由出版社贊助,書籍列表附后,書籍任選。
通過在本文留言參與,留言的主題如下:
聊聊你對Python數據分析的理解?或
推薦一本書你讀過的,覺得不錯的書籍,并用一句話來描述你推薦的原因。
參與方式:在公眾號「Python數據之道」的本篇文章底部點擊「在看」+「留言」,優質留言才可上墻!留言點贊數量最多的「前5位」讀者將獲得書籍,截止時間「5月22號20點」,最終獲贈者通過留言聯系我。
PS:禁止惡意刷贊!發現后將進入黑名單,取消上墻資格。
可選書籍列表
點擊“閱讀原文”前往購買鏈接。
總結
以上是生活随笔為你收集整理的Python文本数据分析与挖掘,外版畅销书中文版火爆上市的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LCD1602显示中文汉字
- 下一篇: 对WordCOM类工厂80070005和