Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党
生活随笔
收集整理的這篇文章主要介紹了
Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Rstudio 爬蟲 文本分詞個(gè)性化詞云設(shè)計(jì)
-
目錄
1、環(huán)境準(zhǔn)備,加載依賴
2、rvest 爬蟲,數(shù)據(jù)爬取
3、jiebaR用于分詞,詞頻統(tǒng)計(jì)
4、wordcloud2 結(jié)果可視化
===============================================================================================================================================
1、環(huán)境準(zhǔn)備,加載依賴
2、數(shù)據(jù)爬取
3、數(shù)據(jù)清洗
4、詞云設(shè)計(jì)
install.packages("wordcloud2") install.packages("rvest") install.packages("jiebaR") library(wordcloud2) library(rvest) library(jiebaR)# 開始爬蟲 url<-'http://www.gov.cn/premier/2017-03/16/content_5177940.htm' #讀取數(shù)據(jù),規(guī)定編碼 web<-read_html(url,encoding="utf-8") position<-web %>% html_nodes("div.pages_content") %>% html_text()# jieba分詞,詞頻統(tǒng)計(jì) #初始化分詞引擎并加載停用詞。 engine_s<-worker(stop_word = "stopwords.txt") #分詞 seg<-segment(position,engine_s) #統(tǒng)計(jì)詞頻 f<-freq(seg) #根據(jù)詞頻降序排列 f<-f[order(f[2],decreasing=TRUE),]#基于wordcloud2包進(jìn)行可視化 #總共有2000多個(gè)詞,為了顯示效果,我只提取前150個(gè)字 f2<-f2[1:150,] #形狀設(shè)置為一顆五角星 wordcloud2(f2, size = 0.8 ,shape='star')
?
轉(zhuǎn)載于:https://www.cnblogs.com/RHadoop-Hive/p/8929904.html
總結(jié)
以上是生活随笔為你收集整理的Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 儿童吃什么食物可以大补维生素d?
- 下一篇: Python Web学习笔记之Pytho