日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

用jiebaR分析比特币的文章

發(fā)布時(shí)間:2024/10/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用jiebaR分析比特币的文章 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在這個(gè)notebook中,我們將使用jiebaR來(lái)分析一篇描述比特幣暴跌的文章

  • 文章來(lái)源:財(cái)富網(wǎng)
  • 文章鏈接:http://www.fortunechina.com/investing/c/2018-02/06/content_301955.htm
# 查看文章內(nèi)容: file.show('./data//Bitcoin.txt',encoding = 'UTF-8')

安裝jiebaR

install.packages(c('jiebaR','wordcloud2'),repos = 'https://mirrors.ustc.edu.cn/CRAN/')

先來(lái)嘗試分析一下短句子

library(jiebaR) # 載入包 分詞器 = worker() # 創(chuàng)建分詞器 # 利用分詞器進(jìn)行分詞 segment("在這個(gè)notebook中,我們將使用jiebaR來(lái)分析一片描述比特幣暴跌的文章", 分詞器)
  • '在'
  • '這個(gè)'
  • 'notebook'
  • '中'
  • '我們'
  • '將'
  • '使用'
  • 'jiebaR'
  • '來(lái)'
  • '分析'
  • '一片'
  • '描述'
  • '比特'
  • '幣'
  • '暴跌'
  • '的'
  • '文章'
  • # 添加新詞到已存在的分詞器中,比特幣不能分開(kāi),它時(shí)一個(gè)詞。第三個(gè)參數(shù) "n" 代表新詞的詞性標(biāo)記 new_user_word(分詞器, "比特幣", "n")

    TRUE

    # 用添加新詞“比特幣”的分詞器再次進(jìn)行分詞 segment("在這個(gè)notebook中,我們將使用jiebaR來(lái)分析一片描述比特幣暴跌的文章", 分詞器)
  • '在'
  • '這個(gè)'
  • 'notebook'
  • '中'
  • '我們'
  • '將'
  • '使用'
  • 'jiebaR'
  • '來(lái)'
  • '分析'
  • '一片'
  • '描述'
  • '比特幣'
  • '暴跌'
  • '的'
  • '文章'
  • 對(duì)文章進(jìn)行分詞

    # 讀取文本,按照行讀取 texts = readLines("./data/Bitcoin.txt", encoding="UTF-8",warn = FALSE) # 查看文章內(nèi)容 texts
  • '對(duì)于比特幣投資者來(lái)說(shuō),總有一些時(shí)候是特別考驗(yàn)?zāi)愕撵`魂的。'
  • ''
  • '在美國(guó)推出比特幣期貨后,比特幣的幣值在去年12月一度漲至近2萬(wàn)美元,此后便一路暴跌,幣值被攔腰砍掉一半以上,截止至上周五已跌至7614美元。不過(guò)據(jù)比特幣網(wǎng)站coinmarketcap.com稱(chēng),截止到上周六紐約當(dāng)?shù)貢r(shí)間下午2時(shí)58分,比特幣的幣值又回升了7.5個(gè)百分點(diǎn),回升至9290.15美元。'
  • ''
  • '在此輪暴跌中,損失最慘重的,當(dāng)然是那些在比特幣幣值最高位處接盤(pán)的人。此前不久,杰米·迪蒙和魯里埃爾·魯比尼等比特幣懷疑論者就曾指出,比特幣是史上最大的資產(chǎn)泡沫之一,且已顯現(xiàn)出貶值的跡象。“接盤(pán)俠”們的恐慌性出售,也與早期比
  • # 整篇文章一起分詞,將按行分詞的條件設(shè)置為FALSE 分詞器$bylines = FALSE # 開(kāi)始分詞 分詞結(jié)果 = segment(texts, 分詞器) # 查看分詞結(jié)果,查看前100個(gè) head(分詞結(jié)果,100)
  • '對(duì)于'
  • '比特幣'
  • '投資者'
  • '來(lái)說(shuō)'
  • '總有'
  • '一些'
  • '時(shí)候'
  • '是'
  • '特別'
  • '考驗(yàn)'
  • '你'
  • '的'
  • '靈魂'
  • '的'
  • '在'
  • '美國(guó)'
  • '推出'
  • '比特幣'
  • '期貨'
  • '后'
  • '比特幣'
  • '的'
  • '幣值'
  • '在'
  • '去年'
  • '12'
  • '月'
  • '一度'
  • '漲至'
  • '近'
  • '2'
  • '萬(wàn)美元'
  • '此后'
  • '便'
  • '一路'
  • '暴跌'
  • '幣值'
  • '被'
  • '攔腰'
  • '砍掉'
  • '一半'
  • '以上'
  • '截止'
  • '至'
  • '上周五'
  • '已跌'
  • '至'
  • # 分詞結(jié)構(gòu)數(shù)據(jù)類(lèi)型 class(分詞結(jié)果)

    ‘character’

    # 進(jìn)行詞頻統(tǒng)計(jì),并查看排序結(jié)果 require(dplyr) freq(分詞結(jié)果) %>% arrange(desc(freq)) %>% head() charfreq
    49
    比特幣36
    10
    9
    美元 9
    8

    發(fā)現(xiàn)有很多“的”,“是”,“了”之類(lèi)的詞,這些詞是停止詞。可以在統(tǒng)計(jì)詞頻是去除它們。

    添加停止詞

    # 添加目錄data下的停止詞文件,注意指定編碼方式 分詞器 = worker(stop_word = "./data/stop.txt",encoding = 'UTF-8') # 注意此處新建了一個(gè)worker,所以需要重新添加用戶自定義單詞 new_user_word(分詞器, "比特幣", "n")

    TRUE

    # 開(kāi)始分詞 去除停止詞分詞結(jié)果 = segment(texts, 分詞器) freq(去除停止詞分詞結(jié)果) %>% arrange(desc(freq)) %>% head() charfreq
    比特幣36
    美元 9
    投資者 7
    幣值 6
    投資 4
    表示 4

    保存詞頻統(tǒng)計(jì)結(jié)果

    # 將分詞結(jié)果保存 fred_df <- freq(去除停止詞分詞結(jié)果) # 查看詞頻統(tǒng)計(jì)結(jié)果數(shù)據(jù)類(lèi)型 class(fred_df)

    ‘data.frame’

    # 將結(jié)果寫(xiě)到數(shù)據(jù)文件中 write.csv(fred_df,'./data/fred_df.csv',row.names = FALSE,fileEncoding = 'GBK')

    注意不要再jupyter里面執(zhí)行如下語(yǔ)句

    # 由于jupyter不支持輸出這種內(nèi)容豐富的圖像,在Rstudio里面執(zhí)行如下語(yǔ)句 require(wordcloud2) wordcloud2(fred_df,size = 1, fontFamily = "微軟雅黑",color = "random-light",backgroundColor = "grey")

    總結(jié)

    以上是生活随笔為你收集整理的用jiebaR分析比特币的文章的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。