python新闻评论分析_从新闻文章中提取评论
我的問(wèn)題和這里問(wèn)的問(wèn)題類(lèi)似:
https://stackoverflow.com/questions/14599485/news-website-comment-analysis
我試圖從任何新聞文章中摘錄評(píng)論。E、 g.我有一個(gè)新聞網(wǎng)址:
http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/
我嘗試在python中使用BeautifulSoup來(lái)提取注釋。然而,注釋部分似乎要么嵌入到iframe中,要么通過(guò)javascript加載。通過(guò)firebug查看源代碼不會(huì)顯示評(píng)論部分的源代碼。但是通過(guò)瀏覽器的“查看源代碼”功能顯式地查看注釋的源代碼是正確的。如何提取評(píng)論,尤其是當(dāng)評(píng)論來(lái)自新聞網(wǎng)頁(yè)中嵌入的不同url時(shí)?在
這是我到現(xiàn)在為止所做的,雖然不多:import urllib2
from bs4 import BeautifulSoup
opener = urllib2.build_opener()
url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')
urlContent = opener.open(url).read()
soup = BeautifulSoup(urlContent)
title = soup.title.text
print title
body = soup.findAll('body')
outfile = open("brain.txt","w+")
for i in body:
i=i.text.encode('ascii','ignore')
outfile.write(i +'\n')
如果您能幫我做些什么或如何去做,我們將不勝感激。在
總結(jié)
以上是生活随笔為你收集整理的python新闻评论分析_从新闻文章中提取评论的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 曝英国一监狱发生丑闻 18名女狱警与囚犯
- 下一篇: python让函数抛出异常,是否有任何对