python爬取酒店评论_scrapy爬取酒店评论数据
scrapy爬取酒店評(píng)論數(shù)據(jù)
采用scrapy爬取酒店評(píng)論數(shù)據(jù)。
總共有28W條記錄。
做某NLP任務(wù),需要一些hotel reviews, 選擇從www.booking.com搞一點(diǎn)數(shù)據(jù)來(lái)。 根據(jù)主頁(yè)顯示總共有20個(gè)城市from diferrent countries,每個(gè)城市下有若干個(gè)酒店,每個(gè)酒店下若干條評(píng)論。
〇、數(shù)據(jù)源介紹
數(shù)據(jù)源:www.booking.com
具體:
所有的城市:
某個(gè)城市的酒店列表:
某個(gè)酒店的評(píng)論:
一、爬取數(shù)據(jù)項(xiàng):
設(shè)定一條記錄有如下字段:目標(biāo)酒店名target
分?jǐn)?shù)score
總體評(píng)價(jià)overall_comment
正評(píng)論positive_comment
負(fù)評(píng)論negative_comment
入住日期date
城市名city_name
用CSV文件保存with seperator "\t".
二、目錄介紹:
-hotel_review_booking:hotel_data數(shù)據(jù)文件
-hotel_review_booking:scrapy理解的項(xiàng)目目錄
-hotel_review_booking:scrapy的真正項(xiàng)目目錄
-entrypoint
……
三、流程:四步:新建項(xiàng)目 (Project):新建一個(gè)新的爬蟲項(xiàng)目
明確目標(biāo)(Items):明確你想要抓取的目標(biāo)
制作爬蟲(Spider):制作爬蟲開始爬取網(wǎng)頁(yè)
存儲(chǔ)內(nèi)容(Pipeline):設(shè)計(jì)管道存儲(chǔ)爬取內(nèi)容
四、url分析:
略……
五、代碼提示:因?yàn)榫频炅斜聿缓弥苯语@示頁(yè)數(shù),所以采取半人工手段標(biāo)記頁(yè)數(shù)……
日期date: 使用正則匹配。
pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日' pattern_compiled = re.compile(pattern)其他也沒啥的,就是scrapy的使用上,純經(jīng)驗(yàn)主義。
總結(jié)
以上是生活随笔為你收集整理的python爬取酒店评论_scrapy爬取酒店评论数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mybatis学习(34):动态sql-
- 下一篇: 数据挖掘与python实践心得体会_数据