日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cassandra使用心得_使用Cassandra和Nutch爬网

發(fā)布時間:2023/12/3 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 cassandra使用心得_使用Cassandra和Nutch爬网 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

cassandra使用心得

因此,您想從互聯(lián)網(wǎng)上收集大量數(shù)據(jù)嗎? 有什么比Cassandra更好的存儲機(jī)制? 使用Nutch可以輕松做到這一點。

人們經(jīng)常在Nutch后面使用Hbase。 這可行,但是如果您是(或想成為)Cassandra商店,則可能不是理想的解決方案。 幸運的是,Nutch 2+使用Gora抽象層訪問其數(shù)據(jù)存儲機(jī)制。 Gora支持Cassandra。 因此,對配置進(jìn)行一些調(diào)整后,您可以使用Nutch將內(nèi)容直接收集到Cassandra中。

我們將從Nutch 2.1開始……我想直接從源代碼中獲取:

$ git clone https://github.com/apache/nutch.git -b 2.1 ... $ ant

構(gòu)建之后,您將擁有一個nutch / runtime / local目錄,其中包含要執(zhí)行的二進(jìn)制文件。 現(xiàn)在讓我們?yōu)镃assandra配置Nutch。

首先,我們需要通過將以下xml元素添加到nutch / conf / nutch-site.xml中來向Nutch添加代理:

<property><name>http.agent.name</name><value>My Nutch Spider</value> </property>

接下來,我們需要告訴Nutch使用Gora Cassandra作為其持久性機(jī)制。 為此,我們在nutch / conf / nutch-site.xml中添加以下元素:

<property><name>storage.data.store.class</name><value>org.apache.gora.cassandra.store.CassandraStore</value><description>Default class for storing data</description> </property>

接下來,我們需要向Gora講述Cassandra。 編輯nutch / conf / gora.properties文件。 注釋掉SQL條目,并取消注釋以下行:

gora.cassandrastore.servers=localhost:9160

此外,我們需要為gora-cassandra添加依賴項。 編輯ivy / ivy.xml文件,然后取消注釋以下行:

<dependency org="org.apache.gora" name="gora-cassandra" rev="0.2" conf="*->default" />

最后,我們要使用新的配置和附加的依賴項重新生成運行時。 使用以下ant命令執(zhí)行此操作:

ant runtime

現(xiàn)在我們可以運行了!

創(chuàng)建一個名為“ urls”的目錄,其中包含一個名為seed.txt的文件,其中包含以下行:

http://nutch.apache.org/

接下來,將conf / regex-urlfilter.txt中的正則表達(dá)式url更新為:

+^http://([a-z0-9]*\.)*nutch.apache.org/

現(xiàn)在,爬行!

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

那將把網(wǎng)頁收獲到卡桑德拉!!

讓我們再看一下數(shù)據(jù)模型…

您會注意到創(chuàng)建了一個新的鍵空間:webpage。 該鍵空間包含三個表:f,p和sc。

[cqlsh 2.3.0 | Cassandra 1.2.1 | CQL spec 3.0.0 | Thrift protocol 19.35.0] Use HELP for help. cqlsh> describe keyspaces; system webpage druid system_auth system_traces cqlsh> use webpage; cqlsh:webpage> describe tables; f p sc

這些表中的每一個都是純鍵值存儲。 要了解它們中的每個,請查看nutch / conf / gora-cassandra-mapping.xml文件。 我在下面添加了一個代碼段:

<field name="baseUrl" family="f" qualifier="bas"/> <field name="status" family="f" qualifier="st"/> <field name="prevFetchTime" family="f" qualifier="pts"/> <field name="fetchTime" family="f" qualifier="ts"/> <field name="fetchInterval" family="f" qualifier="fi"/> <field name="retriesSinceFetch" family="f" qualifier="rsf"/>

從該映射文件中,您可以看到它在表中的內(nèi)容,但是不幸的是,該架構(gòu)并沒有真正從CQL提示符中進(jìn)行探索。 (我認(rèn)為這里還有改進(jìn)的余地)如果有一個CQL友好模式會很好,但是通過gora可能很難實現(xiàn)。 las,這可能是抽象的代價。

因此,最簡單的方法是使用螺母工具來檢索數(shù)據(jù)。 您可以使用以下命令提取數(shù)據(jù):

runtime/local/bin/nutch readdb -dump data -content

完成后,進(jìn)入數(shù)據(jù)目錄,您將看到用于提取數(shù)據(jù)的Hadoop作業(yè)的輸出。 然后,我們可以將其用于分析。

我真的希望Nutch為C *使用更好的架構(gòu)。 如果該數(shù)據(jù)可立即在C *中使用,那將是很棒的。 如果有人進(jìn)行了增強(qiáng),請告訴我!

參考:在Brian ONeill的Blog博客上,我們的JCG合作伙伴 Brian ONeill 使用Cassandra和Nutch爬網(wǎng)。

翻譯自: https://www.javacodegeeks.com/2013/10/crawling-the-web-with-cassandra-and-nutch.html

cassandra使用心得

總結(jié)

以上是生活随笔為你收集整理的cassandra使用心得_使用Cassandra和Nutch爬网的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。