日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python操作hive数据库代码_windows下怎么用python连接hive数据库

發布時間:2024/2/28 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python操作hive数据库代码_windows下怎么用python连接hive数据库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

展開全部

由于版本的不同,Python 連接 Hive 的方式也就不一樣。

在網上搜索關鍵字 python hive 的時候可以找到一些解決方案。大部分是這32313133353236313431303231363533e4b893e5b19e31333361326339樣的,首先把hive 根目錄下的$HIVE_HOME/lib/py拷貝到 python 的庫中,也就是 site-package 中,或者干脆把新寫的 python 代碼和拷貝的 py 庫放在同一個目錄下,然后用這個目錄下提供的 thrift 接口調用。示例也是非常簡單的。類似這樣:

import sys

from hive_service import ThriftHive

from hive_service.ttypes import HiveServerException

from thrift import Thrift

from thrift.transport import TSocket

from thrift.transport import TTransport

from thrift.protocol import TBinaryProtocol

def hiveExe(sql):

try:

transport = TSocket.TSocket('127.0.0.1', 10000)

transport = TTransport.TBufferedTransport(transport)

protocol = TBinaryProtocol.TBinaryProtocol(transport)

client = ThriftHive.Client(protocol)

transport.open()

client.execute(sql)

print "The return value is : "

print client.fetchAll()

print "............"

transport.close()

except Thrift.TException, tx:

print '%s' % (tx.message)

if __name__ == '__main__':

hiveExe("show tables")1234567891011121314151617181920212223242526272812345678910111213141516171819202122232425262728

或者是這樣的:

#!/usr/bin/env python

import sys

from hive import ThriftHive

from hive.ttypes import HiveServerException

from thrift import Thrift

from thrift.transport import TSocket

from thrift.transport import TTransport

from thrift.protocol import TBinaryProtocol

try:

transport = TSocket.TSocket('14.18.154.188', 10000)

transport = TTransport.TBufferedTransport(transport)

protocol = TBinaryProtocol.TBinaryProtocol(transport)

client = ThriftHive.Client(protocol)

transport.open()

client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")

client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")

client.execute("SELECT * FROM test1")

while (1):

row = client.fetchOne()

if (row == None):

break

print rowve

client.execute("SELECT * FROM test1")

print client.fetchAll()

transport.close()

except Thrift.TException, tx:

print '%s' % (tx.message)

12345678910111213141516171819202122232425262728293031323334351234567891011121314151617181920212223242526272829303132333435

但是都解決不了問題,從 netstat 中查看可以發現 TCP 連接確實是建立了,但是不執行 hive 指令。也許就是版本的問題。

還是那句話,看各種中文博客不如看官方文檔。

項目中使用的 hive 版本是0.13,此時此刻官網的最新版本都到了1.2.1了。中間間隔了1.2.0、1.1.0、1.0.0、0.14.0。但是還是參考一下官網的方法試試吧。

首先看官網的 setting up hiveserver2

可以看到啟動 hiveserver2 可以配置最大最小線程數,綁定的 IP,綁定的端口,還可以設置認證方式。(之前一直不成功正式因為這個連接方式)然后還給了 python 示例代碼。

import pyhs2

with pyhs2.connect(host='localhost',

port=10000,

authMechanism="PLAIN",

user='root',

password='test',

database='default') as conn:

with conn.cursor() as cur:

#Show databases

print cur.getDatabases()

#Execute query

cur.execute("select * from table")

#Return column info from query

print cur.getSchema()

#Fetch table results

for i in cur.fetch():

print i123456789101112131415161718192021123456789101112131415161718192021

在拿到這個代碼的時候,自以為是的把認證信息給去掉了。然后運行發現跟之前博客里介紹的方法結果一樣,建立了 TCP 連接,但是就是不執行,也不報錯。這是幾個意思?然后無意中嘗試了一下原封不動的使用上面的代碼。結果可以用。唉。。。

首先聲明一下,hive-site.xml中默認關于 hiveserver2的配置我一個都沒有修改,一直是默認配置啟動 hiveserver2。沒想到的是默認配置是有認證機制的。

然后再寫一點,在安裝 pyhs2的時候還是遇到了點問題,其實還是要看官方文檔的,我只是沒看官方文檔直接用 pip安裝導致了這個問題。安裝 pyhs2需要確定已經安裝了幾個依賴包。直接看在 github 上的 wiki 吧。哪個沒安裝就補上哪一個就好了。

To install pyhs2 on a clean CentOS 6.4 64-bit desktop....

(as root or with sudo)

get ez_setup.py from https://pypi.python.org/pypi/ez_setup

python ez_setup.py

easy_install pip

yum install gcc-c++

yum install cyrus-sasl-devel.x86_64

yum install python-devel.x86_64

pip install pyhs212345678910111234567891011

寫了這么多,其實是在啰嗦自己遇到的問題。下面寫一下如何使用 python

連接 hive。

python 連接 hive 是基于 thrift 完成的。所以需要服務器端和客戶端的配合才能使用。

在服務器端需要啟動 hiveserver2 服務,啟動方法有兩種, 第二種方法只是對第一種方法的封裝。

1. $HIVE_HOME/bin/hive --server hiveserver2

2. $HIVE_HOME/bin/hiveserver21212

默認情況下就是hiveserver2監聽了10000端口。也可以通過修改 hive-site.xml 或者在啟動的時候添加參數來實現修改默認配置。

另外一方面,在客戶端需要安裝 python 的依賴包 pyhs2。安裝方法在上面也介紹了,基本上就是用 pip install pyhs2,如果安裝不成功,安裝上面提到的依賴包就可以了。

最后運行上面的示例代碼就可以了,配置好 IP 地址、端口、數據庫、表名稱就可以用了,默認情況下認證信息不需要修改。

另外補充一點 fetch 函數執行速度是比較慢的,會把所有的查詢結果返回來。可以看一下 pyhs2 的源碼,查看一下還有哪些函數可以用。下圖是 Curor 類的可以使用的函數。

一般 hive 表里的數據比較多,還是一條一條的讀比較好,所以選擇是喲功能 fetchone函數來處理數據。fetchone函數如果讀取成功會返回列表,否則 None。可以把示例代碼修改一下,把 fetch修改為:

count = 0

while (1):

row = cur.fetchone()

if (row is not None):

count += 1

print count, row

else:

print "it's over"

已贊過

已踩過<

你對這個回答的評價是?

評論

收起

總結

以上是生活随笔為你收集整理的python操作hive数据库代码_windows下怎么用python连接hive数据库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。