當(dāng)前位置：首頁(yè) > 运维知识 > 数据库 >内容正文

数据库

python3 mysql代码行_教你用100多行写一个数据库（附源码）|python3教程|python入门|python教程...

發(fā)布時(shí)間：2024/9/27 数据库 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python3 mysql代码行_教你用100多行写一个数据库（附源码）|python3教程|python入门|python教程... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

https://www.xin3721.com/eschool/pythonxin3721/

本文介紹的是以為中國(guó)的IT資深人士寫的一個(gè)簡(jiǎn)單的數(shù)據(jù)庫(kù)，沒(méi)有我們使用的數(shù)據(jù)庫(kù)那么強(qiáng)大，但是值得大家借鑒。可以用在特定環(huán)境中，更加靈活方便。

數(shù)據(jù)庫(kù)的名字叫WawaDB，是用python實(shí)現(xiàn)的。由此可見(jiàn)python是灰常強(qiáng)大啊！

簡(jiǎn)介

記錄日志的需求一般是這樣的：

只追加，不修改，寫入按時(shí)間順序?qū)懭?#xff1b;

大量寫，少量讀，查詢一般查詢一個(gè)時(shí)間段的數(shù)據(jù)；

MongoDB的固定集合很好的滿足了這個(gè)需求，但是MongoDB占內(nèi)存比較大，有點(diǎn)兒火穿蚊子，小題大做的感覺(jué)。

WawaDB的思路是每寫入1000條日志，在一個(gè)索引文件里記錄下當(dāng)前的時(shí)間和日志文件的偏移量。

然后按時(shí)間詢?nèi)罩緯r(shí)，先把索引加載到內(nèi)存中，用二分法查出時(shí)間點(diǎn)的偏移量，再打開(kāi)日志文件seek到指定位置，這樣就能很快定位用戶需要的數(shù)據(jù)并讀取，而不需要遍歷整個(gè)日志文件。

性能

Core 2 P8400,2.26GHZ,2G內(nèi)存，32 bit win7

寫入測(cè)試：

模擬1分鐘寫入10000條數(shù)據(jù)，共寫入5個(gè)小時(shí)的數(shù)據(jù)，插入300萬(wàn)條數(shù)據(jù)，每條數(shù)據(jù)54個(gè)字符，用時(shí)2分51秒

讀取測(cè)試:讀取指定時(shí)間段內(nèi)包含某個(gè)子串的日志

數(shù)據(jù)范圍遍歷數(shù)據(jù)量結(jié)果數(shù) 用時(shí)(秒)

5小時(shí) 300萬(wàn) 604 6.6

2小時(shí) 120萬(wàn) 225 2.7

1小時(shí) 60萬(wàn) 96 1.3

30分鐘 30萬(wàn) 44 0.6

索引

只對(duì)日志記錄的時(shí)間做索引，簡(jiǎn)介里大概說(shuō)了下索引的實(shí)現(xiàn)，二分查找肯定沒(méi)B Tree效率高，但一般情況下也差不了一個(gè)數(shù)量級(jí)，而且實(shí)現(xiàn)特別簡(jiǎn)單。

因?yàn)槭窍∈杷饕?#xff0c;并不是每條日志都有索引記錄它的偏移量，所以讀取數(shù)據(jù)時(shí)要往前多讀一些數(shù)據(jù)，防止漏讀，等讀到真正所需的數(shù)據(jù)時(shí)再真正給用戶返回?cái)?shù)據(jù)。

如下圖，比如用戶要讀取25到43的日志，用二分法找25，找到的是30所在的點(diǎn)，

索引：0 ? ? ? ? 10 ? ? ? ?20 ? ? ? ?30 ? ? ? ?40 ? ? ? ?50 日志：|.........|.........|.........|.........|.........|>>>a = [0, 10, 20, 30, 40, 50]>>>bisect.bisect_left(a, 35)>>>3>>>a[3]>>>30>>>bisect.bisect_left(a, 43)>>>5>>>a[5]>>>50

所以我們要往前倒一些，從20(30的前一個(gè)刻度)開(kāi)始讀取日志，21，22，23，24讀取后因?yàn)楸?5小，所以扔掉, 讀到25,26,27,...后返回給用戶

讀取到40(50的前一個(gè)刻度)后就要判斷當(dāng)前數(shù)據(jù)是否大于43了，如果大于43(返回全開(kāi)區(qū)間的數(shù)據(jù))，就要停止讀了。

整體下來(lái)我們只操作了大文件的很少一部分就得到了用戶想要的數(shù)據(jù)。

緩沖區(qū)

為了減少寫入日志時(shí)大量的磁盤寫，索引在append日志時(shí)，把buffer設(shè)置成了10k，系統(tǒng)默認(rèn)應(yīng)該是4k。

同理，為了提高讀取日志的效率，讀取的buffer也設(shè)置了10k，也需要根據(jù)你日志的大小做適當(dāng)調(diào)整。

索引的讀寫設(shè)置成了行buffer，每滿一行都要flush到磁盤上，防止讀到不完整的索引行(其實(shí)實(shí)踐證明，設(shè)置了行buffer，還是能讀到半拉的行)。

查詢

啥？要支持SQL，別鬧了，100行代碼怎么支持SQL呀。

現(xiàn)在查詢是直接傳入一個(gè)lambada表達(dá)式，系統(tǒng)遍歷指定時(shí)間范圍內(nèi)的數(shù)據(jù)行時(shí)，滿足用戶的lambada條件才會(huì)返回給用戶。

當(dāng)然這樣會(huì)多讀取很多用戶不需要的數(shù)據(jù)，而且每行都要進(jìn)行l(wèi)ambda表達(dá)式的運(yùn)算，不過(guò)沒(méi)辦法，簡(jiǎn)單就是美呀。

以前我是把一個(gè)需要查詢的條件和日志時(shí)間，日志文件偏移量都記錄在索引里，這樣從索引里查找出符合條件的偏移量，然后每條數(shù)據(jù)都如日志文件里seek一次，read一次。這樣好處只有一個(gè)，就是讀取的數(shù)據(jù)量少了，但缺點(diǎn)有兩個(gè)：

索引文件特別大，不方便加載到內(nèi)存中

每次讀取都要先seek，貌似緩沖區(qū)用不上，特別慢，比連續(xù)讀一個(gè)段的數(shù)據(jù)，并用lambda過(guò)濾慢四五倍

寫入

前面說(shuō)過(guò)了，只append，不修改數(shù)據(jù)，而且每行日志最前面是時(shí)間戳。

多線程

查詢數(shù)據(jù)，可以多線程同時(shí)查詢，每次查詢都會(huì)打開(kāi)一個(gè)新的日志文件的描述符，所以并行的多個(gè)讀取不會(huì)打架。

寫入的話，雖然只是append操作，但不確認(rèn)多線程對(duì)文件進(jìn)行append操作是否安全，所以建議用一個(gè)隊(duì)列，一個(gè)專用線程進(jìn)行寫入。

鎖

沒(méi)有任何鎖。

排序

默認(rèn)查詢出來(lái)的數(shù)據(jù)是按時(shí)間正序排列，如需其它排序，可取到內(nèi)存后用python的sorted函數(shù)排序，想怎么排就怎么排。

100多行的數(shù)據(jù)庫(kù)代碼

總結(jié)

以上是生活随笔為你收集整理的python3 mysql代码行_教你用100多行写一个数据库（附源码）|python3教程|python入门|python教程...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：房贷面签通过一定能放款吗贷款之前值得一
下一篇： linux cmake编译源码,linu