日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

面试:如何从 100 亿 URL 中找出相同的 URL?

發(fā)布時(shí)間:2025/3/21 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 面试:如何从 100 亿 URL 中找出相同的 URL? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

題目描述

給定 a、b 兩個(gè)文件,各存放 50 億個(gè) URL,每個(gè) URL 各占 64B,內(nèi)存限制是 4G。請(qǐng)找出 a、b 兩個(gè)文件共同的 URL。

推薦一個(gè)艿艿寫的 6000+ Star 的 SpringBoot + SpringCloud + Dubbo 教程的倉庫:https://github.com/YunaiV/SpringBoot-Labs

解答思路

每個(gè) URL 占 64B,那么 50 億個(gè) URL占用的空間大小約為 320GB。

5, 000, 000, 000 * 64B ≈ 5GB * 64 = 320GB

由于內(nèi)存大小只有 4G,因此,我們不可能一次性把所有 URL 加載到內(nèi)存中處理。對(duì)于這種類型的題目,一般采用分治策略?,即:把一個(gè)文件中的 URL 按照某個(gè)特征劃分為多個(gè)小文件,使得每個(gè)小文件大小不超過 4G,這樣就可以把這個(gè)小文件讀到內(nèi)存中進(jìn)行處理了。

思路如下?:

首先遍歷文件 a,對(duì)遍歷到的 URL 求?hash(URL) % 1000?,根據(jù)計(jì)算結(jié)果把遍歷到的 URL 存儲(chǔ)到 a0, a1, a2, ..., a999,這樣每個(gè)大小約為 300MB。使用同樣的方法遍歷文件 b,把文件 b 中的 URL 分別存儲(chǔ)到文件 b0, b1, b2, ..., b999 中。這樣處理過后,所有可能相同的 URL 都在對(duì)應(yīng)的小文件中,即 a0 對(duì)應(yīng) b0, ..., a999 對(duì)應(yīng) b999,不對(duì)應(yīng)的小文件不可能有相同的 URL。那么接下來,我們只需要求出這 1000 對(duì)小文件中相同的 URL 就好了。

接著遍歷 ai(?i∈[0,999]?),把 URL 存儲(chǔ)到一個(gè) HashSet 集合中。然后遍歷 bi 中每個(gè) URL,看在 HashSet 集合中是否存在,若存在,說明這就是共同的 URL,可以把這個(gè) URL 保存到一個(gè)單獨(dú)的文件中。

推薦一個(gè)艿艿寫的 3000+ Star 的 SpringCloud Alibaba 電商開源項(xiàng)目的倉庫:https://github.com/YunaiV/onemall

方法總結(jié)

  • 分而治之,進(jìn)行哈希取余;

  • 對(duì)每個(gè)子文件進(jìn)行 HashSet 統(tǒng)計(jì)。

  • 總結(jié)

    以上是生活随笔為你收集整理的面试:如何从 100 亿 URL 中找出相同的 URL?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。