當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一个文件，内含一千万行字符串，每个字符串在1K以内，要求找出所有相反的串对

發布時間：2024/9/30 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了一个文件，内含一千万行字符串，每个字符串在1K以内，要求找出所有相反的串对小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一個文件，內含一千萬行字符串，每個字符串在1K以內，要求找出所有相反的串對，如abc和cba。

當時怎么想的忘記了，現在重新思考一下，文件的大小上限是10G，不可能在內存操作了。考慮設計一種hash使得如果兩個字符串維相反串能得出相同的hash值，然后用該hash將文件中的字符串散列到不同的文件中，再在各文件中進行匹配。比如這樣的hash函數對字符串上所有字符的ascii求和，因為長度在1K以內，因此范圍在int之內。更進一步，可以在上面那個hash后面再加一個字符串長度，可以得到更好的散列效果。（例如，a2b1c5,統計按照每個字母出現的次數進行一步的hash）

在各個單獨文件中匹配時，如果采用的是第二種hash函數，那么該文件中的所有字符串都有相同的長度。如果hash效果好，那么這個文件應該小到可以在內存中進行操作了。將文件拷貝為兩份，分別按照不同規則hash：第一份按前k位哈希，第二份將字符串的頭尾進行顛倒后按前k位哈希（只是對于排序算法顛倒，不必實際顛倒）。這里的按前k位哈希只需要前k位相同能得到相同結果就好，比如第i位的ascii乘以2^i。兩份拷貝中hash值相同的就很可能是要求的相反串對了，再進行實際匹配，工作量應該就可以接受了。

第二步，將第一份字符串放入hash_set中，然后將第二份的字符串以顛倒的字符串求hash_set，查看是否在hash_set中，注意字符串中字母完全相同的情況

總結

以上是生活随笔為你收集整理的一个文件，内含一千万行字符串，每个字符串在1K以内，要求找出所有相反的串对的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：在数组里查找这样的数，它大于等于左侧所有
下一篇：概率生产器