日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

你身体里的DNA 能存下整个宇宙的数据

發布時間:2023/12/13 综合教程 36 生活家
生活随笔 收集整理的這篇文章主要介紹了 你身体里的DNA 能存下整个宇宙的数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

恐龍滅絕6000多萬年后,科學家們獲得了一塊有史前蚊子的琥珀,從蚊子血中獲得了恐龍的基因,從而讓遙遠的生物復活。

講這個故事的《侏羅紀公園》,至今仍位列全球電影票房前十。這個系列故事的原理很簡單:DNA存儲了恐龍的生物信息,科技讓它重新表達。

現在,用DNA想象另一個故事:在宇宙長河中,“人類世紀”也寂滅了。另外一種智慧生物出現,TA們去探究遠古的“人類文明”。有什么會承載人類文明的記憶?氣溫異變,地球上的龐大數據中心徒留遺跡。

凍土中有一份DNA,它很輕,只有1公斤,看起來是一些被封裝在膠囊里的白色粉末。讀取后,里面卻記載了地球上曾有的巨量信息。視頻、文字、代碼展現了人類歷史進程中的無數發明和文藝作品。

于是那個遙遠文明的痕跡在宇宙間再次展開。

這是另一個科幻設定了。背后的技術正是目前被關注的一個前沿方向:DNA存儲信息。

在大自然里,DNA負責存儲遺傳信息。單個人體細胞的平均直徑是5到200微米,這其中的DNA可以包含一個人全部的遺傳信息:30億對堿基。

那為什么不能用堿基存儲別的信息?這個科幻般的設想,正在走出實驗室,被當作信息存儲的未來方案。

本來是生物學家想解決生物學發展的問題。

11年前,一群生物信息學家在德國的一家酒店里討論“數據存儲問題”。NickGoldman也在其中,那是他在歐洲生物信息所(EBI)擔任高級科學家的第二年。

大規模的基因組測序正在進行,隨之產生的數據規模快速增長。存儲、壓縮這些數據是個麻煩事,現有的技術方案看起來不太行。

生物學家們陷入了沮喪。


NickGoldman拿著存儲了莎士比亞所有十四行詩、一張照片和“我有一個夢想”演講片段的DNA|來源:EBI

有人靈光乍現:是什么東西阻止了我們用DNA來儲數據呢?

看起來是一句玩笑話,但是生物學家們意識到了這不僅僅是個玩笑,他們拿起手邊的餐巾紙,用圓珠筆認真計算起可行性。

DNA存儲遺傳信息的原理并不復雜,它由四種核苷酸A、T、G、C組成,彼此兩兩對應,組成雙螺旋結構。核苷酸的序列,記錄了遺傳信息。

在數字世界,所有的信息本質上是0和1組成的數據串。想要DNA存儲數字信息,簡單理解,原就是將0和1的編碼序列轉換成核苷酸的序列。DNA存儲的優勢在于密度大,大約在你眼前逗號這么大小,1立方毫米的DNA,就可以容納9TB(1TB=1024GB)的信息。

用DNA存儲數據,也并不是完全新的想法,之前就有科學家嘗試過。不過屬于科學和藝術的先鋒跨界實驗。

1988年,藝術家Joe Davis和哈佛大學的研究員,將一副名為“小維納斯”(Micro Venus)的圖案存儲到DNA短鏈中。


存儲進DNA的小維納斯(microvenus)圖片來源:相關論文

在那次酒店討論的2年之后,2013年,Goldman團隊發表了研究成果。這次,他們存儲了5種不同格式的文件,一共有0.75MB。為了確保信息讀取不出錯,科學家存儲的時候,每份信息按照四倍冗余的量來存儲。

五個文件分別是:

- 154首莎士比亞的14行詩(ASCII編碼格式)

- 提出DNA雙螺旋結構的論文(PDF版)

- 一張照片(JPEG格式)

- 馬丁·路德金“我有一個夢想”演講其中26秒片段(MP3格式)

- 一串霍夫曼密碼

這些年,DNA存儲容量的上線不斷被突破。2019年,美國一家創業公司Catalog在DNA中存儲了16GB的維基百科。這個公司表示自己正在建設世界上第一個基于DNA的大規模數字數據存儲和計算平臺。

在一些生物學家看來,用DNA來存儲是一件非常“順滑”的事。“大自然的編碼語言非常類似于我們在計算機領域使用的二進制語言。在硬盤上我們使用0和1來代表數據,而DNA中,我們擁有4種形式的核苷酸,A、C、T和G”。在瑞士聯邦理工學院的生物學家RobertGrass說。

方案可以很簡單。比如:A對應00,C對應01,G對應10,T對應11。然后再按照所需要的核苷酸序列,像串珠子一樣,把核苷酸們串成一串。(這就是DNA合成)需要讀取信息的時候,再運用基因測序技術,把這一串核苷酸序列讀取出來,再翻譯成0和1的字符串。這個流程就是編碼—DNA合成—測序—解碼。

這個聽起來像是“把大象裝進冰箱”的流程,操作起來需要考慮的問題還有很多。不然科學家就不必一直研究新的編碼方案了。

在自然界存在的DNA中,A和T,C與G兩兩配對,在一條DNA中,CG與AT的存在比例基本均勻,為50%左右。如果C和G的含量過高,可能會讓DNA鏈產生一些復雜的物理結構。這就會讓DNA測序(解碼)變得復雜。


DNA存儲的步驟|來源:DNADataStorageAlliance

目前人工合成DNA的單鏈的長度一般不超過100個堿基,極限在300個堿基左右。而在自然界的DNA動輒有幾千個堿基對。

也就是說,雖然DNA的存儲能力很強,但它們不得不以很多條短鏈的方式存在。如果存儲的信息量比較大,這些DNA短鏈就像一本散裝的書。它可以存儲很多信息,存在形式卻是一張張標著頁碼的紙。

當然,可以將一條條DNA短鏈拼接成長鏈。這就意味著增加了一道工序。在測序的過程中,又需要把長鏈打斷成短鏈。這是因為目前技術還不能一次性讀取長鏈。

在測序的過程中,也存在錯誤率。盡管目前的錯誤率已經低至10^-3數量級,比起商業硬盤的讀寫錯誤率,仍相差至少9個數量級。

正確率受到合成和測序這兩項技術的影響,科學家想到設計編碼方案來避免:在編碼中增加糾錯機制。這樣,哪怕堿基合成和測序中出現了錯誤,依舊能夠保證被存儲進DNA的內容能夠被正確讀取出來。

DNA存儲也正在嘗試走出實驗室。

2020年10月,微軟、西部數據和基因測序巨頭Illumina、DNA合成初創公司Twist Bioscience等聯合成立了DNA數據存儲聯盟。

這是世界上第一個該領域的學術和產業鏈聯盟。這個聯盟希望制定技術和格式標準,最終建立一個可以通用的商業系統。

微軟研究院在2015年就成立DNA存儲的項目,并聘請了華盛頓大學的計算機科學與工程學院的副教授KarinStrauss擔任高級首席研究經理(Senior Principal Research Manager)。

2013年,她和同事去英國EBI訪問,了解到Goldman和同事們關于DNA存儲的研究,就對這個方向產生了很大的興趣。Strauss說:“DNA的密度、穩定性和成熟度讓我們興奮。”

在他們的研究中,想開發的是另一個功能:隨機讀取。常見的DNA測序技術中,必須要將所有的堿基串一次性讀取完,才能夠獲得信息。要么不讀取,要么全讀。如果只想要數據中的某一個小片段,就會非常麻煩。

2016年,他們發表了一項研究,可以在DNA已經存儲的信息中搜索到指定的圖像,定位后,用酶來復制所需的DNA片段,然后只需讀取這一小段即可。


KarinStrauss(右)和兩位研究合作者|來源:csenews

要讓DNA存儲離商用更進一步,還需要解決合成速度和成本。現在合成速度是每秒存儲上千個字節(KB),成熟的云存儲方案已經有每秒千兆字節(GB)以上。

這意味著,編寫DNA的速度還需要提升6個數量級。如何讓提升數據處理量?就像并行計算能夠提升數據處理速度,科學家希望DNA在合成時也可以并行多條,同時處理。

2021年,微軟開發出首個納米級DNA存儲器,能夠在每個平方厘米的區域上,同時合成25X106(2650)條堿基序列。這個新的技術把原來同時合成堿基序列的數字從個位提升到了千位。這個吞吐量,讓DNA合成速度變成了每秒兆字節(MB)。


新的方法讓DNA合成的陣列數量大大增加|來源:微軟研究院

更大的吞吐量,也就意味著更低的成本。現在DNA存儲的成本是每萬億字節(TB)8億美元。而磁帶存儲成本已經降到了每萬億字節16美元以下。這樣比起來似乎毫無競爭力。但現實生活中的大型數據中心的維護成本極高,還要定期更新硬件;DNA存儲密度大、體積小、可以長時間不變質的優勢就變成了降維打擊。

所以量大、讀取頻率低的“冷數據”,被認為是DNA存儲最近的應用場景。TwistBioscience最近在一份市場報告中強調,這種技術能夠幫助科技企業在“大規模、低功耗”情況下更有效地部署。

另外一些樂觀的科學家,更相信技術的進步。

自2003年人類基因組計劃完成以來,測序成本降低了200萬倍。2016年時,面對每秒千字節的速度,Goldman說:“(讀寫的速度提升)6個數量級對基因組學來說沒什么大不了的。你只需要再等一會兒。”

那這“一會兒”是多久呢?這個領域似乎到了臨門一腳,仍在等待突破。

總結

以上是生活随笔為你收集整理的你身体里的DNA 能存下整个宇宙的数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。