日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 万象百科 >内容正文

万象百科

数据挖掘在生物信息中的应用有哪些?

發(fā)布時間:2023/11/27 万象百科 36 博士
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘在生物信息中的应用有哪些? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
維克托·邁爾的《大數(shù)據(jù)時代》給我們展現(xiàn)了一個新的世界,技術(shù)引領(lǐng)我們進(jìn)入數(shù)據(jù)時代。從海量的數(shù)據(jù)中挖掘處有價值的方便,有效的分析技術(shù)是大數(shù)據(jù)應(yīng)用的關(guān)鍵。大數(shù)據(jù)的成功應(yīng)用案例之一是google利用檢索詞預(yù)測流感爆發(fā)。但是通用的分析技術(shù),降低分析硬件需求仍然值得討論,SaaS可能是解決這一問題的可能渠道,但是如何實(shí)現(xiàn)數(shù)據(jù)分析仍然是個問題,現(xiàn)有MapReduce,Hadoop等系統(tǒng)本質(zhì)上是治標(biāo)不治本,大數(shù)據(jù)碎片化的過程中必然數(shù)據(jù)大量數(shù)據(jù)關(guān)聯(lián)。還有另外一個問題也會隨著出現(xiàn),深身處于大數(shù)據(jù)時代的人們可能會感到信息的爆炸以及信息的暴露,在進(jìn)行研究的同時我們不能忘卻道德的底線!

數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取可信的、新穎的、有效的模式的高級處理過程。 生物信息學(xué)是一門新興的交叉學(xué)科。人類基因組計(jì)劃的啟動和實(shí)施使得核酸、蛋白質(zhì)數(shù)據(jù)迅速增長,如何從海量數(shù)據(jù)中獲取有效信息成為生物信息學(xué)迫切要解決的問題。目前數(shù)據(jù)挖掘在生物信息領(lǐng)域的研究重點(diǎn)主要表現(xiàn)在以下幾個方面: (1) 數(shù)據(jù)清理,數(shù)據(jù)集成,異種、分布式數(shù)據(jù)庫的語義集成。 許多國家和研究組織都建立了生物序列數(shù)據(jù)庫、蛋白質(zhì)結(jié)構(gòu)和功能數(shù)據(jù)庫,為人們提供了豐富的信息。但是這些數(shù)據(jù)分散,且存儲介質(zhì)多樣,在同一數(shù)據(jù)庫中存在著大量具有重復(fù)信息的序列及一些高度相似的數(shù)據(jù),造成數(shù)據(jù)冗余。因此對這種異構(gòu)的和廣泛分布的數(shù)據(jù)庫的語義集成就成為一項(xiàng)重要任務(wù)。數(shù)據(jù)挖掘中的數(shù)據(jù)清理、數(shù)據(jù)集成方法有助于該問題的解決。 (2) DNA 序列相似搜索和比對。 為識別一個新發(fā)現(xiàn)的基因和一個已知基因家族之間的進(jìn)化關(guān)系,確定他們的同源性或相似性,通常需要序列比對,找出它們之間的最大匹配,從而定量給出其相似程度。由于序列數(shù)據(jù)是非數(shù)字的,其內(nèi)部不同種類核苷酸之間的精確交叉扮演著重要的角色。因此探索高效的搜索和比對算法在序列分析中非常重要。 (3) 基因組特征及同時出現(xiàn)的基因序列的分析。 對于基因家族的成組序列來說,必須闡明多個序列之間的關(guān)系,才能揭示整個基因家族的特征。多序列比對在識別一組相關(guān)序列中有重要生物意義。多比對算法的計(jì)算量可觀,為降低算法復(fù)雜性,必須研究有實(shí)用價值的比對算法。利用關(guān)聯(lián)規(guī)則、聚類分析有助于發(fā)現(xiàn)一組序列之間的差異以及相似性關(guān)系,以便對一個基因家族的特征有基本了解。另外在生物醫(yī)學(xué)研究上,人們發(fā)現(xiàn)疾病的產(chǎn)生大多數(shù)是由多基因決定的,利用關(guān)聯(lián)規(guī)則分析幫助確定在目標(biāo)(疾病) 樣本中同時出現(xiàn)的基因種類。 (4) 路徑分析:發(fā)現(xiàn)在不同階段的致病因。 引起一種疾病的基因不止一個,不同基因在疾病的不同階段發(fā)揮作用。利用路徑分析、演變分析等找到在不同階段的致病遺傳基因序列,可開發(fā)不同階段的治療藥物,從而取得更有效的治療效果。 (5) 生物數(shù)據(jù)可視化和可視的數(shù)據(jù)挖掘。 由于生物數(shù)據(jù)的復(fù)雜性和高維性,既不能以數(shù)字公式表示,也不能以邏輯公式表示,可借助各種可視化工具以圖、樹、方體、鏈的形式展現(xiàn)其復(fù)雜結(jié)構(gòu)和序列模式。常用的生物數(shù)據(jù)可視化工具有語義鏡技術(shù)、信息壁技術(shù)、基因調(diào)控網(wǎng)格等 。同時,將經(jīng)過數(shù)據(jù)挖掘工具得到的數(shù)據(jù)結(jié)果也以圖形、圖像的形式展現(xiàn)給用戶,便于用戶尋找數(shù)據(jù)間規(guī)律和關(guān)系。 (6) 生物文獻(xiàn)的挖掘。 Internet 上生物文獻(xiàn)日益增多,人們通過搜索引擎獲取相關(guān)信息,但檢索結(jié)果數(shù)目巨大,準(zhǔn)確率不高,而且一般搜索結(jié)果只能給出標(biāo)題和摘要,不能給出文章總的關(guān)鍵詞句。特別是生物文獻(xiàn)數(shù)據(jù)中,大多數(shù)蛋白質(zhì)名稱都是復(fù)合詞,比較復(fù)雜,有的卻采用普通的詞匯命名與其常用詞義相混導(dǎo)致引擎搜索錯誤,甚至在一篇文獻(xiàn)中同一種蛋白質(zhì)有好幾種命名出現(xiàn),增加了搜索困難。利用路徑遍歷模式、鏈接分析、自然語言處理等技術(shù)尋找文獻(xiàn)中關(guān)鍵詞如蛋白質(zhì)名稱,或捕捉上下文關(guān)系,可提高檢索速度和準(zhǔn)確率 。 (7) 基于隱私保護(hù)的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘技術(shù)為生物工作者提供了有效工具的同時也引發(fā)了隱私保護(hù)問題。比如研究單位的保密實(shí)驗(yàn)數(shù)據(jù),個人的醫(yī)療診斷記錄、病史記錄都有可能被誤用。通過在數(shù)據(jù)挖掘過程中使用限制數(shù)據(jù)訪問,模糊數(shù)據(jù),減少不必要分組,有目的增加噪聲數(shù)據(jù)等方法來達(dá)到保護(hù)隱私的目的 。目前在該領(lǐng)域的研究尚處于起步階段。

生物信息學(xué)是一門新興的交叉學(xué)科。人類基因組計(jì)劃的啟動和實(shí)施使得核酸、蛋白質(zhì)數(shù)據(jù)迅速增長,如何從海量數(shù)據(jù)中獲取有效信息成為生物信息學(xué)迫切要解決的問題。數(shù)據(jù)挖掘與生物信息學(xué)有很好的結(jié)合點(diǎn),在生物信息學(xué)領(lǐng)域的應(yīng)用潛力日益受到人們的重視。序列分析、基因表達(dá)、同源研究、蛋白質(zhì)結(jié)構(gòu)預(yù)測以及藥物設(shè)計(jì)為數(shù)據(jù)挖掘提供了廣闊的研究空間,也顯示了數(shù)據(jù)挖掘在這些方面的發(fā)展?jié)摿Α@脭?shù)據(jù)挖掘技術(shù),將幫助人們認(rèn)識生物數(shù)據(jù)所蘊(yùn)涵的結(jié)構(gòu)和功能信息,進(jìn)而徹底了解生物數(shù)據(jù)所代表的生物學(xué)意義,幫助人們認(rèn)識自然界各種生物的遺傳信息,認(rèn)識病毒和細(xì)菌的真正面目,研制與開發(fā)新藥物等等。

總結(jié)

以上是生活随笔為你收集整理的数据挖掘在生物信息中的应用有哪些?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。