按照一定策略把网页抓回到搜索引擎服务器的,SEO新手学习:搜索引擎的基本步骤...
初始搜索引擎的原理:第一步就是需要了解“搜索引擎的基本步驟”。
搜索引擎的基本步驟(大概架構(gòu))如下。可以分成虛線左右兩個部分:一部分是搜索引擎抓取:主動抓取網(wǎng)頁進行一系列處理后建立索引,等待用戶搜索;另一部分是用戶搜索查詢:分析用戶搜索意圖,展現(xiàn)用戶所需要的搜索結(jié)果。
SEO新手學習:搜索引擎的基本步驟
搜索引擎抓取:
搜索引擎主動抓取網(wǎng)頁,并進行內(nèi)容處理、索引部分的流程機制一般如下:
1、派出Spider,按照一定策略把網(wǎng)頁抓回到搜索引擎服務器;
2、對抓回的網(wǎng)頁進行鏈接抽離、內(nèi)容處理,消除噪聲、提取該頁主題文本內(nèi)容等;
3、對網(wǎng)頁的文本內(nèi)容進行中文分詞、去除停止詞等;
4、對網(wǎng)頁內(nèi)容進行分詞后判斷該頁面內(nèi)容與已索引網(wǎng)頁是否有重復,剔除重復頁,對剩余網(wǎng)頁進行倒排索引,然后等待用戶的檢索。
用戶搜索查詢:
當用戶進行查詢后,搜索引擎工作的流程機制一般如下:
1、先對用戶所查詢的關(guān)鍵詞進行分詞處理,并根據(jù)用戶的地理位置和歷史檢索特征進行用戶需求分析,以便使用地域性搜索結(jié)果和個性化搜索結(jié)果展示用戶最需要的內(nèi)容;
2、查找緩存中是否有該關(guān)鍵詞的查詢結(jié)果,如果有,為了最快地呈現(xiàn)查詢結(jié)果,搜索引擎會根據(jù)當下用戶的各種信息判斷其真正的需求,對緩存中的結(jié)果進行微調(diào)或直接呈現(xiàn)給用戶;
3、如果用戶所查詢的關(guān)鍵詞再緩存中不存在,那么就在索引庫中的網(wǎng)頁進行調(diào)取排名呈現(xiàn),并將關(guān)鍵詞和對應的搜索結(jié)果加入到緩存中;
4、網(wǎng)頁排名是根據(jù)用戶的搜索詞和搜索需求,對索引庫中的網(wǎng)頁進行相關(guān)性、重要性(鏈接權(quán)重分析)和用戶體驗的高低進行分析所得出的。用戶在搜索結(jié)果中的點擊和重復搜索行為,也可以告訴搜索引擎,用戶對搜索結(jié)果頁的使用體驗,這塊是最近作弊最多的部分,所以這部分會隨著搜索引擎的反作弊算法干預,有時甚至可能會進行人工干預;
按照上述搜索引擎的基本步驟,在整個搜索引擎工作流程中大概會涉及Spider、內(nèi)容處理、分詞、去重、索引、內(nèi)容相關(guān)性、鏈接分析、判斷頁面用戶體驗、反作弊、人工干預、緩存機制、用戶需求分析等模塊。
接下來,我們也可以直接針對各個模塊進行相對應的學習:
注:本文來源“南寧SEO博客”http://www.nnzseo.com/,轉(zhuǎn)載需注明原文出處,感謝各位對Z.SEO的關(guān)注與支持,謝謝大家。
總結(jié)
以上是生活随笔為你收集整理的按照一定策略把网页抓回到搜索引擎服务器的,SEO新手学习:搜索引擎的基本步骤...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: js特效 在服务器显示变形,使一行文字变
- 下一篇: 笔记本电脑键盘切换_全球首款折叠屏笔记本