敏捷冲刺四
敏捷沖刺四
Task1:團隊TSP
| 搜索引擎相關內容了解 | 300 | 500 | 11-5 |
| 數據庫表的創建 | 180 | 150 | 11-8 |
| 學院網站的爬取 | 210 | 460 | 11-10 |
| 建立數據庫索引 | 190 | -- | -- |
| 代碼測試 | 180 | -- | -- |
| 前端頁面的設計 | 240 | -- | -- |
| 前后端的交互 | 300 | -- | -- |
| 搜索引擎測試 | 260 | -- | -- |
Task2:描述項目進展
| 秦玉(組長) | 分配任務,前端設計 | 180 |
| 陳曉菲 | 和小組人員一起編寫爬蟲代碼,攻克難關 | 180 |
| 韓燁 | 前端模板的設計 | 180 |
| 姚雯婷 | 和小組人員一起編寫爬蟲代碼,攻克難關 | 180 |
| 羅佳 | 完成團隊TSP表格,完成第四次沖刺博客園,實踐、初步編寫代碼 | 180 |
| 高天 | 完成團隊TSP表格,完成第四次沖刺博客園,實踐、初步編寫代碼 | 180 |
Task3:目前面臨的困難
這次的困難主要出現在爬蟲的問題上,主要有下面幾個方面:
問題一:
在進入回調函數后,但數據庫里仍然出現不了數據。
問題二:
數據庫里的數據只有13條。
Task4:目前取得的成果
問題一解決方法:
- 首先先對xpath的正確性進行測試,嘗試對獲取到的url進行輸出,發現有網址輸出,排除解析錯誤的原因。
- 對數據庫的連接進行了確定,發現可以連接成功。
- 最后發現真正的原因是因為前后修改代碼的時候,有部分冗余代碼忘記注釋,導致寫入數據庫失敗,注釋掉冗余代碼后,成功寫入數據庫。
問題二解決方法:
通過對能夠寫入數據庫的網頁以及寫入不進數據庫的網頁進行查看,如下圖,
發現只有紅色標題的網頁能夠被爬取,繼續對源代碼進行查看,發現了根本原因:
兩個網頁雖然都是將標題放在class為titlestyle124904,但是!!!我們學院為了設置紅色標題,居然隨意的直接強行給標題加一個span標簽……(我們可是正兒八經的計算機學院啊喂),然后導致xpath的設置
只對span標簽下有標題的內容適用了。
于是將xpath進行修改:
item_loader.add_xpath("title", "//td[@class='titlestyle124904']/text()")于是就可以對紅黑標題的內容都進行爬取了,但是對于紅色標題的網頁,爬取不到題目,能夠爬取到其他的屬性。
Task5:項目燃盡圖
Task6:提交歷史截圖
Task7:站立式會議照片
轉載于:https://www.cnblogs.com/qin-yu/p/9974898.html
總結
- 上一篇: iOS App版本号compare
- 下一篇: codeforces cf 521(di