近期计划
感覺自己涉入算法研究的時間太少了。好比一頭拉磨的驢子,一直在糾結于一些細枝末節的技術。從C# 跑到Python,然后又回歸C++,完全是在原地轉了一個很大的圈圈。目前已經確定自己要學習C++語言,將在自己的實驗框架都搭在C++語言平臺上,這樣就可以集中精力攻關一門語言了,不用C#會一點,Python會一點,卻都是小半瓶水的水平了。
近期還打算寫三個系列的偏技術性質的博客,
1。libsvm分類,包括文本預處理部分的代碼以及調用libsvm部分的代碼。這個也是研一做的一個課程項目;
2。將上學期王斌老師的《現代信息檢索》課程項目過程中下載的語料庫整理下,整理成為分類語料庫。目前免費像廣大網友提供提供分類語料庫的只有搜狗實驗室一家,搜狗提供的新聞有他自己的優點:篇章長度都差不多,但是也有缺點。仿佛一些類別中的文章分類有錯誤。
3。改寫一個Mini規模的搜索引擎 TSE(Tiny Search Engine)這個開源程序的提供者為《搜索引擎--原理,技術與系統》的作者,李曉明老師。但是原來的程序是在Linux平臺下運行的,我想將它改為一個可以在Windows平臺運行的程序。我在做本科畢設的時候,曾經下載過該程序,可惜并沒有在Linux平臺上搭建成功。email 助教索求 配置文檔,也沒有回音。(估計助教那時候已經畢業了。)《搜索引擎》一書還是不錯的,偏重于工程實踐,如果再加上一份可運行的代碼,那么可以幫助讀者更快地對搜索引擎有個框架性的入門了解。我個人覺得作者既然寫了這本書,而且在書中的3-5章著重介紹了TSE的實現,并且還提供了源碼下載地址,那么就應該維護一份能讓讀者自己通過閱讀簡要的配置說明,就能夠成功配置運行的源碼。
轉載于:https://www.cnblogs.com/finallyliuyu/archive/2010/09/04/1817798.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
- 上一篇: 接雨水c语言算法精解,详解一道高频面试题
- 下一篇: File的创建删除复制等功能实现