考察数据科学家支持向量机(SVM)知识的25道题,快来测测吧
摘要:?本套自測題專為SVM及其應用而設計,目前超過550人注冊了這個測試,最終得滿分的人卻很少,[doge],一起來看看你的SVM知識能得多少分吧,順便還能查漏補缺哦。
Introduction
? 機器學習強大如一座軍械庫,里面有各種威力驚人的武器,不過你首先得學會如何使用。舉個栗子,回歸(Regression)是一把能夠有效分析數據的利劍,但它對高度復雜的數據卻束手無策。支持向量機(Support Vector Machines,SVM)就好比一把鋒利的小刀,特別是在小數據集上建模顯得更為強大有力。
本套測試題專為SVM及其應用而設計,目前超過550人注冊了這個測試(排行榜),一起來看看你的SVM知識能得多少分吧,順便還能查漏補缺。
Helpful Resources
1.十大常用機器學習算法(附Python和R代碼)
2.SVM原理及代碼
?
Skill test Questions and Answers
假定你用一個線性SVM分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支持向量,據此回答問題1和2:
1.如果移除這些圈起來的數據,決策邊界(即分離超平面)是否會發生改變?
A.Yes???? B. No
答案:A
Tips: 如果改變這三個點中任意一個點的位置就會引入松弛約束條件,決策邊界就會發生變化。
?
2. 如果將數據中除圈起來的三個點以外的其他數據全部移除,那么決策邊界是否會改變?
A.True??? B. False
答案:B
Tips: 決策邊界只會被支持向量影響,跟其他點無關。
?
3.關于SVM泛化誤差描述正確的是
A.超平面與支持向量之間距離
B.SVM對未知數據的預測能力
C.SVM的誤差閾值
答案:B
Tips: 統計學中的泛化誤差是指對模型對未知數據的預測能力。
?
4. 如果懲罰參數C趨于無窮,下面哪項描述是正確的?
A.若最優分離超平面存在,必然能夠將數據完全分離
B.軟間隔分類器能夠完成數據分類
C.以上都不對
?
答案:A
Tips: 如果誤分類懲罰很高,軟間隔不會一直存在,因為沒有更多的誤差空間
?
5. 以下關于硬間隔描述正確的是
A.SVM允許分類存在微小誤差
B.SVM允許分類是有大量誤差
C.以上均不正確
?
答案:A
Tips: 硬間隔意味著SVM在分類時很嚴格,在訓練集上表現盡可能好,有可能會造成過擬合。
?
6. 訓練SVM的最小時間復雜度為O(n2),那么一下哪種數據集不適合用SVM?
A.大數據集???? B. 小數據集?? C. 中等大小數據集??? D. 和數據集大小無關
?
答案:A
有明確分類邊界的數據集最適合SVM
?
7. SVM的效率依賴于:
A.核函數的選擇? B. 核參數? C. 軟間隔參數C? D. 以上所有
?
答案:D
Tips: SVM的效率依賴于以上三個基本要求,它能夠提高效率,降低誤差和過擬合
?
8. 支持向量是那些最接近決策平面的數據點。
A.TRUE??? B. FALSE
?
答案:A
?
9. SVM在下列那種情況下表現糟糕:
A.線性可分數據? B. 清洗過的數據?? C. 含噪聲數據與重疊數據點
?
答案:C
Tips: 當數據中含有噪聲數據與重疊的點時,要畫出干凈利落且無誤分類的超平面很難
?
10. 假定你使用了一個很大γ值的RBF核,這意味著:
A. 模型將考慮使用遠離超平面的點建模
B.模型僅使用接近超平面的點來建模
C.模型不會被點到超平面的距離所影響
D.以上都不正確
?
答案:B
Tips: SVM調參中的γ衡量距離超平面遠近的點的影響。對于較小的γ,模型受到嚴格約束,會考慮訓練集中的所有點,而沒有真正獲取到數據的模式、對于較大的γ,模型能很好地學習到模型。
?
11.SVM中的代價參數表示:
A.交叉驗證的次數
B.使用的核
C.誤分類與模型復雜性之間的平衡
D.以上均不是
?
答案:C
Tips:代價參數決定著SVM能夠在多大程度上適配訓練數據。如果你想要一個平穩的決策平面,代價會比較低;如果你要將更多的數據正確分類,代價會比較高。可以簡單的理解為誤分類的代價。
?
假定你使用SVM學習數據X,數據X里面有些點存在錯誤。現在如果你使用一個二次核函數,多項式階數為2,使用松弛變量C作為超參之一,請回答12-13。
12.當你使用較大的C(C趨于無窮),則:
A.仍然能正確分類數據
B.不能正確分類
C.不確定
D.以上均不正確
?
答案:A
Tips: 采用更大的C,誤分類點的懲罰就更大,因此決策邊界將盡可能完美地分類數據。
?
13.如果使用較小的C(C趨于0),則:
A.誤分類
B.正確分類
C.不確定
D.以上均不正確
?
答案:A
Tips:分類器會最大化大多數點之間的間隔,少數點會誤分類,因為懲罰太小了。
?
14.如果我使用數據集的全部特征并且能夠達到100%的準確率,但在測試集上僅能達到70%左右,這說明:
A.欠擬合?? B.模型很棒?? C.過擬合
?
答案:C
Tips:如果在訓練集上模型很輕易就能達到100%準確率,就要檢查是否發生過擬合。
?
15.下面哪個屬于SVM應用
A.文本和超文本分類
B.圖像分類
C.新文章聚類
D.以上均是
?
答案:D
Tips: SVM廣泛應用于實際問題中,包括回歸,聚類,手寫數字識別等。
?
假設你訓練SVM后,得到一個線性決策邊界,你認為該模型欠擬合。據此回答16-18題:
16.在下次迭代訓練模型時,應該考慮:
A.增加訓練數據
B.減少訓練數據
C.計算更多變量
D.減少特征
?
答案:C
Tips:由于是欠擬合,最好的選擇是創造更多特征帶入模型訓練。
?
17.假設你在上一題做出了正確的選擇,那么以下哪一項會發生:
1.降低偏差
2.降低方差
3.增加偏差
4.降低方差
?
A.1和2
B.2和3
C.1和4
D.2和4
?
答案:C
Tips:更好的模型會降低偏差并提高方差
?
18.假如你想修改SVM的參數,同樣達到模型不會欠擬合的效果,應該怎么做?
A.增大參數C
B.減小參數C
C.改變C并不起作用
D.以上均不正確
?
答案:A
Tips:增大參數C會得到正則化模型
?
19.SVM中使用高斯核函數之前通常會進行特征歸一化,以下關于特征歸一化描述正確的是?
1.經過特征正則化得到的新特征優于舊特征
2.特征歸一化無法處理類別變量
3.SVM中使用高斯核函數時,特征歸一化總是有用的
A.1??? B. 1 and 2??? C. 1 and 3??? D. 2 and 3
答案:B
?
假定你使用SVM來處理4類分類問題,你使用了one-vs-all策略,據此回答20-22
20.此種情況下要訓練SVM模型多少次?
A.1
B.2
C. 3
D. 4
?
答案:D
Tips:使用one-vs-all策略就要訓練4次 ,每次把一個類當成正類,其他的類當作負類,然后學習出4個模型,對新數據取函數值最大的那個類作為預測類別
?
21. 假定用one-vs-all訓練一次SVM要10秒,那么總共應該訓練多少秒?
A.20
B.40
C.60
D.80
?
答案:B
Tips:每個訓練10秒,要訓練4次,那就是40秒
?
22. 假設現在只有兩個類,這種情況下SVM需要訓練幾次?
A.1
B.2
C.3
D.4
答案:A
Tips:兩個類訓練1次就可以了
?
假設你訓練了一個基于線性核的SVM,多項式階數為2,在訓練集和測試集上準確率都為100%,據此回答23-24
23. 如果增加模型復雜度或核函數的多項式階數,將會發生什么?
A.導致過擬合
B.導致欠擬合
C.無影響,因為模型已達100%準確率
D.以上均不正確
?
答案:A
Tips:增加模型復雜度會導致過擬合
?
24. 如果增加模型復雜度之后,你發現訓練集上準確率還是100%,可能是什么原因造成的?
1.數據不變,適配更多的多項式項或參數,算法開始記憶數據中的一切
2.數據不變,SVM不必在更大的假設空間中搜索分類超平面
?
A.1
B.2
C.1 and 2
D.以上均不正確
?
答案:C
?
25.以下關于SVM核函數說法正確的是
1. 核函數將低維數據映射到高維空間
2. 是一個相似度函數(similarity function)
?
A.1
B.2
C.1 and 2
D.以上均不正確
?
答案:C
Overall Distribution
至今超過350人參與了這項測試,得分分布情況如下:
原文鏈接
干貨好文,請關注掃描以下二維碼:
總結
以上是生活随笔為你收集整理的考察数据科学家支持向量机(SVM)知识的25道题,快来测测吧的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Andrew Ng深度学习课程笔记
- 下一篇: 阿里云应用配置管理ACM发布,重新定义云