當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

考察数据科学家支持向量机（SVM）知识的25道题，快来测测吧

發布時間：2024/8/23 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了考察数据科学家支持向量机（SVM）知识的25道题，快来测测吧小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要：?本套自測題專為SVM及其應用而設計，目前超過550人注冊了這個測試，最終得滿分的人卻很少，[doge],一起來看看你的SVM知識能得多少分吧，順便還能查漏補缺哦。

Introduction

? 機器學習強大如一座軍械庫，里面有各種威力驚人的武器，不過你首先得學會如何使用。舉個栗子，回歸（Regression）是一把能夠有效分析數據的利劍，但它對高度復雜的數據卻束手無策。支持向量機（Support Vector Machines，SVM）就好比一把鋒利的小刀，特別是在小數據集上建模顯得更為強大有力。

本套測試題專為SVM及其應用而設計，目前超過550人注冊了這個測試（排行榜），一起來看看你的SVM知識能得多少分吧，順便還能查漏補缺。

Helpful Resources

1.十大常用機器學習算法（附Python和R代碼）

2.SVM原理及代碼

Skill test Questions and Answers

假定你用一個線性SVM分類器求解二類分類問題，如下圖所示，這些用紅色圓圈起來的點表示支持向量，據此回答問題1和2：

1.如果移除這些圈起來的數據，決策邊界（即分離超平面）是否會發生改變？

A．Yes???? B. No

答案：A

Tips: 如果改變這三個點中任意一個點的位置就會引入松弛約束條件，決策邊界就會發生變化。

2. 如果將數據中除圈起來的三個點以外的其他數據全部移除，那么決策邊界是否會改變？

A．True??? B. False

答案：B

Tips: 決策邊界只會被支持向量影響，跟其他點無關。

3.關于SVM泛化誤差描述正確的是

A．超平面與支持向量之間距離

B．SVM對未知數據的預測能力

C．SVM的誤差閾值

答案：B

Tips: 統計學中的泛化誤差是指對模型對未知數據的預測能力。

4. 如果懲罰參數C趨于無窮，下面哪項描述是正確的？

A．若最優分離超平面存在，必然能夠將數據完全分離

B．軟間隔分類器能夠完成數據分類

C．以上都不對

答案：A

Tips: 如果誤分類懲罰很高，軟間隔不會一直存在，因為沒有更多的誤差空間

5. 以下關于硬間隔描述正確的是

A．SVM允許分類存在微小誤差

B．SVM允許分類是有大量誤差

C．以上均不正確

答案：A

Tips: 硬間隔意味著SVM在分類時很嚴格，在訓練集上表現盡可能好，有可能會造成過擬合。

6. 訓練SVM的最小時間復雜度為O(n2)，那么一下哪種數據集不適合用SVM?

A．大數據集???? B. 小數據集?? C. 中等大小數據集??? D. 和數據集大小無關

答案：A

有明確分類邊界的數據集最適合SVM

7. SVM的效率依賴于：

A．核函數的選擇? B. 核參數? C. 軟間隔參數C? D. 以上所有

答案：D

Tips: SVM的效率依賴于以上三個基本要求，它能夠提高效率，降低誤差和過擬合

8. 支持向量是那些最接近決策平面的數據點。

A．TRUE??? B. FALSE

答案：A

9. SVM在下列那種情況下表現糟糕：

A．線性可分數據? B. 清洗過的數據?? C. 含噪聲數據與重疊數據點

答案：C

Tips: 當數據中含有噪聲數據與重疊的點時，要畫出干凈利落且無誤分類的超平面很難

10. 假定你使用了一個很大γ值的RBF核，這意味著：

A. 模型將考慮使用遠離超平面的點建模

B．模型僅使用接近超平面的點來建模

C．模型不會被點到超平面的距離所影響

D．以上都不正確

答案：B

Tips: SVM調參中的γ衡量距離超平面遠近的點的影響。對于較小的γ，模型受到嚴格約束，會考慮訓練集中的所有點，而沒有真正獲取到數據的模式、對于較大的γ，模型能很好地學習到模型。

11.SVM中的代價參數表示：

A．交叉驗證的次數

B．使用的核

C．誤分類與模型復雜性之間的平衡

D．以上均不是

答案：C

Tips:代價參數決定著SVM能夠在多大程度上適配訓練數據。如果你想要一個平穩的決策平面，代價會比較低；如果你要將更多的數據正確分類，代價會比較高。可以簡單的理解為誤分類的代價。

假定你使用SVM學習數據X，數據X里面有些點存在錯誤。現在如果你使用一個二次核函數，多項式階數為2，使用松弛變量C作為超參之一，請回答12-13。

12.當你使用較大的C（C趨于無窮），則：

A．仍然能正確分類數據

B．不能正確分類

C．不確定

D．以上均不正確

答案：A

Tips: 采用更大的C，誤分類點的懲罰就更大，因此決策邊界將盡可能完美地分類數據。

13.如果使用較小的C（C趨于0），則：

A．誤分類

B．正確分類

C．不確定

D．以上均不正確

答案：A

Tips:分類器會最大化大多數點之間的間隔，少數點會誤分類，因為懲罰太小了。

14.如果我使用數據集的全部特征并且能夠達到100%的準確率，但在測試集上僅能達到70%左右，這說明：

A．欠擬合?? B.模型很棒?? C.過擬合

答案：C

Tips:如果在訓練集上模型很輕易就能達到100%準確率，就要檢查是否發生過擬合。

15.下面哪個屬于SVM應用

A．文本和超文本分類

B．圖像分類

C．新文章聚類

D．以上均是

答案：D

Tips: SVM廣泛應用于實際問題中，包括回歸，聚類，手寫數字識別等。

假設你訓練SVM后，得到一個線性決策邊界，你認為該模型欠擬合。據此回答16-18題：

16.在下次迭代訓練模型時，應該考慮：

A．增加訓練數據

B．減少訓練數據

C．計算更多變量

D．減少特征

答案：C

Tips:由于是欠擬合，最好的選擇是創造更多特征帶入模型訓練。

17.假設你在上一題做出了正確的選擇，那么以下哪一項會發生：

1.降低偏差

2.降低方差

3.增加偏差

4.降低方差

A．1和2

B．2和3

C．1和4

D．2和4

答案：C

Tips:更好的模型會降低偏差并提高方差

18.假如你想修改SVM的參數，同樣達到模型不會欠擬合的效果，應該怎么做？

A．增大參數C

B．減小參數C

C．改變C并不起作用

D．以上均不正確

答案：A

Tips:增大參數C會得到正則化模型

19.SVM中使用高斯核函數之前通常會進行特征歸一化，以下關于特征歸一化描述正確的是？

1．經過特征正則化得到的新特征優于舊特征

2．特征歸一化無法處理類別變量

3．SVM中使用高斯核函數時，特征歸一化總是有用的

A．1??? B. 1 and 2??? C. 1 and 3??? D. 2 and 3

答案：B

假定你使用SVM來處理4類分類問題，你使用了one-vs-all策略，據此回答20-22

20.此種情況下要訓練SVM模型多少次？

A.1

B.2

C. 3

D. 4

答案：D

Tips:使用one-vs-all策略就要訓練4次，每次把一個類當成正類，其他的類當作負類，然后學習出4個模型，對新數據取函數值最大的那個類作為預測類別

21. 假定用one-vs-all訓練一次SVM要10秒，那么總共應該訓練多少秒？

A．20

B．40

C．60

D．80

答案：B

Tips:每個訓練10秒，要訓練4次，那就是40秒

22. 假設現在只有兩個類，這種情況下SVM需要訓練幾次？

A．1

B．2

C．3

D．4

答案：A

Tips:兩個類訓練1次就可以了

假設你訓練了一個基于線性核的SVM，多項式階數為2，在訓練集和測試集上準確率都為100%，據此回答23-24

23. 如果增加模型復雜度或核函數的多項式階數，將會發生什么？

A．導致過擬合

B．導致欠擬合

C．無影響，因為模型已達100%準確率

D．以上均不正確

答案：A

Tips:增加模型復雜度會導致過擬合

24. 如果增加模型復雜度之后，你發現訓練集上準確率還是100%，可能是什么原因造成的？

1.數據不變，適配更多的多項式項或參數，算法開始記憶數據中的一切

2.數據不變，SVM不必在更大的假設空間中搜索分類超平面

A．1

B．2

C．1 and 2

D．以上均不正確

答案：C

25.以下關于SVM核函數說法正確的是

1. 核函數將低維數據映射到高維空間

2. 是一個相似度函數（similarity function）

A．1

B．2

C．1 and 2

D．以上均不正確

答案：C

Overall Distribution

至今超過350人參與了這項測試，得分分布情況如下：

原文鏈接

干貨好文，請關注掃描以下二維碼：

總結

以上是生活随笔為你收集整理的考察数据科学家支持向量机（SVM）知识的25道题，快来测测吧的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Andrew Ng深度学习课程笔记
下一篇：阿里云应用配置管理ACM发布，重新定义云