AI创业公司最佳「开发工具」指南火了,还发现了个可挑战Jupyter的「杀手」
白交發(fā)自凹非寺
量子位報(bào)道公眾號(hào) QbitAI
一份 AI 創(chuàng)業(yè)公司最佳「開發(fā)工具」指南,火了。
Reddit 上,一份來自 41 家創(chuàng)業(yè)公司的調(diào)研答案,熱度已達(dá)471。
除了比較流行的開發(fā)環(huán)境 Jupyter 以外,還出現(xiàn)了這樣一個(gè)身影——Deepnote。
小團(tuán)隊(duì)制作,堪稱可挑戰(zhàn)「Jupyter Notebook」的 Deepnote,目前已經(jīng)有少數(shù)公司在使用了。
網(wǎng)友紛紛表示要去試試。
于是進(jìn)一步吸引了 Deepnote 開發(fā)者親自過來答疑。
所以這究竟是一份怎樣的指南?還有哪些其他有意思的開發(fā)工具?
調(diào)研結(jié)果
這份調(diào)查來自一家輕量工具集成網(wǎng)站neptune.ai,他們采訪了 41 家 AI 初創(chuàng)公司。
調(diào)查結(jié)果如下:
軟件開發(fā)設(shè)置
-
IDE:Jupyter Lab+NB 擴(kuò)展(少數(shù)用 Deepnote),Colab 和 PyCharm、VSCode(R用戶喜歡 R studio)
-
Github
-
Python(大多數(shù)),R(部分)
機(jī)器學(xué)習(xí)框架
-
處理數(shù)據(jù)和可視化:Pandas + Matplotlib + Plotly
-
經(jīng)典算法:Sklearn + XGBoost
-
深度學(xué)習(xí):Tensorflow + Keras 或 Pytorch
MLOps
-
編排:Kubeflow,Airflow,Amazon Sagemaker,Azure
-
模型包裝/服務(wù):Kubeflow,MLflow,Amazon Sagemaker
-
模型從訓(xùn)練到推理的剖析和優(yōu)化:pytest-benchmark、MLperf
-
實(shí)驗(yàn)管理:MLflow,Comet,Neptune
具體情況,是這樣的。
軟件開發(fā)設(shè)置
開發(fā)環(huán)境是每個(gè)團(tuán)隊(duì)工作流程的基礎(chǔ),而對(duì)于 IDE,很多團(tuán)隊(duì)都喜歡 Jupyter Notebooks 和 Jupyter Lab 及其 NB 擴(kuò)展。
而有些團(tuán)隊(duì)則是使用標(biāo)準(zhǔn)軟件開發(fā) IDE,提及最多的是 Pycharm 和 VSCode。
使用 Pycharm 的一家公司 Hotelmize 稱,這是最好的 Python IDE。
而使用 VSCode 的公司則為其正名。
VSCode 易于與 Azure 連接,并提供了許多基于 ML 的擴(kuò)展。
對(duì)于使用R語言的團(tuán)隊(duì)來說,RStudio 是他們最好的選擇。
還有一項(xiàng)工具——GitHub。我想這對(duì)每個(gè) AI 團(tuán)隊(duì)都是福音,初創(chuàng)公司更是。
調(diào)查結(jié)果正是如此,GitHub 因?yàn)槠涿赓M(fèi)、強(qiáng)大的版本控制系統(tǒng)、共享功能,對(duì)團(tuán)隊(duì)來說都是超級(jí)有用的。
對(duì)于最流行的編程語言里,Python、R語言上榜,竟還有一個(gè) Clojure。
值得一提的是,對(duì)于環(huán)境/基礎(chǔ)設(shè)施的設(shè)置方面,有一些團(tuán)隊(duì)給出了以下建議:
-
AWS作為部署平臺(tái)(Simple Report)。
-
Anaconda是我們運(yùn)行 ML 實(shí)驗(yàn)的首選工具,因?yàn)樗?strong>活代碼功能,可以用來將軟件代碼、計(jì)算輸出、解釋性文本和多媒體資源結(jié)合在一個(gè)文檔中。(Scanta)
-
Redis作為內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),由于它支持不同類型的抽象數(shù)據(jù)結(jié)構(gòu),如字符串、列表、映射、集、排序集、HyperLogLogs、位圖、流和空間索引等,因此 Redis 作為內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)占據(jù)了主導(dǎo)地位。(Scanta)
-
Snowflake 和 Amazon S3 用于數(shù)據(jù)存儲(chǔ)。(Hypergiant)
-
Spark-pyspark—-非常簡(jiǎn)單的 api,用于大數(shù)據(jù)的分配作業(yè)。(Hotelmize)
機(jī)器學(xué)習(xí)框架
機(jī)器學(xué)習(xí)框架也必不可少。而這一部分,選擇的工具有很多。
在處理表格數(shù)據(jù)方面,最多提及的是Pandas。
Sigma Polaris CEO 表示,Pandas 可能是最有價(jià)值的工具之一,尤其是在與外部開發(fā)人員合作進(jìn)行各種項(xiàng)目時(shí)。所有的數(shù)據(jù)以數(shù)據(jù)框架的形式存在,協(xié)作更加流暢,減少了不必要的麻煩。
提到可視化,Matplotlib、Plotly是最多的選擇。
還有公司推薦了 Dash,它是一個(gè)在 Plotly 圖表為基礎(chǔ)建立的交互式儀表盤的工具,這對(duì)于用戶來說更加友好。
對(duì)于標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)問題,大多數(shù)團(tuán)隊(duì)使用 Scikit-Learn 和 XGBoost,尤其是Scikit-Learn。
iSchoolConnect 公司就解釋道:
Scikit-Learn 是機(jī)器學(xué)習(xí)研究人員、工程師和開發(fā)人員最常用的工具箱之一。你可以輕松獲得你想要的東西,這一點(diǎn)讓人驚嘆不已!
對(duì)于深度學(xué)習(xí)框架而言,PyTorch、Tensorflow+Keras 很受團(tuán)隊(duì)歡迎。
而在具體的方向上,比如 NLP,Huggingface、Spacy、Gensim 是常用的工具,CV 方面,OpenCV 無疑是必需的了。
MLOps
類似于 DevOps,有人稱,MLOps 是用于機(jī)器學(xué)習(xí)的 DevOps。
MLOps 是將模型集成并部署到生產(chǎn)系統(tǒng)中的所有工具。
這包括模型被部署到哪里,如何到達(dá)那里,如何被更大的軟件/應(yīng)用程序訪問,如何跟蹤 ML 模型在現(xiàn)實(shí)世界中的性能,以及如何對(duì)模型進(jìn)行實(shí)時(shí)管理和測(cè)試。
每個(gè)團(tuán)隊(duì)針對(duì)于自身的不同任務(wù),所使用的工具也不盡相同。
調(diào)查的結(jié)果如下:
-
編排:Kubeflow,Airflow,Amazon Sagemaker,Azure
-
模型包裝/服務(wù):Kubeflow,MLflow,Amazon Sagemaker
-
模型從訓(xùn)練到推理的剖析和優(yōu)化:pytest-benchmark、MLperf
-
實(shí)驗(yàn)管理:MLflow,Comet,Neptune
總的來說,很多團(tuán)隊(duì)用 Jupyter 進(jìn)行探索,用 Pycharm/VSCode 進(jìn)行開發(fā)。
他們都喜歡 GitHub,Python 語言使用的最多。
對(duì)于深度學(xué)習(xí)框架,他們更喜歡使用 Tensorflow、Keras 和 Pytorch。
值得注意的是,越來越多的人開始使用高級(jí)的 PyTorch 訓(xùn)練框架,如 Lightning、Ignite、Catalyst、fastai 和 Skorch。
在可視化探索方面,人們使用 matplotlib, plotly, altair 和 hiplot。
對(duì)于實(shí)驗(yàn)跟蹤,團(tuán)隊(duì)通常使用如 TensorBoard、MLflow 和 Sacred 這些的開源軟件包。
想要了解更多,傳送門在此:
https://neptune.ai/blog/tools-libraries-frameworks-methodologies-ml-startups-roundup?utm_source=reddit&utm_medium=post&utm_campaign=blog-tools-libraries-frameworks-methodologies-ml-startups-roundup
總結(jié)
以上是生活随笔為你收集整理的AI创业公司最佳「开发工具」指南火了,还发现了个可挑战Jupyter的「杀手」的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 以顾开头的成语有哪些?
- 下一篇: 酷派首款千元5G手机coolpad X1