❶ Colab Pro+每月50刀的會員值不值有人做了個開箱測評
機器之心報道
編輯:陳萍、小舟
對於沒有 GPU 的小夥伴們來說,谷歌 Colab 是一個公認的「真香」神器,窮苦學生黨也能免費薅羊毛。
不過,使用的人多了,難免會出現不如意的情況,幾個小時就掉一次線、分配的 RAM 不足等問題隨之而來。然後 Colab 開啟了會員機制。
就在前幾天 Colab 搞了個會員 Colab Pro+,每月 50 刀、訓練 24 小時不掉線。除了這種堪稱至尊會員 Pro + 外,還有每月差不多 10 美元的 Colab Pro 超級會員。
據了解,Pro + 最大的特點是「後台執行」,關了瀏覽器還能運行那種。此外,Pro + 版的 GPU、內存和運行時長也將全面升級。
Pro + 究竟升級了什麼,谷歌在「常見問題解答」里寫得非常清楚。總結一下就是:
50 刀的價格屬實不菲,入手之前不如先看看別人怎麼說。一位名叫 Martin Henze 的開發者最近充了 Colab Pro + 會員,我們來看看 ta 的「開箱測評」。
事情是這樣的,Martin Henze 參加了 Kaggle 的比賽,用的是自己的筆記本電腦,對於小模型和小圖像來說自己的電腦也夠用,但要想在排行榜上打榜升級,就必須擴大模型和數據規模,這樣一來,電腦完全 hold 不住了。在 GPU 不夠用的情況下,Henze 決定使用 Google Colab 付費選項來解決。
Henze 表示自己以前只使用過免費版的 Colab,現在發現還有 2 個付費版:Colab Pro 和 Colab Pro+。與 Pro 相比,Pro+ 版本宣傳「優先訪問更快的 GPU」。這么看來 Pro + 多了一個優先順序,Pro 用戶接下來的使用體驗可能就沒那麼絲滑了。因此 Henze 萌生了測試 Pro + 的想法。
Henze 寫了一篇博客來介紹自己在 Colab Pro+ 中發現的功能,以及在 Kaggle 比賽中使用 Colab 的最佳方法。此外,文章最後還介紹了 Colab 的可替代方案。
Colab Pro + 的特性
至於 Colab 的 TPU 運行時以及並發 CPU 會話的數量,Henze 還沒進行測試。
一方面有優勢,與免費的 Colab 和 Kaggle 資源相比,Pro + 用戶能享受更高的連接穩定性,即使關閉計算機或瀏覽器標簽頁後,程序也能繼續執行,上限是 24 小時。另一方面也有一些限制,例如在時間緊迫的情裂中況下,一次只能進行 1 個會話,或者使用較慢的 P100 進行 2 個會話。
另外請注意,Colab FAQ 指出:為了防止有限的資源被少數用戶壟斷,Colab Pro 和 Pro + 中的資源優先考慮最近使用資源較少的用戶。因此,用戶似乎不太可能在一個月的時間里全天候使用 V100 GPU。對於這一點,作者也打算進行更多的實驗,也許會遇到這個限制。
將 Kaggle Notebook 移到 Colab 上
如果你在一周內已經超出了可以使用的(相當多的)Kaggle 資源,或者在短時間內需要更多的資源,將 Kaggle Notebook 移到 Colab 將是一個很好的選擇,在 Colab 上可以繼續訓練和實驗。但這一過程並不容易,需要面臨兩個挑戰:獲取數據、設置 notebook 環境。此外,Colab 放棄了許喚胡多標準的 Jupyter 快捷鍵,這種做法會增加用戶的工作量。
在 數據導入 Colab 方面:目前最好和最快的方法是通過 GCS_DS_PATH 復制數據,即谷歌雲存儲路徑。自 2017 年 Kaggle 被谷歌收購以來,其框架已被大量集成到谷歌的雲環境中。Kaggle 數據集和比賽數據都有雲存儲地址,可以從那裡將數據轉移到 Colab 上。
你可以通過在 Kaggle Notebook 中運行以下代和源攔碼來獲得 GCS_DS_PATH。將 seti-breakthrough-listen 替換為你自己的比賽(competition)或數據集的名稱:
在 Colab 中,你可以使用 gsutil 工具復制數據集,甚至是單個文件夾,就像這樣:
這比從 Google Drive 復制或通過 Kaggle API 下載來檢索數據的速度要快得多。當然,獲取數據也受到 24 小時運行時的限制。需要注意的是,會話斷開後數據就丟失了,需要在新的會話中重新設置。
在會話中創建的文件(例如經過訓練的模型權重或提交文件)或用戶安裝的自定義庫,也要受到類似的限制。Colab 安裝了常用的 Python 和深度學習工具,但都是舊版本。用戶可以通過 pip 進行更新:
需要注意兩件事:安裝後需要重新啟動才能導入新庫。不用擔心,重啟後數據仍然存在,但你需要確保留出足夠的磁碟空間來安裝。
將輸出保存在 Drive 上:最後要確保將實驗結果(經過訓練的權重、提交文件等)復制到 Google Drive 賬戶,以確保在運行時斷開連接卻不會丟失它們。當然你也可以手動下載,但自動復制相對更可靠。
可以像這樣在 Colab notebook 中使用 Drive:
然後復制文件,例如通過 Python 中的 os.system。
可供選擇的其他雲 GPU
除了 Colab 及其付費版以外,還有其他的雲 GPU 替代方案,或許它們可以提供更多的性能(也許能用上 A100),或許是更便宜、使用更靈活。除了大家所熟知的 GCP 和 AWS,還包括以下:
Paperspace Gradient :G1 使用費用為每月 8 美元,並提供 GPU 和 6 小時運行時限制的免費版。除此之外,每小時花費 2.30 美元可以運行 V100。此外,G1 還能提供 200GB 的存儲空間和 5 個並行運行的 notebook。
JarvisCloud :每小時 2.4 美元可使用 A100 GPU 。此外,JarvisCloud 還提供最新的 Pytorch、FastAI、Tensorflow 作為預安裝框架。存儲高達 500GB,每小時最高 7 美分。
Vast.ai :是一個出租 GPU 的平台。你可以在此訪問 GCP、AWS 和 Paperspace 資源。不過價格差異很大,但有些看起來比具有相似可靠性的大公司便宜得多。
OracleCloud :每小時支付約 3 美元可運行 V100,與 AWS 相當。此外, A100 也即將投入使用。
OHVcloud :一家以價格優惠而聞名的法國供應商。每小時支付 1.7 美元就可以使用 1 塊 V100,並提供 400GB 的存儲空間。
當前市面上有很多雲 GPU 選擇,也許在這種良性競爭下,我們會看到價格的合理調整。
參考鏈接:https://heads0rtai1s.github.io/2021/08/24/colab-plus-kaggle-cloud-gpu/
❷ Google Colab平台使用
Colab全稱Colaboratory,是Google提供的一個Jupyter Notebook式的交互環境,在雲端運行,提供 免費 的GPU資源,用戶可以直接使用。並且創建的Notebook存滑仔明儲在雲端硬碟中,可以方便與他人共享。
Colab使用教程
有個小tip需要注意,當使用命令 !cd mydir 切換當前目錄時,具有一定的時效性,僅對戚察當前行信告起作用;而採用命令 %cd mydir 切換目錄才具有持久性,即停留在 mydir 目錄下。