Ceph and OpenStack – Best Practices Part I

Ceph and OpenStack 現在已經是 IaaS 中成雙成對的一個組合。根據 2017 年 6-12 月的 OpenStack User Survey，在所有 OpenStack Deployment 中，有 57% 的部署使用的 Cinder backend 為 Ceph RBD。當然在使用 Ceph 作為 OpenStack Glance, Cinder 的 backend 會有一些能夠在設定上調整的最佳實踐。本篇文章將會介紹這些如何調整以及為什麼要進行這些設定。

Table of Contents

在 Glance 中使用 show_image_direct_url

使用 Ceph RBD 時，預設會開啟 RBD Layering 這個功能，可以把它想像成一個可以讀寫 snapshot。這會建立一個原本 image 的 clone，而 Ceph 就只會建立跟原本 image 不同部分的 RADOS Objects。這代表了兩件事：

省空間 — 因為只會建立相對原本 image 有更改過的 RADOS Objects，當有多個 instance 的 volume 是基於這個 image 時，就能節省很多空間
在沒有被更改的部分，也就是原本的 image，會從最一開始的 volume 被讀取。這代表不管是從哪一個 clone，在讀取時都是讀取到同樣的 RADOS Objects，也就是同樣的 OSD。因刺這些 Objects 有很大的機會會是從 OSD 的 page cache 中讀取，也就是說從 RAM 讀取。RAM 比現今所有持久性儲存裝置都還快，也就是從 clone 提供資料會比從一個完整的副本 Volume 來得快。

Cinder 跟 Nova 預設都會利用 RBD Layering 的功能，但是會需要在 Glance 中的 glance-api.conf 設定 show_image_direct_url=true 並且使用 Glance v2 API。

更新

由於安全性問題，目前 Ceph community 建議把 show_image_direct_url 設為 false。

在 Compute Node 上使用 RBD Cache

librbd，也就是 qemu/kvm 跟 RBD 儲存裝置溝通的 driver，可以利用主機的 RAM 作為 RBD 的 disk cache 使用

使用這種 cache 是安全的，virtio-blk 跟 Qemu RBD storage driver 會確保資料被正確的 flush。當 VM 中的應用程式告知說「我要這個檔案在 disk 上」時，Qemu 跟 Ceph 會在完成下列事項中才回報資料已經被寫入：

寫入至主要的 OSD
複製到其他的 OSD
被告知已經被放置 OSD 的 persistant journal

Ceph 本身也有內建的防呆機制，就算 cache 被設成 write-back mode，Ceph 在收到 user 的第一個 flush request 之前都會以 write-through mode 運作。這個機制相對應的設定是 rbd cache writethrough until flush，預設是設為 true，永遠永遠不要嘗試關閉它。

要啟用 Ceph 的 cache 必須在 nova-compute 的 nova.conf 中設定

[libvirt]
...
images_type = rbd
disk_cachemodes="network=writeback"

讓 Cinder, Glance, Nova 使用不同的 Pool

讓三個不同的 service 使用不同的 Ceph pool 有幾個原因：

使用不同的 pool 代表可以對這些 pool 做不同的權限設定。這代表在如果很不幸的，你的 nova-compute 節點被入侵而入侵者可以破壞或刪除你的 nova disk。雖然聽起來很糟，但是如果他同時也能破壞你的 Glance image 的話，情況就會變得更糟了。
使用不同的 pool 也代表可以對這些 pool 做不同的設定，例如 size 或是 pg_num 等設定。
最重要的是，可以對 pool 套用不同的 crush_ruleset，例如可以讓 Cinder 使用高速的 SSD，Nova 使用 HDD，Glance 使用 Erasure Coded Pool。

有些能可能擔心在分開 pool 後 RBD layering 會無法作用，但是不用擔心，這些 clone 是可以跨 pool 做使用的。

所以在 OpenStack 部署中看到 3 個不同的 Ceph Pool 是一件非常常見是事情，一個給 Cinder，一個給 Glance，一個給 Nova。

使用 All-Flash OSD Pool

使用 SSD WAL 跟 DB 不會增加讀取速度。要利用 SSD 快速的讀取速度，就把它們獨立成 OSD 並且利用 crush_ruleset 設定 All-flash OSD Pool。在 Luminous 版本之後，Ceph 會自動偵測 device class，所以要創建 All-flash 的 crush rule 非常容易。

例如要創建一個 All-flash pool (faliure domain: host) 叫做 flash，用 command ceph osd crush rule create-replicated <rule-name> <root> <failure-domain-type> <device-class>

ceph osd crush rule create-replicated fast default host ssd

Ceph and OpenStack – Best Practices Part I

在 Glance 中使用 show_image_direct_url

更新

在 Compute Node 上使用 RBD Cache

讓 Cinder, Glance, Nova 使用不同的 Pool

使用 All-Flash OSD Pool

安裝 OpenStack and Ceph

續讀 Part II

Reference

Leave a Reply Cancel reply