Ceph 2019年2月 Nautilus即将发布!最新动向概述
首先
计划在2019年2月发布Ceph的最新版本(版本14.x;发布名称:海鸥座)。在本文档中,我们将总结在Ceph Day柏林上发布之前关于Ceph的最新信息。
参考资料
-
- What’s New In Ceph
2018年11月 Ceph Day Berlin
Sage Weil氏 講演資料
最近,Ceph 的重要举措
-
- Management and Usability
-
- Container platforms
-
- Performance
- Multi- and hybrid cloud
管理和可用性(0)
-
- Balancer Plugin (Luminous-)
http://docs.ceph.com/docs/mimic/mgr/balancer/
OSD毎の Disk 利用率を自動的に最適化し、偏りを小さくする
crush-compat (<Luminous)
Luminous 未満の OSD で利用可能
新たに導入されたパラメタを自動調整することで、PG配置の最適化を実現
upmap (Luminous-)
新たに導入された upmap の機能を用いて、PGのマッピングを個別に移動することで最適化を実現
weight-set と比べて、きめ細かい制御ができる反面、従来のバージョンとは互換性がないため混在できない
管理和可用性 (1)
-
- Configuration の簡素化
HDD /SSD 等に合わせた tuning の自動化 (Luminous-)
Memory size に合わせた tuning の自動化
pg_num tuning の自動化
pg_num を小さくすることもできるようになる
Telemetry plugin
http://docs.ceph.com/docs/master/mgr/telemetry/
Cluster の Anonymous data を Ceph project に自動送信
Opt-in で自動的に電話通知する仕掛けも用意される模様
管理与可用性 (2)
-
- Crash plugin
http://docs.ceph.com/docs/master/mgr/crash/
Crash dump を一元的に管理できる
Insights plugin
http://docs.ceph.com/docs/master/mgr/insights/
色々 CLI を叩かなくても、このコマンド1発で cluster の健全性に関する情報を収集できる
Diskprediction plugin
http://docs.ceph.com/docs/master/mgr/diskprediction/
https://www.prophetstor.com/jp/disk-health-prediction-for-ceph-mimic/
Disk が故障する前に、予防交換できることを目指している
将来的には、prediction に基づき自動evacuationが実行できるようになる模様
Local predictor だと 70% accuracy と低いため、production利用だと ProphetStor のクラウドサービスと接続する Cloud predictor を使う必要があるかもしれない
管理和可用性(3.1)
管理和使用便利性(3.1)
-
- Dashboard plugin
http://docs.ceph.com/docs/master/mgr/dashboard/
Ceph の運用に必須の metric が、出力できるようになった (Mimic)
殆どの metric が見られるようになる (Nautilus)
Orchestrator Plugin[後述] の操作が出来るようになる (Nautilus-)
Nautilus の UI はこちらを参照
管理和可用性 (3.2)

管理和可用性 (4)
- Orchestrator Sandwich の概要

管理和易用性 (5)
-
- 従来の Deploy
ceph-ansible, kolla-ansible, juju 等、それぞれが独自の Workflow を用意していた
これからの Deploy (Nautilus-)
http://docs.ceph.com/docs/master/mgr/orchestrator_cli/
Ceph が運用管理の抽象レイヤを提供
Orchestrator Plugin の sub-plugin として ceph-ansible, Rook, DeepSea プラグイン等を用意することで、様々な Workflow に対応
オペレータは Orchestrator 実装を気にせず、統一した User Interface で Ceph を管理できるようになる
とても興味深いアプローチ; 他の分散システムにも応用すると面白そう
管理和可用性 (6)
-
- RADOS
OSD memory stability
PG log length の制限
OSD cache消費量を適切に制限
MSGR2
Encryption, IPv6, Kerberos authentication
RBD
Async mirroring 改善 (Point-in-Time DR with failover/failback, etc.)
Security namespace
RADOS pool跨ぎの live image migration
管理和可用性(7)
-
- Cephfs
Cephfs-shell: stable (Luminous-)
Multi-MDS: stable (Mimic-)
Snapshot: stable (Mimic-)
RGW
パフォーマンスの向上
認証機能の追加(STS, OPA, Kerberos/AD)
Pub / Sub API
http://docs.ceph.com/docs/master/radosgw/pubsub-module/
Public Cloud との同期 (Mimic-)
Tiering
容器平台
-
- Dockerhub にて base image を提供
Rook, ceph-ansible が利用している
Rook
https://rook.io
Kubernetes 向けの Operator (Ceph の他、 Cassandra 等にも対応)
コミュニティの活動が活発で、急ピッチで機能追加や安定化が進んでいる
表现 (0)
-
- Ceph Performance for NVMe
https://www.flashmemorysummit.com/English/Collaterals/Proceedings/2018/20180808_SOFT-202-1_Liu.pdf
Flush Memory Summit 2018
Latency, IOPS 性能が SSD 等により、大幅に引き上げられたため、Software が Bottle Neck になってきた
HDD
Latency >2 ms
IOPS <500
SATA NAND SSD
Latency < 100 us IOPS > 25,000
NVMe NAND SSD
atency < 100 us IOPS > 400,000
表现 (1)
-
- 今後、Storage Software は、flash や NVMe への十分な対応が必須
Max IOPS だけでなく、CPU core 毎の IOPS 向上が必要
HDD は今後、ニッチ市場となる
表现(2)
-
- Project Crimson
Ceph のデータパスを再実装
Seastar を用いる
https://www.scylladb.com/2018/10/12/scylla-summit-preview-rebuilding-ceph/
現在の主流となっている、NUMA アーキテクチャ で Many Core が実装された場合でも、パフォーマンスをリニアに高めるための toolset
http://seastar.io
ScyllaDB (Cassandra API互換のDB) でも Seastar が用いられている
CPU core 単位で sharding を行い、shared nothing とすることで lock 競合や cache miss, NUMA node跨ぎの通信等のパフォーマンス低下要因を根本的に排除する
表演 (三)
-
- RADOS
OpTracker 改善
Mutex -> std:mutex
lockdep, misc asserts を prod版のバイナリから排除
Auth signature check の最適化
Blustore allocator 改善
bufferlist 改善
多云和公共云 (1)
-
- S3 等の public cloud の価格が、 native storage (Bare Disk + Off-the-shelf server) よりも下回る可能性は低い
-
- クラウド世代のアプリは、Object Storage を主に使用することになる
Block (RBD) や File (CephFS)も VM や Legacy server では使われるが、動画や写真等は – Object Storage の方が圧倒的に便利だしコストも低い
最近のITインフラは、Public / Private cloud や Data Center を跨いで 様々なリソースが配置されている
多云和公共云(2)
-
- Reframe RGW
従来
RGW = Ceph/RADOS Cluster への gateway
新しい位置づけ
RGW = フェデレーションサイト/ゾーン メッシュへの gateway
Local storage <-> Public cloud, Private cloud
No local storage <-> Public cloud, Private cloud
Etc.
RGW multisite 機能では、既に沢山の機能が実装されている
多云和公共云(3)
-
- Federation
ElasticSearch integration
Riak-CS の yokozuna 的なもの..
Cloud sync (Mimic-)
S3 等の Public cloud への replication
Tiering (Nautilus-)
個別の object を external cloud storage tier に送信
Archive (Nautilus-)
異なるサイトへの archiving
多云和公有云 (4)
-
- NooBaa
https://jp.techcrunch.com/2018/11/28/2018-11-27-red-hat-acquires-hybrid-cloud-data-management-service-noobaa/
RedHat 社が Multi cloud storage のベンダ、NooBaa を買収
近いうちに Ceph 側にも連携機能が実装される可能性が高い
摘要
-
- Ceph 最新動向のまとめ
Management and Usability
Container platforms
Performance
Multi- and hybrid cloud