Ceph 2019年2月 Nautilus即将发布！最新动向概述

2 年 ago

雅, 悟

3 minutes

首先

计划在2019年2月发布Ceph的最新版本（版本14.x；发布名称：海鸥座）。在本文档中，我们将总结在Ceph Day柏林上发布之前关于Ceph的最新信息。

参考资料

CEPH DAY BERLIN – WHAT'S NEW IN CEPH from Ceph Community

2018年11月 Ceph Day Berlin
Sage Weil氏講演資料

最近，Ceph 的重要举措

Multi- and hybrid cloud

管理和可用性(0)

http://docs.ceph.com/docs/mimic/mgr/balancer/
OSD毎の Disk 利用率を自動的に最適化し、偏りを小さくする
crush-compat (<Luminous)

Luminous 未満の OSD で利用可能
新たに導入されたパラメタを自動調整することで、PG配置の最適化を実現

upmap (Luminous-)

新たに導入された upmap の機能を用いて、PGのマッピングを個別に移動することで最適化を実現
weight-set と比べて、きめ細かい制御ができる反面、従来のバージョンとは互換性がないため混在できない

管理和可用性 (1)

HDD /SSD 等に合わせた tuning の自動化 (Luminous-)
Memory size に合わせた tuning の自動化
pg_num tuning の自動化

pg_num を小さくすることもできるようになる

Telemetry plugin

http://docs.ceph.com/docs/master/mgr/telemetry/
Cluster の Anonymous data を Ceph project に自動送信
Opt-in で自動的に電話通知する仕掛けも用意される模様

管理与可用性 (2)

http://docs.ceph.com/docs/master/mgr/crash/
Crash dump を一元的に管理できる

Insights plugin

http://docs.ceph.com/docs/master/mgr/insights/
色々 CLI を叩かなくても、このコマンド1発で cluster の健全性に関する情報を収集できる

Diskprediction plugin

http://docs.ceph.com/docs/master/mgr/diskprediction/
https://www.prophetstor.com/jp/disk-health-prediction-for-ceph-mimic/

CEPH DAY BERLIN – DISK HEALTH PREDICTION AND RESOURCE ALLOCATION FOR CEPH BY USING MACHINE LEARNING from Ceph Community

Disk が故障する前に、予防交換できることを目指している
将来的には、prediction に基づき自動evacuationが実行できるようになる模様
Local predictor だと 70% accuracy と低いため、production利用だと ProphetStor のクラウドサービスと接続する Cloud predictor を使う必要があるかもしれない

管理和可用性(3.1)

管理和使用便利性(3.1)

http://docs.ceph.com/docs/master/mgr/dashboard/
Ceph の運用に必須の metric が、出力できるようになった (Mimic)
殆どの metric が見られるようになる (Nautilus)
Orchestrator Plugin[後述] の操作が出来るようになる (Nautilus-)
Nautilus の UI はこちらを参照

Managing and Monitoring Ceph – Ceph Day Berlin – 2018-11-12 from Lenz Grimmer

管理和可用性 (3.2)

管理和可用性 (4)

Orchestrator Sandwich の概要

管理和易用性 (5)

ceph-ansible, kolla-ansible, juju 等、それぞれが独自の Workflow を用意していた

これからの Deploy (Nautilus-)

http://docs.ceph.com/docs/master/mgr/orchestrator_cli/
Ceph が運用管理の抽象レイヤを提供
Orchestrator Plugin の sub-plugin として ceph-ansible, Rook, DeepSea プラグイン等を用意することで、様々な Workflow に対応
オペレータは Orchestrator 実装を気にせず、統一した User Interface で Ceph を管理できるようになる
とても興味深いアプローチ; 他の分散システムにも応用すると面白そう

管理和可用性 (6)

OSD memory stability
PG log length の制限
OSD cache消費量を適切に制限

MSGR2

Encryption, IPv6, Kerberos authentication

RBD

Async mirroring 改善 (Point-in-Time DR with failover/failback, etc.)
Security namespace
RADOS pool跨ぎの live image migration

管理和可用性(7)

Cephfs-shell: stable (Luminous-)
Multi-MDS: stable (Mimic-)
Snapshot: stable (Mimic-)

RGW

パフォーマンスの向上
認証機能の追加(STS, OPA, Kerberos/AD)
Pub / Sub API

http://docs.ceph.com/docs/master/radosgw/pubsub-module/

Public Cloud との同期 (Mimic-)
Tiering

容器平台

Rook, ceph-ansible が利用している

Rook

https://rook.io
Kubernetes 向けの Operator (Ceph の他、 Cassandra 等にも対応)
コミュニティの活動が活発で、急ピッチで機能追加や安定化が進んでいる

表现 (0)

https://www.flashmemorysummit.com/English/Collaterals/Proceedings/2018/20180808_SOFT-202-1_Liu.pdf
Flush Memory Summit 2018
Latency, IOPS 性能が SSD 等により、大幅に引き上げられたため、Software が Bottle Neck になってきた
HDD

Latency >2 ms
IOPS <500

SATA NAND SSD

Latency < 100 us IOPS > 25,000

NVMe NAND SSD

atency < 100 us IOPS > 400,000

表现 (1)

Max IOPS だけでなく、CPU core 毎の IOPS 向上が必要

HDD は今後、ニッチ市場となる

表现（2）

Ceph のデータパスを再実装
Seastar を用いる

https://www.scylladb.com/2018/10/12/scylla-summit-preview-rebuilding-ceph/
現在の主流となっている、NUMA アーキテクチャで Many Core が実装された場合でも、パフォーマンスをリニアに高めるための toolset
http://seastar.io
ScyllaDB (Cassandra API互換のDB) でも Seastar が用いられている
CPU core 単位で sharding を行い、shared nothing とすることで lock 競合や cache miss, NUMA node跨ぎの通信等のパフォーマンス低下要因を根本的に排除する

表演 (三)

OpTracker 改善

Mutex -> std:mutex

lockdep, misc asserts を prod版のバイナリから排除
Auth signature check の最適化
Blustore allocator 改善
bufferlist 改善

多云和公共云 (1)

Block (RBD) や File (CephFS)も VM や Legacy server では使われるが、動画や写真等は – Object Storage の方が圧倒的に便利だしコストも低い

最近のITインフラは、Public / Private cloud や Data Center を跨いで様々なリソースが配置されている

多云和公共云（2）

従来
RGW = Ceph/RADOS Cluster への gateway
新しい位置づけ
RGW = フェデレーションサイト/ゾーンメッシュへの gateway

Local storage <-> Public cloud, Private cloud
No local storage <-> Public cloud, Private cloud
Etc.

RGW multisite 機能では、既に沢山の機能が実装されている

多云和公共云（3）

ElasticSearch integration

Riak-CS の yokozuna 的なもの..

Cloud sync (Mimic-)

S3 等の Public cloud への replication

Tiering (Nautilus-)

個別の object を external cloud storage tier に送信

Archive (Nautilus-)

異なるサイトへの archiving

多云和公有云 (4)

https://jp.techcrunch.com/2018/11/28/2018-11-27-red-hat-acquires-hybrid-cloud-data-management-service-noobaa/
RedHat 社が Multi cloud storage のベンダ、NooBaa を買収
近いうちに Ceph 側にも連携機能が実装される可能性が高い

摘要

Management and Usability
Container platforms
Performance
Multi- and hybrid cloud