考察分散系统的分区

3 年 ago

雅, 悟

2 minutes

有一本关于分散系统的优秀书籍出版了，我会以其中的第六章为基础来考虑分区设计。这本书叫做《设计数据密集型应用》。

语言术语的含义

data(record, row or document)は必ず一つのパーティションに属する
(技術的にはvertical partitioningというのもあるけど、そこはこの本では考慮していない模様)

主要目標是可扩展性 (zhǔ mù shì kě kuò

ただlarge, comprexクエリ（特定のパーティションに閉じない処理という意味で良いと思う）は各ノードでパラレルに実行できる余地はあるが難しい
(難しいというのは実装とかいろんな意味を含めてだと思う)

历史

そのあと(2010年頃)にNoSQL, Hadoopが出てきた

实施

（実用ではNoSQLとか使うときに、どのカラムでパーティショニングする設計は依然として重要）

如何进行分区

KeyRangeで行う方法とHashで行う方法がある

使用KeyRange进行分区

特定のKey(RDBのカラムと同じ意味)のデータの範囲を元にパーティショニングする

优点

However, please note that the phrase “Pros” does not have enough context for a proper translation. Could you please provide a sentence or more information for a better paraphrase?

レンジスキャンができる

以下内容的中文释义选项为：
能耐

データを挿入するときにskewが発生する可能性がある
timestampのように特定の順序でデータを挿入していくケース
(このケースはRDBでもindexの特定のリーフに更新が集中して、ロック待ちで遅くなるケース)
IoTみたいなユースケースだと[sensor id]+[timestamp]をkeyにして回避したりする

使用 KeyRange 的产品

MongoDB (MongoDBはhashパーティショニングも可能)

使用哈希进行分区。

各パーティションはハッシュ値の範囲をもち、その範囲内のデータがそれぞれ格納される

利: 好处

データもクエリロードも均等に分割できる

据报道

レンジスキャンが非効率 (そもそもレンジスキャンができない製品もたくさんある。voldemort, riak, couchbase …)

使用哈希功能的产品

Cassandra、MongoDB、Voldemort、Riak、Couchbase和dynamodb中，Hash比KeyRange更多。

哈希分区的改变

これはunusual caseではあるが、ありえない話でもない。SNSでfollowerをたくさん持つ有名人が何かしたときに有名人IDに対してread/writeが集中するとか。

このようなskewを回避する方法はデータベースでは今はない。回避するとしたらアプリケーションで頑張る。例えばkeyにランダム値を付与するとかして。

次要索引

そもそも実装していない製品(HBaseとか)も多い
パーティショニングをするデータベースでセカンダリインデックスを使う方法としてdocument-based partitioningとterm-based partitioningがある

基于文档的分区

このセカンダリインデックスは他のパーティションにどのようなデータが入っているかは関知しない

专业人士

writeが特定のパーティションに閉じる

请提供更多上下文或完整的句子，以便我可以为您提供准确的翻译。

readは全てのパーティションのセカンダリインデックスを検索する必要がある

使用基于文档的产品

Cassandra

基于术语的

globalなセカンダリインデックスを特定のホストにおくわけにはいかないので、このインデックス自体もKeyRangeやHashのパーティショニングで分散される

优点

readが特定のパーティションに閉じる

对不起，我只会英语。我希望我能帮到您。

で、distributed transactionをしている製品などこの世になく、asynchronousでセカンダリインデックスを更新している。

使用基于术语的产品

Oracle data warehouse

短文：”リバランシング”

中文翻译：”再平衡”

負荷をあるノードから別のノードに移すことをリバランシングという

对重新平衡抱有期望

動かす必要のないデータは動かさない。network, disk I/Oを少なくする目的で

实现方式 (shí shì)

固定数量的分区

パーティションの移動はすぐに終わるわけではないので、移動中でも移動元のパーティションはread/writeを受け付ける

优势 shì) or 利处 (lì chù)

動的なパーティションの分割やマージがないので性能は均一化しやすい

只需要一个选项

(パーティション数多すぎて性能がすごい落ちるとかあまり経験ないけど)

使用固定数量的分区的产品

Voldemort

动态分区划分

KeyRangeでパーティションする製品にはよく使われる（事前にkeyの範囲がわからないのに固定のパーティションを決めるのは難しいため）

优点

適切なパーティション数が維持できるため、余計な負荷がかからない

以下是中文的本地化释义，仅提供一种选择：

结论

KeyRangeパーティションのConsと一緒。事前にkeyの範囲を定義することで回避

使用动态分区的产品 de

RethinkDB

按节点比例进行分割

Fixed number of partitionsやDynamic Partitioningはノード数を考慮することはなかった

当有新节点加入时，随机选择一些分区进行分割，并将分割后的碎片移动到新节点上。

以下是正式、官方、可靠的评估结果。

他の２方式のようなConsを持たない

对不起，我无法提供中文的服务。

ランダムに何個かのパーティションを選んでスプリットするので各パーティションでデータが均等化しない

使用按节点进行比例划分的产品。

ketama

自动还是手动

(負荷の調整も含めてautomaticにやってほしいが、そこまで賢い製品はないと思ってる)

请求路由

cassandraとかriakは違いgossipプロトコルでちょっとずつマッピング情報を各ノードに反映していく