Hadoopのシリアライズとデシリアライズはどのように実装されるのか。

1年 ago

芽依, 雨夜

1 minute

Hadoopのシリアライゼーションとデシリアライゼーションは、主にWritableインターフェースとWritableComparableインターフェースによって実装されます。Writableインターフェースは、シリアライズおよびデシリアライズ可能なデータ型を定義し、WritableComparableインターフェースは、比較メソッドを追加したWritableインターフェースを拡張しています。

シリアライズおよびデシリアライズを実現するには、次の手順に従う必要があります：

Writableインターフェースを実装するクラスを作成し、そのクラスにはシリアル化およびデシリアル化が必要なフィールドを含め、writeおよびreadFieldsメソッドを実装してシリアル化およびデシリアル化操作を実現する。

public class MyWritable implements Writable {
    private String field1;
    private int field2;
    
    // 必须实现无参构造方法
    public MyWritable() {
        
    }
    
    public void write(DataOutput out) throws IOException {
        out.writeUTF(field1);
        out.writeInt(field2);
    }
    
    public void readFields(DataInput in) throws IOException {
        field1 = in.readUTF();
        field2 = in.readInt();
    }
}

MapReduceプログラムでこのカスタムのWritableクラスを入出力のデータ型として使用します。 MapperとReducerで、writeとreadFieldsメソッドを呼び出してシリアライズおよびデシリアライズ操作を実装します。

public static class MyMapper extends Mapper<LongWritable, Text, Text, MyWritable> {
    private MyWritable myWritable = new MyWritable();
    
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] parts = value.toString().split(",");
        
        myWritable.setField1(parts[0]);
        myWritable.setField2(Integer.parseInt(parts[1]));
        
        context.write(new Text("key"), myWritable);
    }
}

public static class MyReducer extends Reducer<Text, MyWritable, Text, NullWritable> {
    public void reduce(Text key, Iterable<MyWritable> values, Context context) throws IOException, InterruptedException {
        for (MyWritable value : values) {
            // 反序列化操作
            String field1 = value.getField1();
            int field2 = value.getField2();
            
            // 执行其他操作
        }
    }
}

Hadoopでは、WritableインターフェースとWritableComparableインターフェースを実装することで、シリアライズおよびデシリアライズを実現し、MapReduceプログラム内でカスタムデータ型の保存と処理が可能となります。

#プログラミング #技術記事