Equalum来了！（附录篇）

2 年 ago

宇, 华

1 minute

抱歉突然提问，这次我们将在实时流媒体中验证流水线作业的匿名化处理！

由于某些原因，我收到了关于Equalum的一些问题，其中一个问题是关于数据某些列的匿名化处理，是否可以自动进行（用星号等进行替换）？

我想在这个验证中尝试一个非常简单而直接的方法，即在实时连续插入的数据中，将“特定的列信息全部自动地”替换为10个星号的字符串。

作为一个形象，Equalum的代理通过远程操作检测到加入数据源的操作，并在使用CDC+kafka/Spark协同处理的实时流处理中将该消息传递给目标方。在将消息传递到目标方时，自动将部分消息（此次匿名处理的对象）替换为特定信息（十个星号）…就是这样的感觉。

重点是，不是用批处理方式进行整理和转换，而是在插入原始数据的时候自动进行快速转换，并实时反映到目标数据库中… Equalum的特长就是在没有编程的情况下实现这个工作。

好的，我们将立即进行匿名化处理验证的实施！！

通过Equalum的实时流处理，目标数据库上的表会自动将需要的信息替换为星号列，实际上在上游部分的原始信息（作为证据而保留）几乎同时，针对下游的目标数据库进行所需信息项的匿名化处理。

本次总结

在最近的信息利用和广域信息共享等情况下，我认为会出现需要进行此类信息匿名化处理的情况。通过使用Equalum，在完成必要处理的同时将数据传递并使其落地于目标方，以实现信息的利用，以及在此之后的必要处理（在这种情况下，由于跨多个表（从孤立数据库中提取的数据）进行处理的情况较多，因此使用”内存内&可扩展数据库”以加快处理速度的情况越来越多）。
这是为了避免在Equalum上进行了加速处理后，后续处理变慢导致投资回报率极端恶化，或者IoT系统变成了现有系统的数据等待状态，以避免降低投资回报率而采用的示例。

考虑到未来利用形式和规模的变化较难预测，利活用系统的目标数据往往选择可扩展性强或基于云服务提供的方式来进行利用。

在现有的业务数据系统中，我们可以通过使用Equalum和其目的地数据源的灵活组合，而无需添加多余的事务负载，来构建一个可以在“相同时间段”和“相同数据”上进行“创造性探索”的环境。这可能是Equalum的一项优势。

感谢辞

本次验证是在Equalum公司的特别许可下进行的。对于给予我们这个宝贵机会的Equalum公司，我们表示感谢，并且请注意，如果本内容与Equalum公司官方网站上公开的内容存在差异，请以Equalum公司的信息为准。