图灵奖得主探讨大数据的未来

在我作为IBM阿尔马登研究所的暑期实习生工作期间,迈克尔·斯通布雷克先生向我们做了一个关于大数据的过去、现在和未来的演讲。他不仅是麻省理工学院的教授,还参与了多个与数据库系统相关的初创企业,并获得了图灵奖。
本文介绍了主要的演示要点。(由于是一个零散的笔记总结,所以有些地方会有不连贯之处,请见谅。)
麦克尔先生的演示中,他介绍了大数据的主要问题和挑战,并根据”3V”提出了解决这些问题和提供解决方案的建议。这里的”3V”是指:
– Volume(大量):指的是海量的数据量。
– Velocity(速度):能否实时处理和分析数据。
– Variety(多样性):从各种信息源进行数据分析。
音量
大数据的简单分析方法已经是一个已经解决的问题。过去我们使用SQL进行分析,但在未来的时代,使用统计学和机器学习等来预测数据模型会更好。因此,我们将利用以下工作流程来使用现有的数据分析工具进行分析。然而,目前的大部分数据库技术都采用行存储和列存储的结构,而针对机器学习等分析(主要是外积等)所需的是能高效执行线性代数例程的阵列式数据库结构,它是解决大数据分析问题的关键所在。
在那里,迈克尔先生提到了Hadoop和Spark,它们是当前在大数据分析中经常使用的技术,并列举了各自技术的缺点。
Hadoop 谷歌网址
-
- マップ・リデュースは基本的にはSQLマーケット向け
-
- グーグル社(アルファベット)はすでにこれを見捨てた
- 単純に言うと、Hadoopはファイルシステムの上にSQLを乗せたもの
火花
-
- メモリを使うが、その点、データの持続性がない
-
- データ共有が難しい;主にネットーワークで送信に時間かかるし、バッファープールもない
- これもまたSQL版もある→SparkSQL、なのでこれもまたSQLマーケット向け
卷的总结
-
- 機械学習などの分析を利用
-
- 行ストアとカラムストア構造より、UDFを使ったアレイ式構造を利用する
-
- 上の二つにより、HadoopとSparkからの問題点と共に、分析エンジン(線型代数学エンジン)をデータベースに仕込む
- 要するに、分析とデータをストアを両方するプラットフォームが必要
速度
据说在现今时代,随着物联网(IoT)等传感器和服务器日志等实时数据的涌现,需要能够处理这些数据的系统。目前,Apache Storm和Apache Kafka等实时数据处理工具被广泛采用。
因此,关于实时数据处理的一些问题,如何控制实时数据丢失的风险可以这样表达:
– 需要数据的持久性
– 使用高性能的在线事务处理(OLTP)
– 尽量减少潜在问题,保持数据的复制、回滚和冗余
– 主要的OLTP系统示例:VoltDB、NeoDB、MemSQL
然后,对于这个问题已经提出了如下解决方案:
– 使用RDMA(远程直接内存访问)作为并发控制机制
– 在广域网上保持数据的冗余性,并在其中进行复制。
多样性
现在广泛使用的大数据结构,大多数是像将数据存放在筒仓中那样保存的。关键是在企业内部保存私有数据和政府或开源公开的数据两者结合进行分析。然而,随着数据量的增加,预处理工作和数据清洗变得非常困难。这是因为最初并没有提出全局模式,大部分数据没有被规范化。但是,提出模式,并将其实际应用于大数据是非常困难的。
在这里的重点是需要创建一个将人类操作作为数据预处理工作的一部分纳入其中的环境,这被认为是当前大数据的瓶颈。
通过将大数据的预处理工作与机器学习流程和“Human-in-the-Loop”模型相结合,可以实现更快速的管理,这被视为解决方案。
以上,是迈克尔先生的演示总结。
个人的主观看法
-
- 問題点は色々と指摘したが、効果的な解決法とはなるような物は詳しく教えてくれなかった。
-
- 結局、自分のスタートアップのサービスの広告的なプレゼンでもあったw
- 個人的な考えでは、P2P式のブロックチェーンなどの構造でデータの保存とプロセスを編み込むのが一番だと思う。ブロックチェーン構造は提案した解決法と結構当てはまる部分が多いと思う。(今、個人のサイドプロジェクトとしてブロックチェーン構造を利用したP2Pディープラーニングプラットフォームを開発中、完成次第その時に記事を書きます・・・)