大数据的背景与技术:Hadoop/NoSQL/云计算

小数据数据仓库和大数据数据仓库

bigdata-dwh.png

过去,(小数据)通常将数据从关系数据库(RDB)积累到数据仓库(DWH)。随着数据量的增加,出现了大量数据处理和数据积累的问题。此外,数据本身也呈现出多样化,无法通过关系数据库来应对的情况也有所增加。

因此,作为应对大量数据(大数据)的技术,有”Hadoop”和”NoSQL”。

Hadoop -> 霍普

Hadoop是一个用于在大量计算机上进行大规模数据处理的系统。

Hadoop最初是以Google开发的分布式处理框架「MapReduce」为参考而创建的。为了运行MapReduce,需要使用Java编程语言,但后来开发了「Hive」,使得可以用类似SQL的查询语言进行数据汇总。

時期イベント2004年12月GoogleからMapReduce論文が発表2007年9月Hadoopの最初のバージョン(0.14.1)がリリース2009年5月Hiveの最初のバージョン(0.3.0)がリリース2011年12月Hadoop 1.0.0リリース

非关系型数据库

NoSQL是一种数据库的总称,旨在消除传统关系型数据库的限制。以下是NoSQL的种类。

NoSQLの種類説明キーバリューストア (KVS)多数のキーと値を関連づけて保存ドキュメントストアJSONのような複雑なデータ構造を保存ワイドカラムストア複数のキーを用いて高いスケーラビリティを実現
時期イベント製品の種類2009年8月MongoDB 1.0 リリースドキュメントストア2010年7月CouchDB 1.0 リリースドキュメントストア2011年9月Riak 1.0 リリースキーバリューストア2011年10月Cassandra 1.0 リリースワイドカラムストア2011年12月Redis 1.0 リリースキーバリューストア

大数据和云服务

由于在大多数计算机上进行分布式处理需要管理相应的硬件设备,这并不容易,所以我们采用云服务来按时间单位进行资源管理。
此外,我们也使用云服务作为大量数据的仓库(Data Warehouse)。

時期イベントサービスの特徴2009年4月Amazon Elastic MapReduce発表クラウド向けHadoop2010年5月Google BigQuery発表データウェアハウス2012年10月Azure HDInsight発表クラウド向けHadoop2012年11月Amazon Redshift発表データウェアハウス
广告
将在 10 秒后关闭
bannerAds