介绍StreamSets数据收集器

我是一名居住在美国的Java女工。我想介绍一下来自旧金山的初创公司StreamSets(或者说我工作的这家公司哈哈),他们正在开发一款名为Data Collector的产品。

Data Collector 是什么?

根据公司网站所述

StreamSets数据采集器是一个轻量级但功能强大的引擎,可以实时传输数据。使用数据采集器来路由和处理数据流中的数据。

我们提供一款轻量且强大的数据流引擎,可以通过简单的图形用户界面轻松实现数据的移动和转换。由于这是一个开源产品,所以源代码已经公开在github.com/streamsets上。

例如,可以在进行字段验证的同时将本地文件移动到Hadoop FS,将Apache Web服务器的日志移动到ElasticSearch,并在过程中检测到警报。

Screen Shot 2016-03-25 at 4.04.40 PM.png

目前数据输入的来源

    • ローカルファイル

 

    • File Tail

 

    • Hadoop FS

 

    • JDBC

 

    • HTTP Client

 

    • Amazon S3

 

    • Kafka

 

    • MongoDB

 

    • Omniture

 

    • MapR

 

    • RPC

 

    • UDP

 

    RabbitMQ

数据输入的目的地是

    • Cassandra

 

    • Elasticsearch

 

    • Flume

 

    • Hadoop FS

 

    • HBase

 

    • Hive Streaming

 

    • InfluxDB

 

    • JDBC

 

    • Kafka

 

    • Kinesis

 

    • MapR

 

    • RabbitMQ

 

    • SDC RPC

 

    • Solr

 

    Error/Trash

我认为只要安装并查看GUI界面,你就应该大概明白了,所以现在就安装并启动它吧。

安装和启动

– Mac OS下操作环境
– 已安装Java 1.8版本

Screen Shot 2016-03-25 at 3.34.24 PM.png

从下载站点下载tarball. 在一个适当的目录中.

$ tar xvzf streamsets-datacollector-all-1.2.2.0.tgz
$ streamsets-datacollector-1.2.2.0/bin/streamsets dc

当您通过浏览器访问http://localhost:18630,将会显示登录页面!

Screen Shot 2016-03-25 at 4.16.16 PM.png

用admin作为用户名和密码登录。
点击“创建新管道”按钮。随意输入管道名称。

Screen Shot 2016-03-25 at 4.18.48 PM.png

在这个校园的上方放置输入源和输出目标的图标,以创建数据流水线!

Screen Shot 2016-03-25 at 4.48.52 PM.png
Screen Shot 2016-03-25 at 4.45.06 PM.png

暂时就到这里吧。下次,我想要亲自尝试制作教程中提到的管道。