从零开始Hortonworks(设置沙盒~加载数据到HDFS)

HortonWorks是关于数据分析的一项东西,对吧?

我是根据我对Hortonworks的一些了解去尝试接触的。

用汉语将此文章内容归纳为三句话。

    • Hortonworksのsandboxは、様々なデータ分析が楽しめる

Microsoft Azureを使えば、ボタンぽちぽちですぐ使える

チュートリアルが充実(・・・しすぎてどれを始めればいいか迷った)

开始之前

Hortonworks是某项服务的名称吗?
还是一家公司的名称?

Hortonworks:霍顿沃克斯(Hortonworks)

哦, 是这样

    • Hortonworksは会社名

 

    • Hortonworksのwは小文字

 

    企業の持っているデータをいい感じに活用する何かを提供している

有没有什么可以好好利用起来的东西可以试一试呢?

看到「产品」后,我注意到有一个使用沙盒的教程,所以我从这里开始尝试。

在Azure上部署沙盒

我决定在Azure上创建一个沙箱环境。

我参考了以下文章来创建部署方法。

在Azure上的Hortonworks数据平台上尝试使用Hadoop和Spark。

当阅读从模板部署时的说明文时

在Sandbox中,有超过50个亲身实践教程,将引导您学习Hadoop、Spark、Storm、HBase、Kafka、Hive、Ambari和YARN;这些教程是基于我们Hortonworks大学培训班培训数千人的经验建立的。
如果您对Hadoop、HDP和Sandbox还不熟悉,我们建议按照一系列教程开始入门。

沙盒环境非常有趣,可以享受很多教程!

http://<在Azure分配的公共IP地址>:8080/

当访问此链接,即可进入管理门户Ambari。

输入初始用户ID和密码 “maria_dev / maria_dev”,即可登录。

snip_20161207192003.png

我试着继续进行安装设置。

我们将继续进行 sandbox 的设置。
http://jp.hortonworks.com/hadoop-tutorial/learning-the-ropes-of-the-hortonworks-sandbox/

2.1 手动设置 Ambari 管理密码

进行Ambari管理员密码的重新设置和重新启动。

$ sudo ambari-admin-password-reset
Please set the password for admin:
Please retype the password for admin:

The admin password has been set.
Restarting ambari-server to make the password change effective...

Using python  /usr/bin/python2
Restarting ambari-server
Using python  /usr/bin/python2
Stopping ambari-server
Ambari Server stopped
Using python  /usr/bin/python2
Starting ambari-server
Ambari Server running with administrator privileges.
Organizing resource files at /var/lib/ambari-server/resources...
Server PID at: /var/run/ambari-server/ambari-server.pid
Server out at: /var/log/ambari-server/ambari-server.out
Server log at: /var/log/ambari-server/ambari-server.log
Waiting for server start....................
Ambari Server 'start' completed successfully.
$ sudo ambari-agent restart
Restarting ambari-agent
Verifying Python version compatibility...
Using python  /usr/bin/python2
Found ambari-agent PID: 3262
Stopping ambari-agent
Removing PID file at /var/run/ambari-agent/ambari-agent.pid
ambari-agent successfully stopped
Verifying Python version compatibility...
Using python  /usr/bin/python2
Checking for previously running Ambari Agent...
Starting ambari-agent
Verifying ambari-agent process status...
Ambari Agent successfully started
Agent PID at: /var/run/ambari-agent/ambari-agent.pid
Agent out at: /var/log/ambari-agent/ambari-agent.out
Agent log at: /var/log/ambari-agent/ambari-agent.log

那么,我将再次登录Ambari。
用户名为admin,密码是我设定的密码。

可以使用管理员帐户登录,并且可以使用顶部菜单中的“管理员”选项。

snip_20161207194810.png

尝试使用Hadoop教程。

在这个链接(http://jp.hortonworks.com/tutorials/)中,有大量的教程可供学习。

但是,其他的教程好像需要有一些前提知識,所以我先向初学者推荐这个。

Hadoop教程-使用HDP起步
http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/

从上述页面的链接下载并解压名为“Geolocation.zip”的数据。
里面包含两个csv文件。按照这个教程进行可视化数据。
我们按照教程的步骤继续进行。

打开Ambari,从左上角的菜单中选择“HDFS文件”。

snip_20161207202113.png

请选择用户

snip_20161207202454.png

选择maria_dev

snip_20161207202549.png

选择右上方的新目录

snip_20161207202711.png

创建data目录

snip_20161207202751.png

进一步,在data目录下移动

snip_20161207202958.png

上传Geolocation中的CSV文件!

snip_20161207203120.png

当!

snip_20161207203406.png

回到上一个层级,在”data”文件夹上进行右键点击。
选择”权限”选项。

snip_20161207204231.png

点击“Write”,将其设为蓝色并保存。

snip_20161207204406.png

请把以下内容用中文母语进行改述:

snip_20161207204508.png

这样一来,我们已经能够将数据加载到HDFS中了。
接下来,似乎要开始对数据进行表格化和分析了。

教程是用英文的,但是有很多图表和解释,所以一直到现在都非常简单易懂地进行下去…
为了不让自己沮丧,我会努力坚持下去。

广告
将在 10 秒后关闭
bannerAds