从零开始Hortonworks(设置沙盒~加载数据到HDFS)
HortonWorks是关于数据分析的一项东西,对吧?
我是根据我对Hortonworks的一些了解去尝试接触的。
用汉语将此文章内容归纳为三句话。
-
- Hortonworksのsandboxは、様々なデータ分析が楽しめる
Microsoft Azureを使えば、ボタンぽちぽちですぐ使える
チュートリアルが充実(・・・しすぎてどれを始めればいいか迷った)
开始之前
Hortonworks是某项服务的名称吗?
还是一家公司的名称?
Hortonworks:霍顿沃克斯(Hortonworks)
哦, 是这样
-
- Hortonworksは会社名
-
- Hortonworksのwは小文字
- 企業の持っているデータをいい感じに活用する何かを提供している
有没有什么可以好好利用起来的东西可以试一试呢?
看到「产品」后,我注意到有一个使用沙盒的教程,所以我从这里开始尝试。
在Azure上部署沙盒
我决定在Azure上创建一个沙箱环境。
我参考了以下文章来创建部署方法。
在Azure上的Hortonworks数据平台上尝试使用Hadoop和Spark。
当阅读从模板部署时的说明文时
在Sandbox中,有超过50个亲身实践教程,将引导您学习Hadoop、Spark、Storm、HBase、Kafka、Hive、Ambari和YARN;这些教程是基于我们Hortonworks大学培训班培训数千人的经验建立的。
如果您对Hadoop、HDP和Sandbox还不熟悉,我们建议按照一系列教程开始入门。
沙盒环境非常有趣,可以享受很多教程!
http://<在Azure分配的公共IP地址>:8080/
当访问此链接,即可进入管理门户Ambari。
输入初始用户ID和密码 “maria_dev / maria_dev”,即可登录。

我试着继续进行安装设置。
我们将继续进行 sandbox 的设置。
http://jp.hortonworks.com/hadoop-tutorial/learning-the-ropes-of-the-hortonworks-sandbox/
2.1 手动设置 Ambari 管理密码
进行Ambari管理员密码的重新设置和重新启动。
$ sudo ambari-admin-password-reset
Please set the password for admin:
Please retype the password for admin:
The admin password has been set.
Restarting ambari-server to make the password change effective...
Using python /usr/bin/python2
Restarting ambari-server
Using python /usr/bin/python2
Stopping ambari-server
Ambari Server stopped
Using python /usr/bin/python2
Starting ambari-server
Ambari Server running with administrator privileges.
Organizing resource files at /var/lib/ambari-server/resources...
Server PID at: /var/run/ambari-server/ambari-server.pid
Server out at: /var/log/ambari-server/ambari-server.out
Server log at: /var/log/ambari-server/ambari-server.log
Waiting for server start....................
Ambari Server 'start' completed successfully.
$ sudo ambari-agent restart
Restarting ambari-agent
Verifying Python version compatibility...
Using python /usr/bin/python2
Found ambari-agent PID: 3262
Stopping ambari-agent
Removing PID file at /var/run/ambari-agent/ambari-agent.pid
ambari-agent successfully stopped
Verifying Python version compatibility...
Using python /usr/bin/python2
Checking for previously running Ambari Agent...
Starting ambari-agent
Verifying ambari-agent process status...
Ambari Agent successfully started
Agent PID at: /var/run/ambari-agent/ambari-agent.pid
Agent out at: /var/log/ambari-agent/ambari-agent.out
Agent log at: /var/log/ambari-agent/ambari-agent.log
那么,我将再次登录Ambari。
用户名为admin,密码是我设定的密码。
可以使用管理员帐户登录,并且可以使用顶部菜单中的“管理员”选项。

尝试使用Hadoop教程。
在这个链接(http://jp.hortonworks.com/tutorials/)中,有大量的教程可供学习。
但是,其他的教程好像需要有一些前提知識,所以我先向初学者推荐这个。
Hadoop教程-使用HDP起步
http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/
从上述页面的链接下载并解压名为“Geolocation.zip”的数据。
里面包含两个csv文件。按照这个教程进行可视化数据。
我们按照教程的步骤继续进行。
打开Ambari,从左上角的菜单中选择“HDFS文件”。

请选择用户

选择maria_dev

选择右上方的新目录

创建data目录

进一步,在data目录下移动

上传Geolocation中的CSV文件!

当!

回到上一个层级,在”data”文件夹上进行右键点击。
选择”权限”选项。

点击“Write”,将其设为蓝色并保存。

请把以下内容用中文母语进行改述:
↓

这样一来,我们已经能够将数据加载到HDFS中了。
接下来,似乎要开始对数据进行表格化和分析了。
教程是用英文的,但是有很多图表和解释,所以一直到现在都非常简单易懂地进行下去…
为了不让自己沮丧,我会努力坚持下去。