Dataiku DSS和postgreSQL的连接
在实际工作中进行数据分析时,总会遇到不得不使用数据库的时候。因此,本次将介绍有关Dataiku DSS和postgreSQL的协作。我参考了这个教程来完成。
Dataiku DSS可以与多种数据存储进行连接,并且在2020年12月已经全面支持了10种存储方式。有关支持的存储详细信息,请参阅此处。
环境
Ubuntu 18.04.4 LTS
postgreSQL 13.1
Dataiku 版本 8.0.2
安装 PostgreSQL
从公式下载网站上安装。
(根据需要)在postgreSQL中设置postgres用户的密码。
最初密码认证无法顺利进行,所以我只能靠强力解决了问题。
我相信一定有更聪明的方法,我有这样的预感。
首先,我们将寻找密码设定文件pg_hba.conf。
sudo find / -name pg_hba.conf
所以,因为知道pg_hba.conf的位置,将pg_hba.conf中的第一行peer更改为trust,如以下所示。(sudo vi)
host all all 127.0.0.1/32 trust
重新加载设置。
sudo /etc/init.d/postgresql reload
使用这个方法,可以以postgres用户无需密码登录,所以在这里设置密码。
psql -U postgres
postgres=# \password
更改pg_hba.conf文件的第一行,將trust改為md5,然後重新載入(postgresql)的設定。
PostgreSQL的初始设置
根据本次处理的内容,我们会创建表格和卷轴。
因为想要从CSV文件中读取数据,所以请先将以下CSV文件放置在/home/dataiku/下。
https://downloads.dataiku.com/public/website-additional-assets/data/orders.csv
我在初始设置阶段大致做了以下工作。
-
- dku_tshirt_adminユーザーを作成
-
- データベースとしてdkuを作成し、スキーマとしてdku_tshirtを作成
- ordersテーブルを作成し、orders.csvからファイルを読み込む
psql -U postgres
postgres=# CREATE DATABASE dku; -- dkuデータベース作成
postgres=# \c dku
dku=# CREATE SCHEMA dku_tshirt; -- dku_tshirtスキーマ作成
dku=# CREATE USER dku_tshirt_admin WITH PASSWORD 'password'; -- dku_tshirt_adminユーザー作成
dku=# GRANT ALL PRIVILEGES ON SCHEMA dku_tshirt TO dku_tshirt_admin; -- dku_tshirt_adminユーザーのdku_tshirtスキーマへの権限設定
dku=# \connect - dku_tshirt_admin -- dku_tshirt_adminにユーザー変更
dku=# CREATE TABLE dku_tshirt.orders(
dku(# "order_date" DATE
dku(# ,"pages_visited" INT
dku(# ,"order_id" VARCHAR
dku(# ,"customer_id" VARCHAR
dku(# ,"tshirt_category" VARCHAR
dku(# ,"tshirt_price" FLOAT
dku(# ,"tshirt_quantity" INT
dku(# ); -- 空のordersテーブルを作成
dku=# \q
一旦返回Shell,将orders.csv文件导入到orders表中。
$ psql -U dku_tshirt_admin -c "copy dku_tshirt.orders from stdin ENCODING 'utf8' CSV HEADER DELIMITER E',';" dku < /home/dataiku/orders.csv
Dataiku DSS 和 postgreSQL 的连接




现在,你已经准备好从Dataiku DSS中调用postgreSQL内的数据了。
将PostgreSQL上的表格作为Dataiku DSS的数据集导入。
我们将实际从项目中访问PostgreSQL上的数据。
通过将PostgreSQL上的表作为Dataiku DSS的数据集导入,可以访问PostgreSQL上的数据。






现在,Dataiku DSS和postgreSQL的基本设置已完成。