DS考试备考_术语解释_总结
关于这篇文章
我整理了对于作者未理解的术语的解释。这次的整理是参考DS検定対策講座的资料和官方文本完成的,如果内容有错误,请在评论区指出出处和错误之处,敬请指教。官方文本为「最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック [菅由紀子]」。

讲座文本,模拟考试内容
1) 他花了整整一天的时间才完成这份报告。
(Translation: It took him a whole day to complete this report.)
## 伯努利分布
第36页公式
伯努利分布是一种用来表示只能得到成功或失败、正面或反面等两种结果的试验结果的概率分布,例如用0和1表示。
可以用来计算抛硬币等事件发生的概率。
因此,只有两种可能结果的试验被称为伯努利试验。
贝努利分布和二项分布都是离散概率分布,用于描述变量取离散值的情况。
二项分布是表示当进行独立的伯努利试验n次时,出现事件“硬币的正面朝上”x次的概率分布。
具体而言,可以计算投掷n次硬币时正面朝上x次的概率。
已知通过增加伯努利试验的次数n,可以逐渐接近正态分布。
假设进行了 n 次试验,并成功了 k 次,每次试验的成功概率为 p。
nCk 表示在 n 次试验中成功了 k 次的组合方式。
下面是二项分布概率密度函数的公式。
P(X = k) = nCk * (p^k) * (1-p)^(n-k)
「如果使用二项分布,当作弊硬币出现正面的概率为80%时,投掷10次硬币中出现5次正面的概率是多少?」
标准正态分布
公式p30
连续概率分布由以下方程式定义

由于正态分布在理论上易于处理且以平均值为中心左右对称,因此在各种场景中被广泛应用。
以下有两条选项,您可以选择其中一个选项进行翻译;
1. 给我乘以9。
2. 九乘以我的数字。
建立数据管道可以提高数据处理的效率。
数据工程师是一种负责大规模数据整理、管理和运营的职业。
数据挖掘是一项技术领域,在公式p158上。它分析积累的数据,发现在商业上有价值的规律。利用统计等分析方法从海量数据中找出有用信息。
##数据集
是指数据的集合。
##十
应用程序编程接口(API)是连接程序之间的机制。
有时也指提供的按照这个机制的服务。
这被称为API服务。
使用现有的API服务的优点是可以减少应用程序开发的过程和成本。缺点是,如果所使用的API服务发生服务器故障等问题,可能会对自身的服务和应用程序产生影响。此外,由于所使用的API服务的使用变更或提供停止等供应商的原因,可能会对自身的服务提供造成困扰。
使用现有的API服务可以减少应用程序开发的工程和成本。
API服务的例子包括邮政编码搜索、天气预报和登录认证。
API服务不仅有付费的,也有免费的。

参考资料:
11. The city’s population has been steadily increasing for the past decade.
134公式
数据传输方法(技术)
第二讲第三十页
SSH(安全壳层)是一种使用加密和身份验证技术安全地与远程计算机通信的协议。它加密了网络上的所有通信,包括密码和其他身份验证部分。
请参考以下网址以了解更多信息:
https://zh.wikipedia.org/wiki/Secure_Shell
协议(protocol)是指为在计算机中进行数据交换所制定的过程、规范、信号的电气规则以及通信中的发送和接收步骤等标准。即使是不同制造商的软件和硬件之间,只要遵循共同的协议,就可以实现正确的通信。
根据不同的目的,有各种各样的协议。作为常见的例子,用于互联网连接的TCP/IP、用于网络浏览等的HTTP、用于邮件收发的POP和SMTP等可以被提到。它们的末尾都是“P”,表示Protocol(协议)的缩写。
请参考以下网址以获取更多信息:https://www.keyence.co.jp/ss/general/iot-glossary/protocol.jsp
Telenet (通信协议)
通信协议是指在通过网络进行通信时的规定事项。在操作从终端到远程服务器等的过程中使用的通信协议。
## FTP(文件传输协议)
FTP是一种基于各种数据传输技术的文件传输协议。
用于文件传输的协议被称为文件传输协议。
FTP是最古老的数据传输技术之一,以文件的形式处理和传输数据。
它的缺点是通信未加密。
SCP(Secure Copy Protocol)是一种文件传输协议。
利用SCP,通过名为SSH(Secure Shell)的协议对网络进行加密,包括所有在网络上的通信,包括密码认证等,都会被加密。
在SCP中,如果传输被中断,无法从中断处重新开始。
· SCP是一种通过SSH(Secure Shell)进行安全文件传输的协议
· 包括密码等认证部分在内的所有网络通信都会被加密
##HTTP(超文本传输协议)
是用于Web服务器和客户端之间进行通信的协议。
它用于传输如HTML中所述的文本等。
通信不加密。
– HTTP是Web服务器和客户端(浏览器等)之间进行通信的协议。
– 用于传输HTML中所述的文本和图像。
– 存在通信不加密的缺点。
HTTPS(超文本传输安全协议)是一种加密的HTTP通信协议,可以防止窃听、篡改和伪造。在Google Cloud Storage的API中,数据通过HTTPS进行传输。
##SFTP
SFTP是一种文件传输协议。
在SFTP中,通信通过SSH加密,但SCP不同,即使在传输过程中中断,也可以从中间位置重新开始传输。
##12 只需要一个选项
实体关系图
公式p136

构成数据库ER图的要素包括实体、关系、属性和基数。
实体是表示数据的概念。
关系表示实体之间的连接。
属性是指实体内的特性。
基数表示关系的关系,例如“一对一”,“一对多”,“多对多”。也称为多重度。
记录是指数据库表中的行。
通过使用ER图,可以以整洁的方式查看实体表之间的关系,使得除了数据库设计者之外的人能够更容易理解设计的内容。
第18号
典型的的教师指导学习方法
第五章,第78页
返回
对于给定的输入数据,输出合适的连续值。
线性回归、决策树、随机森林、自适应增强、k近邻法、神经网络。
分类
对于某个输入数据,输出适当的类别(正面、背面等)。
支持向量机、逻辑回归、决策树、随机森林、自适应增强、k近邻算法、神经网络
第十九部分
第五章 页码50
公式页码59
MSE、MAE、MSLE是用于回归模型的误差函数,经常与分析结果一起呈现。

均方差(MSE)
平方差的均值是预测与实际之间的差异。
均方根误差(RMSE)
均方根误差(RMSE)等于均方误差(MSE)的平方根。
平均绝对误差(MAE)
在平均绝对误差方面具有良好的解释性,并且很少受到异常值的影响。
MSLE(Mean Squared Logarithmic Error)的中文解释是平均二次对数误差。
即使正解值的分布很大,也有能够适当评估误差的特点。
交叉熵损失
交叉熵误差,又称之为分类模型常使用的。
23. The economy is expected to grow by 5% next year.
关于对时间序列数据进行处理的描述
时间序列分析
第五章,第122页
方程式第116页
观测到的数据
计算原序列的移动平均,可以得到移动平均序列。
将原序列转换为移动平均序列后,局部波动减少,更容易捕捉到长期趋势。
执行快速傅立叶变换对原系列进行处理,可以得到频率谱。
观察频率谱,可以确认原系列的周期性。
・将原系列转换为移动平均序列后,可以确认长期趋势。
・将原系列转换为差分序列后,长期趋势被消除。
⇨可以了解到上升趋势或下降趋势,以及最近的趋势(状况)。
通过对一分钟数据的原始序列进行每小时平均,可以得到每小时的数值数据。
引用:
降采样
通过每小时对1分钟值数据的原始序列进行平均,可以获得每小时值数据。将时间间隔增大的这种操作称为降采样。
时间序列分析
为了捕捉某一现象的时间性变动,需要对时序数据进行分析。一旦捕捉到变动,就能够预测未来的变动。
時系列数据的特征
### 噪声
– 在分析中不需要的信息
– 经常被观察到作为低频成分
### 周期性
– 某种趋势在一定的时间间隔内重复发生
### 趋势
– 时间序列数据的长期变动
– 通过计算移动平均可以提取出趋势成分
移动平均
– 平滑处理时序数据的方法
– 对时序数据进行移动并计算平均值
– 移动平均的类型
– 简单移动平均
– 指数平滑移动平均
以下是原文的中文翻译:
24. 只需要一种选项
第5章第137页
第118页的公式
##句法分析
建构一句话的语法结构的技术
通过将句子分成短句,并检查每个短句之间的关系来推测句子中单词之间的依存句法结构,属于句法分析技术的一部分。
##照应分析
推测指代代词等表达的对象的技术
## 含义关系分析
判断两个句子之间是否存在含义关系的技术
形態素解析是将句子分割成单词,并判断每个单词的属性(词性等)。
形态素
意思的最小单位
一种著名的工具
MeCab
我使用MeCab
・通用的的词素分析工具,不依赖于语言和字典的设计
### JUMAN++
与MeCab相比,JUMAN++使用了更细致的意义分类(考虑了相同词汇的不同意义进行分类)。
虽然处理时间较长,但准确性较高(即能够更准确地分解形态素)。
###Sudachi
・易于非专业人士使用的设计
自然语言处理的代表性任务包括机器翻译、文本摘要、问答和对话等。在非深度学习的自然语言处理中,通常将这些任务分解为子问题来解决。其中一种子问题是句法分析,它是一种构建文法结构的技术。依存分析是句法分析的一部分。在自然语言处理中,还使用了形态分析技术。对于一句话进行形态分析后,将其划分为单词,并给每个单词标注词性。
25. The government is implementing strict regulations to limit air pollution in major cities.
任务
第5章第13页
在机器学习领域中,机器学习模型所处理的问题设定被称为任务。
例如:股票预测、图像识别、图像物体检测、文本分类、机器翻译
一般物体识别是指让计算机能够识别和区分图像中物体的名称和种类的研究领域。
在一般物体识别的领域中,常见的任务包括以下几个。
输出图像中物体的类别
物体检测
输出图片中物体的类别以及围绕该物体的矩形框
例:对于输入的照片,确定事先设定的类别(如人、汽车、树木等)的物体,并用矩形区域标注出来。
语义分割是将图像的每个像素分配给相应物体类别的过程。
只是用于物体检测的一种方法的名称,不是指代任务的词语。
第27章第141ページ
公式は119ページにあります。
##画像フォーマット
###PNG
・支持全彩色(1677万种颜色)
・进行多次保存也不会降低图像质量
###JPG(JPEG)
· 可支持全彩色(约1677万种颜色)
· 通过删除肉眼难以察觉的信息来减小文件大小
· 每次保存都会导致画质下降
###GIF
・只能表示256种颜色
・文件大小非常小
・能够创建类似帧动画的视频
###BMP
· 是Windows中一种常见的图像保存格式。
· 支持全彩色(1677万种颜色)。
· 基本上生成的文件是无压缩的,因此没有画质损失。
· 由于无压缩,数据容量会变得巨大,这也是一个缺点。
BMP是Windows中常见的图像保存格式,也被称为位图格式。与JPEG和PNG这些压缩保存的文件格式不同,BMP基本上是生成不经过压缩的文件,因此图像质量不会降低。然而,由于无压缩,数据容量会变得很大,这是一个困难之处。或者也可以通过减少颜色数量来压缩保存。BMP可以设置为单色二值、16色、256色、1677万7216色(全彩色)。
Reference:
参考文献:
### TIFF
TIFF 是标记图像文件格式(Tagged Image File Format)的简称。
它是一种电子文件和电子化文件的文件格式,支持黑白二值、灰度和各种颜色格式。
TIFF 的特点如下:
– 扩展名为 “.tif” 或 “.tiff”。
– 可处理的颜色位数范围为 1~8、12、24 和 32 位。
– 压缩率并不高,但其特点是可逆压缩。
– 数据如数据数组等会被记录在称为标签的部分,因此同一个 TIFF 文件中可以存在各种不同的格式。
– 压缩方法包括 LZW、G3 Fax 和 G4 Fax 等,支持处理多页。
请参阅以下内容。
视频格式,第五章第146页
在图像数据集合中添加音频数据的数据。
处理视频数据时,需要进行图像处理和音频处理。
视频数据的保存格式包括MP4、AVI、MOV、FIV等。
### MP4
– 能够在许多视频平台上播放。
– 适用于压缩大容量视频。
AVI格式适合在Windows上进行视频编辑和播放。
适合使用Mac进行视频编辑和播放。
+FLV在YouTube和Niconico动画等视频平台广泛使用。
flv是由Flash Video文件格式创建的视频文件的扩展名。
flv是一种主要用于通过Flash Player处理的格式,可以通过Web浏览器轻松播放。它是YouTube、Google视频、NicoNico动画、Ustream等视频共享服务中使用的主要视频文件格式,并且在互联网上广为人知。
Adobe Flash附带了用于将制作的Flash视频编码为.flv的”Flash Video Encoder”,可以方便地创建.flv文件。
请提供更多细节,以使我能够准确理解您的请求。
##音乐格式
官方p123
音声数据是指声音,声音是空气的振动,即波动。它有振幅(大小)和频率(高低),属于模拟信号(连续符号)。
取得的所有数据保存方式是WAV格式。由于直接保存通过麦克风获取和转换的信息,因此音质很高,但数据容量也相应增大。它是适用于Windows的音频文件格式,并且由于未经压缩,所以数据大小较大。
###MP3
为了克服WAV格式数据量过大的弱点,MP3格式是针对人类可听范围进行开发的。
通过去除人类听不到的音频信息,可以用更少的数据量进行储存。
– 数据大小约为原音的十分之一
– 音质与CD相当
– 可以加入专辑封面和歌词。
###AAC
・尽管与MP3相比稍微增加了一些数据大小,但音质却很好。
###AIF(AIFF)
– AIF是一种在苹果公司的Macintosh上作为标准音频文件格式使用的扩展名。
– AIFF是一种容器格式。通常被作为非压缩、线性PCM采样数据的格式来处理,但也可以记录压缩音频。当使用无损压缩时,文件扩展名变为.aifc(英文:来自AIFF-Compression)。
给您提供一个翻译版本:
参考:
34. The company has decided to invest in new technology to improve efficiency and productivity.
统计假设的研究评估
帰零假设:没有差异的假设
对立假设:存在差异的假设
如果假设零假设是正确的,并发生了罕见事件(检验统计量进入拒绝域),那么就会拒绝零假设。
罕见事件有时会发生。
在假设检验中存在两种可能的错误。
第一种错误:
尽管原假设是正确的,但我们却拒绝了原假设。
在第二种错误中,即使对立假设是正确的,却选择接受零假设。
第一種和第二種錯誤的區別是什麼?

46. Could you please summarize the main points of the presentation?
##数据尺度

第48页的第2章第5页
数据存储(在硬盘和固态硬盘上管理数据的机制)
代表性的数据存储实现例
数据库
– 关系型数据库(RDB)
– NoSQL数据库
关系数据库(RDB)在创建表时,需要为每列设置数据类型。
表是由行和列构成的类似Excel表格的数据库,每个格子中可以存储元素。
整数
####数值(包括小数点的数字)
####固定长度的字符串
####字符(固定长度的字符串)
可变长字符串
日期
时间戳(日期和时间)
布尔值
##49的中文翻译如下:”49″
第二章第26页
数据基础设施
数据湖
将收集到的数据原封不动地累积存储的地方(原始数据)
– 用于将各种存储的原始数据集中在一处的环境
– 通常通过构建不依赖数据结构的存储系统来实现
数据仓库
是将经过整形便于分析的数据积累存放的地方
· 是经过汇总和加工的数据积累环境
· 存储的数据可供分析等使用
· 数据仓库最好能与SQL和Python等进行协作
数据仓库
用于存储为特定使用目的而提取的数据的地方
·为了满足特定使用需求,从数据仓库中提取并累积数据的环境
·由于各部门可以设置自己的存储空间,可以实现数据获取处理的负载均衡
在上传数据或将数据移动到不同的数据存储库时,需要使用数据传输技术。
数据的流动
服务->(传输数据)->
->服务用数据库->(传输数据)->
->数据湖(原始数据)->(加工数据)->
->数据仓库->(提取数据)->
->数据集市->(传输数据)->
->分析团队
##50
公式p145
##正規表現
正規表現是一种表示字符串集合的方法,可以用一个字符串来表示。也称为正則表达式,在形式语言理论领域,更常使用这个翻译。有时也被称为正规式。
请你举个例子来说明这个概念。
当需要判定是否包含特定模式的字符串,或者需要提取其中的内容时,可以利用正则表达式来设定搜索和提取条件。
它常被应用于以下情况:
1. 判断输入的地址格式是否正确;
2. 在销售历史的文本数据中,是否能找到含有自家商品代码A00-A99的列。
例子
A00-A99的字符串可以用正则表达式表示为A[0-9]{2}。
使用正则表达式可以对数据进行筛选、清洗和验证等操作。
\d : 匹配任何数字以外的字符。
※可能因语言不同而有所不同。
以下为参考文章:
### 正規表現在以下场景中的应用:
– 在数据库中,将混合存在的字符串如「100円」和「¥100」统一为「100円」
– 搜索包含以句点(。)结尾的字符串的数据
– 将没有用逗号分隔的字符串如「1000」转换为带有千位分隔符的表示法「1,000」
##51
五十一
##表格连接操作
第三章第106页
官方参考p147
完全外部結合是一种操作,它将两个表中存在的所有数据进行合并处理。
在SQL中,可以使用FULL OUTER JOIN来实现。
通过合并轴值,将左表和右表的前置数据进行合并。
即左表∪右表。
内联结
在两个表中,分别指定要进行联结的关联字段,并将存有相同值的数据进行联结的处理方式为:
SQL则为
INNER JOIN
将左侧表和右侧表的联结轴值相符的数据进行联结
左表∩右表
###交差结合
提取两个数据表的所有组合的操作。
外部結合是指在两个表中分别指定要进行连接的列,并获取存储有相同值的数据进行连接的操作。
在内部结合中,不匹配的数据将不会被获取,而在外部结合中,即使不匹配也会被作为数据进行获取。
在SQL中,
LEFT OUTER JOIN
(左外部结合)
是指将左侧表的所有数据与指定连接轴的值匹配的右侧表进行连接。
五十二
数据清洗处理是指从数据库等存储的数据中查找并删除或修改表达的错误、误写、重复等。通过这个处理过程可以提高数据的质量。
### 数据增广
指的是在训练数据中加入平行移动、缩放、旋转、噪音等处理,从而人为地增加数据量(数据扩充)。对于图像而言,可以通过将图像旋转-5°或+5°,并逐渐增加训练数据。
### 采样处理
指的是从数据集合中以随机或固定间隔抽取数据。
零填充
当将数字显示为字符时,如果该数字的行数少于指定的位数时执行的处理。
该处理中,通过左对齐或右对齐在显示的数字前面加上零,从而将数字转换为固定长度的字符串。
##53
###映射处理
当进行数据迁移或者数据合并时,需要将两个不同的数据进行关联的处理。
### 数据分组
将数据根据特定的分类进行分组和整理的处理。
筛选处理
提取符合特定条件的行的操作
##56
五十六
## 表的运算
### 投影操作
从表格中提取特定列的操作
### 选择
从表格中提取满足条件的行进行操作。
結合是一種將多個表格根據特定條件合併成一個表格的操作方法。
从一个表中删除另一个表中包含的业务的操作。
57. Can you help me with my math homework?
数据格式
CSV(逗号分隔值)
是一种用逗号分隔多个项目的数据格式
用逗号分隔的项目构成一个记录,各个记录通过换行分隔
在处理表格数据时经常使用
(类似于Excel的感觉)
由于CSV文件无法正确读取包含逗号的数据项目,因此根据存储数据的表现形式选择适当的数据格式非常重要。
TSV(制表符分隔值)
用制表符将项目分隔的数据格式
###SSV(空格分隔的值)
一种用空格分隔各项的数据格式。
XML是一种描述文档结构的标记语言。
58 号
API(应用程序接口)
是连接程序之间的机制。
有时候也可以指提供基于这个机制的服务。
这被称为API服务。
使用现有的API服务的优点是可以减少应用程序开发的过程和成本。缺点是,使用的API服务出现服务器故障等问题可能会对自己的服务和应用程序造成影响。此外,原提供者对所使用的API服务进行更改或停止提供可能会对自己的服务提供造成困扰。
以下是对上述文本的中文翻译:
优点
通过使用现有的API服务,可以减少应用程序开发的时间和成本。
API服务的例子包括邮政编码搜索、天气预报和登录认证。
API服务不仅有付费的,还有免费的。

请谨慎阅读以下参考资料。
第134公式
数据的传输方法(技术)
第二讲第30页。
SSH(安全外壳协议,Secure Shell)是一种使用加密和认证技术来安全地与远程计算机通信的协议。它可以加密网络上的所有通信,包括包含密码等认证部分的通信。
请参考以下链接:https://zh.wikipedia.org/wiki/Secure_Shell
在计算机领域,协议是指为了在电脑之间进行数据交换而制定的步骤、规定、电信号的电气规则以及通信中收发的步骤等标准。即使是不同制造商的软件和硬件,只要遵循共同的协议,就可以实现正确的通信。
根据不同的目的,存在各种不同的协议。常见的有用于互联网连接的TCP/IP,用于浏览网页等的HTTP,用于电子邮件收发的POP和SMTP等。所有这些协议的末尾都有一个“P”,代表Protocol(协议)的缩写。
参考来源:https://www.keyence.co.jp/ss/general/iot-glossary/protocol.jsp
请参考该网页获取更多信息。
Telenet是一种用于通过网络进行通信的协议。在远程操作服务器等设备时使用的通信协议。
FTP(文件传输协议)是各种数据传输技术的基础,用于文件传输的协议称为文件传输协议。FTP是最古老的数据传输技术之一,以文件的形式处理和传输数据,并且存在通信不加密的缺点。
在FTP服务器上,通常会通过预先注册的用户ID和密码进行认证。
但是,如果要向大量用户共享文件,给每个人都发放用户账户是不现实的。
如果想要向大量用户共享文件,
可以创建一个名为anonymous的用户ID,并设置任意密码来登录。
这就是匿名FTP。
SCP(Secure Copy Protocol)是一种文件传输协议。
SCP通过称为SSH(SecureShell)的协议对网络进行加密,使得包括密码认证在内的所有网络通信都得到加密保护。
SCP不支持从中断处恢复传输。
– SCP是通过SSH(Secure Shell)安全地进行文件传输的协议。
– 所有网络通信,包括密码认证等部分,都得到了加密保护。
HTTP(超文本传输协议)是用于Web服务器和客户端之间进行通信的协议。它用于传输HTML中的文字等内容。通信不加密的缺点。
通常情况下,使用HTTP通信的API被称为WebAPI。
### GET方法
在API服务中,当获取数据时,使用HTTP通信的方法。
###POST方法
用于数据传输的HTTP通信方法。
HTTPS(超文本传输安全协议)是一种加密的HTTP通信协议,可以防止窃听、篡改和冒名顶替的通信协议。在Google云存储的API中,数据通过HTTPS进行传输。
SFTP是一种文件传输协议。
在SFTP中,通信通过SSH进行加密,而与之不同的是SCP,即使在传输过程中中断,也可以从中间位置重新开始传输。
这是关于中国特色社会主义的问题。
## 邮政编码查询API
(https://zipcloud.ibsnet.co.jp/api)
搜索URL
https://zipcloud.ibsnet.co.jp/api/search?zipcode=4420001
当在上述的网址上进行搜索时,会得到以下结果。
{
“message”: null,
“results”: [
{
“address1”: “爱知县”,
“address2”: “丰川市”,
“address3”: “千两町”,
“kana1”: “アイチケン”,
“kana2”: “トヨカワシ”,
“kana3”: “チギリチョウ”,
“prefcode”: “23”,
“zipcode”: “4420001”
}
],
“status”: 200
}
“邮政编码”: “4420001” 的数字部分是搜索到的号码。
通过使用邮政编码4420001,可以检索到其他地址。
##62的翻译:
62的翻译.
SQL的程式碼
參考第三章
从表名中选择列名。
从表中获取列。
将列名设为“*”可以选择所有列。
如果要选择多列,可以用“,”分隔。
不同的
刪除重複的行
日食
正序
描述
降序排列
按照组进行分组
用于对数据进行分组并应用聚合函数的句子。
按照顺序排序
在进行数据排序时所使用的词组
限制
用于指定要提取(显示)的最终数据数量的句子。
但请注意,SQL服务器的数据读取量不会改变。
→如果使用云服务器等,可能会产生大量费用。
###WHERE
在指定的条件下选择特定列名的行;
用于选择满足特定条件的行;
通过使用AND、OR、NOT可以同时指定多个条件。
在…之间
包含
用于文本搜索的字符串检索
取得由字母A开头的任意长度的字符串。
获取以A开头并以y结尾的3个字母的字符串(例如Amy等)。
当从分组的数据中选择符合条件的数据时使用。第三章p95。
###加入
表格合并
63 → 六十三 (liù shí
第二章第24和25页
##RDB(关系型数据库)
由拥有行和列的表集合组成
典型的系统有:MySQL、PostgreSQL
##NoSQL
指的是除了关系数据库(RDB)之外的所有数据库类型
专为非结构化数据进行优化的数据库
– 非结构化数据举例
– 键值型数据
– JSON型数据
– 图型数据
以下是一种翻译的方式:
– 特点
– 可以通过分布式处理进行快速数据读写(但是不支持复杂的处理和数据结构)
– 为了重视响应速度,一次处理的数据量较小。
代表性的系统有:HBase、MongoDB、Cassandra和Redis。
NoSQL数据库处理的数据格式。
使用键值对来管理数据,给数据添加识别标志(键)。
####宽列
通过一个键来管理多个数据
可以每行具有不同的列数
(即使每行的列数不同也没有问题)
文档
通过称为“文档”的单元来管理数据
文档的结构是自由的
64 = 六十四
表的规范化
消除数据重复,将表中的冗余性消除,使其处于无冗余状态。
简化数据,消除表中重复数据,降低冗余性。
-
- データの追加や更新、削除などの操作がしやすくなり、メンテナンス効率が向上
- リレーショナルデータベースの設計においては、「正規形」という概念が用いられる
在关系数据库中,从表中消除冗余和不一致称为表的规范化。
###非规范形式
数据冗余导致不一致状态。
### 第一正规形
以下是数据调整时,不一致已解决的状态。
– 存在重复列。
– 一个单元格中包含多个值。
– 存在合并的单元格。
将在同一行内的重复项等消除后的形式称为第一范式。
⇨排除重复的具有相同属性的数据的重复。
⇨课程名称仍处于依赖于课程代码的第一范式状态。
姓名 讲座名
A先生 B讲座
A先生 C讲座
A先生 D讲座
###第二范式
满足第一范式,并解决了”若确定了主键,则确定了非主键”的状态
将满足第一范式的表中,依赖于非主键部分的数据分离到另一个表中,称为第二范式。
⇨ 從原始數據表分離出講座編號和講座名稱,現在有兩個表。
A先生 28歳 BBBB B講座
↓
主键
姓名 年龄 课程编号
A先生 28 BBBB
非关键
课程编号 课程名称
BBBB B课程
通过将表格分开,使其更易于阅读。
第三正规形是满足第二正规形的一种形式,在此状态下,如果非键中的任何一个确定了,那么其他非键中的任何一个也将确定。
满足第二范式,并且将除主键之外的项目之间存在从属关系的内容分离到另一张表中,就是第三范式。
在非键的表中进一步进行类似于第二范式的操作
总结:
在关系数据库(RDB)中,通过表的规范化来消除表中的冗余和不一致。
解决了在同一行中的重复等问题称为第一范式。
满足第一范式,并将非键部分分离到另一个表中称为第二范式。
满足第二范式,并将主键以外的项目之间存在依赖关系的部分分离到另一个表中称为第三范式。
因为重复相同的事物会使其变得更长,并且在进行修正时需要逐行进行修正,这样会很麻烦。
用第一范式将重复的长条形解决;
用第二范式将主键和非主键的表分开;
用第三范式将非主键和非主键的表分开。
为了方便应对代码编号和内容的变化,在第二规范和第三规范中进行区分。
为了使关系型数据库的运营更加容易,将进行规范化。
##65 – 六十五
公式p167是指在第2章的第52页。
暗号技术
暗号技术有多种类型,它们的安全性(强度)和处理速度都不同
电话和互联网通信等通信原则上都会进行加密,以保护内容的安全
暗号化是对某个数据进行特殊处理,将其转换为无法直接阅读的特殊数据。
公钥:用于进行加密。
私钥:用于进行解密。
復号化是指將加密後的內容恢復成原始狀態的過程
公鑰:加密
私鑰:復号化
### 共享密钥加密方式
对于少数的一对一通信非常有用
发送和接收数据的双方都使用同一个密钥进行加密和解密操作
没有该密钥的第三方无法得知原始数据内容
在与同一通信对象进行多次通信时非常有用
虽然共享密钥加密方式需要安全地将密钥传递给对方,
但在Internet上安全地将共享密钥传递给大多数人是困难的挑战
公開密钥加密方法是一种对多的有用方式。它使用不同的密钥进行加密和解密。公开密钥用于加密,而私密密钥用于解密。接收者要生成两个密钥(私密密钥和公开密钥),并将公开密钥公开给任意的发送者。数据发送者使用公开密钥进行加密。加密后的数据只能由持有相应私密密钥的人解密。
SSL是一种在互联网通信中使用的加密方式,它利用公钥加密来进行通信,并在双方之间共享临时的共享密钥。之后,通过共享密钥加密来实现加密。
##66的汉语本土化的改写:
哈希函数是将特定的字符串转换为另一个数字字符串的函数。它通过对输入值进行一系列计算,并返回预先确定的固定长度的输出值。哈希函数会返回固定长度的输出,而不受输入长度的影响。相同的输入必定会返回相同的输出。
“ABCDEFG”这个字符串可以通过哈希函数转换成另一个字符串”8E5A”。
哈希函数具有不可逆的特性,8E5A无法转换回”ABCDEFG”。
通过哈希函数转换后的值被称为摘要值或哈希值。
如果原始数据有任何微小的差异,哈希值就会被转换为完全不同的值。
ABCDEFG⇨8E5A
ACBDEFG⇨9G7H
哈希函数不仅用于数据检索,还用于构建检测数据篡改的机制。
哈希函数将数据转换为不同的表达形式。
哈希函数用于在数据库中查找重复记录。
哈希函数将输入的字符串转换,并与预先转换的正确字符串进行比较。
哈希函数用于从数据集合中找出特定数据。
哈希函数不用于噪声去除的目的。
六十七。
公式p179, p214, p215的写法如下:
个人信息保护
一般数据保护条例(GDPR)是一项规定个人数据识别、安全保护、透明度要求、泄漏检测和报告方法等详细事项的法规。由于适用范围覆盖在欧盟居民之内,在日本,处理面向海外市场的电子商务以及涉及国外访问的服务时需要进行相应的合规。这个规定也适用于在欧盟境外运营服务的企业,这在日本成为了一个重要话题。
只要被认定为具备与欧盟境内相等的个人信息保护水平的国家,就可以允许将数据转移到不具备与欧盟相等的个人信息保护水平的地区。
加州消费者隐私权法(CCPA)
自2020年开始适用
从隐私保护的角度来看,与GDPR相似的法规,美国各州也正在出台类似的法案。
2022年,预计在日本将实施修订个人信息保护法。
此法律旨在强化权利保护、加强企业责任、加强对违法行为的惩罚力度以及规定第三方提供的规则。此外,法律中还对数据的利用方法进行了描述。
在2021年至2022年期间,各个行业都将提供企业应遵守的规定、具体案例等指导方针。
###GLUE
这个名称是用于语言理解任务的基准任务。
「其他」
日本被認可為具有與歐盟內部相等之個人資料保護水平的國家,這被稱為「適當性承認」。
68可以以公式p178表示。
数据伦理
###ELSI(伦理、法律和社会问题)
在社会实施新科技时,需要综合考虑除了技术问题以外的各种问题,如伦理问题、法律问题和社会问题等。
逻辑、法律和社会问题(Ethical, Legal and Social Issues)的首字母缩写。
2019年,内阁府发布的”以人为中心的人工智能社会原则”也在一定程度上反映了政府对数据伦理问题的态度。
###人类基因组计划(HGP)
在美国政府资助的人类基因组计划中,首次运用了伦理、法律和社会影响(ELSI)研究。
##不当行为
###虚构
制造不存在的数据
###篡改
对数据进行篡改、伪造
###抄袭
未经适当引用地使用他人的思想或数据
###BERT
BERT是由Google开发的基于Transformer的机器学习方法,用于自然语言处理(NLP)的预训练。
BERT于2018年由Google的Jacob Devlin和他的同事创建并公开发布。
截至2019年,Google正在利用BERT来提升用户搜索的理解能力。
BLEU(双语评估及研究)是一种用于评估机器翻译从一种自然语言转换为另一种自然语言的文本质量的算法。
LSI是“Large Scale Integration(大规模集成电路)”的缩写。
它是一种将晶体管、二极管、被动元件等集成起来以实现复杂功能的电子电路元件。通常由硅等半导体构成。
第73个公式是p177。
一次情报,指的是自己亲自收集的数据,比如问卷调查和听取意见等,真实的数据收集和亲身经历的信息。
### 次级信息
依据其他人撰写的书籍或论文所收录的调查结果等,以及从其他公司获取的信息或临时信息编辑而成的信息
“公开/销售的数据”
一种没有明确消息来源的传闻式消息
MNIST是一组手写数字图像的开放数据集,由6万张用于学习的图像和1万张用于测试的图像组成。
###RESAS是由日本经济产业省和内阁官房提供的地区经济分析系统,它不是基于图像的开放数据。
74. The company is facing financial difficulties due to the economic crisis.
《关于数据和人工智能的利用的法律》
###自愿选择加入
希望参加的程序
如果不希望参加,就无法参加
如果没有获得数据使用许可,就无法使用该数据
个人信息选择退出制度是允许在满足特定条件的情况下,无需本人同意即可向第三方提供个人信息的制度。该制度受个人信息保护法的规定。
选择权退出的企业有义务向内阁府的外部机构个人信息保护委员会报告必要事项。
根据选择退出选项,企业在公开个人信息时必须遵从个人的请求以停止公开。
不提供个人信息无法通过选择退出进行配合。
只需要一个选项-
希望不参加的手续
基本上,如果不希望参加,就是不参加
如果希望不使用数据,请删除该数据
另外,必须建立一个能够提出不使用数据要求的机制
如果要向第三方提供个人信息,一般来说,需要事先获得本人的同意。如果未能获得本人的同意,则需进行选择退出程序。
根据本人的要求停止提供本人的数据。
确保本人能够轻易获取这些信息。
① 作为第三方提供的目的。
② 提供的个人数据项。
③ 提供的方式。
④ 根据本人的要求停止提供。
⑤ 接受本人的要求的方式。
将本人告知事项报送给个人信息保护委员会(个人信息保护委员会将对此进行公布)。
76 位顾客给这家餐厅高分评价。
### SCAMPER(替代、結合、適応、改変、排除、反転(再編))是一种用于大量产生创意的框架。
请参照。
以下是对 “##78” 进行的汉语本地化释义:
七以后的数字。
概念验证在日语中也被称为PoC(Proof of Concept)。
在AI开发中的概念验证阶段,会进行AI模型的构建、评估构建的AI模型的性能,以及确认部署该AI模型进行实际运用的可行性等工作。
### RFM分析
用于加深对客户理解的分析方法
将顾客进行分段
联想分析是一种分析事件相关性的方法,常用于分析梯度历史数据。
88 – 八八 (bā bā)
第198页的公式
##瀑布式开发
瀑布式开发是一种按顺序进行分析、设计、实施和测试的方法。
工程不会回到前一工程,而是通过各个工程生成的文档进行传递。
开发沿着上游工程向下游工程流动,如同瀑布一样。
在明确最终目标和需求后开始开发。
这种方法的优点是容易保证成品的质量,能够估计进度,容易培养和雇佣各个工程的专家,
但缺点是开发时间容易延长,难以更改规格和计划。
敏捷开发是一种方法,通过在短期内(一周到一个月)重复进行分析、设计、实施和测试,构建部分可运行的完整产品,并不断获得客户反馈来进行开发。逐渐建立系统,与客户保持一致,这样可以避免需求与成品之间的理解差异。然而,不明确方针容易导致开发方向的摇摆不定,这是一个缺点。
###敏捷开发
###XP
极限编程
特性驅動型開發(FDD),也稱為使用者功能驅動開發。
##89 的中文含义是什么?
##安全性
正式的p164
保密性
只有经过认证的用户才能保证可以访问数据。
安全措施:密码认证、访问权限控制、加密
使用性
每当被授权访问数据的用户提出请求时,确保数据随时可用。
解决方案包括系统的复制和数据备份。
完所有的事情
我們保證數據沒有被非法篡改,它是準確且完整的。
解決辦法:電子簽名,哈希函數
哈希函数是将特定的字符串转换为另一个数字字符串的函数。