查看: 2864|回复: 16

[FAQ] 数据治理及数据仓库模型设计-第2周-答疑解惑汇总

[复制链接]
论坛徽章:
18
R研习者初级
日期:2012-05-11 22:09:45机器学习徽章
日期:2019-03-28 15:01:12python徽章
日期:2019-02-28 15:00:58股票徽章
日期:2018-12-06 15:36:30python徽章
日期:2018-12-06 15:36:17金融徽章
日期:2018-09-13 15:38:56股票徽章
日期:2018-08-30 15:33:52数据陷阱解读徽章
日期:2018-06-07 16:21:34金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-03-01 16:43:15python徽章
日期:2018-01-18 18:03:29Go徽章
日期:2017-12-25 17:16:30
发表于 2015-2-11 22:18 | 显示全部楼层 |阅读模式
同学们,第2周的问题,可以集中在这里提问。我集中答复。


你们的互动作业还是要分头去发帖的,那个是要算帖子数量的;那个零散的我看到了会去回复,但是我不保证都能浏览到。 你们如果希望尽快有答案的,就发在这里吧。谢谢
回复

使用道具 举报

论坛徽章:
18
R研习者初级
日期:2012-05-11 22:09:45机器学习徽章
日期:2019-03-28 15:01:12python徽章
日期:2019-02-28 15:00:58股票徽章
日期:2018-12-06 15:36:30python徽章
日期:2018-12-06 15:36:17金融徽章
日期:2018-09-13 15:38:56股票徽章
日期:2018-08-30 15:33:52数据陷阱解读徽章
日期:2018-06-07 16:21:34金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-03-01 16:43:15python徽章
日期:2018-01-18 18:03:29Go徽章
日期:2017-12-25 17:16:30
 楼主| 发表于 2015-2-12 02:28 | 显示全部楼层
坏蛋归来的问题:

在看视频时,单词标准化有词素分析,英文全写缩写和同义词,之后直接制定单词词典,想问问标准单词选定是在什么时候,一般选定会有哪些技巧或原则?


我的解答:


首先拆分词素,之后英文缩写和同义词都要处理,英文缩写和同义词的顺序可以随意。 同义词可以根据词素处理时的业务定义进行区分,同时也可以通过词素处理时的英文全称进行排序和相似、相同对比(英文相同时也可能是同义词)

当中文的业务定义和英文全称双管齐下比较之后,基本可以确定绝大部分同义词(今后发现了也可以再添加)。  在同义词确定之后,标准单词就选定了—— 选定,是指在一组含义相同相近的词素中,选择了一个作为标准单词、其他作为它的同义词。 并且为每一个标准单词都要赋予的英文全称、英文缩写。

当单词的中文和英文都做出的成果之后,再下来命名用语时,就可以确保中文英文的一一映射和不重复了。 大家可以看看课程附件中的3张图片,那个是真实产出的标准化单词、域、用语词典。

词素做英文全称、缩写、同义词阶段,都需要多人一起讨论,,,尤其在出现一词多义、中英文不统一等情况下,需要多人讨论并商定一个大家能够同意的结果。如果工作组内无法得到一致意见,可以升级问题给更高一层的甲方负责人来拍板。 (因为标准最后也是甲方要用的标准,所以他们必须要有人参与标准化的成果确认)


数据标准化项目,几乎有一半的时间会花费在讨论、确认环节。为了得到一套标准,必须急死广义,并且引入客户甲方的参与和确认。单方面乙方提供的标准,只能有参考意义,不能100%适用于甲方。
回复 支持 反对

使用道具 举报

论坛徽章:
7
Hadoop研习者初级
日期:2013-10-21 22:46:16R研习者初级
日期:2013-01-11 14:32:51Oracle研习者高级
日期:2013-08-25 14:25:21抽样调查徽章
日期:2015-06-09 14:18:25数据治理徽章
日期:2015-06-18 11:35:54数据陷阱解读徽章
日期:2015-10-29 15:39:29数据挖掘徽章
日期:2015-12-17 11:55:20
发表于 2015-2-13 00:17 | 显示全部楼层
请问老师有木有具体的案例,解决方案可供参考?谢谢!
回复 支持 反对

使用道具 举报

论坛徽章:
18
R研习者初级
日期:2012-05-11 22:09:45机器学习徽章
日期:2019-03-28 15:01:12python徽章
日期:2019-02-28 15:00:58股票徽章
日期:2018-12-06 15:36:30python徽章
日期:2018-12-06 15:36:17金融徽章
日期:2018-09-13 15:38:56股票徽章
日期:2018-08-30 15:33:52数据陷阱解读徽章
日期:2018-06-07 16:21:34金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-03-01 16:43:15python徽章
日期:2018-01-18 18:03:29Go徽章
日期:2017-12-25 17:16:30
 楼主| 发表于 2015-2-13 10:46 | 显示全部楼层
topleader 发表于 2015-2-13 00:17
请问老师有木有具体的案例,解决方案可供参考?谢谢!

有标准化的几个案例。 但是涉及客户隐私,我不能拿出来直接讲。 如果需要,可以为大家修改数据,给大家看看标准化项目的汇总结果。
但是课时时间不够啊。。
回复 支持 反对

使用道具 举报

论坛徽章:
18
R研习者初级
日期:2012-05-11 22:09:45机器学习徽章
日期:2019-03-28 15:01:12python徽章
日期:2019-02-28 15:00:58股票徽章
日期:2018-12-06 15:36:30python徽章
日期:2018-12-06 15:36:17金融徽章
日期:2018-09-13 15:38:56股票徽章
日期:2018-08-30 15:33:52数据陷阱解读徽章
日期:2018-06-07 16:21:34金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-03-01 16:43:15python徽章
日期:2018-01-18 18:03:29Go徽章
日期:2017-12-25 17:16:30
 楼主| 发表于 2015-2-13 10:46 | 显示全部楼层
本帖最后由 Bierbin米兰 于 2015-2-13 10:47 编辑
发重了。。
回复 支持 反对

使用道具 举报

论坛徽章:
16
数据治理徽章
日期:2015-06-18 11:35:54高并发架构徽章
日期:2018-12-20 15:15:20JS课程徽章
日期:2018-09-06 14:48:39python徽章
日期:2018-08-16 14:57:30python徽章
日期:2018-08-16 14:56:50spark徽章
日期:2018-05-03 15:46:21spark徽章
日期:2018-04-20 15:29:14Hive徽章
日期:2018-03-01 16:42:20Hadoop研习者初级
日期:2017-12-28 17:09:25python徽章
日期:2016-08-25 10:57:55数据陷阱解读徽章
日期:2016-07-14 11:03:41神经网络徽章
日期:2016-06-30 15:55:39
发表于 2015-2-14 20:03 | 显示全部楼层
其实数据治理离我们还是比较远,当然其中的某些内容与我们日常工作还是很符合的,针对数据标准化,我们虽然没有进行这么细致或者详细的有规划的标准化,但是我们在开发过程中还是遵守开发标准。我所从事的商业软件的开发就是遵守标准,我相信这种理念是这些商业软件在上个世纪90年代就认识到了,但是到现在当我们发现原来我们一直做事情还可以这样标准化,这是国外技术发展了多年的成果,我们需要发现对我们有益的地方。对于词素来说,中文与英文还是有许多区别的地方,有许多情况下中文太丰富了,同一个意思甚至有多个词语。比如课程中的发行方 - 我认为方还是组织的意思,您认为这种情况下,我们是否可以做这种转义?
回复 支持 反对

使用道具 举报

论坛徽章:
18
R研习者初级
日期:2012-05-11 22:09:45机器学习徽章
日期:2019-03-28 15:01:12python徽章
日期:2019-02-28 15:00:58股票徽章
日期:2018-12-06 15:36:30python徽章
日期:2018-12-06 15:36:17金融徽章
日期:2018-09-13 15:38:56股票徽章
日期:2018-08-30 15:33:52数据陷阱解读徽章
日期:2018-06-07 16:21:34金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-03-01 16:43:15python徽章
日期:2018-01-18 18:03:29Go徽章
日期:2017-12-25 17:16:30
 楼主| 发表于 2015-2-20 15:16 | 显示全部楼层
本帖最后由 Bierbin米兰 于 2015-2-20 15:21 编辑
dbaline 发表于 2015-2-14 20:03
其实数据治理离我们还是比较远,当然其中的某些内容与我们日常工作还是很符合的,针对数据标准化,我们虽然 ...

方,是有组织的意思。所以实际项目实施、词素拆分的时候,可以将“发行方”作为一个词来处理。像你提到的,汉语一词多义的情况,我们的处理建议是,尽量将具有明确专有含义的词,作为一个单词(很可能是汉语的复合单词)。 以复合单词形式出现的一个单词,它仍然是一个英文全称(大多表现为多个英文单词的词组组合)、并且英文缩写也是一个 (多个英文缩写连接时,以“_”为分隔符;那么每一个“_”之间的都是独立的单词,无论其单词的汉字个数多少,还是英文缩写所对应的英文单词个数有多少)。

建议尽量少的使用单一汉字作为词素和单词、并且尽可能减少汉语缩略语的使用,而补充为完整的汉语全称之后,再进行词素拆分。
回复 支持 反对

使用道具 举报

新浪微博达人勋 zmhgf  未实名认证
论坛徽章:
39
R研习者初级
日期:2012-07-18 17:56:36LATEX徽章
日期:2015-05-07 11:35:00数据治理徽章
日期:2015-06-18 11:35:54抽样调查徽章
日期:2015-08-13 10:58:43数据陷阱解读徽章
日期:2015-08-13 15:21:45R研习者中级
日期:2015-08-20 14:48:33R研习者中级
日期:2015-08-20 14:51:11高并发架构徽章
日期:2015-11-19 14:04:29R研习者中级
日期:2015-12-03 16:17:56mysql徽章
日期:2015-12-10 10:12:43bash徽章
日期:2015-12-10 16:05:41DB2徽章
日期:2016-04-07 10:58:04
发表于 2015-2-22 22:00 | 显示全部楼层
在数据治理过程中,如何确定标准化原则?
回复 支持 反对

使用道具 举报

新浪微博达人勋 zmhgf  未实名认证
论坛徽章:
39
R研习者初级
日期:2012-07-18 17:56:36LATEX徽章
日期:2015-05-07 11:35:00数据治理徽章
日期:2015-06-18 11:35:54抽样调查徽章
日期:2015-08-13 10:58:43数据陷阱解读徽章
日期:2015-08-13 15:21:45R研习者中级
日期:2015-08-20 14:48:33R研习者中级
日期:2015-08-20 14:51:11高并发架构徽章
日期:2015-11-19 14:04:29R研习者中级
日期:2015-12-03 16:17:56mysql徽章
日期:2015-12-10 10:12:43bash徽章
日期:2015-12-10 16:05:41DB2徽章
日期:2016-04-07 10:58:04
发表于 2015-2-22 22:00 | 显示全部楼层
在数据治理过程中如何选定标准化对象?
回复 支持 反对

使用道具 举报

论坛徽章:
18
R研习者初级
日期:2012-05-11 22:09:45机器学习徽章
日期:2019-03-28 15:01:12python徽章
日期:2019-02-28 15:00:58股票徽章
日期:2018-12-06 15:36:30python徽章
日期:2018-12-06 15:36:17金融徽章
日期:2018-09-13 15:38:56股票徽章
日期:2018-08-30 15:33:52数据陷阱解读徽章
日期:2018-06-07 16:21:34金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-03-01 16:43:15python徽章
日期:2018-01-18 18:03:29Go徽章
日期:2017-12-25 17:16:30
 楼主| 发表于 2015-2-26 15:10 | 显示全部楼层
zmhgf 发表于 2015-2-22 22:00
在数据治理过程中,如何确定标准化原则?

标准化的原则,,,在第2课的教材中,我应该加进去一页的。下次补充到第三课吧。

数据标准化的原则分以下3个方面——

通用性:
优先使用国际通用单词和用语
优先使用海关业务中常用的惯用语
优先使用海关定义且国内惯用的单词或用语
使用税务、法律、IT等行业的专业用语
考虑与外部机构的相互运行,较大限度地保持通用性

实用性:
对实际的现行系统用语进行标准化,而不是理论上的标准化
避免出现难以理解或产生歧义的用语
从用语中能够直观地识别其含义,无需推测或类推

便利性:
运用适合于客户自身运行环境的方法论及标准化指南
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2019-5-20 12:20 , Processed in 0.152956 second(s), 53 queries .