如何利用文本信息

happy

unread,

Mar 20, 2006, 10:13:45 PM3/20/06

to tt...@googlegroups.com

在实际的业务流程中，除了可以利用到的各种关系型数据信息，还会收集到很多信息，比如：本地区的主要经济指标、产业和行业的相关数据，这些信息并没有考虑到现在的指标模型中（没有合适的数学模型），现在只能作为文本信息保存在数据模型中，在分析时也只是作为分析结果的说明描述。不知大家是怎么利用这些文本信息的？

thanks
　　　　　　　　致
礼！
happy
　　　　　　　　　　2006-03-21

_ _ _ _
/_/_/_/_/\
/_/_/_/_/\/\
/_/_/_/_/\/\/\
\_\_\_\_\/\/\/
\_\_\_\_\/\/
\_\_\_\_\/

丁西宁
数据仓库咨询顾问
蓬天信息系统（北京）有限公司
Prient Corporation
Power Realtime Intelligent ENTerprise

北京市朝阳区东大桥路8号尚都国际中心25层
电话：8610-58700800 ext 843
传真：8610-58700800 ext 808
手机：86-13910959723
E-mail：xinin...@prient.com
MSN:happ...@hotmail.com
BLOG:http://java.mblogger.cn/happyjava
http://www.prient.com

刘庆

unread,

Mar 20, 2006, 10:53:10 PM3/20/06

to tt...@googlegroups.com

如果要作数据分析，肯定还是要将这些非结构化的数据变成结构化的。

比如收集到的经济指标、产业、行业数据，可能是放在伊克赛中的，也可能就是在歪脖页面上的表格文字。但一般情况下，这种数据不会太多吧，手工处理得了。

现在不是还有文本挖掘的技术吗，可以从文字中通过语义分析发现其中的信息，其实就是将非结构化转成结构化的一种技术。以前赛迪网似乎代理了一个这样的产品，此类产品用于竞争对手情报分析倒是不错，可以从当前的网络媒体上分析竞争对手出现的频率，和哪些关键字经常出现。

还有个例子是地址信息。一般业务系统里面存放地址都是一个或几个文本字段，其实它是非结构化的，例如你可以添"北京市海淀区1号"，也可以是"北京海淀1号"，甚至填"上海海淀1号"，都没人管你。这算是数据质量的问题，但抛去这点，确实人需要分析地理分布的，例如首先看市区的数据，再看街道、小区的数据。如此，就得将非结构化的地址转成结构化。

做这一步，就得需要标准的地址数据库，它相当于是一个维表了，将非结构化的地址和这个维表映射起来，当然，过程中肯定要清洗一些无法识别或是错误的地址，例如上面"上海海淀1号"此类数据。

jeaso...@gmail.com

unread,

Mar 22, 2006, 10:38:44 PM3/22/06

to ttnn BI 观点(313成员)

可能楼主还没有刘哥说的那么深刻吧，这些数据是固定格式的直接用脚本就可以解析出来。

happy

unread,

Mar 23, 2006, 2:17:14 AM3/23/06

to tt...@googlegroups.com

jeasonzhao,您好！

啥叫深刻啊！老兄听说过内容管理吗？听说过网络爬虫吗？用过龙卷风和autonomy吗？这些都是做大量文字分析的，通过类似数据挖掘的一系列方法，在文本文字中寻找有价值的东西。文本格式的数据如果都是固定格式的，那和关系型数据有什么区别？每个数据库厂商都有内置的工具对固定格式的数据进行导入导出。对于少量的、非格式化的文本信息可以通过人工的方式进行筛选，但对于大量的非格式化的信息光靠人工处理的话也许还是不够的。是不是可以借助上面所说的技术，先定义一些关键字，然后根据这些关键字在文本信息进行检索、分类，再结合现有数据仓库中的数据，进行我们所说的各种分析。

======= 2006-03-23 11:38:44 您在来信中写道：=======

>可能楼主还没有刘哥说的那么深刻吧，这些数据是固定格式的直接用脚本就可以解析出来。
>
>

= = = = = = = = = = = = = = = = = = = =

　　　　　　　　致
礼！

　　　　　　　　happy
　　　　　　　　xinin...@prient.com
　　　　　　　　　　2006-03-23

zeus amiao

unread,

Mar 23, 2006, 2:26:12 AM3/23/06

to tt...@googlegroups.com

文本的DATA MINING我知道的一些实现，还是先把文本处理成固定格式的，然后结合业务规则针对结构化的数据进行。

Message has been deleted

刘庆

unread,

Mar 23, 2006, 8:10:57 PM3/23/06

to tt...@googlegroups.com

关于非结构化的数据处理，个人认为是和数据仓库理论走得是两条路，虽然可以勉强划入商务智能的范畴。

如果要回答如何有比较通用的办法将非结构化数据转成结构化，就得深入，探讨语义分析的内容，那玩意儿似乎也是比较复杂，现在还是处于研究阶段，没有广泛应用。

目前来说，还是出现什么情况就特殊处理吧。

On 3/23/06, http://groups.google.com/group/Beautiful_Amateurs?lnk=li < zhou....@gmail.com> wrote:

要有什么方便的好办法吧非结构化的外部数据处理成固定格式的数据就好了，否则只好特殊要求特殊处理了。

jacky.hu

unread,

Mar 23, 2006, 8:59:35 PM3/23/06

to tt...@googlegroups.com

对于非结构化数据可以考虑db2 content managment来管理

在06-3-24，刘庆 <happ...@gmail.com> 写道：

Reply all

Reply to author

Forward