tema 7:

5 views
Skip to first unread message

a18...@ua.pt

unread,
Mar 12, 2008, 12:49:39 PM3/12/08
to Aprendizagem Computacional na UA
Boa tarde! a base de dados que encontramos no repositorio não é a
correspondnte ao artigo, estamos analisar a do repositorio no
rapidminer pois a do artigo ja esta na fase final, ja conseguimos
introduzir e agora na parte do pre-procesamento encontramos 10
outliers, devemos elimina-los para passar a PCA?
Elena e Joana

Gladys Castillo

unread,
Mar 12, 2008, 7:59:25 PM3/12/08
to Aprendizagem Computacional na UA
Olá Elena e Joana:

Acho que sim, que devem elimina-los, mas aconselho-vos a ler a pag.
378 do Capitulo 8 do livro base e tirar as vossas próprias conclusões

Cps,
Gladys

Gladys Castillo Jordán

unread,
Mar 13, 2008, 10:07:51 AM3/13/08
to aprendi...@googlegroups.com
Olá Elena e Joana:

Preciso me confirmem se vão poder estar amanha pelas 13:30 na aula.

Ver neste tutorial on-line de PCA:

http://www.caip.rutgers.edu/riul/research/tutorials/tutorialrpca.pdf

os métodos que pode sem usados para tratar outliers (ver section 5). Na
secção 5.4 podem encontrar um dos métodos: o weighted Singular Value
Decomposition (SVD) technique, o qual está implementado em RapidMiner com o
operador Preprocessing.Attributes.Transformation.SVDReduction

Podiam comparar este operador com o PCA sem outliers.

Cps,
Gladys


a18...@ua.pt

unread,
Mar 13, 2008, 11:14:11 AM3/13/08
to Aprendizagem Computacional na UA
Professora, qual é o livro base?

Gladys Castillo

unread,
Mar 13, 2008, 11:19:25 AM3/13/08
to Aprendizagem Computacional na UA
O livro Introduction to Data Mining de Pang-Ning Tan, Michael
Steinbach e Vipin Kumar
(ver http://www-users.cs.umn.edu/%7Ekumar/dmbook/index.php)
O capitulo 8 sobre Clustering está disponível on-line. Devem estudar
este capitulo para o seu trabalho

a18...@ua.pt

unread,
Mar 13, 2008, 12:16:02 PM3/13/08
to Aprendizagem Computacional na UA
Obrigado, ja tinha encontrado, só que nao sabia onde estava.
Elena

a18...@ua.pt

unread,
Mar 18, 2008, 12:49:33 PM3/18/08
to Aprendizagem Computacional na UA
Professora, estamos com dúvidas relativamente aos métodos de avaliação
a usar para o nosso caso, já que se trata de classificação não
supervisada.

Gladys Castillo

unread,
Mar 18, 2008, 1:07:17 PM3/18/08
to Aprendizagem Computacional na UA
Devem ler sobre os métodos de "Cluster Evaluation", pag 398, Chapter
do livro Introduction to Data Mining de Pang-Ning Tan, Michael
Steinbach e Vipin Kumar e depois perceber do paper base se foram
usados ou não métodos de avaliação.

Gladys Castillo

unread,
May 7, 2008, 3:41:30 PM5/7/08
to Aprendizagem Computacional na UA
Olá professora: Estamos a trabalhar no segundo trabalho para
aprendizagem, no tema 7:análise de clusters na fermentação do vinho.
Estamos com dificuldades no Rapidminer pois a seguir ao PCA, ao
introduzir o operador K-Means este não assume as componentes
principais, ou então não sabemos como faze-lo.
Tentamos usar o K-Means seguido do SVD-reduction mas não sabemos se a
redução que este operador faz é para as componentes principais
calculadas através da combinação linear de acordo com as componenetes
que têm mais peso. Agredecemos se nos puder ajudar, via e-mail ou caso
a professora se encontre na UA, para tirar essas dúvidas.

Olá Joana e Elena: Experimentem usar o operador ModelApplier entre o
PCA e o k-Means. Neste caso o k-Means vai usar como atributos os novos
atributos gerados pelos componentes principais.

Tenho ainda uma duvida, pois não sei como podemos indica-lhe ao
RapidMiner para usar apenas alguns atributos, não todos (por exemplo,
usar apenas os dois pc com % mais alta). Temos que seguir explorando o
RapidMiner para ver como isto se resolve. Seria também interessante
explorar o operador WeightGuidedFeatureSelection (buscar projecto no
folder Features) pois este operador é combinado com o PCAWeighting o
qual fornece os pesos (%) das componentes principais.

Podem também tratar de colocar as suas duvidas no foro de RapidMinner:

http://sourceforge.net/forum/forum.php?forum_id=390413

Continuem a enviar as duvidas para o grupo de discussão assim no o
deixamos morrer e todos aqueles que estejam interessados ficam também
a saber do assunto.

Cumprimentos,
Gladys

a33...@ua.pt

unread,
May 14, 2008, 2:11:26 PM5/14/08
to Aprendizagem Computacional na UA
Olá professora! Estamos em volta da parte de avaliação mas não
compreendemos bem como a fazer, principalmente com os operadores do
rapidminer.O x-validation é só para classificação supervisada? Fizemos
algumas experiencias com o rapidminer com outros operadores mas
gostaríamos de mostrar à professora. Amanha a professora vai estar na
ua entre as 16h30 e as 17h45?

Cumprimentos

Joana e Elena

Gladys Castillo Jordán

unread,
May 14, 2008, 5:10:21 PM5/14/08
to aprendi...@googlegroups.com
Olá Joana e Elena:

>Estamos em volta da parte de avaliação mas não
>compreendemos bem como a fazer, principalmente com os operadores do
>rapidminer.O x-validation é só para classificação supervisada?

Amanha a essa hora não vou estar disponível. Podemos ao terminar as aulas da
próxima 6ª podemos falar um bocado ou senão marcamos outro dia para a
próxima semana. Mas para já queria orienta-las no seguinte:

1. Não podem usar nenhum esquema de validação para aprendizagem supervisada
de aqueles que foram usados ate agora.

2. Devem estudar com atenção a secção 8.5. de onde deverão resumir as
principais ideias sobre "cluster evaluation". Como podem constatar não
existem uma metodologia específica e a avaliação pode ser abordada consoante
o algoritmo usado. Por exemplo, podem ver que para o caso do k_Means é
sugerido usar a medida de SSE - sum of squared error (definida na página
373). Também, por exemplo, na pag. 401 são propostas umas medidas sobre
cohesion e separation (podiam explorar para ver se podem ser usadas), e na
pag. 406 explicam como validar usando a matrix de proximidade (ver Exemplo
8.10).

Por isso na sua parte de validação devem investigar primeiro quais são os
métodos usados em clustering. Uma vez identificados, tratem de ver se podem
descobrir se é possível ou não usá-los no RapidMiner

Cps,
Gladys

Gladys Castillo

unread,
May 18, 2008, 12:48:18 PM5/18/08
to Aprendizagem Computacional na UA
Olá Joana e Elena:

Podem encontrar no foro de RapidMiner aqui:

http://sourceforge.net/forum/forum.php?thread_id=2036214&forum_id=390413

algumas sugestões sobre como avaliar os métodos de clustering. Pode
ser que lhes dei uma ideia melhor do que é para fazer.

Também podem enviar perguntas para este foro onde actualmente há muita
actividade e pode ser alguém consiga ajuda-las.

Cps,
Gladys

Gladys Castillo

unread,
May 22, 2008, 5:26:31 AM5/22/08
to Aprendizagem Computacional na UA
Olá Joana e Elena:

Há problemas com o servidor de correio electrónico da UA e não posso
aceder ao seu relatorio. Podem upload o ficheiro aqui no grupo?

Cps,
Gladys
Reply all
Reply to author
Forward
0 new messages