1.Estamos a tentar fazer pré-processamento(redução de atributos) com
FeatuteSelection juntamente com CFSFeatureSetEvaluator, mas estamos a
obter out of memory. Como podemos fazer a redução??
Se não corre o FSS então não açam. Outra variante será correr um PCA como
fizeram Elena e Joana e depois obter pesos para os atributos. O mais
importante neste trabalho são os métodos de avaliação para fazer os
algoritmos.
Quantos atributos voces têm e de que tipo? Não me parecia que erão tantos
por forma a dar out-of-memory.
2.Estamos a fazer a curva de ROC para cada método separadamente e tb
uma curva de ROC com os 3. Estamos a verificar que as curvas não
coincidem. Isso deve-se ao facto de num utilizar-mos
BinomialClassificationPerformance e no outro ROCComparator??
Isto não sei. Este tipo de duvida podem coloca-la no fórum de RapidMiner,
eles normalmente respondem
Aqui podes encontrar uma discussão sobre isto:
http://sourceforge.net/forum/forum.php?thread_id=1776184&forum_id=390413
Cps,
Gladys
Como agora todos vão ter que trabalhar no projecto nº3 usando os mesmos
métodos para avaliação, pré-processamento, etc. vou abrir aqui este tópico
de discussão para que assim todos possam partilhar toda a informação sobre
estes projectos. Assim que por favor, todas as dúvidas sobre o trabalho TP3
tratem de envia-la logo para aqui. Também se algum de vocês super a
resposta, tratem de responder, assim não sou eu a única a esclarecer as
questões. Já alguns de vocês estão mais espertos nestes assuntos e podem
ajudar aos colegas que precisam.
Pergunta 1 (Rui e Pedro). Estamos a tentar fazer pré-processamento(redução
de atributos) com FeatuteSelection juntamente com CFSFeatureSetEvaluator,
mas estamos a obter out of memory. Como podemos fazer a redução??
Resposta: Para evitar o erro de out-of-memory quando correm os algoritmos de
FSS experimentem mudar esta instrução no ficheiro RapidMinerGUI.bat in the
scripts subdirectory onde está instalado o RapidMiner:
if "%MAX_JAVA_MEMORY%"=="" set MAX_JAVA_MEMORY=1024
Esta variavel MAX_JAVA_MEMORY deve ser 1024, OK? Eu tinha muito menos, agora
não me lembro exactamente quanto. Estou a fazer todas estas experiencias com
a nova versão 4.1. que aconselho-vos instalar.
Depois será conveniente correr o programa a partir do ficheiro .bat em vez
de executa-lo pelo icono no desktop. Eu consegui assim correr um FSS para o
problema de Luís P. e Rui que antes me dava out-of-memory e também para o
meu problema dos microarrays onde tenho 7024 atributos.
Aqui neste projecto de RapidMiner que envio estou a combinar vários métodos
de FSS que devem ser usados quando existe um elevado número de atributos. A
ideia é primeiro remover alguns atributos baseando-se apenas no computo de
uns pesos e assim evitar serem passados todos os atributos como entrada do
problema de FSS que como sabem é um problema de optimização combinatória e
quando são usados muitos atributos o número de possíveis subconjuntos cresce
exponencialmente, por isso a memoria explode !!!.
Pedro e Rui, tratem de experimentar entre estes métodos de FSS com qual é
possível obter melhores resultados e espero que possam corre-los (mas notem
que neste projecto que os envio os métodos de FSS não melhoram o desempenho
do NB, pelo contrario)
Podem alternar entre usar:
1) InfoGainWeighting + AttributeWeightSelection + AttributeWeightsApplier -
a combinação destes métodos o que faz é seleccionar os atributos com maior
information gain (até tem sentido para o vosso trabalho pois vocês usam esta
medida para induzir arvores de decisão) - experimentem por break point
depois de cada operador e vão poder ver os pesos dos atributos e quais são
os que têm maior information gain (por lógica o atributo com maior peso =
maior information gain deveria ser aquele que foi seleccionado como raiz na
árvore de decisão)
2) FeatureSelection + CFSFeatureSetEvaluator (experimentem se podem agora
corre-lo depois de ter mudado a instrução sobre a memoria como indicado)
3) InfoGainWeighting + AttributeWeightSelection + AttributeWeightsApplier +
FeatureSelection + CFSFeatureSetEvaluator - so no caso que dei out-of-memory
o método de FSS pelo explicado anteriormente.
Podem encontrar toda a informação sobre todos estes operadores no ficheiro
do tutorial de RapidMiner que acabo de deixar no grupo.
Se quiserem em vez de usar o k-NN (sempre demora um bocado se o nº de
exemplos é grande) podem usar o Naive Bayes, que é muito rápido nas contas,
mas isto o que vocês preferem.
Pergunta 2.Estamos a fazer a curva de ROC para cada método separadamente e
tb uma curva de ROC com os 3. Estamos a verificar que as curvas não
coincidem. Isso deve-se ao facto de num utilizar-mos
BinomialClassificationPerformance e no outro ROCComparator??
Resposta. Podem entrar no novo fórum de RapidMiner que está agora óptimo e
submeter esta pergunta. A Ana Raquel e Vítor escreveram ai e receberam logo
muitas dicas.
Bom trabalho para todos,
Cumprimentos,
Gladys
-----Original Message-----
From: aprendi...@googlegroups.com
[mailto:aprendi...@googlegroups.com] On Behalf Of Pedro
Sent: quarta-feira, 4 de Junho de 2008 21:14
To: Aprendizagem Computacional na UA
Subject: Debate em tema-2-classificao-de-pginas-web
Boa noite, estamos a tentar adiantar o trabalho 3 fazendo o que a
professora nos indicou na última mensagem (redução de atributos).
Contudo após instalar a nova versão do RapidMiner e alterar o valor no
ficheiro .bat deparamo-nos com outro problema: ao tentar comparar dois
algoritmos e após compilação obtemos um erro de que o segundo
algoritmo não dispõem de um conjunto de treino....(segue em anexo o xml