Gladys Castillo
unread,May 27, 2008, 9:00:34 PM5/27/08Sign in to reply to author
Sign in to forward
You do not have permission to delete messages in this group
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to Aprendizagem Computacional na UA
Boa noite a todos: (aconselho a todos ler com atenção)
Como agora todos vão ter que trabalhar no projecto nº3 usando os
mesmos
métodos para avaliação, pré-processamento, etc. vou abrir aqui este
tópico
de discussão para que assim todos possam partilhar toda a informação
sobre
estes projectos. Assim que por favor, todas as dúvidas sobre o
trabalho TP3
tratem de envia-la logo para aqui. Também se algum de vocês super a
resposta, tratem de responder, assim não sou eu a única a esclarecer
as
questões. Já alguns de vocês estão mais espertos nestes assuntos e
podem
ajudar aos colegas que precisam.
Pergunta 1 (Rui e Pedro). Estamos a tentar fazer pré-
processamento(redução
de atributos) com FeatuteSelection juntamente com
CFSFeatureSetEvaluator,
mas estamos a obter out of memory. Como podemos fazer a redução??
Resposta: Para evitar o erro de out-of-memory quando correm os
algoritmos de
FSS experimentem mudar esta instrução no ficheiro RapidMinerGUI.bat in
the
scripts subdirectory onde está instalado o RapidMiner:
if "%MAX_JAVA_MEMORY%"=="" set MAX_JAVA_MEMORY=1024
Esta variavel MAX_JAVA_MEMORY deve ser 1024, OK? Eu tinha muito menos,
agora
não me lembro exactamente quanto. Estou a fazer todas estas
experiencias com
a nova versão 4.1. que aconselho-vos instalar.
Depois será conveniente correr o programa a partir do ficheiro .bat em
vez
de executa-lo pelo icono no desktop. Eu consegui assim correr um FSS
para o
problema de Luís P. e Rui que antes me dava out-of-memory e também
para o
meu problema dos microarrays onde tenho 7024 atributos.
Aqui neste projecto de RapidMiner que envio estou a combinar vários
métodos
de FSS que devem ser usados quando existe um elevado número de
atributos. A
ideia é primeiro remover alguns atributos baseando-se apenas no
computo de
uns pesos e assim evitar serem passados todos os atributos como
entrada do
problema de FSS que como sabem é um problema de optimização
combinatória e
quando são usados muitos atributos o número de possíveis subconjuntos
cresce
exponencialmente, por isso a memoria explode !!!.
Pedro e Rui, tratem de experimentar entre estes métodos de FSS com
qual é
possível obter melhores resultados e espero que possam corre-los (mas
notem
que neste projecto que os envio os métodos de FSS não melhoram o
desempenho
do NB, pelo contrario)
Podem alternar entre usar:
1) InfoGainWeighting + AttributeWeightSelection +
AttributeWeightsApplier -
a combinação destes métodos o que faz é seleccionar os atributos com
maior
information gain (até tem sentido para o vosso trabalho pois vocês
usam esta
medida para induzir arvores de decisão) - experimentem por break point
depois de cada operador e vão poder ver os pesos dos atributos e quais
são
os que têm maior information gain (por lógica o atributo com maior
peso =
maior information gain deveria ser aquele que foi seleccionado como
raiz na
árvore de decisão)
2) FeatureSelection + CFSFeatureSetEvaluator (experimentem se podem
agora
corre-lo depois de ter mudado a instrução sobre a memoria como
indicado)
3) InfoGainWeighting + AttributeWeightSelection +
AttributeWeightsApplier +
FeatureSelection + CFSFeatureSetEvaluator - so no caso que dei out-of-
memory
o método de FSS pelo explicado anteriormente.
Podem encontrar toda a informação sobre todos estes operadores no
ficheiro
do tutorial de RapidMiner que acabo de deixar no grupo.
Se quiserem em vez de usar o k-NN (sempre demora um bocado se o nº de
exemplos é grande) podem usar o Naive Bayes, que é muito rápido nas
contas,
mas isto o que vocês preferem.
Pergunta 2.Estamos a fazer a curva de ROC para cada método
separadamente e
tb uma curva de ROC com os 3. Estamos a verificar que as curvas não
coincidem. Isso deve-se ao facto de num utilizar-mos
BinomialClassificationPerformance e no outro ROCComparator??
Resposta. Podem entrar no novo fórum de RapidMiner que está agora
óptimo e
submeter esta pergunta. A Ana Raquel e Vítor escreveram ai e receberam
logo
muitas dicas.
Bom trabalho para todos,
Cumprimentos,
Gladys