Debate em tema-2-classificao-de-pginas-web

9 views
Skip to first unread message

lpba...@ua.pt

unread,
Mar 2, 2008, 2:51:38 PM3/2/08
to Aprendizagem Computacional na UA
Boa noite, estamos a trabalhar no nosso projecto "Web mining" e
estamos com alguns problemas:
- Na implementação no RapidMiner, não conseguimos aplicar o operador
"MinimalEntropyPartitioning" com vista a efectuar a fase de
discretização.
- No entanto passamos as fases seguintes sem discretizar os atributos
e obtemos valores para os erros muito elevados (+-80%). Este facto
pode estar associado ao problema anterior?
Seria possível marcar um dia e hora para lhe mostrar a implementação
de forma a identificar o erro?

Cumprimentos
Luís Batista e Rui Vieira

Gladys Castillo

unread,
Mar 3, 2008, 8:01:33 AM3/3/08
to Aprendizagem Computacional na UA
Olá Luis e Rui: Não acho que o erro tão elevado seja motivado por não
terem discretizado; até porque o C4.5 aceita atributos numéricos. O
problema deve estar na própria base de dados, algo não deve estar
certo! Não será que esqueceram de indicar a variável classe ou está
mal indicada?, pois basta confundir a classe para que tudo fique
baralhado. Hoje até o final do dia digo-lhes quando podemos encontrar-
nos. Mas de ser amanha, quando dava-lhes mais jeito? Cps

Gladys Castillo

unread,
Mar 3, 2008, 8:08:56 AM3/3/08
to Aprendizagem Computacional na UA
Amanhá a partir das 16:30 vou estar no meu gabinete (11.3.37) até as
18:00 por se quiserem passar para esclarecer dúvidas

lpba...@ua.pt

unread,
Mar 3, 2008, 8:44:40 AM3/3/08
to Aprendizagem Computacional na UA
Por nos pode ser amanha, aparecemos a partir das 16:30 para ver o que
está mal. Obrigado

Pedro

unread,
Mar 10, 2008, 10:53:31 AM3/10/08
to Aprendizagem Computacional na UA
- Boa tarde, estivemos a reler o artigo base e não encontramos nenhum
tipo de pré-processamento, apenas existe uma referência de que o
algoritmo de aprendizagem não deve ser sensível a missing values nem a
atributos irrelevantes. Desta forma ficaríamos sem assunto para o
primeiro trabalho, no que diz respeito ao pré-processamento. O que
devemos fazer??Fazemos analises/ testes nós no rapidminer e no
relatório explicamos as várias etapas possíveis??
- Já descobrimos uma forma de visualizar as regras em vez das árvores,
são dois operadores diferentes (RuleLearner/Decision tree,
respectivamente), e verificamos ainda que o primeiro operador produzia
melhores resultados. (No nosso artigo base é referido o C4.5rules)
- Relativamente aos valores finais para o accuracy não estamos a obter
os esperados (97%), conseguimos na melhor das hipóteses 92%,
respeitando todos os passos do relatório, ou seja, sem fase de pré-
processamento. (supomos que devem ter sido feito passos na execução
que não vêm descritos no artigo). Seguimos com os nossos resultados??

Obrigado, cumprimentos
Luís Batista
Rui Vieira


Gladys Castillo

unread,
Mar 10, 2008, 11:00:24 AM3/10/08
to Aprendizagem Computacional na UA
Olá Luis e Rui:

....estivemos a reler o artigo base e não encontramos nenhum tipo de
pré-processamento, apenas existe uma referência de que o algoritmo de
aprendizagem não deve ser sensível a missing values nem a atributos
irrelevantes. Desta forma ficaríamos sem assunto para o primeiro
trabalho, no que diz respeito ao pré-processamento.

Na parte de pre-processamento como indicado no vosso tema devem
resumir algumas das técnicas de web page cleaning explicadas no paper:

Web Page Cleaning for Web Mining through Feature Weighting

Poderiam ai encontrar alguma ideia que podia ser implementada no
RapidMiner para pre-processamento.

O que acham?

Cps,
Gladys

Pedro

unread,
Mar 10, 2008, 12:01:01 PM3/10/08
to Aprendizagem Computacional na UA


No artigo indicado para pré-processamento, não encontramos nada que
se enquadre nas fases de pré-processamento indicadas nas aulas, e no
rapidminer também não encontramos nada para aplicação dessas técnicas.
Contudo percebemos que são explicadas técnicas que melhorariam os
resultados da classificação, embora parte dessas técnicas já tenham
sido referidas por nós, no seguimento da explicação do algoritmo C4.5
(na construção de arvores de decisão).

-A professora pretende uma análise teórica no relatório acerca destes
métodos na fase de pré-processamento, apesar de não os conseguirmos
implementar no rapidminer???

Obrigada

Gladys Castillo Jordán

unread,
Mar 10, 2008, 12:02:17 PM3/10/08
to aprendi...@googlegroups.com
Sim, podem teoricamente expor em que consiste estes metodos para o caso
particular de web mining

Pedro

unread,
Mar 10, 2008, 3:06:41 PM3/10/08
to Aprendizagem Computacional na UA
Boa noite, seria possível disponibilizar as regras do segundo trabalho
e também da apresentação (quanto tempo e aspectos principais a focar)?
Como somos o primeiro grupo, pretendemos começar a fazer a
apresentação o quanto antes.
Cumprimentos.

Gladys Castillo

unread,
Mar 10, 2008, 3:20:48 PM3/10/08
to Aprendizagem Computacional na UA
Olá Pedro e Rui
Vou ver se posso preparar o documento ainda esta semana, mas para
já, o foco do trabalho TP2 é a descrição do algoritmo de aprendizagem
(no vosso caso o C4.5 para indução de regras) assim como a descrição
de um método para avaliar o seu desempenho (devem escolher um dos
métodos para estimar alguma das medidas usadas no paper base, se
quiserem podem explicar como foram obtidas as curvas de aprendizagem).
Depois devem implementar e avaliar o algoritmo no RapidMiner, mostrar
uma árvore induzida e como delas podem extrair as regras, analisar e
comentar os resultados. O nº de paginas do relatorio fica igual que
para o trabalho TP1 mas a apresentação nas aulas pode ir até 1 hora. O
objectivo é continuar com o mesmo projecto de data mining, so que
enquanto no trabalho TP1 o foco é na modelação e pre-processamento, no
trabalho TP2 devem avançar para as seguintes etapas (aprendizagem e
avaliação). Depois no ultimo trabalho (TP3) será realizado um estudo
comparativo entre varios algoritmos usando os métodos estudados na
aula passada.
Cps

Pedro

unread,
May 25, 2008, 1:04:15 PM5/25/08
to Aprendizagem Computacional na UA
Boa tarde, estamos de a fazer o trabalho 3 e estamos com algumas
duvidas:
1.Estamos a tentar fazer pré-processamento(redução de atributos) com
FeatuteSelection juntamente com CFSFeatureSetEvaluator, mas estamos a
obter out of memory. Como podemos fazer a redução??
2.Estamos a fazer a curva de ROC para cada método separadamente e tb
uma curva de ROC com os 3. Estamos a verificar que as curvas não
coincidem.Isso deve-se ao facto de num utilizar-mos
BinomialClassificationPerformance e no outro ROCComparator??

Cump Luís e Rui

Gladys Castillo Jordán

unread,
May 27, 2008, 6:30:49 AM5/27/08
to aprendi...@googlegroups.com
Bom dia Pedro:

1.Estamos a tentar fazer pré-processamento(redução de atributos) com
FeatuteSelection juntamente com CFSFeatureSetEvaluator, mas estamos a
obter out of memory. Como podemos fazer a redução??

Se não corre o FSS então não açam. Outra variante será correr um PCA como
fizeram Elena e Joana e depois obter pesos para os atributos. O mais
importante neste trabalho são os métodos de avaliação para fazer os
algoritmos.

Quantos atributos voces têm e de que tipo? Não me parecia que erão tantos
por forma a dar out-of-memory.


2.Estamos a fazer a curva de ROC para cada método separadamente e tb
uma curva de ROC com os 3. Estamos a verificar que as curvas não

coincidem. Isso deve-se ao facto de num utilizar-mos


BinomialClassificationPerformance e no outro ROCComparator??

Isto não sei. Este tipo de duvida podem coloca-la no fórum de RapidMiner,
eles normalmente respondem

Aqui podes encontrar uma discussão sobre isto:

http://sourceforge.net/forum/forum.php?thread_id=1776184&forum_id=390413


Cps,
Gladys

Gladys Castillo Jordán

unread,
May 27, 2008, 8:43:04 PM5/27/08
to aprendi...@googlegroups.com
Boa noite a todos: (aconselho a todos ler com atenção)

Como agora todos vão ter que trabalhar no projecto nº3 usando os mesmos
métodos para avaliação, pré-processamento, etc. vou abrir aqui este tópico
de discussão para que assim todos possam partilhar toda a informação sobre
estes projectos. Assim que por favor, todas as dúvidas sobre o trabalho TP3
tratem de envia-la logo para aqui. Também se algum de vocês super a
resposta, tratem de responder, assim não sou eu a única a esclarecer as
questões. Já alguns de vocês estão mais espertos nestes assuntos e podem
ajudar aos colegas que precisam.

Pergunta 1 (Rui e Pedro). Estamos a tentar fazer pré-processamento(redução


de atributos) com FeatuteSelection juntamente com CFSFeatureSetEvaluator,
mas estamos a obter out of memory. Como podemos fazer a redução??

Resposta: Para evitar o erro de out-of-memory quando correm os algoritmos de
FSS experimentem mudar esta instrução no ficheiro RapidMinerGUI.bat in the
scripts subdirectory onde está instalado o RapidMiner:

if "%MAX_JAVA_MEMORY%"=="" set MAX_JAVA_MEMORY=1024

Esta variavel MAX_JAVA_MEMORY deve ser 1024, OK? Eu tinha muito menos, agora
não me lembro exactamente quanto. Estou a fazer todas estas experiencias com
a nova versão 4.1. que aconselho-vos instalar.

Depois será conveniente correr o programa a partir do ficheiro .bat em vez
de executa-lo pelo icono no desktop. Eu consegui assim correr um FSS para o
problema de Luís P. e Rui que antes me dava out-of-memory e também para o
meu problema dos microarrays onde tenho 7024 atributos.

Aqui neste projecto de RapidMiner que envio estou a combinar vários métodos
de FSS que devem ser usados quando existe um elevado número de atributos. A
ideia é primeiro remover alguns atributos baseando-se apenas no computo de
uns pesos e assim evitar serem passados todos os atributos como entrada do
problema de FSS que como sabem é um problema de optimização combinatória e
quando são usados muitos atributos o número de possíveis subconjuntos cresce
exponencialmente, por isso a memoria explode !!!.

Pedro e Rui, tratem de experimentar entre estes métodos de FSS com qual é
possível obter melhores resultados e espero que possam corre-los (mas notem
que neste projecto que os envio os métodos de FSS não melhoram o desempenho
do NB, pelo contrario)

Podem alternar entre usar:

1) InfoGainWeighting + AttributeWeightSelection + AttributeWeightsApplier -
a combinação destes métodos o que faz é seleccionar os atributos com maior
information gain (até tem sentido para o vosso trabalho pois vocês usam esta
medida para induzir arvores de decisão) - experimentem por break point
depois de cada operador e vão poder ver os pesos dos atributos e quais são
os que têm maior information gain (por lógica o atributo com maior peso =
maior information gain deveria ser aquele que foi seleccionado como raiz na
árvore de decisão)

2) FeatureSelection + CFSFeatureSetEvaluator (experimentem se podem agora
corre-lo depois de ter mudado a instrução sobre a memoria como indicado)

3) InfoGainWeighting + AttributeWeightSelection + AttributeWeightsApplier +
FeatureSelection + CFSFeatureSetEvaluator - so no caso que dei out-of-memory
o método de FSS pelo explicado anteriormente.

Podem encontrar toda a informação sobre todos estes operadores no ficheiro
do tutorial de RapidMiner que acabo de deixar no grupo.

Se quiserem em vez de usar o k-NN (sempre demora um bocado se o nº de
exemplos é grande) podem usar o Naive Bayes, que é muito rápido nas contas,
mas isto o que vocês preferem.

Pergunta 2.Estamos a fazer a curva de ROC para cada método separadamente e


tb uma curva de ROC com os 3. Estamos a verificar que as curvas não

coincidem. Isso deve-se ao facto de num utilizar-mos


BinomialClassificationPerformance e no outro ROCComparator??

Resposta. Podem entrar no novo fórum de RapidMiner que está agora óptimo e
submeter esta pergunta. A Ana Raquel e Vítor escreveram ai e receberam logo
muitas dicas.

Bom trabalho para todos,

Cumprimentos,
Gladys

Ad_noAD_NB_InfoGainFSS.xml

Pedro

unread,
Jun 4, 2008, 4:14:23 PM6/4/08
to Aprendizagem Computacional na UA
Boa noite, estamos a tentar adiantar o trabalho 3 fazendo o que a
professora nos indicou na última mensagem (redução de atributos).
Contudo após instalar a nova versão do RapidMiner e alterar o valor no
ficheiro .bat deparamo-nos com outro problema: ao tentar comparar dois
algoritmos e após compilação obtemos um erro de que o segundo
algoritmo não dispõem de um conjunto de treino….(segue em anexo o xml
para melhor confirmar).
Agradecemos resposta pois sem isto não é possível obter valores para o
t-test.
Cumprimentos
Rui e Pedro

- - - - - - - - - - - -

<operator name="Root" class="Process" expanded="yes">
<operator name="Importação da base de dados"
class="C45ExampleSource" breakpoints="after">
<parameter key="c45_filestem" value="C:\Users\Pedro Batista
\Desktop\Trab3 Tema1\ad.data"/>
</operator>
<operator name="InfoGainWeighting" class="InfoGainWeighting"
breakpoints="after">
</operator>
<operator name="AttributeWeightSelection"
class="AttributeWeightSelection" breakpoints="after">
<parameter key="k" value="150"/>
<parameter key="keep_attribute_weights" value="true"/>
<parameter key="weight_relation" value="top k"/>
</operator>
<operator name="AttributeWeightsApplier"
class="AttributeWeightsApplier" breakpoints="after">
</operator>
<operator name="FeatureSelection" class="FeatureSelection"
expanded="yes">
<parameter key="generations_without_improval" value="5"/>
<operator name="CFSFeatureSetEvaluator"
class="CFSFeatureSetEvaluator" breakpoints="after">
</operator>
</operator>
<operator name="XValidation" class="XValidation" expanded="yes">
<parameter key="sampling_type" value="shuffled sampling"/>
<operator name="W-J48" class="W-J48">
</operator>
<operator name="Fase de Avaliação" class="OperatorChain"
expanded="yes">
<operator name="ModelApplier" class="ModelApplier">
<list key="application_parameters">
</list>
</operator>
<operator name="ClassificationPerformance"
class="ClassificationPerformance" breakpoints="after">
<parameter key="accuracy" value="true"/>
<list key="class_weights">
</list>
<parameter key="classification_error" value="true"/>
<parameter key="cross-entropy" value="true"/>
<parameter key="kappa" value="true"/>
<parameter key="main_criterion"
value="classification_error"/>
<parameter key="weighted_mean_precision" value="true"/
>
<parameter key="weighted_mean_recall" value="true"/>
</operator>
</operator>
</operator>
<operator name="XValidation (2)" class="XValidation"
expanded="yes">
<parameter key="sampling_type" value="shuffled sampling"/>
<operator name="W-JRip" class="W-JRip">
</operator>
<operator name="OperatorChain" class="OperatorChain"
expanded="yes">
<operator name="ModelApplier (2)" class="ModelApplier">
<list key="application_parameters">
</list>
</operator>
<operator name="ClassificationPerformance (2)"
class="ClassificationPerformance">
<list key="class_weights">
</list>
</operator>
</operator>
</operator>
<operator name="T-Test" class="T-Test">
</operator>
</operator>

Gladys Castillo Jordán

unread,
Jun 4, 2008, 4:18:39 PM6/4/08
to aprendi...@googlegroups.com
Boa noite Pedro:
O problema é que tens que por a true o parâmetro keep-example-set do
Operator X-validation anterior para poder passar o conjunto de treino.
Aqui te envio um projecto que fiz há uns dias para avaliar e comparar 3
algoritmos para classificadores Bayesianos
Cumprimentos,
Gladys

-----Original Message-----
From: aprendi...@googlegroups.com
[mailto:aprendi...@googlegroups.com] On Behalf Of Pedro
Sent: quarta-feira, 4 de Junho de 2008 21:14
To: Aprendizagem Computacional na UA

Subject: Debate em tema-2-classificao-de-pginas-web


Boa noite, estamos a tentar adiantar o trabalho 3 fazendo o que a
professora nos indicou na última mensagem (redução de atributos).
Contudo após instalar a nova versão do RapidMiner e alterar o valor no
ficheiro .bat deparamo-nos com outro problema: ao tentar comparar dois
algoritmos e após compilação obtemos um erro de que o segundo

algoritmo não dispõem de um conjunto de treino....(segue em anexo o xml

iris-NB-Eval.xml
iris.arff
Reply all
Reply to author
Forward
0 new messages