Missing Values

18 views
Skip to first unread message

Gladys Castillo

unread,
Mar 30, 2010, 6:03:09 AM3/30/10
to Aprendizagem Computacional na UA
Olá:

Como alguns alunos tem que tratar os missing values, aqui vou ir
colocando a informação que encontre sobre isto...

1) especialmente para os que estão a trabalhar com inquéritos:

Como combinamos, é melhor adicionar uma categoria nova (missing) para
caracterizar a aqueles que não responderam porque não era preciso.
Pode ser feito tudo isto no RapidMiner usando o operador
AttributeValueMapper:

"... there is also a more generic approach (without the need for
replacing the values by something like the average): you could just
define a new "category" (let's call it "missing") and use the
AttributeValueMapper to map all "?" to this new (artificial) category
(this of course only works on nominal data). Then you can apply all
learners and they will take the "missing" information into account. In
the following example, I replaced the nominal missing values with the
new category "missing" and the numerical missings simply with the
average. As you can see, the decision tree learner actually uses the
new category"

Este projecto em RapidMiner permite adicionar uma nova categoria para
os atributos nominais (value="missing" - vocês podem colocar outro
nome qualquer) e o average value no caso de um atributo numérico. Para
isto é usado o operator FeatureIterator para filtrar os atributos
nominais e depois usar o AttributeValueMapper para substituir os
missing values pela nova categoria... e a seguir é novamente usado o
FeatureIterator para filtrar os atributos numéricos e com
MissingValueReplenishment são substituídos os missing values pelo
valor médio...

<operator name="Root" class="Process" expanded="yes">
<operator name="ExampleSource" class="ExampleSource">
<parameter key="attributes" value="../data/labor-
negotiations.aml"/>
</operator>
<operator name="NominalFeatureIterator" class="FeatureIterator"
expanded="yes">
<parameter key="type_filter" value="nominal"/>
<operator name="NominalMissingCategory"
class="AttributeValueMapper">
<parameter key="attributes" value="%{loop_feature}"/>
<parameter key="replace_by" value="missing"/>
<parameter key="replace_what" value="?"/>
</operator>
</operator>
<operator name="NumericalFeatureIterator" class="FeatureIterator"
expanded="yes">
<operator name="MissingValueReplenishment"
class="MissingValueReplenishment">
<list key="columns">
<parameter key="%{loop_feature}" value="average"/>
</list>
</operator>
</operator>
<operator name="DecisionTree" class="DecisionTree">
</operator>
</operator>

Depois continuo com mais informação....

Reply all
Reply to author
Forward
0 new messages