Account Options

  1. Sign in
The old Google Groups will be going away soon, but your browser is incompatible with the new version.
Google Groups Home
« Groups Home
Message from discussion Resultados duplicados

Received: by 10.216.36.21 with SMTP id v21mr470085wea.4.1289416331006;
        Wed, 10 Nov 2010 11:12:11 -0800 (PST)
X-BeenThere: apontador-api@googlegroups.com
Received: by 10.216.79.7 with SMTP id h7ls438310wee.1.p; Wed, 10 Nov 2010
 11:12:09 -0800 (PST)
Received: by 10.216.220.221 with SMTP id o71mr471646wep.2.1289416329798;
        Wed, 10 Nov 2010 11:12:09 -0800 (PST)
Received: by 10.216.220.221 with SMTP id o71mr471645wep.2.1289416329749;
        Wed, 10 Nov 2010 11:12:09 -0800 (PST)
Return-Path: <fabricio.ba...@gmail.com>
Received: from mail-ww0-f41.google.com (mail-ww0-f41.google.com [74.125.82.41])
        by gmr-mx.google.com with ESMTP id m20si317141weq.3.2010.11.10.11.12.08;
        Wed, 10 Nov 2010 11:12:08 -0800 (PST)
Received-SPF: pass (google.com: domain of fabricio.ba...@gmail.com designates 74.125.82.41 as permitted sender) client-ip=74.125.82.41;
Authentication-Results: gmr-mx.google.com; spf=pass (google.com: domain of fabricio.ba...@gmail.com designates 74.125.82.41 as permitted sender) smtp.mail=fabricio.ba...@gmail.com; dkim=pass (test mode) header...@gmail.com
Received: by mail-ww0-f41.google.com with SMTP id 33so385934wwc.0
        for <apontador-api@googlegroups.com>; Wed, 10 Nov 2010 11:12:08 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
        d=gmail.com; s=gamma;
        h=domainkey-signature:mime-version:received:received:in-reply-to
         :references:date:message-id:subject:from:to:content-type;
        bh=IHitFaAFrbPQ7LBGlflAZzgFFGwK1ue6lAeyJe03AOs=;
        b=Uqv+DblKuMXnisZo+FsTOGA7rg8Pt/cUQ/xFQDWPGIvDr1RaHjg4szoza7YVM1Oxep
         sp1M7Fx0a3rwaaWHxxRGBVHLlm9l8WMFiCUnl/sq3jo0mMsJqc7kojtGC97GFVGkMnbS
         e7rBv7YPsaletqpEP4g5GfeTcm+uHWADSkvPo=
DomainKey-Signature: a=rsa-sha1; c=nofws;
        d=gmail.com; s=gamma;
        h=mime-version:in-reply-to:references:date:message-id:subject:from:to
         :content-type;
        b=p/Dafq04sV1mvm037r60/WMM0uklIuc4KZOazRUqZuUr5LoTuiqi15gpCBcgUBwZjy
         rKLQOwdk4Yzwk/2uxPrEwvPJM2imfErvrPFzb4rS6BovOFjqHZKnj+dffLT2RFEyXULN
         A8hl3PyxsxMhhxiySjTEQtaAbzL11EWlankE4=
MIME-Version: 1.0
Received: by 10.227.127.75 with SMTP id f11mr8733049wbs.69.1289416327582; Wed,
 10 Nov 2010 11:12:07 -0800 (PST)
Received: by 10.227.7.137 with HTTP; Wed, 10 Nov 2010 11:12:07 -0800 (PST)
In-Reply-To: <d19022ed-3e7f-4a9e-b6c9-a6ec2df45...@f20g2000vbc.googlegroups.com>
References: <3b1dac0a-b483-447e-b126-237b3315d...@32g2000yqz.googlegroups.com>
	<d19022ed-3e7f-4a9e-b6c9-a6ec2df45...@f20g2000vbc.googlegroups.com>
Date: Wed, 10 Nov 2010 17:12:07 -0200
Message-ID: <AANLkTi=pXQCF30FsVLXvka3=wJmPE5az6rfqAKN3v...@mail.gmail.com>
Subject: Re: [apontador-api] Re: Resultados duplicados
From: =?ISO-8859-1?Q?Fabr=EDcio_Barth?= <fabricio.ba...@gmail.com>
To: apontador-api@googlegroups.com
Content-Type: multipart/alternative; boundary=0016364ef7de2c55fa0494b7a2e1

--0016364ef7de2c55fa0494b7a2e1
Content-Type: text/plain; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

Caros,

J=E1 estamos trabalhando algum tempo em um algoritmo capaz de identificar P=
OIs
virtuais (Point of Interest) que apontam para o mesmo POI real com um
desempenho adequado. Neste caso, desempenho significa uma taxa de erro baix=
a
- reduzir o n=FAmero de falsos positivos (POIs colocados no mesmo grupo que
n=E3o s=E3o do mesmo grupo) e falsos negativos (POIs que dizem respeito ao =
mesmo
POI real, mas que foram colocados em grupos diferentes) e tamb=E9m signific=
a
processar seis milh=F5es de registros em poucas horas.

Atualmente j=E1 temos uma base deduplicada mas n=E3o podemos liber=E1-la po=
is
alguns processos relacionados com a cria=E7=E3o/adi=E7=E3o de POIs (em lote=
 ou n=E3o),
altera=E7=E3o de POIs e atualiza=E7=E3o de POIs ainda n=E3o est=E3o definid=
os e
implementados. O que tamb=E9m impacta na API do Apontador. Estes processos =
s=E3o
necess=E1rios para a manuten=E7=E3o da base de-duplicada e para a redu=E7=
=E3o das
inconsist=EAncias encontradas pelo algoritmo de de-duplica=E7=E3o.

Infelizmente, por enquanto ainda teremos resultados duplicados nas consulta=
s
feitas com a API.  Assim que eu tiver novidades, voc=EAs ser=E3o os primeir=
os a
saber!

Abra=E7os,

Fabr=EDcio.

2010/11/10 Chester <ches...@apontador.com>

> Ol=E1,
>
> Que bom que voc=EA gostou. Estamos trabalhando para melhorar, e o
> feedback =E9 sempre importante.
>
> O result_count faz exatamente isso: retorna o total de registros
> encontrados (que voc=EA pagina usando o page e o limit na chamada).
>
> Sobre a duplica=E7=E3o: como o Apontador permite o cadastro livre de
> pontos (=E0 semelhan=E7a do que o Foursquare e outros provedores de ponto=
s
> de interesse com caracter=EDsticas sociais fazem), algum grau de
> duplica=E7=E3o =E9 inevit=E1vel.
>
> Em alguns casos espec=EDficos, n=F3s trabalhamos isso de forma editorial,
> isto =E9, selecionando os pontos para cada cliente/caso. Como
> desenvolvedores, sabemos que isso n=E3o escala para o cadastro todo (que
> =E9 o que o site Apontador usa e a API disponibiliza), e estamos
> trabalhando uma abordagem mais interessante para a quest=E3o.
>
> Como o assunto =E9 bastante interessante, convidei o Fabricio Barth do
> Apontador para falar um pouco mais a respeito aqui.
>
> Abra=E7o,
>  Carlos Duarte do Nascimento (Chester)
>  Arquiteto de Produtos - Apontador Web Services
>  ches...@apontador.com | http://www.apontador.com.br
>
>
> On Nov 10, 10:54 am, t0th <hussanhij...@gmail.com> wrote:
> > Ol=B4,a
> >
> > parab=E9ns pela API, est=E1 muito legal.
> >
> > estou aqui fazendo essa consulta:
> >
> > http://api.apontador.com.br/v1/search/places/byaddress?type=3Djson&stat=
...
> >
> > por=E9m o resultado retorna registros duplicados.
> >
> > outra coisa, como sei quantos registros totais retornados? =E9 o
> > result_count ?
> >
> > Podem me ajudar?
> >
> > obrigado e espero resposta
>



--=20
Fabr=EDcio J. Barth
http://fbarth.net.br
http://blog.fbarth.net.br
http://twitter.com/fbarth
http://www.flickr.com/fbarth

--0016364ef7de2c55fa0494b7a2e1
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

Caros,<br><br>J=E1 estamos trabalhando algum tempo em um algoritmo capaz de=
 identificar POIs virtuais (Point of Interest) que apontam para o mesmo POI=
 real com um desempenho adequado. Neste caso, desempenho significa uma taxa=
 de erro baixa - reduzir o n=FAmero de falsos positivos (POIs colocados no =
mesmo grupo que n=E3o s=E3o do mesmo grupo) e falsos negativos (POIs que di=
zem respeito ao mesmo POI real, mas que foram colocados em grupos diferente=
s) e tamb=E9m significa processar seis milh=F5es de registros em poucas hor=
as.<br>
<br>Atualmente j=E1 temos uma base deduplicada mas n=E3o podemos liber=E1-l=
a pois alguns processos relacionados com a cria=E7=E3o/adi=E7=E3o de POIs (=
em lote ou n=E3o), altera=E7=E3o de POIs e atualiza=E7=E3o de POIs ainda n=
=E3o est=E3o definidos e implementados. O que tamb=E9m impacta na API do Ap=
ontador. Estes processos s=E3o necess=E1rios para a manuten=E7=E3o da base =
de-duplicada e para a redu=E7=E3o das inconsist=EAncias encontradas pelo al=
goritmo de de-duplica=E7=E3o.<br>
<br>Infelizmente, por enquanto ainda teremos resultados duplicados nas cons=
ultas feitas com a API.=A0 Assim que eu tiver novidades, voc=EAs ser=E3o os=
 primeiros a saber!<br><br>Abra=E7os,<br><br>Fabr=EDcio.<br><br><div class=
=3D"gmail_quote">
2010/11/10 Chester <span dir=3D"ltr">&lt;<a href=3D"mailto:chester@apontado=
r.com">ches...@apontador.com</a>&gt;</span><br><blockquote class=3D"gmail_q=
uote" style=3D"margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 2=
04, 204); padding-left: 1ex;">
Ol=E1,<br>
<br>
Que bom que voc=EA gostou. Estamos trabalhando para melhorar, e o<br>
feedback =E9 sempre importante.<br>
<br>
O result_count faz exatamente isso: retorna o total de registros<br>
encontrados (que voc=EA pagina usando o page e o limit na chamada).<br>
<br>
Sobre a duplica=E7=E3o: como o Apontador permite o cadastro livre de<br>
pontos (=E0 semelhan=E7a do que o Foursquare e outros provedores de pontos<=
br>
de interesse com caracter=EDsticas sociais fazem), algum grau de<br>
duplica=E7=E3o =E9 inevit=E1vel.<br>
<br>
Em alguns casos espec=EDficos, n=F3s trabalhamos isso de forma editorial,<b=
r>
isto =E9, selecionando os pontos para cada cliente/caso. Como<br>
desenvolvedores, sabemos que isso n=E3o escala para o cadastro todo (que<br=
>
=E9 o que o site Apontador usa e a API disponibiliza), e estamos<br>
trabalhando uma abordagem mais interessante para a quest=E3o.<br>
<br>
Como o assunto =E9 bastante interessante, convidei o Fabricio Barth do<br>
Apontador para falar um pouco mais a respeito aqui.<br>
<br>
Abra=E7o,<br>
=A0Carlos Duarte do Nascimento (Chester)<br>
=A0Arquiteto de Produtos - Apontador Web Services<br>
=A0<a href=3D"mailto:ches...@apontador.com">ches...@apontador.com</a> | <a =
href=3D"http://www.apontador.com.br" target=3D"_blank">http://www.apontador=
.com.br</a><br>
<div class=3D"im"><br>
<br>
On Nov 10, 10:54=A0am, t0th &lt;<a href=3D"mailto:hussanhij...@gmail.com">h=
ussanhij...@gmail.com</a>&gt; wrote:<br>
&gt; Ol=B4,a<br>
&gt;<br>
&gt; parab=E9ns pela API, est=E1 muito legal.<br>
&gt;<br>
&gt; estou aqui fazendo essa consulta:<br>
&gt;<br>
</div>&gt; <a href=3D"http://api.apontador.com.br/v1/search/places/byaddres=
s?type=3Djson&amp;stat." target=3D"_blank">http://api.apontador.com.br/v1/s=
earch/places/byaddress?type=3Djson&amp;stat.</a>..<br>
<div><div></div><div class=3D"h5">&gt;<br>
&gt; por=E9m o resultado retorna registros duplicados.<br>
&gt;<br>
&gt; outra coisa, como sei quantos registros totais retornados? =E9 o<br>
&gt; result_count ?<br>
&gt;<br>
&gt; Podem me ajudar?<br>
&gt;<br>
&gt; obrigado e espero resposta</div></div></blockquote></div><br><br clear=
=3D"all"><br>-- <br>Fabr=EDcio J. Barth<br><a href=3D"http://fbarth.net.br"=
>http://fbarth.net.br</a><br><a href=3D"http://blog.fbarth.net.br">http://b=
log.fbarth.net.br</a><br>
<a href=3D"http://twitter.com/fbarth">http://twitter.com/fbarth</a><br><a h=
ref=3D"http://www.flickr.com/fbarth">http://www.flickr.com/fbarth</a><br>

--0016364ef7de2c55fa0494b7a2e1--