Resultados duplicados

10 views
Skip to first unread message

t0th

unread,
Nov 10, 2010, 7:54:01 AM11/10/10
to Apontador API
Ol´,a

parabéns pela API, está muito legal.

estou aqui fazendo essa consulta:

http://api.apontador.com.br/v1/search/places/byaddress?type=json&state=PR&city=Foz+do+iguacu&limit=20&category_id=22&radius_mt=20000&term=hotel&page=1

porém o resultado retorna registros duplicados.

outra coisa, como sei quantos registros totais retornados? é o
result_count ?

Podem me ajudar?

obrigado e espero resposta


Chester

unread,
Nov 10, 2010, 12:53:50 PM11/10/10
to Apontador API
Olá,

Que bom que você gostou. Estamos trabalhando para melhorar, e o
feedback é sempre importante.

O result_count faz exatamente isso: retorna o total de registros
encontrados (que você pagina usando o page e o limit na chamada).

Sobre a duplicação: como o Apontador permite o cadastro livre de
pontos (à semelhança do que o Foursquare e outros provedores de pontos
de interesse com características sociais fazem), algum grau de
duplicação é inevitável.

Em alguns casos específicos, nós trabalhamos isso de forma editorial,
isto é, selecionando os pontos para cada cliente/caso. Como
desenvolvedores, sabemos que isso não escala para o cadastro todo (que
é o que o site Apontador usa e a API disponibiliza), e estamos
trabalhando uma abordagem mais interessante para a questão.

Como o assunto é bastante interessante, convidei o Fabricio Barth do
Apontador para falar um pouco mais a respeito aqui.

Abraço,
Carlos Duarte do Nascimento (Chester)
Arquiteto de Produtos - Apontador Web Services
che...@apontador.com | http://www.apontador.com.br


On Nov 10, 10:54 am, t0th <hussanhij...@gmail.com> wrote:
> Ol´,a
>
> parabéns pela API, está muito legal.
>
> estou aqui fazendo essa consulta:
>
> http://api.apontador.com.br/v1/search/places/byaddress?type=json&stat...

Fabrício Barth

unread,
Nov 10, 2010, 2:12:07 PM11/10/10
to aponta...@googlegroups.com
Caros,

Já estamos trabalhando algum tempo em um algoritmo capaz de identificar POIs virtuais (Point of Interest) que apontam para o mesmo POI real com um desempenho adequado. Neste caso, desempenho significa uma taxa de erro baixa - reduzir o número de falsos positivos (POIs colocados no mesmo grupo que não são do mesmo grupo) e falsos negativos (POIs que dizem respeito ao mesmo POI real, mas que foram colocados em grupos diferentes) e também significa processar seis milhões de registros em poucas horas.

Atualmente já temos uma base deduplicada mas não podemos liberá-la pois alguns processos relacionados com a criação/adição de POIs (em lote ou não), alteração de POIs e atualização de POIs ainda não estão definidos e implementados. O que também impacta na API do Apontador. Estes processos são necessários para a manutenção da base de-duplicada e para a redução das inconsistências encontradas pelo algoritmo de de-duplicação.

Infelizmente, por enquanto ainda teremos resultados duplicados nas consultas feitas com a API.  Assim que eu tiver novidades, vocês serão os primeiros a saber!

Abraços,

Fabrício.

2010/11/10 Chester <che...@apontador.com>



--
Fabrício J. Barth
http://fbarth.net.br
http://blog.fbarth.net.br
http://twitter.com/fbarth
http://www.flickr.com/fbarth

t0th

unread,
Apr 20, 2012, 8:32:57 AM4/20/12
to aponta...@googlegroups.com
Olá, pessoal..

alguma novidade sobre duplicação de resultados?

att.

Rodrigo Trindade Prestes

unread,
Apr 23, 2012, 7:14:49 AM4/23/12
to aponta...@googlegroups.com
oi, Hussan,

Já colocamos o algoritmo que o Fabrício Barth comentou no e-mail
anterior em produção. A maior parte do nosso conteúdo já está sem
duplicações.
Ainda temos que melhorar a parte de cadastro, dando um feedback para o
usuário em caso de identificação de duplicação. Hoje, esse tipo de
validação não é realizada ainda.
Se você encontrar algum caso com problemas de duplicação, nos mostre e
podemos trazer ajustes para o algoritmo.
Se precisar de qualquer outra ajuda, estamos à disposição.

Rodrigo Prestes
Engenheiro de Software @apontador

Reply all
Reply to author
Forward
0 new messages