Full text search en archivos

26 views
Skip to first unread message

Mario Dal Lago

unread,
Aug 10, 2012, 4:38:51 PM8/10/12
to altnet-...@googlegroups.com, altnet-a...@googlegroups.com
Hola, 
estoy investigando varias herramientas para hacer búsquedas de texto en archivos (*.doc, *.xls, *.pdf, etc).

Hasta ahora encontré Windows Search que es nativo en windows y existe un SDK para hacer las búsquedas http://msdn.microsoft.com/en-us/library/ff628790(v=vs.85).
Un producto comercial llamado dtSearch http://www.dtsearch.com/  y usar Lucene junto con Tika http://tika.apache.org/.

La idea es que funcione en windows y tengo algún API para acceder desde .net.

Alguno utilizó alguna de estas herramientas ? Conoce alguna otra para recomendar ?

Gracias
 Saludos

Mario Dal Lago

Brian J. Cardiff

unread,
Aug 10, 2012, 4:54:20 PM8/10/12
to altnet-a...@googlegroups.com, altnet-...@googlegroups.com
Podés probar por el lado de Lucene o sino elasticsearch (que se monta en lucene).

En el trabajo hemos usado elasticsearch para varias cosas ya, aunque no para indexar attachments, pero dicen que anda :-P

2012/8/10 Mario Dal Lago <the4...@yahoo.com.ar>



--
Brian J. Cardiff - Manas Technology Solutions
[ar.phone] 4796.0232 #BCR(227)
[us.phone] 312.612.1050  #BCR(227)
[email] bcar...@manas.com.ar
[web] www.manas.com.ar
[weblog] http://weblogs.manas.com.ar/bcardiff/

Mauricio Scheffer

unread,
Aug 10, 2012, 4:56:55 PM8/10/12
to altnet-a...@googlegroups.com
Podés usar Lucene.NET + Tika (a través de IKVM:  http://www.dovetailsoftware.com/blogs/kmiller/archive/2010/07/02/using-the-tika-java-library-in-your-net-application-with-ikvm  )

Si es una aplicación de servidor, mirate Solr ( http://lucene.apache.org/solr/ ), que ya viene con Tika integrado, muuuy fácil de usar y muy poderoso: http://wiki.apache.org/solr/ExtractingRequestHandler

Saludos
Mauricio


2012/8/10 Mario Dal Lago <the4...@yahoo.com.ar>
Hola, 

Mario Dal Lago

unread,
Aug 10, 2012, 5:32:35 PM8/10/12
to altnet-a...@googlegroups.com, altnet-...@googlegroups.com
Hola Brian,

Gracias por responder, parece bastante completo elasticsearch, pero al depender de lucene sigue necesitando tika para hacer análisis de los archivos.

 Elastic Search es similar a Solr ?

Saludos

Mario Dal Lago


De: Brian J. Cardiff <bcar...@manas.com.ar>
Para: altnet-a...@googlegroups.com
CC: "altnet-...@googlegroups.com" <altnet-...@googlegroups.com>
Enviado: viernes, 10 de agosto de 2012 17:54
Asunto: Re: [altnet-argentina] Full text search en archivos

Mario Dal Lago

unread,
Aug 10, 2012, 5:36:04 PM8/10/12
to altnet-a...@googlegroups.com
Hola Mauricio

Había leído el post de kevin miller hasta bastante y me había olvidado! gracias por recordarmelo.

No había tenido en cuenta Solr y no sabia que ya traía integrado Tika, parece una opción bastante viable.

Puedo instalar Solr en windows ? o en su defecto indexar una unidad compartida en windows con los files ?

Gracias

Mario Dal Lago


De: Mauricio Scheffer <mauricio...@gmail.com>
Para: altnet-a...@googlegroups.com
Enviado: viernes, 10 de agosto de 2012 17:56

Asunto: Re: [altnet-argentina] Full text search en archivos

Mauricio Scheffer

unread,
Aug 10, 2012, 6:11:49 PM8/10/12
to altnet-a...@googlegroups.com
Tanto Solr como Elasticsearch son Java, corren en Windows sin problemas.
Elasticsearch es más nuevo que Solr, pero es más fácilmente escalable (si es que necesitás escalar si tenés *mucho* tráfico o índices *muy* grandes), es schemaless (personalmente no me parece una ventaja), y tiene mejor soporte de real-time search.
Solr tiene más comunidad, más gente desarrollando y más empresas grosas usándolo (ojo, también hay empresas grandes usando elasticsearch), por lo cual no se quedan atrás y Solr 4 (actualmente en alpha) ya tiene real-time y mejor escalabilidad, etc (  http://searchhub.org/dev/2012/05/21/solr-4-preview/  )
Otro tema es cómo andan los clientes .NET: hasta el año pasado les faltaba cosas a los clientes de elasticsesarch (  http://stackoverflow.com/questions/7173654/elasticsearch-c-net-client-recommondation  ), no sé cómo andarán ahora.
Obviamente soy parcial hacia Solr ya que lo uso desde hace varios años sin problemas en varios proyectos y desarrollo un cliente de Solr para .NET ( http://code.google.com/p/solrnet/ ).

Saludos,
Mauricio



Brian J. Cardiff

unread,
Aug 10, 2012, 6:15:07 PM8/10/12
to altnet-a...@googlegroups.com, altnet-a...@googlegroups.com, altnet-...@googlegroups.com
No conozco Solr, pero por la descripción deberia creo ser de similar funcionamiento.
Fijate cual tiene una forma más piola de ser consumido por lo que estés por hacer diria yo.

--
Brian J. Cardiff

Mario Dal Lago

unread,
Aug 14, 2012, 10:59:23 AM8/14/12
to altnet-...@googlegroups.com, altnet-a...@googlegroups.com

Hola Cristan , gracias por la data. voy a ver mas en detalle lo que ofrece Sql Server.

Saludos
 

Mario Dal Lago


De: Cristian Wilgenhoff <cpwilg...@gmail.com>
Para: "altnet-...@googlegroups.com" <altnet-...@googlegroups.com>
CC: "altnet-...@googlegroups.com" <altnet-...@googlegroups.com>; "altnet-a...@googlegroups.com" <altnet-a...@googlegroups.com>
Enviado: domingo, 12 de agosto de 2012 0:14
Asunto: Re: [altnet-hispano] Re: [altnet-argentina] Full text search en archivos

SQL Server 2012 tiene algo de análisis semántico. Utiliza algo llamado semantic search. Hay unas demos funcionando en la cual se uplodear archivos. Igual desconozco el nivel el propósito de los análisis necesarios y objetivo del mismo. Puede que el análisis que haga sea muy básico.

Saludos,

Sent from my iPhone

On Aug 11, 2012, at 2:25 PM, Ariel Piñeiro <arie...@gmail.com> wrote:

Mario,
        Solr necesita de Tomcat y Lucene para funcionar, está muy bueno.





Saludos,
Lic. Ariel Piñeiro
http://ar.linkedin.com/in/arielpineiro



--
Has recibido este mensaje porque estás suscrito al grupo "AltNet-Hispano" de Grupos de Google.
Para publicar una entrada en este grupo, envía un correo electrónico a altnet-...@googlegroups.com.
Para anular tu suscripción a este grupo, envía un correo electrónico a altnet-hispan...@googlegroups.com
Para tener acceso a más opciones, visita el grupo en http://groups.google.com/group/altnet-hispano?hl=es.

--
Has recibido este mensaje porque estás suscrito al grupo "AltNet-Hispano" de Grupos de Google.
Para publicar una entrada en este grupo, envía un correo electrónico a altnet-...@googlegroups.com.
Para anular tu suscripción a este grupo, envía un correo electrónico a altnet-hispan...@googlegroups.com
Para tener acceso a más opciones, visita el grupo en http://groups.google.com/group/altnet-hispano?hl=es.
--
Has recibido este mensaje porque estás suscrito al grupo "AltNet-Hispano" de Grupos de Google.
Para publicar una entrada en este grupo, envía un correo electrónico a altnet-...@googlegroups.com.
Para anular tu suscripción a este grupo, envía un correo electrónico a altnet-hispan...@googlegroups.com
Para tener acceso a más opciones, visita el grupo en http://groups.google.com/group/altnet-hispano?hl=es.


Mario Dal Lago

unread,
Aug 14, 2012, 11:02:00 AM8/14/12
to altnet-...@googlegroups.com, altnet-a...@googlegroups.com
Hola Ariel,

Si, tengo entendido que funciona también con Jetty. Por ahora es la solución que mas se adapta a nuestras necesidades.

Gracias
 

Mario Dal Lago


De: Ariel Piñeiro <arie...@gmail.com>
Para: altnet-...@googlegroups.com
CC: "altnet-a...@googlegroups.com" <altnet-a...@googlegroups.com>
Enviado: sábado, 11 de agosto de 2012 14:25
Asunto: Re: [altnet-hispano] Re: [altnet-argentina] Full text search en archivos

Mario,
        Solr necesita de Tomcat y Lucene para funcionar, está muy bueno.





Saludos,
Lic. Ariel Piñeiro
http://ar.linkedin.com/in/arielpineiro



--
Has recibido este mensaje porque estás suscrito al grupo "AltNet-Hispano" de Grupos de Google.
Para publicar una entrada en este grupo, envía un correo electrónico a altnet-...@googlegroups.com.
Para anular tu suscripción a este grupo, envía un correo electrónico a altnet-hispan...@googlegroups.com
Para tener acceso a más opciones, visita el grupo en http://groups.google.com/group/altnet-hispano?hl=es.

Mario Dal Lago

unread,
Aug 14, 2012, 11:08:21 AM8/14/12
to altnet-a...@googlegroups.com, altnet-...@googlegroups.com
hola

Si, son bastante similares por lo que pude leer. Por los comentarios de Mauricio, por ahora me inclino mas por Solr.

Gracias
 

Mario Dal Lago


De: Brian J. Cardiff <bcar...@manas.com.ar>

Mario Dal Lago

unread,
Aug 14, 2012, 11:09:56 AM8/14/12
to altnet-a...@googlegroups.com
Mauricio,
 
Gracias por la info, voy a presionar para que le den una oportunidad a Solr.

Saludos

Mario Dal Lago


De: Mauricio Scheffer <mauricio...@gmail.com>
Para: altnet-a...@googlegroups.com
Enviado: viernes, 10 de agosto de 2012 19:11

cibrax

unread,
Aug 14, 2012, 3:14:28 PM8/14/12
to altnet-...@googlegroups.com, altnet-a...@googlegroups.com, Mario Dal Lago
Si es para files de texto, el Desktop Windows search funciona lo mas bien. Lo estoy justo usando en un proyecto. Tiene un modelo de queries basado en OleDb. Solamente tenes que tener en cuenta que los files tienen que estar en una carpeta indexada, pero esto es configurable. Para archivos binarios como pdf se te va a complicar con eso me parece, no se bien como funciona.  
 
Solr o Elastic Search son los 2 mas poderosos que conozco para search, pero son soluciones server side. Depende mucho del escenario que tengas que implementar.
 
Saludos

Walter Poch

unread,
Aug 15, 2012, 11:04:07 AM8/15/12
to altnet-...@googlegroups.com, altnet-a...@googlegroups.com, Mario Dal Lago
Para archivos binarios en Windows Search necesitas tener un plugin IFilter ( http://msdn.microsoft.com/en-us/library/ms691105(v=vs.85).aspx ) para los mismos.  http://en.wikipedia.org/wiki/IFilter 

Cada iFilter puede buscar dentro de diferentes tipos de archivos. Para PDF por ejemplo si instalas el Acrobat ya tenes registrado el iFilter para PDF y hacer búsquedas sobre los mismos.

Saludos,

--
Has recibido este mensaje porque estás suscrito al grupo "AltNet-Hispano" de Grupos de Google.
Para ver este debate en la Web, visita https://groups.google.com/d/msg/altnet-hispano/-/b5tSoyXCXwgJ.

Para publicar una entrada en este grupo, envía un correo electrónico a altnet-...@googlegroups.com.
Para anular tu suscripción a este grupo, envía un correo electrónico a altnet-hispan...@googlegroups.com
Para tener acceso a más opciones, visita el grupo en http://groups.google.com/group/altnet-hispano?hl=es.



--
Saludos,

Walter G. Poch
Sr. .Net Developer
--------------------------------------------
Cell: +54 (9 341) 3353273
walte...@gmail.com

Mario Dal Lago

unread,
Aug 16, 2012, 11:56:38 AM8/16/12
to altnet-...@googlegroups.com, altnet-a...@googlegroups.com
Gracias, es una de las alternativas que tengo en cuenta, por ahora la que mas me convence es Solr.

Gracias
 

Mario Dal Lago


De: cibrax <cib...@gmail.com>
Para: altnet-...@googlegroups.com
CC: "altnet-a...@googlegroups.com" <altnet-a...@googlegroups.com>; Mario Dal Lago <the4...@yahoo.com.ar>
Enviado: martes, 14 de agosto de 2012 16:14
Asunto: [altnet-hispano] Re: Full text search en archivos

Si es para files de texto, el Desktop Windows search funciona lo mas bien. Lo estoy justo usando en un proyecto. Tiene un modelo de queries basado en OleDb. Solamente tenes que tener en cuenta que los files tienen que estar en una carpeta indexada, pero esto es configurable. Para archivos binarios como pdf se te va a complicar con eso me parece, no se bien como funciona.  
 
Solr o Elastic Search son los 2 mas poderosos que conozco para search, pero son soluciones server side. Depende mucho del escenario que tengas que implementar.
 
Saludos
 
 
 
El viernes, 10 de agosto de 2012 17:38:51 UTC-3, The4power escribió:
Hola, 
estoy investigando varias herramientas para hacer búsquedas de texto en archivos (*.doc, *.xls, *.pdf, etc).

Hasta ahora encontré Windows Search que es nativo en windows y existe un SDK para hacer las búsquedas http://msdn. microsoft.com/en-us/library/ ff628790(v=vs.85).
Un producto comercial llamado dtSearch http://www.dtsearch. com/  y usar Lucene junto con Tika http://tika.apache.org/.

La idea es que funcione en windows y tengo algún API para acceder desde .net.

Alguno utilizó alguna de estas herramientas ? Conoce alguna otra para recomendar ?

Gracias
 Saludos

Mario Dal Lago
--
Reply all
Reply to author
Forward
0 new messages