Convertir PDF a TXT

992 views
Skip to first unread message

elkin dario uribe torres

unread,
Jun 24, 2015, 10:59:59 AM6/24/15
to publice...@googlegroups.com
Buenos dias

Mirando las opciones que dieron en su momento Edgar Suarez, VFPSTEAM BI , Miguel A. y Jean Pierre Adonis en febrero de este Año, me puse a ensayarlos uno por uno, ya que en los actuales momentos tengo una necesidad puntual a este respecto.  

Resulta que para organizar unos expedientes antes se hacia mediante la lectura del código de barras que trae el documento principal de la obligación el cual contenía (el código de barras) el Nit / Cédula de la entidad que pagaba (deudor) hasta ahí es fácil de indexar, pero ahora les dio por cambiar el identificador de la entidad por el numero de la obligación (factura).  Por lo tanto hay que pasar considero yo (Dios quiera que alguien me diga que enfoco mal el inconveniente y sea por otro lado) el PDF a Texto para recorrerlo y sacar de ahí los datos que necesito.

Por eso me di a la tarea de ensayar las bondades de uno y otro, y espero que si alguno de ustedes tiene otra información al respecto así sea de otro programa, que funcione bien en los dos casos aunque sea de pago le estaría inmensamente agradecido.

Caso 1

Archivo PDF Generado por los bancos o cualquier entidad (ojo no escaneado) cuando se utiliza el programa 

- PTCMD queda perfecto
VFPs OCR en algunos casos sale malo (caracteres raros)
- PDFToText sale bien 
-PDF2TXTOCR Sale bien 

Caso 2 

Archivo PDF Generado mediante un escaner 

- PTCMD Sale malo toma todo como una imagen y no sirve (es mi caso puede que apersonas les sirva pero por favor me indican como)
VFPs OCR sale bien (los documento sobre los cuales hice la prueba)
- PDFToText solo sale un caracter especial no muestra nada
PDF2TXTOCR importa caracteres raros y el texto (no queda perfecto),  pero por ahora es lo que puede servir un poco para lo que se pretende

- Hay 2 que se pueden utilizar por linea de comandos que son le Ptcmd y el PDF2TXTOCR

- El VFPs OCR es por medio de una aplicación desarrollada en VFP, se tendria que mirar la posibilidad si la persona que lo vende se pueda automatizar donde se le pasen parametros para que no deba seleccionar un archivo a la vez, sino los archivos que se encuentran en una carpeta.

 PDFToText no he podido hacerlo funcionar por linea de comandos, a pesar de que investigue y baje algunos ejemplos.

Espero no aburrirlos con esto pero vuelvo y reitero si alguno se le ocurre algo le agradecería mucho.

Saludos

Elkin Uribe
Medellin - Colombia

Jean Pierre Adonis De La Cruz Garcia

unread,
Jun 24, 2015, 12:18:54 PM6/24/15
to publice...@googlegroups.com, eduri...@gmail.com
Podras subir al menos un par de archivos PDF del cual deseas trabajarlo, y a la vez un TXT de como deseas que te salga el resultado, para entender mejor tu idea, y de esa manera ver si se te puede ayudar mi estimado amigo.

Miguel A.

unread,
Jun 24, 2015, 1:06:45 PM6/24/15
to publice...@googlegroups.com, eduri...@gmail.com
Si no he entendido mal, uno de tus problemas con PTCMD es ir comprobando los archivos de una carpeta, leyendo uno a uno y extrayendo el texto a un campo memo por ejemplo.

* Carga los ficheros pdf individuales en una matriz
numfich=adir(mima,directorio+'\*.pdf')
go top
iY=0
ik=0
a_texto=''
for ik=1 to numfich
lnPercent = ik/numfich*100
loTherm.Update(lnPercent, lcTask)
select l_tasas
append blank
replace l_tasas.fichero with directorio+'\'+mima[ik,1], l_tasas.texto_mem with ''
a_pdf=directorio+'\'+mima[ik,1]
do leer_
endfor

PROCEDURE leer_
* A partir de cada fichero pdf se crea un fichero de texto, se lee y se saca de él la información sobre cada pdf
architxt='c:\FOXPRO\tasas.txt'

* PTCMD.EXE es una utilidad que crea un fichero de texto a partir del PDF 
cCOMANDO='PTCMD.EXE '+a_pdf+' '+architxt
#define SW_SHOW_HIDDEN 0 
oShell = CreateObject("WScript.Shell") 
oShell.Run(cComando, SW_SHOW_HIDDEN, .T.) 
TEMP=INKEY(1)

APPEN MEMO TEXTO_MEM FROM &architxt 
*Debes de tener en cuenta que el txt creado debes de quitarle las tabulaciones y alguna cosa más:
REPLACE l_tasas.TEXTO_MEM WITH STRTRAN(TEXTO_MEM,CHR(9),'')
return

Espero que con esto resuelvas el problema. Saludos,
Miguel A.

elkin dario uribe torres

unread,
Jun 24, 2015, 1:15:41 PM6/24/15
to publice...@googlegroups.com
Buenos dias

Me sabras disculpar pero los archivos que te digo hacen parte de procesos judiciales, por ende no los puedo subir so pena de acabar demandado y me cancelan el contrato de trabajo.  El documento al cual hago referencia es parecido a los que emiten las empresas de celular, servicios publicos, etc. 

Saludos


elkin Uribe

elkin dario uribe torres

unread,
Jun 24, 2015, 1:16:15 PM6/24/15
to publice...@googlegroups.com
Miguel A., voy a mirar lo que envias y te comento


Saludos

elkin dario uribe torres

unread,
Jun 24, 2015, 2:13:49 PM6/24/15
to publice...@googlegroups.com
Miguel A. el problema con  PTCMD es que todos los archivos escaneados con resoluciones (hasta ahora son las dos que he hecho) de 150 y 300 dpi no los convierte, el funciona perfecto con los archivos (pdf) generado por medio de programa, como ejemplo los que se generan por medio del Foxypreviewer, los que te conectas a una corporacion bancaria y efectuas una transaccion y este genera automatico el pdf, etc., pero como te digo todos los otros que son en base a un documento fisico y escaneado no los convierte.

La imagen del doc1 esta convertida muy bien, pero la del Doc2 que esa es una porcion de un documento (le borre los datos solo pasa estos caracteres "ÿþ"

Saludos

El 24 de junio de 2015, 12:06, Miguel A. <mig...@prymer.es> escribió:
doc1.png
doc2.png

Miguel A.

unread,
Jun 24, 2015, 2:30:26 PM6/24/15
to publice...@googlegroups.com, eduri...@gmail.com
Sí claro, esto funciona solo sobre el texto incluido en el pdf, no sobre las imágenes, pero la Administración casi seguro que no te envía un archivo pdf escaneado, por qué no  utilizas ese archivo y lo escaneas, no lo sé. 
El ejemplo que te envié son tasas que me envía la administración de mi país que vienen todas en un pdf, lo primero que hago es descomponer el pdf en páginas individuales y luego leer una a una sacando de ahí la información que me interesa de cada tasa. Creía que tu problema era muy parecido al mío.

En fin, siento no haberte sido de más ayuda.
Saludos. Miguel A.

elkin dario uribe torres

unread,
Jun 24, 2015, 4:36:37 PM6/24/15
to publice...@googlegroups.com

Miguel la administración manda el documento físico y yo lo escaneo pero el texto que contiene no lo detecta al momento de procesarlo

Jean Pierre Adonis De La Cruz Garcia

unread,
Jun 24, 2015, 4:41:45 PM6/24/15
to publice...@googlegroups.com, eduri...@gmail.com
Quiero entenderte, solo deseas convertir los PDF en modo texto,, por que si es asi, te recomiendo usar Abby Fine Reader
 

elkin dario uribe torres

unread,
Jun 24, 2015, 8:37:09 PM6/24/15
to publice...@googlegroups.com
Disculpa que tarde tanto en responderte Jean,

No, lo que quiero es poder sacar el texto que se encuentra en las facturas que me entregan fisicas y que escaneo, pero como te comente asi lo escanee con cualquier resolucion no saca nada, por ahora tratare de defenderme con el PDF2TXTOCR, a ver como me va y utilizar los codigos para buscar y extraer  cadenas.

Voy a mirar el que me recomiendas y te comento.


Saludos

Jose Antonio Blasco

unread,
Jun 25, 2015, 3:20:56 AM6/25/15
to Comunidad de Visual Foxpro en Español
Buenos días Elkin, el problema que tienes es q

Jose A. Blasco
Zaragoza - España
Visual FoxPro 9 SP2

"No hay camino hacia la libertad, la libertad es el camino" - Indira Gandhi
“Nunca te olvides de sonreír, porque el día que no sonrías  será un día perdido”  -  Charles Chaplin
“Todo el mundo quiere tener un amigo, pero pocos se toman la molestia de ser uno”
- Anónimo

Jose Antonio Blasco

unread,
Jun 25, 2015, 3:24:16 AM6/25/15
to Comunidad de Visual Foxpro en Español
Perdona "se me fueron los dedos".

Te comentaba que cuando escaneas un documento físico, el escaner convierte primero cada página en una imagen, y luego incorpora ésta en un PDF, por lo que el proceso contrario, sólo devuelve imágenes de cada página.

¿ Has comprobado si al escaner le acompañan utilidades de OCR?  Si es así, puedes pasar el documento físico por ellas y te lo convertirá a un documento de texto.

Un saludo.


Jose A. Blasco
Zaragoza - España
Visual FoxPro 9 SP2

"No hay camino hacia la libertad, la libertad es el camino" - Indira Gandhi
“Nunca te olvides de sonreír, porque el día que no sonrías  será un día perdido”  -  Charles Chaplin
“Todo el mundo quiere tener un amigo, pero pocos se toman la molestia de ser uno”
- Anónimo

elkin dario uribe torres

unread,
Jun 25, 2015, 10:57:44 AM6/25/15
to publice...@googlegroups.com
Gracias Jose, lo intentare con los que yo procese para mirar lo que dices, pero es que la mayoria ya fueron escaneados ( el trabajo que me entregaron que es el que hay que poner al dia).


Saludos

Elkin Uribe

Jose Antonio Blasco

unread,
Jun 25, 2015, 11:10:01 AM6/25/15
to Comunidad de Visual Foxpro en Español
Elkin, hay un programa que se llama "Omnipage Professional" que es de pago, y según me comentan tiene buenas herramientas.  Ya he leído que no puedes enviar los archivos, pero si tienes algún archivo de  muestra que no te suponga conflicto legal,  podría probar  con un colega que lo tiene.

Un saludo.



Jose A. Blasco
Zaragoza - España
Visual FoxPro 9 SP2

"No hay camino hacia la libertad, la libertad es el camino" - Indira Gandhi
“Nunca te olvides de sonreír, porque el día que no sonrías  será un día perdido”  -  Charles Chaplin
“Todo el mundo quiere tener un amigo, pero pocos se toman la molestia de ser uno”
- Anónimo

elkin dario uribe torres

unread,
Jun 25, 2015, 11:35:05 AM6/25/15
to publice...@googlegroups.com
Jose, ya me paso que con el animo de mejorar el proceso de envio de notificaciones por medio de dispositivos moviles, le envie a un individuo una informacion y por hacer eso si miras en el foro por allá en el 2011 me quede sin trabajo, lo que me obligo en cierto modo a dedicarme a otras cosas ya que nadie me contrataba, solo pude ejercer la parte contable que realmente no es lo que me apasiona.  Creo que no viene al caso extenderme pero me sabrás disculpar, parece que me la pusieron que me defendiera como puedo, por eso todos estos dias he tenido que investigar al respecto y mucho, ya me cogio la noche para este trabajo.

Lo que he estado haciendo desde ayer fue contratar 6 personas y repartirles los expedientes que son muchos para que en excel me digiten unos datos puntuales que trae la factura, ya con ello al momento de leer el codigo de barras tocara cruzarlo con el dato de excel y determinar de quien se trata, de ahí coger la base de datos central, extraer los otros datos relevantes y montar todo el proceso.

Todo esto se podría haber obviado si al momento de escanear la persona encargada hubiese seleccionado la opcion de Ocr que la aplicación de los escaner Canon trae.

Saludos

Jose Antonio Blasco

unread,
Jun 26, 2015, 2:50:53 AM6/26/15
to Comunidad de Visual Foxpro en Español
Entiendo tu problemática.   
!!El trabajo es lo primero !!
Suerte.

Jose A. Blasco
Zaragoza - España
Visual FoxPro 9 SP2

"No hay camino hacia la libertad, la libertad es el camino" - Indira Gandhi
“Nunca te olvides de sonreír, porque el día que no sonrías  será un día perdido”  -  Charles Chaplin
“Todo el mundo quiere tener un amigo, pero pocos se toman la molestia de ser uno”
- Anónimo

elkin dario uribe torres

unread,
Jun 26, 2015, 11:31:17 AM6/26/15
to publice...@googlegroups.com
Muchas gracias Jose.


Celso Omar Melo

unread,
Nov 27, 2017, 2:42:32 PM11/27/17
to Comunidad de Visual Foxpro en Español
Hola buenas tardes a todo el foro, relacionado al tema de convertir un archivo .PDF a .TXT. lo que estoy necesitando es hacer justamente eso desde la aplicacion que tengo de vfp es convertir primero el archivo .pdf ubicado en C:\temp\miarchivo.pdf a C:\temp\miarchivo.txt. si alguien pudo solucionar esta cuestion les agradeceria cualquier aporte que me puedan facilitar.-

desde ya muchas gracias a todo/as.

Jose Antonio Blasco

unread,
Nov 28, 2017, 3:14:57 AM11/28/17
to Comunidad de Visual Foxpro en Español
Buenos días Celso,
Revisa este hilo en el foro.  Hablan de un programa llamado "minetext" que creo que hace lo que necesitas.   Hay un ejemplo de como usarlo por linea de comandos, y parece que puede convertir varios ficheros de golpe.


Espero que te sirva.
Un saludo.


Jose A. Blasco
Zaragoza - España
Visual FoxPro 9 SP2


David F

unread,
Aug 29, 2020, 11:36:52 PM8/29/20
to Comunidad de Visual Foxpro en Español
Amigo buenas noches, he intentado conseguir PTCMD pero solo esta de paga tu lo tendrás que lo puedas compartir, muchas gracias de antemano.

Anna ALARIO

unread,
Aug 30, 2020, 4:06:25 AM8/30/20
to publice...@googlegroups.com
Ekonomiskt stöd i dina projekt
Hej herr fru
behöver lån mellan individer för att möta svårigheterna
ekonomiskt för att äntligen bryta dödläget orsakat av banker,mail :ricaldog...@gmail.com
genom att avvisa dina kreditansökningsfiler?
Vi är en grupp finansiella experter som kan ge dig en
lån i det belopp du behöver och med villkor som du
kommer att göra livet lättare.
Här är de områden där vi kan hjälpa dig:
* Ekonomiskt
* Fastighetslån
* Investeringslån
* Billån
* Konsolideringsskuld
* Kreditlinje
* Andra inteckning
* Återköp av kredit
* Personligt lån
Du är registrerad, förbjuden att bankera och du är inte för
banker eller bättre har du ett projekt och behöver finansiering, a
dålig kredit eller behöver pengar för att betala räkningar,
medel för att investera i företag.
Så om du behöver ett lån, tveka inte att kontakta oss för
läs mer om våra förhållanden.

mail :ricaldog...@gmail.com

Reply all
Reply to author
Forward
0 new messages