---------- Forwarded message ---------
From: Pablo Duboue <
pablo....@gmail.com>
Date: lun., 10 de abr. de 2017 a la(s) 14:43
Subject: [Seccion] Invitacion, curso de posgrado en Extraccion de Informacion, FaMAF-UNC 8-26 mayo
To: Pablo Duboue <
pablo....@gmail.com>
Hola,
Del 8 de mayo al 26 de mayo del presente voy a dictar un curso de
posgrado en FaMAF-UNC en horario vespertino (todos los días) sobre
Extracción de Información sobre Datos Abiertos (un subtema de
Procesamiento de Lenguaje Natural, dentro de Inteligencia Artificial).
La primera clase será en el aula 17 el 8 de mayo a las 18 hs.
Este curso, de 20 hs cátedra de duración es una versión extendida del
curso que dicté el año pasado en las Escuelas de Ciencias Informáticas
(ECI) de la UBA, donde fue bien recibido. Veremos métodos basados en
reglas y en estadística para la recopilación de datos a partir de
textos en castellano, inglés y francés (ver
http://ie4opendata.org
para más información). Los laboratorios y programas de ejemplo están
implementados en el lenguaje de programación JAVA.
El curso requiere conocimiento del lenguaje JAVA para hacer los
laboratorios, por lo demás, los teóricos son autocontenidos.
Adjunto el programa del curso. Para inscripciones y consultas
administrativas, favor de dirigirse a la secretaría de posgrado de
FaMAF-UNC.
Consultas sobre el contenido del curso, por email a
pablo....@gmail.com.
Agradecería circular esta invitación a potenciales interesados.
P.
Programa
Resúmen:
En este curso estudiaremos pipelines de extracción de información
utilizando métodos basados en reglas y diccionarios en combinación con
métodos estadísticos (e.g., entropía máxima, Conditional Random
Fields) basados en datos anotados. Se dará énfasis a técnicas con
implementaciones libremente disponibles de código abierto (e.g.,
Apache UIMA y herramientas relacionadas). El curso analizará una
pipeline de ejemplo disponible como código abierto para la extracción
de información sobre contratos gubernamentales en la ciudad de
Montreal, Canadá, escrita por el autor. Este curso requiere
familiaridad con el lenguaje de programación JAVA para apreciar los
ejemplos y realizar los laboratorios. Curso en castellano con filminas
mayoritariamente en inglés.
Módulo 1
Extracción de información. Generalidades. Competiciones de extracción
de información. Pipelines de procesamiento de lenguaje natural.
Anotaciones off-stand. Sistemas de tipos. Control de flujo.
Serialización de anotaciones.
Módulo 2
Entidades nombradas. Generalidades. Sistemas basados en diccionario.
Sistemas basados en desambiguación de sentidos. Bootstrapping usando
diccionarios de arranque. Destilado de diccionarios a partir de datos
abiertos.
Módulo 3
Extracción de información basados en reglas. Métodos basados en
expresiones regulares. JAPE. RefO. Métodos basados en puntos de
anclaje. RuTA. Inducción de reglas a partir de ejemplos anotados.
Algoritmo Whisk. Algoritmo LP2. Algoritmo KEP. Metodología de
programación y evaluación.
Módulo 4
Extracción de información basado en métodos estadísticos. Metología
Begin-Inside-Outside. Sistemas basados en entropía máxima. Sistemas
basados en Conditional Random Fields. Criterios de anotación y
evaluación.
Módulo 5
Sistemas híbridos de extracción de información. Errores en cascada.
Caso de estudio. Puesta en producción y mantenimiento. Cierre.
_______________________________________________
Seccion mailing list
Sec...@cs.famaf.unc.edu.ar
https://cs.famaf.unc.edu.ar/mailman/listinfo/seccion