HDLC Bad FCS (8) on Primary D-channel of span X

Alberto Ribagorda

unread,

Mar 4, 2013, 4:04:40 AM3/4/13

to aster...@googlegroups.com

Hola a todos,

He buscado respuesta a este problema sin llegar a encontrarlo. A ver si aquí podemos encontrar respuesta al misterio. Tengo 2 servidores, cada uno con 2 TE420P. Ambos servidores son exactamente iguales (hardware y software). Aleatoriamente, en el archivo messages de Asterisk de ambos servidores me aparece el error "HDLC Bad FCS (8) on Primary D-channel of span X" donde X es un span de los 8 que hay en cada servidor. Dicho error aparece de 6 a 8 veces por día.

De todos los primarios activos que hay en este momento (4 por servidor), el error se presenta en 7 de ellos, que son del mismo operador. El otro primario activo que no presenta error nunca pertenece a un operador diferente.

¿Sabéis por donde pueden ir los problemas?.

Muchas gracias.

Saludos,

Alberto

Fernando Villares

unread,

Mar 4, 2013, 9:39:15 AM3/4/13

to aster...@googlegroups.com

me solia pasar en maquinas antiguas eso cuando el reloj perdia sincronia cada tanto tiempo...estas usando que distro de linux? usas el irq balance para q balancee entre los cores de tu maquina?

--
Este email pertenece a la lista de Asterisk-ES (http://www.asterisk-es.org)
Normas de la lista Asterisk-ES: http://comunidad.asterisk-es.org/index.php?title=Lista:normas-asterisk-es
---
Has recibido este mensaje porque estás suscrito al grupo "asterisk-es" de Grupos de Google.
Para anular la suscripción a este grupo y dejar de recibir sus correos electrónicos, envía un correo electrónico a asterisk-es...@googlegroups.com.
Para publicar una entrada en este grupo, envía un correo electrónico a aster...@googlegroups.com.
Visita este grupo en http://groups.google.com/group/asterisk-es?hl=es.
Para obtener más opciones, visita https://groups.google.com/groups/opt_out.

Alberto Ribagorda

unread,

Mar 4, 2013, 11:00:56 AM3/4/13

to aster...@googlegroups.com

Son HP DL380 con Ubuntu 10.04, asi que antiguas no. Lo que me tiene mosqueado es que el primario que es del otro operador no presente errores nunca.

Con respecto al irqbalance, no lo estamos usando. Hasta ahora, y tenemos muchos servidores con tarjetas de primarios en clientes, no lo hemos considerado necesario, es la primera vez que nos aparece este error.

Fernando Villares

unread,

Mar 4, 2013, 11:12:21 AM3/4/13

to aster...@googlegroups.com

y las versiones de dahdi y kernels te fijaste que no este publicado algun bug sobre la sincro ...porque te esta dropeando paquetes de control del canal D ...cuando eso pasa normalmente en ese momento te corta las comunicaciones por 1 momento o te da artefactos de sonido....o en el peor de los casos se resetean los canales B...era muy molesto y era siempre error de drivers o de config en mis casos

Elio Rojano

unread,

Mar 5, 2013, 7:03:59 AM3/5/13

to aster...@googlegroups.com

El 4 de marzo de 2013 10:04, Alberto Ribagorda <ariba...@gmail.com> escribió:

Hola a todos,
He buscado respuesta a este problema sin llegar a encontrarlo.

Creo que poco has buscado, ya que ese mensaje es uno de los errores más antiguos y comunes que existen en el mundo hardware de Asterisk.

El motivo es sencillo: el "crc" de la trama del primario no es correcto, esto es: tu señal del primario llega al Asterisk modificada de cuando salió del proveedor. ¿porqué? Ahí es donde viene los motivos típicos:

- Que la tarjeta pierda interrupciones, por lo que no procesa todos los bits de las tramas E1 y pierde información.

- Que haya algún problema físico con el cableado que va del PTR a la tarjeta (vamos a suponer que desde la central al PTR está probado por el operador y la señal es correcta).

¿Qué provoca este error?

- Microcortes de audio en TODOS los canales de ese primario.

- Pérdida del sincronismo y caídas aleatorias del primario cuando la pérdida afecta a ciertas tramas especiales (trama 0)

¿Cómo se soluciona?

- Configurando bien las IRQs de las tarjetas en la BIOS.

- Si son PCIe, revisar que la IRQ no comparte con dispositivos importantes (VGA, Network, etc.)

- Comprobando que las interrupciones están balanceadas correctamente entre los nucleos de los procesadores.

cat /proc/interrupts

apt-get install irqbalance

- ...

--

Este email pertenece a la lista de Asterisk-ES (http://www.asterisk-es.org)
Normas de la lista Asterisk-ES: http://comunidad.asterisk-es.org/index.php?title=Lista:normas-asterisk-es
---
Has recibido este mensaje porque estás suscrito al grupo "asterisk-es" de Grupos de Google.
Para anular la suscripción a este grupo y dejar de recibir sus correos electrónicos, envía un correo electrónico a asterisk-es...@googlegroups.com.
Para publicar una entrada en este grupo, envía un correo electrónico a aster...@googlegroups.com.
Visita este grupo en http://groups.google.com/group/asterisk-es?hl=es.
Para obtener más opciones, visita https://groups.google.com/groups/opt_out.

--
Página web: http://www.sinologic.net/

Twitter: http://twitter.com/hellc2

LinkedIn: http://es.linkedin.com/in/rojano

Alberto Ribagorda

unread,

Mar 6, 2013, 2:13:59 AM3/6/13

to aster...@googlegroups.com

Mas que no buscar, creo que lo que pasa es que no he sabido buscar ;)

Son PCIe. En los servidores, además de las 2 tarjetas de primario, tenemos una tarjeta TCE400P de transcoding

No están compartiendo interrupciones, os añado la salida del comando:

cat /proc/interrupts

CPU0 CPU1 CPU2 CPU3

0: 71 0 0 0 IO-APIC-edge timer

1: 0 0 0 8 IO-APIC-edge i8042

2: 0 0 0 0 XT-PIC-XT cascade

8: 0 0 0 0 IO-APIC-edge rtc0

12: 0 0 0 131 IO-APIC-edge i8042

17: 0 429 0 0 IO-APIC-fasteoi uhci_hcd:usb6, hpilo

20: 0 0 0 0 IO-APIC-fasteoi ehci_hcd:usb1, uhci_hcd:usb2

22: 0 0 0 0 IO-APIC-fasteoi uhci_hcd:usb4

23: 0 0 0 0 IO-APIC-fasteoi uhci_hcd:usb3, uhci_hcd:usb5

24: 0 0 2024898829 0 IO-APIC-fasteoi tce4000

30: 0 2967169834 0 0 IO-APIC-fasteoi wct4xxp

31: 0 2967280879 0 0 IO-APIC-fasteoi wct4xxp

63: 0 17697052 0 0 PCI-MSI-edge cciss0

65: 0 0 1873014095 0 PCI-MSI-edge eth0-0

66: 0 0 2327569909 0 PCI-MSI-edge eth0-1

67: 0 0 0 1930897663 PCI-MSI-edge eth0-2

68: 0 0 0 1641190782 PCI-MSI-edge eth0-3

69: 2003121799 0 0 0 PCI-MSI-edge eth0-4

74: 0 0 1 0 PCI-MSI-edge eth1-0

75: 0 0 0 0 PCI-MSI-edge eth1-1

76: 0 0 0 0 PCI-MSI-edge eth1-2

77: 0 0 0 0 PCI-MSI-edge eth1-3

78: 0 0 0 0 PCI-MSI-edge eth1-4

83: 1 0 0 0 PCI-MSI-edge eth2-0

84: 0 0 0 0 PCI-MSI-edge eth2-1

85: 0 0 0 0 PCI-MSI-edge eth2-2

86: 0 0 0 0 PCI-MSI-edge eth2-3

87: 0 0 0 0 PCI-MSI-edge eth2-4

92: 1211 0 0 0 PCI-MSI-edge eth3-0

93: 0 1733 0 0 PCI-MSI-edge eth3-1

94: 0 227424 0 0 PCI-MSI-edge eth3-2

95: 0 0 390136 0 PCI-MSI-edge eth3-3

96: 0 0 237190 0 PCI-MSI-edge eth3-4

NMI: 0 0 0 0 Non-maskable interrupts

LOC: 2889267283 2889267241 2889267214 2889267187 Local timer interrupts

SPU: 0 0 0 0 Spurious interrupts

PMI: 0 0 0 0 Performance monitoring interrupts

PND: 0 0 0 0 Performance pending work

RES: 3516961 1328858 1510373 1238076 Rescheduling interrupts

CAL: 67361 58550 57073 62137 Function call interrupts

TLB: 37259366 34627869 50003456 52559478 TLB shootdowns

TRM: 0 0 0 0 Thermal event interrupts

THR: 0 0 0 0 Threshold APIC interrupts

MCE: 0 0 0 0 Machine check exceptions

MCP: 38525 38525 38525 38525 Machine check polls

ERR: 3

MIS: 0

Echaré un vistazo al irqbalance.

Elio Rojano

unread,

Mar 6, 2013, 3:34:54 AM3/6/13

to aster...@googlegroups.com

Por lo que veo, muchos interfaces de red que consumen interrupciones para tan pocos núcleos.

Comprueba las irq hardware con lspci -vb

Pablo Umanzor

unread,

Mar 6, 2013, 8:18:20 AM3/6/13

to aster...@googlegroups.com

hiciste un loop en la puerta de los primarios donde te aparece el error?

http://kb.digium.com/articles/Configuration/How-do-I-run-a-pattern-loopback-test-on-a-Digium-E1-T1-card

mejor aun, cambiaste el primario del otro proveedor donde todo va bien
y lo pusiste en un puerto donde te aparecen los mensajes

El día 4 de marzo de 2013 06:04, Alberto Ribagorda
<ariba...@gmail.com> escribió:

Alberto Ribagorda

unread,

Mar 7, 2013, 1:59:35 AM3/7/13

to aster...@googlegroups.com

Son servidores con servicio 24x7 que además están, evidentemente, en el cliente, asi que cualquier operación debe hacerse con mucho tacto.

Para la pregunta que hacía Elio, comparten irq hardware (la 10) con la placa RAID y con una de las controladoras ethernet, aunque tenía entendido que en PCIe eso no era importante.

Con respecto irbalance, ¿como es de fiable?. Porque he leído que en algunos casos estropeaba más que arreglaba.

En nuestro caso, no hay PTR como tal. El operador entrega los primarios en un armario repartidor, ya que hay otros 40 primarios aprox.

Fernando Villares

unread,

Mar 7, 2013, 9:16:31 AM3/7/13

to aster...@googlegroups.com

moraleja siempre usar gateways externos....xD

Elio Rojano

unread,

Mar 7, 2013, 10:37:23 AM3/7/13

to aster...@googlegroups.com

El uso de gateways externos no tiene porqué solucionar el problema, tan solo complicaría más su detección.

¿en qué ayuda el uso de un gateway si el fallo está en el cableado que se utiliza para llevar la señal del primario?

¿y si el problema viene del lado del operador?

Fernando Villares

unread,

Mar 7, 2013, 11:12:05 AM3/7/13

to aster...@googlegroups.com

no coincido para nada, justamente muchas capacidades de debugging de un mediant o un tenor dx son muuucho mas poderosas IMHO q las de una placa para el user medio, no requieren que apagues la central ip o recargues modulos para cambiar una minima config o maniobrar sobre los canales, y lo mas importante, están normalmente homologadas por las empresas de telecomunicaciones lo que te ahora unas cuantas molestias cuando te peleas con ellos por problemas que sabes q son de ellos....

Just my 2 cents...

Alberto Ribagorda

unread,

Mar 7, 2013, 11:30:04 AM3/7/13

to aster...@googlegroups.com

En eso no coincido contigo Fernando, estoy más con Elio. Un gateway externo está bien para conectar Básicos, pero cuando necesitas conectar 8 primarios, te sale más caro el collar que el perro :D.

Fernando Villares

unread,

Mar 7, 2013, 11:34:14 AM3/7/13

to aster...@googlegroups.com

eh???? pero si no estabamos hablando de precios.....estabamos hablando y debatiendo con elio sobre en que ayudaria a encontrar la solucion o no ....ademas como solucion media hibrida tienes los redfones con lo mejor de las tarjetas pero afuera del server....y salen igual q una digium....y son iguales para el dbugging q una tarjeta...

si hablamos de precios ademas no los estas calculando bien porque no tienes en cuenta el csto indirecto de las bajadas programadas de servicios en un sistema tan critico en produccion como el que comentas...si le pones 1000 dolares por cada bajadita programada de 5 minutos con 5 bajadas de testing ya compraste el gateway!!!

Alberto Ribagorda

unread,

Mar 7, 2013, 11:51:38 AM3/7/13

to aster...@googlegroups.com

Con primarios no tengo experiencia con Gateways (si tenemos algún Vegastream con RDSI), siempre montamos servidores + tarjetas, y jamás nos han dado problemas ( y hemos montado unos cuantos). La verdad es que este problema nos está trayendo de cabeza.

Lo que también nos ocurre es que en 2 de esos primarios (los 2 más usados) los 60 canales se acaban bloqueando. Cuando nos ocurre eso, en Asterisk no se ve nada, de echo el primario está levantado y no hay ningún canal activo, pero cuando el operador nos comenta que ve todos los canales bloqueados. La situación no se soluciona hasta que no reiniciamos la tarjeta.

Ya os digo que nos trae de cabeza, porque jamás nos hemos encontrado con ese problema en ninguna de nuestras instalaciones.

Ronin ARG

unread,

Mar 8, 2013, 7:56:13 AM3/8/13

to aster...@googlegroups.com

Tambien prefiero gateway externos, atas, todo lo que se interconecte por SIP.
Si tengo que montar 8 e1 sin dudas voy a elegir gw externos, ya que montar todo con placas tiene una mayor probabilidad de riesgo de fallos a nivel SO o software.
Si tenes un gateway externo lo comunicas por SIP y que el equipo haga su trabajo y el asterisk el suyo.
Perdon por el offtopic quisiera consultarles que experiencia han tenido con gateways sangoma?
Muchas gracias
Saludos.

Fernando Villares

unread,

Mar 8, 2013, 7:46:38 PM3/8/13

to aster...@googlegroups.com

todavia con vegastream nada...tendre que testearlos cuando me pidan algun proyecto 1ero...

Ronin ARG

unread,

Mar 9, 2013, 8:41:10 AM3/9/13

to aster...@googlegroups.com

estoy presentando un proyecto con ese equipo, si sale, paso el feedback

Odicha

unread,

Mar 14, 2013, 10:28:23 AM3/14/13

to aster...@googlegroups.com

Monta un servidor al lado del principal con una placa de primario y lo conectas al principal vía SIP o IAX. Así descartas la placa de primarios en concreto y cualquier tema relacionado con esa máquina. Lo de inactividad por tu lado y todos los canales bloqueados por el lado del operador suena a problema con el operador de los primarios, pero si no acotas y se lo das masticado te van a volver loco diciendo que el problema está de tu lado.

Sir Brain Colward

unread,

Mar 15, 2013, 7:23:49 AM3/15/13

to aster...@googlegroups.com

Coincido contigo. La capacidad de debug que da un gateway es mucho mayor, y el poder aislar la conexión PRI de la centralita para poder cambiar el servicio en caso necesario y sin tener que cortar el servicio o afectar al cliente no tiene precio. Trabajo con bastantes clientes que hacen y reciben llamadas 24x7 y cualquier corte es todo un dolor de cabeza de planificación. Si pones dos gateway paralelos y puedes trabajar con uno mientras dejas el otro activo, es algo que a medio, largo plazo se agredece y se hace necesario.

A veces, invertir algo más de dinero nos evitará perder mucho más dinero después.

2013/3/7 Fernando Villares <fvil...@gmail.com>

Reply all

Reply to author

Forward