Vorschlag

5 views
Skip to first unread message

Holger Caesar

unread,
May 26, 2013, 4:53:33 PM5/26/13
to praktikum-masc...@googlegroups.com
Hallo,

ich habe aufbauend auf You's Idee jetzt auch mal ein Paar Systeme
trainiert, u.a. mit Neuronalen Netzwerken. Allerdings ist die
Performance weiterhin sehr schlecht. Mit allen Gesten komme ich nur auf
30-33% Erkennungsrate.
Fᅵr eine reale Anwendung finde ich das nicht sehr ermutigend, von daher
wᅵrde ich vorschlagen, dass wir die Anzahl der Gesten verringern:

* Alle Gesten mit C wie Continuous im Namen sollten wegfallen. In der
Anwendung kᅵnnen ja immer noch mehrere gleiche Gesten durch eine
Kontinuierliche ersetzt werden. Dadurch erhalte ich eine
Erkennungsrate von 50%.
* Einige Aufnahmen sollten nochmal entfernt und durch mehrere und
bessere ersetzt werden. Dabei ist allerdings die Beteiligung von
allen nᅵtig..

Was haltet ihr davon?

Beste Grᅵᅵe
Holger

--
Holger Caesar
Working Student at Exxeta AG
Student at Karlsruhe Institute of Technology
Mail: hol...@it-caesar.de
Web: www.it-caesar.de

Jan Kleindieck

unread,
May 26, 2013, 5:00:16 PM5/26/13
to praktikum-masc...@googlegroups.com, Holger Caesar
Am 26.05.2013 22:53, schrieb Holger Caesar:
> Hallo,
>
> ich habe aufbauend auf You's Idee jetzt auch mal ein Paar Systeme
> trainiert, u.a. mit Neuronalen Netzwerken. Allerdings ist die
> Performance weiterhin sehr schlecht. Mit allen Gesten komme ich nur auf
> 30-33% Erkennungsrate.
> F�r eine reale Anwendung finde ich das nicht sehr ermutigend, von daher
> w�rde ich vorschlagen, dass wir die Anzahl der Gesten verringern:
>
> * Alle Gesten mit C wie Continuous im Namen sollten wegfallen. In der
> Anwendung k�nnen ja immer noch mehrere gleiche Gesten durch eine
> Kontinuierliche ersetzt werden. Dadurch erhalte ich eine
> Erkennungsrate von 50%.
> * Einige Aufnahmen sollten nochmal entfernt und durch mehrere und
> bessere ersetzt werden. Dabei ist allerdings die Beteiligung von
> allen n�tig..
>
> Was haltet ihr davon?
>
> Beste Gr��e
> Holger
>

Hey,

hast du dabei die verbesserte Hand Segmentation verwendet? Und welche
Feature Vectors? Kann dein System den Unterschied zwischen Tippen und
Zoom In unterscheiden?

Ansonsten finde ich den Vorschlag, die Continous Gesten erstmal zu
vernachl�ssigen, recht sinnvoll, wobei wir bei HMM trotzdem testen
wollen, ob es vllt doch geht, da man da vllt mit unterschiedlicher
Zustandsanzahl arbeiten kann.

Zwecks neuen Aufnahmen hast du auch Recht, da z.B. bei Eric und mir der
Tisch auf den Aufnahmen zu sehen ist und die Erkennung st�rt. Wir m�ssen
das auf jeden Fall noch �ndern!
Du kannst ja mal zusammenfassen, welche Namensk�rzel neue Aufnahmen
machen sollten, oder wir machen generell neue, in dem wir die Kamera so
positionieren, als ob sie in der Mittelkonsole w�re.


Gru� Jan

Eric Winterbauer

unread,
May 27, 2013, 9:13:06 AM5/27/13
to praktikum-masc...@googlegroups.com
Das mit dem Continous weglassen finde ich sinnvoll. W�rde ich diese
Gesten trotzdem einbinden, dann w�rde ich ja auch als programmierer
einfach gucken, wann man drei einzelgesten in kurzer Zeit hintereinander
hat, statt einfach ne continous zu erkennen.
Ich bin au�erdem ein Freund des kompletten Gesten neu Aufnehmens und
dann mit fester Kamera und Background f�r jeden.
Gru�,
Eric

Holger Caesar

unread,
May 27, 2013, 9:20:14 AM5/27/13
to praktikum-masc...@googlegroups.com
Hallo,
also ALLE Gesten nochmal aufzunehmen halte ich ein Bisschen für Overkill. Aber zumindest all jene, bei denen keine guten Segmentierungs-Ergebnisse zusammenkommen. Mehr ist sogar besser. Feste Kamera hatten wir ja schon. Was meinst du mit festem Background? Wie ihr die Positionierung auf der Mittelkonsole erreichen wollt, frage ich mich auch, es sei denn, ihr habt eine Mittelkonsole ;). Ich würde einfach nur sagen, es sollte kein Objekt näher an der Kamera sein als die Hand und es sollte ein gewisser Mindest- und Maximalabstand eingehalten werden.

@Jan: Als Feature Vector hatte ich nur den Mittelpunkt meiner Hand. Prinzipiell unterscheidet mein System zwischen Tippen in Zoom In, wie hoch da die Verwechslungsrate ist, kann ich dir allerdings gerade nicht sagen..
Gruß
Holger


2013/5/27 Eric Winterbauer <winte...@gmx.net>
Das mit dem Continous weglassen finde ich sinnvoll. Würde ich diese Gesten trotzdem einbinden, dann würde ich ja auch als programmierer einfach gucken, wann man drei einzelgesten in kurzer Zeit hintereinander hat, statt einfach ne continous zu erkennen.
Ich bin außerdem ein Freund des kompletten Gesten neu Aufnehmens und dann mit fester Kamera und Background für jeden.
Gruß,

Eric



Am 26.05.2013 23:00, schrieb Jan Kleindieck:
Am 26.05.2013 22:53, schrieb Holger Caesar:
Hallo,

ich habe aufbauend auf You's Idee jetzt auch mal ein Paar Systeme
trainiert, u.a. mit Neuronalen Netzwerken. Allerdings ist die
Performance weiterhin sehr schlecht. Mit allen Gesten komme ich nur auf
30-33% Erkennungsrate.
Für eine reale Anwendung finde ich das nicht sehr ermutigend, von daher
würde ich vorschlagen, dass wir die Anzahl der Gesten verringern:


  * Alle Gesten mit C wie Continuous im Namen sollten wegfallen. In der
    Anwendung können ja immer noch mehrere gleiche Gesten durch eine

    Kontinuierliche ersetzt werden. Dadurch erhalte ich eine
    Erkennungsrate von 50%.
  * Einige Aufnahmen sollten nochmal entfernt und durch mehrere und
    bessere ersetzt werden. Dabei ist allerdings die Beteiligung von
    allen nötig..

Was haltet ihr davon?

Beste Grüße
Holger


Hey,

hast du dabei die verbesserte Hand Segmentation verwendet? Und welche Feature Vectors? Kann dein System den Unterschied zwischen Tippen und Zoom In unterscheiden?

Ansonsten finde ich den Vorschlag, die Continous Gesten erstmal zu vernachlässigen, recht sinnvoll, wobei wir bei HMM trotzdem testen wollen, ob es vllt doch geht, da man da vllt mit unterschiedlicher Zustandsanzahl arbeiten kann.

Zwecks neuen Aufnahmen hast du auch Recht, da z.B. bei Eric und mir der Tisch auf den Aufnahmen zu sehen ist und die Erkennung stört. Wir müssen das auf jeden Fall noch ändern!
Du kannst ja mal zusammenfassen, welche Namenskürzel neue Aufnahmen machen sollten, oder wir machen generell neue, in dem wir die Kamera so positionieren, als ob sie in der Mittelkonsole wäre.


Gruß Jan


--
Sie haben diese Nachricht erhalten, weil Sie der Google Groups-Gruppe Praktikum Maschinelles Lernen beigetreten sind.
Um Ihr Abonnement für diese Gruppe zu beenden und keine E-Mails mehr von dieser Gruppe zu erhalten, senden Sie eine Email an praktikum-maschinelles-lernen+unsub...@googlegroups.com.
Weitere Optionen: https://groups.google.com/groups/opt_out



Florian Richter

unread,
May 27, 2013, 9:42:46 AM5/27/13
to praktikum-masc...@googlegroups.com
Hallo,

ich denke, es w�rde schon reichen, wenn wir die Bag-Files richtig
schneiden. F�r die Lerndaten ist es denk ich am besten, wenn nur der
relevante Teil der Geste in der Aufnahme ist, bei den Wischgesten z. B.
nur die Bewegung von links nach rechts und nicht wie sich die Hand ins
Bild bewegt oder aus dem Bild heraus. Das w�rde vermutlich auch das
Problem mit Tischkanten verringern, weil die Hand w�hrend der Geste
immer ganz vorne sein m�sste.

Ich hab mal ein kleines Hilfsskript geschrieben, was Bagfiles schneidet,
im Anhang findet ihr es. Das Vorgehen w�re:

Mit
rosbag play --loop x.bag
sich seine Bagfiles anschauen (image_view starten) und mit Leertaste und
S(tep) den idealen Start- und Endzeitpunkt (Bag Time) finden.

Mit diesem Kommando die Bagfile schneiden und das Resultat �berpr�fen:

../cut_bag.sh Gesture-RL1-Person-JG-Note-kob_2013-05-02-16-32-45_0.bag
1367505166.076146 1367505166.535758

Um eine Datei von einem Praktikumsrechner zum anderen zu kopieren, kann
man scp dateiname mlprak1@fahrsim04:/pfad verwenden.

Viele Gr��e,
Florian

Am 27.05.2013 15:20, schrieb Holger Caesar:
> Hallo,
> also ALLE Gesten nochmal aufzunehmen halte ich ein Bisschen f�r
> Overkill. Aber zumindest all jene, bei denen keine guten
> Segmentierungs-Ergebnisse zusammenkommen. Mehr ist sogar besser. Feste
> Kamera hatten wir ja schon. Was meinst du mit festem Background? Wie ihr
> die Positionierung auf der Mittelkonsole erreichen wollt, frage ich mich
> auch, es sei denn, ihr habt eine Mittelkonsole ;). Ich w�rde einfach nur
> sagen, es sollte kein Objekt n�her an der Kamera sein als die Hand und
> es sollte ein gewisser Mindest- und Maximalabstand eingehalten werden.
>
> @Jan: Als Feature Vector hatte ich nur den Mittelpunkt meiner Hand.
> Prinzipiell unterscheidet mein System zwischen Tippen in Zoom In, wie
> hoch da die Verwechslungsrate ist, kann ich dir allerdings gerade nicht
> sagen..
> Gru�
> Holger
>
>
> 2013/5/27 Eric Winterbauer <winte...@gmx.net
> <mailto:winte...@gmx.net>>
>
> Das mit dem Continous weglassen finde ich sinnvoll. W�rde ich diese
> Gesten trotzdem einbinden, dann w�rde ich ja auch als programmierer
> einfach gucken, wann man drei einzelgesten in kurzer Zeit
> hintereinander hat, statt einfach ne continous zu erkennen.
> Ich bin au�erdem ein Freund des kompletten Gesten neu Aufnehmens und
> dann mit fester Kamera und Background f�r jeden.
> Gru�,
> Eric
>
>
>
> Am 26.05.2013 23:00, schrieb Jan Kleindieck:
>
> Am 26.05.2013 22:53, schrieb Holger Caesar:
>
> Hallo,
>
> ich habe aufbauend auf You's Idee jetzt auch mal ein Paar
> Systeme
> trainiert, u.a. mit Neuronalen Netzwerken. Allerdings ist die
> Performance weiterhin sehr schlecht. Mit allen Gesten komme
> ich nur auf
> 30-33% Erkennungsrate.
> F�r eine reale Anwendung finde ich das nicht sehr
> ermutigend, von daher
> w�rde ich vorschlagen, dass wir die Anzahl der Gesten
> verringern:
>
> * Alle Gesten mit C wie Continuous im Namen sollten
> wegfallen. In der
> Anwendung k�nnen ja immer noch mehrere gleiche Gesten
> durch eine
> Kontinuierliche ersetzt werden. Dadurch erhalte ich eine
> Erkennungsrate von 50%.
> * Einige Aufnahmen sollten nochmal entfernt und durch
> mehrere und
> bessere ersetzt werden. Dabei ist allerdings die
> Beteiligung von
> allen n�tig..
>
> Was haltet ihr davon?
>
> Beste Gr��e
> Holger
>
>
> Hey,
>
> hast du dabei die verbesserte Hand Segmentation verwendet? Und
> welche Feature Vectors? Kann dein System den Unterschied
> zwischen Tippen und Zoom In unterscheiden?
>
> Ansonsten finde ich den Vorschlag, die Continous Gesten erstmal
> zu vernachl�ssigen, recht sinnvoll, wobei wir bei HMM trotzdem
> testen wollen, ob es vllt doch geht, da man da vllt mit
> unterschiedlicher Zustandsanzahl arbeiten kann.
>
> Zwecks neuen Aufnahmen hast du auch Recht, da z.B. bei Eric und
> mir der Tisch auf den Aufnahmen zu sehen ist und die Erkennung
> st�rt. Wir m�ssen das auf jeden Fall noch �ndern!
> Du kannst ja mal zusammenfassen, welche Namensk�rzel neue
> Aufnahmen machen sollten, oder wir machen generell neue, in dem
> wir die Kamera so positionieren, als ob sie in der Mittelkonsole
> w�re.
>
>
> Gru� Jan
>
>
> --
> Sie haben diese Nachricht erhalten, weil Sie der Google
> Groups-Gruppe Praktikum Maschinelles Lernen beigetreten sind.
> Um Ihr Abonnement f�r diese Gruppe zu beenden und keine E-Mails mehr
> von dieser Gruppe zu erhalten, senden Sie eine Email an
> praktikum-maschinelle...@googlegroups.com
> <mailto:praktikum-maschinelles-lernen%2Bunsu...@googlegroups.com>.
> Weitere Optionen: https://groups.google.com/__groups/opt_out
> <https://groups.google.com/groups/opt_out>
>
>
>
> --
> Sie haben diese Nachricht erhalten, weil Sie der Google Groups-Gruppe
> Praktikum Maschinelles Lernen beigetreten sind.
> Um Ihr Abonnement f�r diese Gruppe zu beenden und keine E-Mails mehr von
> dieser Gruppe zu erhalten, senden Sie eine Email an
> praktikum-maschinell...@googlegroups.com.
> Weitere Optionen: https://groups.google.com/groups/opt_out
>
>

cut_bag.sh

Eric Winterbauer

unread,
May 27, 2013, 1:31:32 PM5/27/13
to praktikum-masc...@googlegroups.com
Ja wollte eig sagen, dass Abstand und Winkel der Kamera zumindest grob Stimmen sollten und vielleicht auch ungefähr die Bewegung.
Gab ja zum einen welche, da war der halbe Tisch im Bild und zum anderen welche, die haben die Geste 10cm vor der Kamera ausgeführt. Mehr eigentlich auch nicht. Würde man vielleicht auch erreichen, indem man alle durchguckt und die fehlerhaften neu macht.


Am 27.05.2013 15:20, schrieb Holger Caesar:


2013/5/27 Eric Winterbauer <winte...@gmx.net>
Um Ihr Abonnement für diese Gruppe zu beenden und keine E-Mails mehr von dieser Gruppe zu erhalten, senden Sie eine Email an praktikum-maschinell...@googlegroups.com.
Weitere Optionen: https://groups.google.com/groups/opt_out



--
Sie haben diese Nachricht erhalten, weil Sie der Google Groups-Gruppe Praktikum Maschinelles Lernen beigetreten sind.
Um Ihr Abonnement für diese Gruppe zu beenden und keine E-Mails mehr von dieser Gruppe zu erhalten, senden Sie eine Email an praktikum-maschinell...@googlegroups.com.
Weitere Optionen: https://groups.google.com/groups/opt_out
 
 

Holger Caesar

unread,
Jun 5, 2013, 5:19:41 PM6/5/13
to praktikum-masc...@googlegroups.com
Hallo,

nochmal als Erinnerung, v.a. f�r diejenigen, die heute nicht da waren:
Es ist sehr wichtig, dass ihr eure Bag-Files auch noch schneidet, damit
wir damit korrekt lernen k�nnen. Florian hat das unten erw�hnte Skript
geschrieben, was ihr beim Rechner Mlprak1 unter ~/cut_bag.sh findet. Die
Parameter sind wie unten beschrieben (wichtig: verwendet die Bag time
und nicht die Sekunden).

Da wir ja n�chste Woche schon erste Ergebnisse pr�sentieren wollen, w�re
es sehr gut, wenn alle dies bis Freitag tun k�nnten. Derzeit sind noch
~160 Aufnahmen unbearbeitet.

Wichtig ist:
- Keine Tischkanten im Bild, die "vor" der Hand sind.
- Nur relevanten Ausschnitte der Geste ohne gro�e Wartezeiten
- Keine Gesten, bei denen die Geste au�erhalb des Bildes stattfindet
(ist bei DU1 sehr beliebt).
-> Es lohnt sich also, schonmal die Ergebnisse der/einer Segmentierung
anzugucken!

Brauchbare Aufnahmen verschiebt ihr bitte in /ml-prak-ss-2013(?)/reviewed
Unbrauchbare Aufnahmen verschiebt ihr bitte in /ml-prak-ss-2013(?)/unused

Vielen Dank.
Holger
Reply all
Reply to author
Forward
0 new messages