[GramOOo] [tagging] Précision et décision (premiers résulats)

Nous avons pu nous procurer les outils de la campagne de GRACE afin de mesurer l'avancement de notre tagger.
Nous avions déjà mesuré la décision qui atteint, après l'ajout de quelques règles "brutes", un taux de 97%. Cela signifie que 97 mots reconnus sur 100 (les mots inconnus n'entrent pas en compte) ne sont pas ambigus.
Pour mesurer si ces mots sont correctement étiquetés, il nous faut le taux de précision. Pour le moment, comme nous travaillons encore sur ces mesures nous avons pu comparer uniquement les catégories grammaticales (noms, verbes, pronoms, etc.) et nous avons obtenu un taux de 73%.
73% des mots sont donc étiquetées correctement vis-à-vis de leurs catégories grammaticales.
La perfection serait évidemment d'atteindre 100 % tant en décision qu'en précision (ce qui se traduit par une position  en haut à droite sur le graphique décision/précision).
Mais en attendant, il nous faut faire un choix en fonction du moteur de grammaire qui va détecter les fautes.
Peut-on garder des ambiguïtés ou faut-il que chaque mot ne comporte absolument qu'une seule étiquette quitte à ce que celle-ci ne soit pas forcément correcte? En effet, gagner en décision peut faire perdre en précision et inversement.
Les règles "brutes" qui disent par exemple que "n'importe quel nom ambigu est un nom", permettent de friser les 100% de décision (les mots ne sont plus ambigus). Mais elles nécessitent d'être affinées si l'on veut progresser en précision.

Important announcement: Join the Nuxeo team and contribute to the Nuxeo project! We have open positions in France and the UK for open source Java EE developers and sales engineers, both junior and senior.

Like this post? Share it:


Trackback Pings

Trackback URL for this entry:
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt/2005_04_05_gramooo_tagging/tbping
Posted by Myriam Lechelt @ 04/05/2005 03:43 PM. - Categories: openoffice -  0 comments

Nuxeo Bloggers: Log in!
Nuxeo - Indesko - Nuxeo 5 Project
All content is copyrighted by their author.
CPSSkins is Copyright © 2003-2006 by Jean-Marc Orliaguet. | CPS is Copyright © 2002-2006 by Nuxeo SAS.