Document Actions
04/29/2005
[GramOOo] petite réctification
A mon grand regret, j'ai appris que malgré que était considéré comme correct par l'accadémie française.

J'ai donc retiré cette règle de mon correcteur, qui dorénavant ne marquera plus malgré que comme faux.
Posted by Myriam Lechelt @ 04/29/2005 11:25 AM. - Categories: openoffice -  0 comments
04/27/2005
[GramOOo] Premiers exemples de fautes corrigées
Nous avons choisi de continuer avec l'outil Gramadoir pour la phase de grammaire.
Après la création de quelques règles, on peut montrer quelques exemples de sortie.
Gramadoir renvoie la phrase, les fautes sont notées en rouge et sur la deuxième ligne apparaît un message qui décrit l'erreur.

Il faut préciser que ces messages ne sont pas définitifs. Pour le moment, nous avons juste testé si les règles s'appliquaient correctement. Nous reviendrons sur le sujet.

Voici donc une copie de la console qui donne la sortie de Gramadoir:

1: Ceci est un tests avec des grosse fautes .
Faute d'accord.

1: Ceci est un tests avec des grosse fautes .
Faute d'accord.

1: Malgré que je sois linguiste , je rédigent des fautes énorme.
Cette combinaison de mots n'est pas correcte.

1:Malgré que je sois linguiste , je rédigent des fautes énorme.
Faute d'accord entre le sujet et le verbe.

1:Malgré que je sois linguiste , je rédigent des fautes énorme.
Faute d'accord.

2: Se test montre que sa fonctionne.
Faute.

2: Se test montre que sa fonctionne.
Faute.

3: Elles sont recherché mes fautes .
Faute d'accord du participe passé.

4: ils parle de ça soeur
Faute d'accord.

4: ils parle de ça soeur
Faute.



Posted by Myriam Lechelt @ 04/27/2005 05:38 PM. - Categories: openoffice -  0 comments
04/22/2005
[GramOOo] tests de règles grammaticales et construction des règles
Je suis en train de tester quelques règles grammaticales sur les deux moteurs, Gramadoir et Languagetool, pour voir celui qui serait le mieux adaptable au français.

Nous l'avons dit, nous aurons besoin de travailler sur deux niveaux, que nous avons appelés "intrachunk" et "interchunk". Le premier concerne les règles qui définissent des erreurs au sein d'un chunk, à savoir des accords de type nom-adjectifs. Le deuxième niveau va permettre de corriger des fautes d'accords sujet-verbes par exemple.

Nous commencerons par les règles intrachunks.
Un exemple avec Gramadoir:
<D f s>ANYTHING</D> <J f p>ANYTHING</J> <N f s>ANYTHING</N>:ERREURACCORD

Un déterminant fémin singulier, suivit d'un adjectif féminin pluriel, suivit d'un nom féminin singulier est une faute, car il n'y a pas unification du trait nombre.

<D m s>ANYTHING</D> <J f p>ANYTHING</J> <N f s>ANYTHING</N>:ERREURACCORD
<D f s>ANYTHING</D> <J f s>ANYTHING</J> <N m s>ANYTHING</N>:ERREURACCORD
<D f p>ANYTHING</D> <J f p>ANYTHING</J> <N f s>ANYTHING</N>:ERREURACCORD

Notre lexique comporte 6 types de déterminants, 9 d'adjectifs et 9 de noms, plus de nombreux verbes. Je vous laisse calculer le nombre de combinaisons possibles pour décrire les erreurs... En effet, les systèmes décrivent des règles d'erreurs et supposent donc de prévoir toutes les erreurs possibles (ou du moins le plus possibles).

C'est pour cela que nous avons décidé de générer automatiquement les règles. Nous commençons par générer toutes les combinaisons possibles et nous supprimons celles qui sont correctes.

Pour l'instant nous n'avons généré que les cas suivants:
<D ...> <N ...>
<D ...> <J ...> <N ...>
<
D ...> <J ...> <J ...> <N ...>
Nous obtenons alors 4244 règles d'erreurs.

Reste à savoir si les systèmes ne seront pas "perturbés" par de si nombreuses règles...
Posted by Myriam Lechelt @ 04/22/2005 11:41 AM. - Categories: openoffice -  0 comments
04/15/2005
[GramOOo] nécessité d'un segment intermédiaire entre les mots et la phrase
En examinant quelques fautes de français, et en se demandant comment il est possible de les corriger, on se rend vite compte de la difficulté à laquelle on est confronté.

Nous avons désambiguïsé les mots par rapport au contexte immédiat, gauche ou droit. On voit bien qu'on pourra faire la même chose pour corriger un accord entre un nom et un adjectif par exemple.
Si un adjectif masculin singulier est suivit d'un nom féminin singulier, il y a faute, car il n'y a pas concordance, unification des traits.

Mais prenons la phrase suivante:

      *  La grève des lycéens continuent.
( l'astérisque signifie que la phrase est agramaticale)

Comment le programme va-t-il détecter que  le verbe continuer doit s'accorder avec  le nom grève et non pas lycéens si on se base uniquement sur le contexte immédiat?
Nous avons besoin d'un segment intermédiaire entre les mots et la phrase. On parle de syntagme (groupe) ou de chunk (notion introduite par Abney).
Pour l'exemple, on pourrait effectuer le découpage suivant:

      * [La grève [des lycéens]] [continuent].

[ ]
est un syntagme nominal (SN)
[ ]
est un syntagme verbal (SV)
[ ]
est un syntagme prépositionnel (SP)

Chaque syntagme comporte une tête qui est l'élément principal: nom, verbe, préposition (ici de car des est la contraction de de les), etc.
Le SN s'accorde avec le SV. Si le propriétés du SN ne correspondent pas à celles du SV, alors il y a faute.
Ici, le SN est féminin singulier, le verbe est au pluriel, il y a pas d'unification de traits, il y a faute.

Si notre outil ne se limite pas seulement aux mots et permet la notion de groupes supérieurs, nous pourrons alors corriger bien des fautes.
Posted by Myriam Lechelt @ 04/15/2005 09:53 AM. - Categories: openoffice -  0 comments
04/08/2005
[GramOOo] [tagging] Précision et décision, fin du tagging
Nous arrivons à la fin du temps que nous avions fixé pour l'étape de tagging.
Bien sûr, il reste encore beaucoup de travail, on ne peut pas avoir un excellent outil en si peu de temps.

Toujours est-il que nous avons atteint  98,47 % de décision et 84,4 % de précision (uniquement sur les catégories grammaticales).
Nous avons pu améliorer notre base de règles "brutes" (règles par défaut), grâce à un article de J. Vergne et E. Giguet.

Même si le tagger n'est pas parfait, ceci pourra faire l'objet d'un prochain travail, nous commençons maintenant l'étape de détection d'erreurs grammaticales.

La première chose à faire, est de choisir parmi les deux outils dévellopés libres dont nous disposons : continuer avec Gramadoir, ou choisir Language tool?

Posted by Myriam Lechelt @ 04/08/2005 04:32 PM. - Categories: openoffice -  0 comments
04/05/2005
[GramOOo] [tagging] Précision et décision (premiers résulats)
Nous avons pu nous procurer les outils de la campagne de GRACE afin de mesurer l'avancement de notre tagger.
Nous avions déjà mesuré la décision qui atteint, après l'ajout de quelques règles "brutes", un taux de 97%. Cela signifie que 97 mots reconnus sur 100 (les mots inconnus n'entrent pas en compte) ne sont pas ambigus.
Pour mesurer si ces mots sont correctement étiquetés, il nous faut le taux de précision. Pour le moment, comme nous travaillons encore sur ces mesures nous avons pu comparer uniquement les catégories grammaticales (noms, verbes, pronoms, etc.) et nous avons obtenu un taux de 73%.
73% des mots sont donc étiquetées correctement vis-à-vis de leurs catégories grammaticales.
La perfection serait évidemment d'atteindre 100 % tant en décision qu'en précision (ce qui se traduit par une position  en haut à droite sur le graphique décision/précision).
Mais en attendant, il nous faut faire un choix en fonction du moteur de grammaire qui va détecter les fautes.
Peut-on garder des ambiguïtés ou faut-il que chaque mot ne comporte absolument qu'une seule étiquette quitte à ce que celle-ci ne soit pas forcément correcte? En effet, gagner en décision peut faire perdre en précision et inversement.
Les règles "brutes" qui disent par exemple que "n'importe quel nom ambigu est un nom", permettent de friser les 100% de décision (les mots ne sont plus ambigus). Mais elles nécessitent d'être affinées si l'on veut progresser en précision.
Posted by Myriam Lechelt @ 04/05/2005 03:43 PM. - Categories: openoffice -  0 comments
Last modified: 02/13/2005 01:45 PM

Nuxeo Bloggers: Log in!
Nuxeo - Indesko - Nuxeo 5 Project
All content is copyrighted by their author.
CPSSkins is Copyright © 2003-2006 by Jean-Marc Orliaguet. | CPS is Copyright © 2002-2006 by Nuxeo SAS.