Nous avons donc commencé l'étape de tagging du correcteur
grammatical sur le modèle de Gramadoir.
Pour cela, nous avons besoin d'un lexique taggé c'est-à-dire une liste de mots avec les étiquettes morphosyntaxiques qui leur correspondent. Nous avons choisi DICO le dictionnaire de l'ABU, la bibliothèque universelle. Il a fallut réadapter ce dictionnaire au format dont nous avions besoin. Nous avons aussi créé une liste de tags qui nous serons nécessaires.
DICO est de la forme:
abaisse abaisse Nom:Fem+SG
abaisse abaisser Ver:IPre+SG+P1:IPre+SG+P3:SPre+SG+P1:SPre+SG+P3:ImPre+SG+P2
Et Laurent a fait un programme permettant de le transformer avec les tags:
abaisse <N f s>
abaisse <V ind pres s 1>
abaisse <V ind pres s 3>
abaisse <V sub pres s 1>
abaisse <V sub pres s 3>
abaisse <V imp pres s 2>
...
Nous pouvons noter que ces tags sont très proches d'une structure XML. Nous ferons dans peu de temps un autre programme permettant de transformer ces tags en réel format XML. De celle manière, notre tagger pourra étiquetter des textes en format XML, ce qui augmentera son utilité.
Ensuite, nous avons transformé les tags en codes numériques, ce qui nous donne le fichier suivant, moins lourd qu'un fichier balisé:
abaisse 37
abaisse 230
abaisse 236
abaisse 261
abaisse 265
abaisse 216
...
Nous avons également dû faire quelques modifications sur DICO. En effet, c'est un dictionnaire qui a été étiqueté automatiquement, il comporte donc des bugs et quelques petites incohérences, parfois, d'étiquetage.
Nous avons donc maintenant un lexique prêt à être employé, qui comporte 345338 entrées et de nombreuses informations morphosyntaxiques qui nous seront nécessaires. Il n'est sans doute ni parfait ni complet, mais nous pourrons le mettre à disposition de quiquonque voudra bien signaler erreurs et/ou omissions.
Pour cela, nous avons besoin d'un lexique taggé c'est-à-dire une liste de mots avec les étiquettes morphosyntaxiques qui leur correspondent. Nous avons choisi DICO le dictionnaire de l'ABU, la bibliothèque universelle. Il a fallut réadapter ce dictionnaire au format dont nous avions besoin. Nous avons aussi créé une liste de tags qui nous serons nécessaires.
DICO est de la forme:
abaisse abaisse Nom:Fem+SG
abaisse abaisser Ver:IPre+SG+P1:IPre+SG+P3:SPre+SG+P1:SPre+SG+P3:ImPre+SG+P2
Et Laurent a fait un programme permettant de le transformer avec les tags:
abaisse <N f s>
abaisse <V ind pres s 1>
abaisse <V ind pres s 3>
abaisse <V sub pres s 1>
abaisse <V sub pres s 3>
abaisse <V imp pres s 2>
...
Nous pouvons noter que ces tags sont très proches d'une structure XML. Nous ferons dans peu de temps un autre programme permettant de transformer ces tags en réel format XML. De celle manière, notre tagger pourra étiquetter des textes en format XML, ce qui augmentera son utilité.
Ensuite, nous avons transformé les tags en codes numériques, ce qui nous donne le fichier suivant, moins lourd qu'un fichier balisé:
abaisse 37
abaisse 230
abaisse 236
abaisse 261
abaisse 265
abaisse 216
...
Nous avons également dû faire quelques modifications sur DICO. En effet, c'est un dictionnaire qui a été étiqueté automatiquement, il comporte donc des bugs et quelques petites incohérences, parfois, d'étiquetage.
Nous avons donc maintenant un lexique prêt à être employé, qui comporte 345338 entrées et de nombreuses informations morphosyntaxiques qui nous seront nécessaires. Il n'est sans doute ni parfait ni complet, mais nous pourrons le mettre à disposition de quiquonque voudra bien signaler erreurs et/ou omissions.
(Post originally written by Myriam Lechelt on the old Nuxeo blogs.)
Comments