Les partenaires de l’action de recherche « Collocations en contexte » se sont réunis à l’IMS Stuttgart du 25 au 27 janvier 2007. Le projet a comme objectifs la création des outils d’extraction automatique des collocations à partir de corpus, outils qui seront paramétrables selon plusieurs langues, ainsi que la constitution d’une base de données linguistiques regroupant des collocations françaises, roumaines et allemandes. Le développement des outils porte sur une étude comparative du comportement linguistique des collocations en français, roumain, allemand. L’étude vise d’identifier les différences entre les langues étudiées concernant la sélection de collocatifs (prendre une décision, mais non pas *faire une décision) et en matière de spécificités morphosyntaxiques (préférence/absence d’un article, genre ou nombre etc.). Pour l’extraction des collocations, nous combinons une méthode d’extraction statistique et une étape de filtrage linguistique.
L’objectif du séminaire a été de présenter les résultats de l’analyse linguistique réalisée sur des corpus comparables (spécialisés et génériques) sur les trois langues, et sur les résultats fournis par le module d’extraction statistique. Ainsi, les résultats vont être utilisés pour définir un modèle de données du dictionnaire multilingue de collocations et le développement des outils d’extraction automatique des collocations. Les participants au séminaire : M. Dan Stefanescu, M. Catalin Mihaila (Académie Roumaine), M. Ulrich Heid et Mme Marion Weller (IMS Stuttgart), M.François Rousselot (INSA Strasbourg), M.Christopher Gledhill et Mme Amalia Todirascu (Université Marc Bloch, Strasbourg).