Renseignements supplémentaires

Cette banque de données, issue d'un projet de thèse sur la transparence sémantique des mots composés, contient plus de 10 000 constructions nominales tirées de la version française du Wiktionnaire. À l'aide du moteur de recherche à gauche, vous pouvez consulter la base de données selon les paramètres suivants :

  1. la catégorie grammaticale du 1er lexème (L1) ou du 2e lexème (L2)
  2. le genre du composé
  3. le nombre du composé
  4. le connecteur qui unit les éléments du composé (p. ex. trait d'union, espace, préposition, etc.)

  5. le nombre de composés formés sur L1 ou L2, selon un schéma donné :

    1. papier-N : papier-journal, papier bible, papier-monnaie, papier-carbone, papier filtre, etc.
    2. N-école : bateau-école, auto-école, vélo-école, moto-école, etc.
    3. moulin à N : moulin à vent, moulin à papier, moulin à prières, moulin à sel, etc.

    Vous pouvez par conséquent limiter votre requête en fonction du nombre de composés formés depuis le même schéma (p. ex. au moins 4 composés ayant le même L1).


En outre, pour les composés NN et N à N (729 et 319 entrées respectivement), vous pouvez également effectuer une recherche selon les paramètres suivants :

  1. le genre de L1 ou de L2

  2. la tête sémantique du composé :
  3. Un composé est soit endocentrique, soit exocentrique. Il est endocentrique si l'un de ses éléments constitutifs est un hyperonyme de la chose dénotée par l'ensemble ; il est exocentrique s'il ne contient pas de telle unité.

    1. un oiseau-mouche est (un oiseau) → endocentrique
    2. un jambon beurre est (*un jambon / *du beurre / un sandwich) → exocentrique

    En français, la tête des composés bi-nominaux est d'habitude à gauche (L1), mais peut parfois se trouver à droite (L2) :

    1. un oiseau-mouche est un oiseau → tête = L1
    2. une auto-école est une école → tête = L2

    Dans un composé coordonné, les deux éléments se partagent le rôle d'hyperonyme (p. ex. auteur-compositeur) et sont donc traités ici comme ayant deux têtes (L1 et L2).


  4. la relation sémantique qui unit les éléments du composé :
  5. Les éléments d'un mot composé sont d'habitude liés par une relation sémantique implicite, non-exprimée. La base de données emploie 15 relations sémantiques de base (p. ex. production, lieu, partie, composition, etc.), ainsi que les 4 étiquettes suivantes :

    1. aucune/idiosyncratique → aucun lien apparent entre les éléments (p. ex. compère-loriot) ou le lien est idiosyncratique/unique à ce composé (p. ex. dent oeillère)
    2. adjectif → un des substantifs exerce une fonction adjectivale (p. ex. maître-cylindre)
    3. classification → un des éléments ne fait que classifier l'autre (p. ex. particule alpha)
    4. argument → un des éléments est le complément de l'autre (p. ex. photo-interprétation)

  6. l'indice de fidélité sémantique :
  7. Calculé depuis les schémas mentionnés ci-haut en (5), l'indice de fidélité sémantique (désormais Indice FS) indique le degré d'homogénéité sémantique pour un schéma donné. Par exemple, les composés papier-N ont un indice FS faible, car leurs sens diffèrent d'un composé à l'autre (p.ex. papier qui sert de filtre, papier qui fait partie d'une bible, papier fait à partir de maïs, papier de type kraft, papier qui rappelle le brouillard, etc.). Les composés pompe à N, par contre, ont un sens plus homogène, car plusieurs d'entre eux expriment le sens 'pompe qui sert à pomper N' (p. ex. pompe à eau, pompe à essence, pompe à huile, etc.).

    On obtient l'indice FS en divisant, pour un schéma donné, le nombre de composés qui utilisent la même relation sémantique par le nombre total de composés pour ce schéma.