PostgreSQLLa base de données la plus sophistiquée au monde.
Documentation PostgreSQL 15.9 » Annexes » Modules supplémentaires fournis » pg_trgm

F.35. pg_trgm

Le module pg_trgm fournit des fonctions et opérateurs qui permettent de déterminer des similarités de textes alphanumériques en fonction de correspondances de trigrammes. Il fournit également des classes d'opérateur accélérant les recherches de chaînes similaires.

Ce module est considéré comme « trusted », c'est-à-dire qu'il peut être installé par des utilisateurs simples (sans attribut SUPERUSER) possédant l'attribut CREATE sur la base de données courante.

F.35.1. Concepts du trigramme (ou trigraphe)

Un trigramme est un groupe de trois caractères consécutifs pris dans une chaîne. Nous pouvons mesurer la similarité de deux chaînes en comptant le nombre de trigrammes qu'elles partagent. Cette idée simple est très efficace pour mesurer la similarité des mots dans la plupart des langues.

Note

pg_trgm ignore les caractères qui ne forment pas de mots (donc non alphanumériques) lors de l'extraction des trigrammes d'une chaîne de caractères. Chaque mot est considéré avoir deux espaces en préfixe et une espace en suffixe lors de la détermination de l'ensemble de trigrammes contenu dans la chaîne. Par exemple, l'ensemble des trigrammes dans la chaîne « cat » est «  c », «  ca », « cat » et « at  ». L'ensemble de trigrammes dans la chaîne « foo|bar » est «  f », «  fo », « foo », « oo  », «  b », «  ba », « bar » et « ar  ».

F.35.2. Fonctions et opérateurs

Les fonctions fournies par le module pg_trgm sont affichées dans Tableau F.24 alors que les opérateurs sont indiqués dans Tableau F.25.

Tableau F.24. Fonctions de pg_trgm

Fonction

Description

similarity ( text, text ) → real

Renvoie un nombre indiquant la similarité des deux arguments. L'échelle du résultat va de zéro (indiquant que les deux chaînes sont complètement différentes) à un (indiquant que les deux chaînes sont identiques).

show_trgm ( text ) → text[]

Renvoie un tableau de tous les trigrammes d'une chaîne donnée. (En pratique, ceci est peu utile, sauf pour le débogage.)

word_similarity ( text, text ) → real

Renvoie un nombre qui indique la plus grande similarité entre l'ensemble de trigrammes dans la première chaîne et toute étendue continue d'un ensemble trié de trigrammes dans la deuxième chaîne. Pour les détails, voir l'explication ci-dessous.

strict_word_similarity ( text, text ) → real

Identique à word_similarity(text, text), mais force à étendre les limites pour correspondre aux limites du mot. Comme nous n'avons pas de trigrammes sur plusieurs mots, cette fonction renvoie en fait la plus grande similarité entre la première chaîne et toute étendue continue de mots de la deuxième chaîne.

show_limit () → real

Renvoie la limite de similarité utilisée par l'opérateur %. Ceci configure la similarité minimale entre deux mots pour qu'ils soient considérés suffisamment proches pour être des fautes d'orthographe l'un de l'autre (obsolète ; utilisez à la place SHOW pg_trgm.similarity_threshold.).

set_limit ( real ) → real

Configure la limite de similarité actuelle utilisée par l'opérateur %. La limite doit valoir entre 0 et 1 (le défaut est 0,3). (obsolète ; utilisez à la place SET pg_trgm.similarity_threshold.).


Prenons l'exemple suivant :

# SELECT word_similarity('word', 'two words');
 word_similarity
-----------------
             0.8
(1 row)
   

Dans la première chaîne, l'ensemble de trigrammes est {" w"," wo","ord","wor","rd "}. Dans la seconde chaîne, l'ensemble trié de trigrammes est {" t"," tw","two","wo "," w"," wo","wor","ord","rds","ds "}. L'étendue la plus similaire d'un ensemble trié de trigrammes dans la seconde chaîne est {" w"," wo","wor","ord"}, et la similarité est 0.8.

Cette fonction renvoie une valeur qui peut être comprise approximativement comme la plus grande similarité entre la première chaîne et toute sous-chaîne de la deuxième chaîne. Néanmoins, cette fonction n'ajoute pas de remplissage aux limites de l'étendue. De ce fait, le nombre de caractères supplémentaires présents dans la deuxième chaîne n'est pas considéré, sauf pour les limites de mots sans correspondance.

En même temps, strict_word_similarity sélectionne une étendue de mots dans la deuxième chaîne. Dans l'exemple ci-dessus, strict_word_similarity sélectionnerait l'étendue d'un mot seul 'words', dont l'ensemble de trigrammes est {" w"," wo","wor","ord","rds","ds"}.

# SELECT strict_word_similarity('word', 'two words'), similarity('word', 'words');
 strict_word_similarity | similarity
------------------------+------------
               0.571429 |   0.571429
(1 row)
   

De ce fait, la fonction strict_word_similarity est utile pour trouver la similarité de mots entiers, alors que word_similarity est plus intéressant pour trouver la similarité de parties de mots.

Tableau F.25. Opérateurs de pg_trgm

Opérateur

Description

text % textboolean

Renvoie true si les arguments ont une similarité supérieure à la limite configurée par pg_trgm.similarity_threshold.

text <% textboolean

Renvoie true si la similarité entre l'ensemble de trigrammes du premier argument et une étendue continue d'un ensemble trié de trigrammes dans le second argument est plus grande que la limite de similarité actuelle, telle qu'elle est configurée avec le paramètre pg_trgm.word_similarity_threshold.

text %> textboolean

Inverse de l'opérateur <<%.

text <<% textboolean

Renvoie true si son second argument possède une étendue continue d'un ensemble de trigrammes trié correspondant aux limites de mots, et que sa similarité avec l'ensemble de trigrammes du premier argument est plus grand que la limite de similarité stricte de mot strict courante, telle que configurée par le paramètre pg_trgm.strict_word_similarity_threshold

text %>> textboolean

Inverse de l'opérateur <<%.

text <-> textreal

Retourne la « distance » entre les arguments, c'est-à-dire un moins la valeur de similarity().

text <<-> textreal

Retourne la « distance » entre les arguments, c'est-à-dire un moins la valeur de word_similarity().

text <->> textreal

Inverse de l'opérateur <<->.

text <<<-> textreal

Retourne la « distance » entre les arguments, c'est-à-dire un moins la valeur de strict_word_similarity().

text <->>> textreal

Inverse de l'opérateur <<<->.


F.35.3. Paramètres GUC

pg_trgm.similarity_threshold (real)

Configure la limite de similarité utilisée par l'opérateur %. La limite doit se situer entre 0 et 1 (la valeur par défaut est 0,3).

pg_trgm.word_similarity_threshold (real)

Configure la limite de similarité de mot utilisée par les opérateurs <% et %>. La limite doit être comprise entre 0 et 1 (la valeur par défaut est 0,6).

pg_trgm.strict_word_similarity_threshold (real)

Configure la limite de similarité de mot stricte utilisée par les opérateurs <<% et %>>. La limite doit être comprise entre 0 et 1 (la valeur par défaut est 0,5).

F.35.4. Support des index

Le module pg_trgm fournit des classes d'opérateurs pour les index GiST et GIN qui vous permettent de créer un index sur une colonne de type text dans le but d'accélérer les recherches de similarité. Ces types d'index supportent les opérateurs de similarité décrits ci-dessus et supportent de plus les recherches basées sur des trigrammes pour les requêtes LIKE, ILIKE, ~, ~* et =. Les opérateurs d'inégalité ne sont pas supportés. Notez que ces index peuvent ne pas être aussi efficaces que les index B-Tree pour l'opérateur d'égalité.

Exemple :

CREATE TABLE test_trgm (t text);
CREATE INDEX trgm_idx ON test_trgm USING GIST (t gist_trgm_ops);
   

ou

CREATE INDEX trgm_idx ON test_trgm USING GIN (t gin_trgm_ops);
   

L'opérateur de classe GiST gist_trgm_ops assimile un ensemble de trigrammes à une signature bitmap. Son paramètre entier optionnel siglen détermine la longueur de la signature en octets. La valeur par défaut est de 12 octets. Les valeurs valides vont de 1 à 2024 octets. Les signatures plus longues mènent à une recherche plus précise (parcourant une plus petite fraction de l'index et moins de pages de la table), au prix d'un index plus gros.

Exemple de création d'un tel index avec une longueur de signature de 32 octets :

CREATE INDEX trgm_idx ON test_trgm USING GIST (t gist_trgm_ops(siglen=32));
  

À ce point, vous aurez un index sur la colonne t que vous pouvez utiliser pour une recherche de similarité. Une requête typique est :

SELECT t, similarity(t, 'word') AS sml
  FROM test_trgm
  WHERE t % 'word'
  ORDER BY sml DESC, t;
  

Ceci renverra toutes les valeurs dans la colonne texte suffisamment similaires à word, triées de la meilleure correspondance à la pire. L'index sera utilisé pour accélérer l'opération même sur un grand ensemble de données.

Une variante de la requête ci-dessus est

SELECT t, t <-> 'word' AS dist
  FROM test_trgm
  ORDER BY dist LIMIT 10;
   

Ceci peut être implémenté assez efficacement par des index GiST, mais pas par des index GIN. Cela battra généralement la première formulation quand on demande juste un petit nombre de correspondances proches.

De plus, vous pouvez utiliser un index sur la colonne t pour la similarité, stricte ou pas, entre mots. Des requêtes typiques sont :

SELECT t, strict_word_similarity('word', t) AS sml
  FROM test_trgm
  WHERE 'word' <<% t
  ORDER BY sml DESC, t;
   

et

SELECT t, word_similarity('word', t) AS sml
  FROM test_trgm
  WHERE 'word' <% t
  ORDER BY sml DESC, t;
   

Ceci renverra toutes les valeurs dans la colonne texte pour lesquelles il existe une étendue continue de l'ensemble ordonné de trigrammes suffisamment similaire à l'ensemble de trigrammes de word, trié de la meilleure correspondance à la pire. L'index sera utilisé pour accélérer l'opération, y compris sur de très gros ensembles de données.

Les variations possibles des requêtes ci-dessus sont :

SELECT t, 'word' <<-> t AS dist
  FROM test_trgm
  ORDER BY dist LIMIT 10;
   

et

SELECT t, 'word' <<<-> t AS dist
  FROM test_trgm
  ORDER BY dist LIMIT 10;
   

Ceci peut être implémenté assez efficacement par des index GiST, mais pas par des index GIN.

À partir de PostgreSQL 9.1, ces types d'index supportent aussi les recherches d'index pour LIKE et ILIKE, par exemple

SELECT * FROM test_trgm WHERE t LIKE '%foo%bar';
   

La recherche par index fonctionne par extraction des trigrammes à partir de la chaîne recherchée, puis en les recherchant dans l'index. Plus le nombre de trigrammes dans la recherche est important, plus efficace sera la recherche. Contrairement à des recherches basées sur les B-tree, la chaîne de recherche n'a pas besoin d'un signe pourcentage sur le côté gauche.

À partir de PostgreSQL 9.3, ces types d'index supportent aussi les recherches de correspondances d'expressions rationnelles (opérateurs ~ et ~*). Par exemple

SELECT * FROM test_trgm WHERE t ~ '(foo|bar)';
   

La recherche dans l'index fonctionne en extrayant les trigrammes de l'expression rationnelles, puis en les recherchant dans l'index. Plus il est possible d'extraire de trigrammes de l'expression rationnelle, plus la recherche dans l'index sera efficace. Contrairement à des recherches basées sur les B-tree, la chaîne de recherche n'a pas besoin d'un signe pourcentage sur le côté gauche.

Pour les recherches LIKE comme avec des expressions rationnelles, gardez en tête qu'un motif sans trigramme extractible dégénérera en parcours complet de l'index.

Le choix d'un indexage GiST ou GIN dépend de leurs caractéristiques de performance relatives, qui sont discutées ailleurs.

F.35.5. Intégration à la recherche plein texte

La correspondance de trigrammes est un outil très utile lorsqu'il est utilisé en conjonction avec un index plein texte. En particulier, il peut aider à la reconnaissance des mots mal orthographiés, pour lesquels le mécanisme de recherche plein texte ne trouvera pas de correspondance.

La première étape est la génération d'une table auxiliaire contenant tous les mots uniques dans les documents :

CREATE TABLE words AS SELECT word FROM
        ts_stat('SELECT to_tsvector(''simple'', bodytext) FROM documents');
  

documents est une table avec un champ texte bodytext, où nous voulons faire nos recherches. La raison de l'utilisation de la configuration simple dans la fonction to_tsvector est que nous voulons une liste des mots originaux (non réduits à leur racine), plutôt qu'une configuration spécifique à la langue.

Ensuite, nous créons un index trigramme sur la colonne word :

CREATE INDEX words_idx ON words USING GIN(word gin_trgm_ops);
  

Maintenant, une requête SELECT, similaire à l'exemple précédent, peut être utilisée pour suggérer des mots mal orthographiés dans la recherche de l'utilisateur. Un test utile supplémentaire est de demander aussi que les mots sélectionnés soient d'une longueur similaire au mot mal orthographié.

Note

Comme la table words a été générée comme une table statique, séparée, il sera nécessaire de la régénérer périodiquement, afin qu'elle reste raisonnablement à jour avec la collection des documents. Il n'est pas nécessaire, généralement, qu'elle soit en permanence totalement à jour.

F.35.7. Auteurs

Oleg Bartunov , Moscou, Université de Moscou, Russie

Teodor Sigaev , Moscou, Delta-Soft Ltd., Russie

Alexander Korotkov , Moscou, Postgres Professional, Russie

Documentation : Christopher Kings-Lynne

Ce module est sponsorisé par Delta-Soft Ltd., Moscou, Russie.