Le module pg_trgm
fournit des fonctions et
opérateurs qui permettent de déterminer des similarités de textes
alphanumériques en fonction de correspondances de trigrammes. Il
fournit également des classes d'opérateur accélérant les recherches de
chaînes similaires.
Ce module est considéré comme « trusted », c'est-à-dire qu'il
peut être installé par des utilisateurs simples (sans attribut
SUPERUSER
) possédant l'attribut CREATE
sur la base de données courante.
Un trigramme est un groupe de trois caractères consécutifs pris dans une chaîne. Nous pouvons mesurer la similarité de deux chaînes en comptant le nombre de trigrammes qu'elles partagent. Cette idée simple est très efficace pour mesurer la similarité des mots dans la plupart des langues.
pg_trgm
ignore les caractères qui ne forment pas
de mots (donc non alphanumériques) lors de l'extraction des trigrammes
d'une chaîne de caractères.
Chaque mot est considéré avoir deux espaces en préfixe et une espace en
suffixe lors de la détermination de l'ensemble de trigrammes contenu dans
la chaîne. Par exemple, l'ensemble des trigrammes dans la chaîne
« cat
» est
« c
»,
« ca
»,
« cat
» et
« at
».
L'ensemble de trigrammes dans la chaîne
« foo|bar
» est
« f
»,
« fo
»,
« foo
»,
« oo
»,
« b
»,
« ba
»,
« bar
» et
« ar
».
Les fonctions fournies par le module pg_trgm
sont affichées dans Tableau F.24 alors que
les opérateurs sont indiqués dans Tableau F.25.
Tableau F.24. Fonctions de pg_trgm
Prenons l'exemple suivant :
# SELECT word_similarity('word', 'two words'); word_similarity ----------------- 0.8 (1 row)
Dans la première chaîne, l'ensemble de trigrammes est
{" w"," wo","ord","wor","rd "}
. Dans la seconde chaîne,
l'ensemble trié de trigrammes est
{" t"," tw","two","wo "," w"," wo","wor","ord","rds","ds "}
.
L'étendue la plus similaire d'un ensemble trié de trigrammes dans la
seconde chaîne est {" w"," wo","wor","ord"}
, et la
similarité est 0.8
.
Cette fonction renvoie une valeur qui peut être comprise approximativement comme la plus grande similarité entre la première chaîne et toute sous-chaîne de la deuxième chaîne. Néanmoins, cette fonction n'ajoute pas de remplissage aux limites de l'étendue. De ce fait, le nombre de caractères supplémentaires présents dans la deuxième chaîne n'est pas considéré, sauf pour les limites de mots sans correspondance.
En même temps, strict_word_similarity
sélectionne une étendue de mots dans la deuxième chaîne. Dans l'exemple
ci-dessus, strict_word_similarity
sélectionnerait l'étendue d'un mot seul 'words'
, dont
l'ensemble de trigrammes est
{" w"," wo","wor","ord","rds","ds"}
.
# SELECT strict_word_similarity('word', 'two words'), similarity('word', 'words'); strict_word_similarity | similarity ------------------------+------------ 0.571429 | 0.571429 (1 row)
De ce fait, la fonction strict_word_similarity
est
utile pour trouver la similarité de mots entiers,
alors que word_similarity
est plus
intéressant pour trouver la similarité de parties de mots.
Tableau F.25. Opérateurs de pg_trgm
Opérateur Description |
---|
Renvoie |
Renvoie |
Inverse de l'opérateur |
Renvoie |
Inverse de l'opérateur |
Retourne la « distance » entre les arguments,
c'est-à-dire un moins la valeur de |
Retourne la « distance » entre les arguments,
c'est-à-dire un moins la valeur de |
Inverse de l'opérateur |
Retourne la « distance » entre les arguments,
c'est-à-dire un moins la valeur de |
Inverse de l'opérateur |
pg_trgm.similarity_threshold
(real
)
Configure la limite de similarité utilisée par l'opérateur
%
. La limite doit se situer entre 0 et 1 (la valeur
par défaut est 0,3).
pg_trgm.word_similarity_threshold
(real
)
Configure la limite de similarité de mot utilisée par les opérateurs
<%
et %>
. La limite doit être
comprise entre 0 et 1 (la valeur par défaut est 0,6).
pg_trgm.strict_word_similarity_threshold
(real
)
Configure la limite de similarité de mot stricte utilisée par les opérateurs
<<%
et %>>
. La limite doit être
comprise entre 0 et 1 (la valeur par défaut est 0,5).
Le module pg_trgm
fournit des classes d'opérateurs
pour les index GiST et GIN qui vous permettent de créer un index sur une
colonne de type text dans le but d'accélérer les recherches de similarité.
Ces types d'index supportent les opérateurs de similarité décrits
ci-dessus et supportent de plus les recherches basées sur des trigrammes
pour les requêtes LIKE
, ILIKE
,
~
, ~*
et =
. Les
opérateurs d'inégalité ne sont pas supportés. Notez que ces index peuvent
ne pas être aussi efficaces que les index B-Tree pour l'opérateur
d'égalité.
Exemple :
CREATE TABLE test_trgm (t text); CREATE INDEX trgm_idx ON test_trgm USING GIST (t gist_trgm_ops);
ou
CREATE INDEX trgm_idx ON test_trgm USING GIN (t gin_trgm_ops);
L'opérateur de classe GiST gist_trgm_ops
assimile un ensemble de trigrammes à une signature bitmap.
Son paramètre entier optionnel siglen
détermine
la longueur de la signature en octets.
La valeur par défaut est de 12 octets.
Les valeurs valides vont de 1 à 2024 octets.
Les signatures plus longues mènent à une recherche plus précise
(parcourant une plus petite fraction de l'index
et moins de pages de la table), au prix d'un index plus gros.
Exemple de création d'un tel index avec une longueur de signature de 32 octets :
CREATE INDEX trgm_idx ON test_trgm USING GIST (t gist_trgm_ops(siglen=32));
À ce point, vous aurez un index sur la colonne t
que vous pouvez utiliser pour une recherche de similarité. Une requête
typique est :
SELECT t, similarity(t, 'word
') AS sml FROM test_trgm WHERE t % 'word
' ORDER BY sml DESC, t;
Ceci renverra toutes les valeurs dans la colonne texte suffisamment
similaires à word
, triées de la meilleure
correspondance à la pire. L'index sera utilisé pour accélérer l'opération
même sur un grand ensemble de données.
Une variante de la requête ci-dessus est
SELECT t, t <-> 'word
' AS dist
FROM test_trgm
ORDER BY dist LIMIT 10;
Ceci peut être implémenté assez efficacement par des index GiST, mais pas par des index GIN. Cela battra généralement la première formulation quand on demande juste un petit nombre de correspondances proches.
De plus, vous pouvez utiliser un index sur la colonne
t
pour la similarité, stricte ou pas, entre mots.
Des requêtes typiques sont :
SELECT t, strict_word_similarity('word
', t) AS sml FROM test_trgm WHERE 'word
' <<% t ORDER BY sml DESC, t;
et
SELECT t, word_similarity('word
', t) AS sml FROM test_trgm WHERE 'word
' <% t ORDER BY sml DESC, t;
Ceci renverra toutes les valeurs dans la colonne texte pour lesquelles il
existe une étendue continue de l'ensemble ordonné de trigrammes
suffisamment similaire à l'ensemble de trigrammes de
word
, trié de la meilleure correspondance à la
pire. L'index sera utilisé pour accélérer l'opération, y compris sur de
très gros ensembles de données.
Les variations possibles des requêtes ci-dessus sont :
SELECT t, 'word
' <<-> t AS dist
FROM test_trgm
ORDER BY dist LIMIT 10;
et
SELECT t, 'word
' <<<-> t AS dist
FROM test_trgm
ORDER BY dist LIMIT 10;
Ceci peut être implémenté assez efficacement par des index GiST, mais pas par des index GIN.
À partir de PostgreSQL 9.1, ces types d'index
supportent aussi les recherches d'index pour LIKE
et
ILIKE
, par exemple
SELECT * FROM test_trgm WHERE t LIKE '%foo%bar';
La recherche par index fonctionne par extraction des trigrammes à partir de la chaîne recherchée, puis en les recherchant dans l'index. Plus le nombre de trigrammes dans la recherche est important, plus efficace sera la recherche. Contrairement à des recherches basées sur les B-tree, la chaîne de recherche n'a pas besoin d'un signe pourcentage sur le côté gauche.
À partir de PostgreSQL 9.3, ces types d'index
supportent aussi les recherches de correspondances
d'expressions rationnelles (opérateurs ~
et
~*
). Par exemple
SELECT * FROM test_trgm WHERE t ~ '(foo|bar)';
La recherche dans l'index fonctionne en extrayant les trigrammes de l'expression rationnelles, puis en les recherchant dans l'index. Plus il est possible d'extraire de trigrammes de l'expression rationnelle, plus la recherche dans l'index sera efficace. Contrairement à des recherches basées sur les B-tree, la chaîne de recherche n'a pas besoin d'un signe pourcentage sur le côté gauche.
Pour les recherches LIKE
comme avec des
expressions rationnelles, gardez en tête qu'un motif sans trigramme extractible
dégénérera en parcours complet de l'index.
Le choix d'un indexage GiST ou GIN dépend de leurs caractéristiques de performance relatives, qui sont discutées ailleurs.
La correspondance de trigrammes est un outil très utile lorsqu'il est utilisé en conjonction avec un index plein texte. En particulier, il peut aider à la reconnaissance des mots mal orthographiés, pour lesquels le mécanisme de recherche plein texte ne trouvera pas de correspondance.
La première étape est la génération d'une table auxiliaire contenant tous les mots uniques dans les documents :
CREATE TABLE words AS SELECT word FROM ts_stat('SELECT to_tsvector(''simple'', bodytext) FROM documents');
où documents
est une table avec un champ texte
bodytext
, où nous voulons faire nos recherches.
La raison de l'utilisation de la configuration simple
dans la fonction to_tsvector
est que nous voulons une liste des mots originaux (non réduits à leur racine),
plutôt qu'une configuration spécifique à la langue.
Ensuite, nous créons un index trigramme sur la colonne word :
CREATE INDEX words_idx ON words USING GIN(word gin_trgm_ops);
Maintenant, une requête SELECT
, similaire à l'exemple
précédent, peut être utilisée pour suggérer des mots mal orthographiés
dans la recherche de l'utilisateur.
Un test utile supplémentaire est de demander aussi
que les mots sélectionnés soient d'une longueur similaire au mot
mal orthographié.
Comme la table words
a été générée comme une table
statique, séparée, il sera nécessaire de la régénérer périodiquement,
afin qu'elle reste raisonnablement à jour avec la collection des
documents. Il n'est pas nécessaire, généralement, qu'elle soit
en permanence totalement à jour.
Oleg Bartunov <oleg@sai.msu.su>
, Moscou, Université de Moscou,
Russie
Teodor Sigaev <teodor@sigaev.ru>
, Moscou, Delta-Soft Ltd.,
Russie
Alexander Korotkov <a.korotkov@postgrespro.ru>
, Moscou, Postgres Professional, Russie
Documentation : Christopher Kings-Lynne
Ce module est sponsorisé par Delta-Soft Ltd., Moscou, Russie.