Ce module code le type de données seg
pour représenter
des segments de ligne ou des intervalles de nombres à virgule flottante.
seg
peut représenter l'incertitude des points
extrêmes d'un intervalle, ce qui le rend particulièrement utile pour représenter
des mesures de laboratoires.
La géométrie des mesures est habituellement plus complexe qu'un point dans un continuum numérique. Une mesure est habituellement un segment de ce continuum avec des limites non définissables. Les mesures apparaissent comme des intervalles à cause de ce côté incertain et du hasard, ainsi qu'à cause du fait que la valeur mesurée peut naturellement être un intervalle indiquant certaines conditions comme une échelle de température pour la stabilité d'une protéine.
En utilisant le bon sens, il apparaît plus agréable de stocker de telles données sous la forme d'intervalle, plutôt que sous la forme d'une paire de nombres. En pratique, c'est même plus efficace dans la plupart des applications.
En allant plus loin, le côté souple des limites suggère que l'utilisation des types de données numériques traditionnels amène en fait une certaine perte d'informations. Pensez à ceci : votre instrument lit 6.50, et vous saisissez cette valeur dans la base de données. Qu'obtenez-vous en la récupérant ? Regardez :
test=> select 6.50 :: float8 as "pH"; pH --- 6.5 (1 row)
Dans le monde des mesures, 6.50 n'est pas identique à 6.5. La différence pourrait même être critique. Les personnes ayant réalisé l'expérience écrivent habituellement (et publient) les chiffres qu'ils connaissent. 6.50 est en fait un intervalle incertain compris dans un intervalle plus grand et encore plus incertain, 6.5, le point central étant (probablement) la seule fonctionnalité commune qu'ils partagent. Nous ne voulons pas que de telles différences de données apparaissent de façon identique.
La conclusion ? il est agréable d'avoir un type de données spécial qui peut enregistrer les limites d'un intervalle avec une précision variable arbitraire. Variable dans le sens où chaque élément de données enregistre sa propre précision.
Vérifiez ceci :
test=> select '6.25 .. 6.50'::seg as "pH"; pH ------------ 6.25 .. 6.50 (1 row)
La représentation externe d'un intervalle se forme en utilisant un ou deux
nombres à virgule flottante joint par l'opérateur d'échelle
(..
ou ...
). Sinon, il peut être
spécifié comme un point central plus ou moins une déviation.
Des indicateurs optionels (<
,
>
et ~
) peuvent aussi être stockés.
(Néanmoins, ces indicateurs sont ignorés par la logique interne.)
Tableau F.27 donne un aperçu des représentations
autorisées ; Tableau F.28 montre quelques
exemples.
Dans Tableau F.27, x
,
y
et delta
dénotent
des nombres à virgule flottante. x
et
y
, mais pas delta
,
peuvent être précédés par un indicateur de certitude :
Tableau F.27. Représentations externes de seg
| Valeur seule (intervalle de longueur zéro) |
| Intervalle de x à y
|
| Intervalle de x - delta à
x + delta
|
| Intervalle ouvert avec une limite inférieure x
|
.. | Intervalle ouvert avec une limite supérieure x
|
Tableau F.28. Exemples d'entrées valides de type seg
5.0 | Crée un segment de longueur zéro (un point si vous préférez) |
~5.0 |
Crée un segment de taille nulle et enregistre
~ dans les données. ~ est ignoré
par les opérations seg mais conservé en commentaire.
|
<5.0 |
Crée un point à 5.0. < est ignoré mais conservé
en commentaire.
|
>5.0 |
Crée un point à 5.0. > est ignoré mais conservé
en commentaire.
|
5(+-)0.3 |
Crée un intervalle 4.7 .. 5.3 .
Notez que la notation (+-) n'est pas conservée.
|
50 .. | Tout ce qui supérieur ou égal à 50 |
.. 0 | Tout ce qui est inférieur ou égal à 0 |
1.5e-2 .. 2E-2 | Crée un intervalle 0.015 .. 0.02 |
1 ... 2 |
Identique à 1...2 , ou 1 .. 2 ,
ou 1..2
(les espaces autour de l'opérateur d'échelle sont ignorés)
|
Comme ...
est largement utilisé dans les sources de
données, il est autorisé comme autre orthographe possible de
..
. Malheureusement, ceci crée une ambiguité pour
l'analyseur : la limite supérieure dans 0...23
est
23
ou 0.23
. Ceci se résout en
réclamant au moins un chiffre avant le point décimal dans tous les nombres
de type seg
.
Comme vérification, seg
rejette les intervalles dont la limite
inférieure est supérieure à la limite supérieure, par exemple
5 .. 2
.
Les valeurs seg
sont stockés en interne sous la forme de paires
de nombres en virgule flottante de 32 bits. Cela signifie que les nombres
avec plus de sept chiffres significatifs sont tronqués.
Les nombres avec moins ou avec exactement sept chiffres significatifs conservent leur précision originale. C'est-à-dire que, si votre requête renvoie 0.00, vous serez sûr que les zéros qui suivent ne sont pas des conséquences du formatage : elles reflètent la précision de la donnée originale. Le nombre de zéro au début n'affectent pas la précision : deux chiffres significatifs sont considérés pour la valeur 0.0067.
Le module seg
inclut une classe d'opérateur pour les
index GiST dans le cas des valeurs seg
. Les opérateurs
supportés par la classe d'opérateur GiST are shown in Tableau F.29.
Tableau F.29. Opérateurs GiST du type Seg
Opérateur | Description |
---|---|
[a, b] << [c, d] | [a, b] est entièrement à gauche de [c, d]. Autrement dit, [a, b] << [c, d] est vérifié si b < c |
[a, b] >> [c, d] | [a, b] est entièrement à droite de [c, d]. Autrement dit, [a, b] >> [c, d] est vérifié si a > d |
[a, b] &< [c, d] | Couvre une partie ou est à gauche de -- Cela se lit mieux de cette façon « ne s'étend pas à droite de ». C'est vrai quand b <= d. |
[a, b] &> [c, d] | Couvre une partie ou est à droite de -- Cela se lit mieux de cette façon « ne s'étend pas à gauche de ». C'est vrai quand a >= c. |
[a, b] = [c, d] | Identique à -- Les segments [a, b] et [c, d] sont identiques, autrement dit a == b et c == d. |
[a, b] && [c, d] | Les segments [a, b] et [c, d] se chevauchent en partie. |
[a, b] @> [c, d] | Le segment [a, b] contient le segment [c, d], autrement dit a <= c et b >= d |
[a, b] <@ [c, d] | Le segment [a, b] est contenu dans [c, d], autrement dit a >= c et b <= d. |
(Avant PostgreSQL 8.2, les opérateurs de contenance @>
et <@
étaient appelés respectivement
@
et ~
. Ces noms sont toujours
disponibles mais sont
déclarés obsolètes et seront supprimés un jour. Notez que les anciens noms
sont inversés par rapport à la convention suivie par les types de données
géométriques !)
Les opérateurs B-tree standard sont aussi fournis, par exemple :
Opérateur | Description |
---|---|
[a, b] < [c, d] | Plus petit que |
[a, b] > [c, d] | Plus grand que |
Ces opérateurs n'ont pas vraiment de sens sauf en ce qui concerne le tri. Ces opérateurs comparent en premier (a) à (c) et, s'ils sont égaux, comparent (b) à (d). Cela fait un bon tri dans la plupart des cas, ce qui est utile si vous voulez utiliser ORDER BY avec ce type.
Pour des exemples d'utilisation, voir les tests de régression
sql/seg.sql
.
Le mécanisme qui convertit (+-)
en échelles standards
n'est pas entièrement précis pour déterminer le nombre de chiffres
significatifs pour les limites. Par exemple, si vous ajoutez un chiffre
supplémentaire à la limite basse si l'intervalle résultat inclut une
puissance de dix :
postgres=> select '10(+-)1'::seg as seg; seg --------- 9.0 .. 11 -- should be: 9 .. 11
La performance d'un index R-tree peut dépendre largement de l'ordre des
valeurs en entrée. Il pourrait être très utile de trier la table en entrée
sur la colonne seg
; voir le script
sort-segments.pl
pour un exemple.
Auteur original : Gene Selkov, Jr. <selkovjr@mcs.anl.gov>
,
Mathematics and Computer Science Division, Argonne National Laboratory.
Mes remerciements vont principalement au professeur Joe Hellerstein (https://dsf.berkeley.edu/jmh/) pour avoir élucidé l'idée centrale de GiST (http://gist.cs.berkeley.edu/). Mes remerciements aussi aux développeurs de PostgreSQL pour m'avoir permis de créer mon propre monde et de pouvoir y vivre sans pertubation. Argonne Lab et le département américain de l'énergie ont aussi toute ma gratitude pour les années de support dans ma recherche sur les bases de données.