Defining the Core Web Vitals metrics thresholds

Table des matières

Core Web Vitals are a set of field metrics that
mesurer des aspects importants de l'expérience utilisateur réelle sur le Web. Web principal
Vitals includes metrics, as well as cible thresholds for each metric, which
aider les développeurs à comprendre qualitativement si l'expérience de leur site est
«good», «needs improvement», or is «poor». This Publier will explain the approach used to
choisissez des seuils pour les métriques Core Web Vitals en général, ainsi que
des seuils pour chaque métrique Core Web Vitals ont été choisis.

En 2020, les Core Web Vitals sont trois métriques: la plus grande peinture de contenu (LCP),
Premier délai d'entrée (FID) et décalage de disposition cumulatif (CLS). Chaque métrique mesure
un aspect différent de l'expérience utilisateur: LCP mesure la vitesse de chargement perçue et
marque le point dans la chronologie de chargement de la page lorsque le contenu principal de la page a
probablement chargé; Le FID mesure la réactivité et quantifie l'expérience des utilisateurs
ressentez lorsque vous essayez d'interagir pour la première fois avec la page; et CLS mesure le visuel
stabilité et quantifie la quantité de décalage de mise en page inattendu de la page visible
contenu.

Chaque métrique Core Web Vitals a des seuils associés, qui catégorisent
performance as either «good», «needs improvement», or «poor»:

	Bien	Pauvres	Centile
La plus grande peinture riche en contenu	≤2500ms	> 4000 ms	75
Premier délai d'entrée	≤100 ms	> 300 ms	75
Décalage cumulatif de la disposition	≤0,1	> 0,25	75

De plus, pour classer les performances globales d'une page ou d'un site, nous utilisons le
Valeur au 75e centile de toutes les pages vues sur cette page ou ce site. En d'autres termes, si
au moins 75 pour cent des pages vues sur un site atteignent le seuil du «bon», le site
est classé comme ayant de «bonnes» performances pour cette métrique. Inversement, si à
au moins 25 pour cent des pages vues atteignent le seuil «médiocre», le site est classé
comme ayant des performances «médiocres». Ainsi, par exemple, un LCP au 75e centile de 2
secondes est considéré comme "bon", tandis qu'un LCP au 75e centile de 5 secondes est
classé comme «pauvre».

Critères pour les seuils de métrique Core Web Vitals

Lors de l'établissement de seuils pour les métriques Core Web Vitals, nous avons d'abord identifié
critères auxquels chaque seuil devait répondre. Ci-dessous, j'explique les critères que nous avons utilisés
at Google for evaluating 2020 Core Web Vitals metric thresholds. The subsequent
les sections entreront plus en détail sur la manière dont ces critères ont été appliqués pour sélectionner
les seuils pour chaque métrique en 2020. Dans les années à venir, nous prévoyons de
des améliorations et des ajouts aux critères et aux seuils pour améliorer encore notre
capacité à mesurer de bonnes expériences utilisateur sur le Web.

Expérience utilisateur de haute qualité

Notre objectif principal est d'optimiser pour l'utilisateur et sa qualité d'expérience.
Compte tenu de cela, nous visons à faire en sorte que les pages qui répondent aux Core Web Vitals «bonnes»
les seuils offrent une expérience utilisateur de haute qualité.

Pour identifier un seuil associé à une expérience utilisateur de haute qualité, nous nous tournons vers
perception humaine et recherche HCI. Bien que cette recherche soit parfois résumée
en utilisant un seul seuil fixe, nous constatons que la recherche sous-jacente est
généralement exprimé sous forme de plage de valeurs. Par exemple, une recherche sur la quantité de
le temps que les utilisateurs attendent généralement avant de perdre le focus est parfois décrit comme 1
deuxièmement, alors que la recherche sous-jacente est en fait exprimée sous forme de fourchette, de
des centaines de millisecondes à plusieurs secondes. Le fait que cette perception
les seuils varient en fonction de l'utilisateur et du contexte est en outre pris en charge par des
et des données de métriques Chrome anonymisées, ce qui montre qu'il n'y a pas un seul
durée pendant laquelle les utilisateurs attendent qu'une page Web affiche le contenu avant d'annuler
chargement de la page. Au contraire, ces données montrent une distribution régulière et continue. Pour un
un examen plus approfondi des seuils de perception humaine et des recherches pertinentes sur les HCI, voir
La science derrière le Web
Vitals.

Dans les cas où une recherche pertinente sur l'expérience utilisateur est disponible pour une métrique donnée
et il existe un consensus raisonnable sur la plage de valeurs dans la littérature, nous
utiliser cette fourchette comme entrée pour guider notre processus de sélection des seuils. Dans les cas
lorsque la recherche pertinente sur l'expérience utilisateur n'est pas disponible, par exemple pour une nouvelle métrique
comme le décalage de mise en page cumulatif, nous évaluons à la place des pages du monde réel qui se rencontrent
différents seuils candidats pour une métrique, pour identifier un seuil qui
se traduit par une bonne expérience utilisateur.

Réalisable par le contenu Web existant

De plus, pour s'assurer que les propriétaires de sites peuvent réussir à optimiser leurs sites
pour atteindre les «bons» seuils, nous exigeons que ces seuils soient atteignables
pour le contenu existant sur le Web. Par exemple, alors que zéro milliseconde est un
seuil LCP «bon» idéal, résultant en des expériences de chargement instantanées, un zéro
le seuil de la milliseconde n'est pratiquement pas réalisable dans la plupart des cas, en raison de
latences de traitement du réseau et des périphériques. Ainsi, zéro milliseconde n'est pas un
seuil LCP "bon" raisonnable pour Core Web Vitals.

Lors de l'évaluation des «bons» seuils candidats Core Web Vitals, nous vérifions que
ces seuils peuvent être atteints, sur la base des données du Expérience utilisateur Chrome
Signaler
(Nœud). Pour confirmer qu'un seuil est réalisable, nous exigeons qu'au moins 10%
des origines rencontrent actuellement le «bien»
au seuil. De plus, pour garantir que les sites bien optimisés ne sont pas
mal classés en raison de la variabilité des données de terrain, nous vérifions également que
un contenu bien optimisé répond systématiquement au «bon» seuil.

A l'inverse, nous établissons le seuil «pauvre» en identifiant un niveau de
performance que seule une minorité d'origines ne parvient pas à atteindre actuellement. À moins que
il existe des recherches disponibles pertinentes pour définir un seuil «faible», par défaut
les 10-30% d'origine les moins performants sont classés comme «pauvres».

Réflexions finales sur les critères

Lors de l'évaluation des seuils candidats, nous avons constaté que les critères étaient parfois
en conflit les uns avec les autres. Par exemple, il peut y avoir une tension entre un
seuil étant constamment atteignable et garantissant toujours un bon utilisateur
expériences. De plus, étant donné que la recherche sur la perception humaine
fournit une plage de valeurs et les mesures du comportement des utilisateurs montrent des changements progressifs dans
comportement, nous avons constaté qu'il n'y a souvent pas de seuil «correct» unique pour une métrique.
Ainsi, notre approche pour les Core Web Vitals 2020 a été de choisir des seuils
qui répondent le mieux aux critères ci-dessus, tout en reconnaissant qu'il n'y a personne
seuil parfait et que nous pouvons parfois avoir besoin de choisir parmi plusieurs
seuils candidats raisonnables. Plutôt que de demander «quel est le parfait
au seuil? " nous nous sommes plutôt attachés à demander «quel seuil candidat est le mieux
atteint nos critères? »

Choix du percentile

Comme indiqué précédemment, pour classer les performances globales d'une page ou d'un site, nous utilisons
la valeur du 75e centile de toutes les visites sur cette page ou ce site. Le 75e
le centile a été choisi en fonction de deux critères. Premièrement, le centile doit garantir
qu'une majorité de visites sur une page ou un site ont atteint le niveau cible de
performance. Deuxièmement, la valeur au percentile choisi ne doit pas être trop
impacté par les valeurs aberrantes.

Ces objectifs sont quelque peu en contradiction les uns avec les autres. Pour satisfaire le premier objectif, un
un centile plus élevé est généralement un meilleur choix. Cependant, avec des
percentiles, la probabilité que la valeur résultante soit affectée par les valeurs aberrantes
augmente également. Si quelques visites sur un site se trouvent sur un réseau irrégulier
connexions qui entraînent des échantillons de LCP excessivement grands, nous ne voulons pas
la classification des sites doit être décidée par ces échantillons aberrants. Par exemple, si nous
évaluaient la performance d'un site avec 100 visites en utilisant un
centile tel que le 95e, il ne faudrait que 5 échantillons aberrants pour le 95e
valeur centile affectée par les valeurs aberrantes.

Étant donné que ces objectifs sont un peu contradictoires, après analyse, nous avons conclu que le 75e
centile atteint un équilibre raisonnable. En utilisant le 75e centile, nous savons
que la plupart des visites sur le site (3 sur 4) ont atteint le niveau cible de
performances ou mieux. De plus, la valeur du 75e centile est moins susceptible de
être affecté par les valeurs aberrantes. Revenant à notre exemple, pour un site avec 100 visites,
25 de ces visites auraient besoin de rapporter de grands échantillons aberrants pour la valeur à
le 75e centile affecté par les valeurs aberrantes. Alors que 25 échantillons sur 100 sont
des valeurs aberrantes est possible, c'est beaucoup moins probable que pour le cas du 95e centile.

La plus grande peinture riche en contenu

Qualité d'expérience

1 seconde est souvent citée comme la durée pendant laquelle un utilisateur attendra avant de commencer
perdre le focus sur une tâche. En examinant de plus près les recherches pertinentes, nous avons trouvé
que 1 seconde est une approximation pour décrire une plage de valeurs, d'environ
plusieurs centaines de millisecondes à plusieurs secondes.

Deux sources fréquemment citées pour le seuil d'une seconde sont Carte et
au et
Meunier. La carte définit un
Seuil de «réponse immédiate» d'une seconde, citant celui de Newell Théories unifiées de
Cognition. Newell explique immédiatement
réponses comme «réponses qui doivent être apportées à un stimulus au sein de regarde et
environ une seconde (c'est-à-dire environ de ~ 0,3 s à ~ 3 s). " Este
suit la discussion de Newell sur les «contraintes en temps réel sur la cognition», où il est
a noté que «les interactions avec l'environnement qui évoquent des
les considérations se déroulent de l’ordre de la seconde »qui varient d’environ 0,5
à 2-3 secondes. Miller, une autre source fréquemment citée pour la 1 seconde
seuil, note «les tâches que les humains peuvent et réaliseront avec la machine
les communications changeront sérieusement de caractère si les délais de réponse sont
plus de deux secondes, avec une extension possible d'une autre seconde environ. »

La recherche de Miller et Card décrit la durée pendant laquelle un utilisateur attendra avant
perte de concentration en tant que plage, d'environ 0,3 à 3 secondes, ce qui suggère notre LCP
Le seuil «bon» doit être dans cette plage. De plus, étant donné que l'existant
Le premier seuil de «bon» de Contentful Paint est de 1 seconde, et que le plus grand
Contentful Paint se produit généralement après First Contentful Paint, nous
contraindre notre gamme de seuils LCP candidats, de 1 seconde à 3 secondes. À
choisir le seuil de cette fourchette qui répond le mieux à nos critères, on regarde le
réalisabilité de ces seuils candidats, ci-dessous.

Réalisabilité

À l'aide des données de CrUX, nous pouvons déterminer le pourcentage d'origines sur le Web qui
atteindre nos seuils de «bons» candidats LCP.

% d'origine CrUX classée «bonne» (pour les seuils LCP candidats)

	1 seconde	1,5 seconde	2 secondes	2,5 secondes	3 secondes
téléphoner	3.5%	13%	27%	42%	55%
bureau	6.9%	19%	36%	51%	64%

Alors que moins de 10% d'origines atteignent le seuil de 1 seconde, tous les autres seuils
de 1,5 à 3 secondes satisfont notre exigence qu'au moins 10% d'origine satisfont
le «bon» seuil, et sont donc toujours des candidats valables.

De plus, pour s'assurer que le seuil choisi est toujours réalisable pour
sites bien optimisés, nous analysons les performances du LCP pour les sites les plus performants sur
le Web, afin de déterminer quels seuils sont systématiquement atteignables pour ces
des sites. Plus précisément, nous visons à identifier un seuil qui est
réalisable au 75e centile pour les sites les plus performants. On constate que le 1.5
et les seuils de 2 secondes ne sont pas toujours réalisables, tandis que 2,5 secondes sont
réalisable de manière cohérente.

Pour identifier un seuil «pauvre» pour LCP, nous utilisons les données CrUX pour identifier un seuil
rencontré par la plupart des origines:

% d'origine CrUX classée «pauvre» (pour les seuils LCP candidats)

	3 secondes	3,5 secondes	4 secondes	4,5 secondes	5 secondes
téléphoner	45%	35%	26%	20%	15%
bureau	36%	26%	19%	14%	10%

Pour un seuil de 4 secondes, environ 26% d'origine de téléphone et 21% de bureau
origines, serait classé comme pauvre. Cela tombe dans notre plage cible de 10-30%,
nous concluons donc que 4 secondes est un seuil acceptable «médiocre».

Ainsi, nous concluons que 2,5 secondes est un seuil raisonnable de «bon», et 4
secondes est un seuil «médiocre» raisonnable pour la plus grande peinture de contenu.

Premier délai d'entrée

Qualité d'expérience

La recherche est raisonnablement cohérente pour conclure que les retards dans la rétroaction visuelle
jusqu'à environ 100 ms sont perçus comme étant causés par une source associée,
comme une entrée utilisateur. Cela suggère qu'un premier délai d'entrée de 100 ms est «bon»
seuil est probablement approprié comme barre minimale: si le délai de traitement
l'entrée dépasse 100 ms, il n'y a aucune chance pour d'autres étapes de traitement et de rendu
pour terminer à temps.

Jakob Nielsen est souvent cité Temps de réponse: les 3 importants
Limites
définit 0,1 seconde comme la limite permettant à l'utilisateur de sentir que le système est
réagissant instantanément. Nielsen cite Miller et Card, qui cite Michotte's
1962 La perception de
Causalité. Chez Michotte
recherche, les participants à l'expérience voient «deux objets sur un écran. Objet A
part et se dirige vers B.Il s'arrête au moment où il entre en contact
avec B, alors que ce dernier commence et s'éloigne de A. » Michotte varie le
intervalle de temps entre le moment où l'objet A s'arrête et le moment où l'objet B commence à se déplacer.
Michotte constate que, pour des retards allant jusqu'à environ 100 ms, les participants ont
l'impression que l'objet A provoque le mouvement de l'objet B.Pour des retards d'environ
100ms à 200ms, la perception de causalité est mitigée, et pour les retards supérieurs à 200ms,
le mouvement de l'objet B n'est plus considéré comme ayant été causé par l'objet A.

De même, Miller définit un seuil de réponse pour «Response to control
activation »comme« l'indication de l'action donnée, d'ordinaire, par le mouvement d'un
clé, interrupteur ou autre organe de commande qui signale qu'il a été physiquement
activé. Cette réponse doit être… perçue comme faisant partie de la mécanique
action induite par l'opérateur. Temporisation: pas plus de 0,1 seconde »et plus tard
«Le délai entre l'enfoncement d'une touche et le retour visuel ne doit pas dépasser
0,1 à 0,2 seconde ».

Plus récemment, dans Vers le virtuel temporairement parfait
Bouton, Kaaresoja et al ont étudié
la perception de la simultanéité entre toucher un bouton virtuel sur un
écran tactile et retour visuel ultérieur indiquant que le bouton a été touché,
pour divers retards. Lorsque le délai entre la pression du bouton et le retour visuel était
85 ms ou moins, les participants ont signalé que la rétroaction visuelle est apparue simultanément
avec le bouton appuyez sur 75% de l'heure. De plus, pour des retards de 100 ms ou
moins, les participants ont signalé une qualité perçue constamment élevée du bouton
appuyez sur, la qualité perçue diminuant pour des retards de 100 ms à 150 ms, et
atteignant des niveaux très bas pour des retards de 300 ms.

Compte tenu de ce qui précède, nous concluons que la recherche pointe vers une plage de valeurs autour de
100 ms comme seuil de premier délai d'entrée approprié pour les Web Vitals.
De plus, certains utilisateurs ont signalé des niveaux de qualité faibles pour des retards de 300 ms ou
de plus, 300 ms se présente comme un seuil "médiocre" raisonnable.

Réalisabilité

En utilisant les données de CrUX, nous déterminons que la majorité des origines sur le Web se rencontrent
le seuil «bon» du FID de 100 ms au 75e centile:

% d'origine CrUX classée «bonne» pour le seuil FID 100ms

	100 ms
téléphoner	78%
bureau	> 99%

De plus, nous observons que les meilleurs sites sur le Web sont en mesure de
atteindre ce seuil au 75e centile (et l'atteindre souvent au 95e centile
centile).

Compte tenu de ce qui précède, nous concluons que 100 ms est un «bon» seuil raisonnable pour
FID.

Décalage cumulatif de la disposition

Qualité d'expérience

Cumulative Layout Shift (CLS) est une nouvelle métrique qui mesure le degré de visibilité
le contenu d'une page change. Étant donné que CLS est nouveau, nous ne sommes pas au courant de la recherche
qui peuvent informer directement les seuils de cette métrique. Ainsi, pour identifier un
seuil aligné sur les attentes des utilisateurs, nous avons évalué les pages du monde réel
avec différentes quantités de décalage de mise en page, pour déterminer la quantité maximale de décalage
qui est perçue comme acceptable avant de provoquer des perturbations importantes lorsque
consommer le contenu de la page. Lors de nos tests internes, nous avons constaté que les niveaux de décalage
à partir de 0,15 et plus étaient systématiquement perçus comme perturbateurs, tandis que les changements de
0,1 et moins étaient perceptibles mais pas excessivement perturbateurs. Ainsi, alors que zéro
le décalage de mise en page est idéal, nous avons conclu que les valeurs jusqu'à 0,1 sont candidates «bonnes»
Seuils CLS.

Réalisabilité

Sur la base des données CrUX, nous pouvons voir que près de 50% d'origine ont un CLS de 0,05 ou
au dessous de.

% d'origine CrUX classée «bonne» (pour les seuils CLS candidats)

	0.05	0.1	0.15
téléphoner	49%	60%	69%
bureau	42%	59%	69%

Alors que les données CrUX suggèrent que 0,05 pourrait être un «bon» CLS raisonnable
seuil, nous reconnaissons qu'il existe certains cas d'utilisation où il est actuellement
difficile d'éviter les changements de disposition perturbateurs. Par exemple, pour un tiers
embedded content, such as social media embeds, the height of the embedded
content is sometimes not known until it finishes loading, which can conduire to a
décalage de mise en page supérieur à 0,05. Ainsi, nous concluons que, si de nombreuses origines se rencontrent
le seuil de 0,05, le seuil CLS légèrement moins strict de 0,1 frappe un
meilleur équilibre entre qualité de l'expérience et réalisabilité. C'est notre espoir
que, à l'avenir, l'écosystème Web identifiera des solutions pour aborder la mise en page
les changements provoqués par des intégrations tierces, ce qui permettrait d'utiliser un plus
seuil CLS «bon» strict de 0,05 ou 0 dans une prochaine itération de Core Web
Vitals.

De plus, pour déterminer un seuil «médiocre» pour CLS, nous avons utilisé les données CrUX pour
identifier un seuil atteint par la plupart des origines:

% d'origine CrUX classée «pauvre» (pour les seuils CLS candidats)

	0.15	0.2	0.25	0.3
téléphoner	31%	25%	20%	18%
bureau	31%	23%	18%	16%

Pour un seuil de 0,25, environ 20% d'origines de téléphone et 18% d'origines de bureau,
serait classé comme «pauvre». Cela tombe dans notre plage cible de 10-30%, donc nous
a conclu que 0,25 est un seuil acceptable de «médiocre».

Table des matières