Recherche vocale et expérience utilisateur

Sundar Pichai, PDG de Google, a fait part de son avis sur la recherche vocale.

« Les utilisateurs cherchent avant tout l’information, ils cherchent à faire accomplir des choses », « il peut donc leur arriver de poser une question de manière vocale, puis lorsqu’ils décrocheront leur téléphone ils chercheront une continuité, nous envisageons donc cette technologie comme un élément de bout en bout », et pour cela il faut l’envisager comme faisant partie de la démarche globale de recherche de l’utilisateur.

Belle analyse ! Dans un article de la semaine dernière, j’ai abordé les différents assistants virtuels de l’écosystème actuel. Mais la recherche vocale va plus loin qu’une simple interaction et une interface adaptées. Une solution de bout en bout doit également prendre soin de la sécurité, confidentialité, fonctionnalité, fragmentation et personnalisationLes préoccupations précédentes (avec des informations précieuses dans les commentaires) sont toujours valables de nos jours. Fort heureusement, la technologie a progressé.

Sécurité

Commençons par la sécurité. De nouvelles, mais subtiles avancées sur la reconnaissance vocale  s’attaquent aux problèmes complexes concernant l’identité et la sécurité. Les chercheurs essayent de « convertir la voix pour en faire une sorte de code-barre unique, d’identifiant unique pour chaque être humain ». Mais cela est-il suffisant si, en tant qu’utilisateur et client, les économies de toute une vie sont en jeu ? Pour créer des produits destinés à une utilisation quotidienne, les banques doivent respecter des normes de sécurité encore plus élevées que les forces de l’ordre, en analysant non seulement la voix et l’environnement, mais également « les éléments physiques de la tête émettant les sons : type de larynx, parties nasales, etc. ». La technologie est elle donc parfaite ? Probablement pas, mais des mesures sont développées pour faire face aux problèmes tels que la fraude, l’usurpation d’identité et les malentendus. Par exemple, le Tmall Genie d’Alibaba inclut « l’identification d’utilisateur par voix» et « l’apprentissage à partir d’interactions précédentes », permettant au système d’améliorer sa capacité à servir d’assistant personnel. De telles fonctions de reconnaissance vocale devraient également permettre l’utilisation de l’assistance vocale dans les endroits bruyants et bondés.

Vie privée

Avec la sécurité, une autre préoccupation majeure des utilisateurs est la protection de la vie privée. Leur principale préoccupation est de ne pas être écoutés tout le temps. Bien que les principaux acteurs du secteur aient adopté des politiques et lignes directrices sur la protection de la vie privée des enregistrements vocaux, notamment pour le contenu, l’heure la durée et la conservation des enregistrements transmis, ces derniers sont déjà testés dans le monde réel. Mais ce défi ne se limite pas seulement aux enregistrements vocaux, il concerne également la confidentialité des données et l’accès à d’autres appareils du foyer. Si le dilemme vie privée vs commodité n’a rien de nouveau, on voit apparaître de nouveaux modèles, opportunités et segments à cibler. Il suffit de lire le discours  d’Andy Rubin « Nous avons conçu Essential Home pour qu’il communique directement avec les appareils du réseau de votre foyer autant que possible afin de limiter l’envoi de données vers le cloud. L’assistant proactif Essential Home exécute également son moteur d’intelligence artificielle au niveau local sur l’appareil. »

Fonctionnalité

Le défi suivant est la fonctionnalité. Que peut apporter la voix, outre la possibilité de définir des rappels, consulter les actualités et lancer vos musiques préférées ? La plainte qui revient le plus souvent au sujet des services vocaux est le nombre limité d’applications disponibles pour les services vocaux.

Si vous vous attendiez à trouver une suite complète disponible, oubliez cela de suite, cette technologie est encore trop jeune. D’un point de vue Agile / Lean ; pourquoi Google, Amazon ou Apple devraient-ils penser à tous les cas d’utilisation possibles, seulement pour découvrir que 90 % des cas d’utilisation qu’ils ont envisagés sont inutiles ? Ne serait-il pas préférable de construire une technologie supérieure et une API qui puisse être facilement adaptée pour répondre aux cas d’utilisation à mesure qu’ils sont découverts ? Intégrez chaque cas d’utilisation dans une « application » et vous obtiendrez un écosystème. Ajoutez un modèle d’abonnement et de développement tiers et vous obtenez un marché.

Fragmentation

Quel assistant dois-je choisir ? Pour l’utilisateur, la fonctionnalité est ce qui importe le plus. Mais les entreprises sont-elles en mesure de développer et de maintenir une solution vocale sur plusieurs plateformes ? Auront-elles la volonté financière d’être des pionniers et d’investir en sachant que certaines de ces plateformes finiront par disparaître ? Ces questions sont susceptibles de soulever une nouvelle génération d’outils multiplateformes pour l’intégration, la modélisation, le design, l’analyse et les tests ; bien qu’il reste encore beaucoup à faire avant d’obtenir un résultat « génial », il existe déjà des outils de prototypage qui offrent un certain niveau d’adaptabilité fonctionnelle croisée.

Au-delà du voyage client

Google n’est pas le seul à penser à l’assistance vocale et au chemin qu’emprunte le client. Expedia essaye de développer un assistant de voyage en « temps réel ». Pour fournir le type d’assistant numérique qui serait notre Jarvis personnel, il doit pouvoir traiter des « requêtes non structurées » à travers une variété d’environnements tout en sollicitant une variété de sources. Cette structure met en valeur les possibilités de divers assistants numériques spécialisés pour certaines tâches – finance, voyage, hôtels et conduite. La question n’est alors plus de concevoir un voyage client, mais de fournir une expérience excellente et précise au sein de ce voyage client. Écoutez donc ce que Dara dit au sujet de la voix (à partir de 21:30): « Et si le client pose une question et que votre réponse est mauvaise, cela ne posera peut-être pas problème la première fois, mais dès la troisième occurrence le client se frustrera, considérant le service comme une perte de temps. »

Conclusion

En ce qui concerne le secteur de la voix, concevoir une bonne expérience utilisateur ne se limite pas à des interactions intelligentes et convaincantes, il faut également relier tous les éléments : les appareils et affichages aux données sous-jacentes, afin d’apporter les informations et les actions utiles au client. Si l’interaction vocale fonctionne, mais qu’un des autres éléments n’est pas relié correctement, la voix paraitra « fausse ». En fait, la conception des interactions vocales pourrait s’avérer être la partie la plus facile. Après tout, nous interagissons vocalement quotidiennement avec d’autres êtres humains et sommes habitués à une certaine façon de recevoir et diffuser l’information ainsi qu’aux limites de cette méthode. Le défi pourrait donc être de créer des processus qui offrent des résultats cohérents.