Automatismes et aspects sémantiques

Zinc intègre différents automatismes destinés à déterminer, exploiter et mettre en avant des fonctionnalités basées sur le « sens » du texte. Zinc gère donc les aspects sémantiques des contenus.

Automatismes de langue

Zinc dispose de fonctionnalités lui permettant de déterminer la langue des messages. L’auteur se contente de saisir son message (dans n’importe quelle langue), et Zinc est capable de déterminer automatiquement si ce texte est en français, anglais, arabe, espagnol...

Le système introduit une certaine subtilité à ce niveau :
— le message global est analysé,
— les paragraphes de citation à l’intérieur du billet sont analysés à part.

De cette façon, je peux écrire un billet en français, contenant des extraits en anglais et en espagnol. Zinc est capable de déterminer la langue de ces différents éléments (il « sait » qu’il s’agit d’un billet en français qui cite des extraits en anglais et en espagnol).

Cette information sémantique est ensuite exploitée par Zinc pour réaliser différents effets.

— les règles typographiques appliquées aux différents éléments du billet dépendent de la langue (les règles typographiques ne sont pas les mêmes en français et en anglais, par exemple) ;

— la direction d’affichage du texte (de gauche à droite, ou de droite à gauche pour l’arabe, le farsi, l’hébreu...) correspond bien à la langue utilisée ; on peut citer un extrait en arabe dans un billet en français, et les différentes parties du billet s’afficheront correctement ;

— le code source en HTML contient ses informations de langue ; Zinc intègre donc ces informations sémantiques dans le code informatique des pages (on peut imaginer que Google et d’autres outils exploitent ces informations).

Traduction automatique

Puisque le système connaît la langue d’un extrait intégré à un billet, Zinc propose une traduction automatique via Google Translate lorsqu’il détecte que la langue de la citation est différente de la langue du visiteur.

On peut donc citer sans complexes un extrait en arabe ou en suédois, puisqu’on sait que ses lecteurs qui ne comprennent que le français pourront toujours en obtenir une traduction automatique (qui vaut ce qu’elle vaut...).

Thématisation automatique

Naturellement, Zinc gère un système de #hashtags (#mot-dièse en français), que les auteurs décident eux-même d’ajouter pour thématiser leurs messages.

Le système intègre également une thématisation automatique des billets, en utilisant OpenCalais. Pour tous les billets (d’une longueur suffisante), le système obtient automatiquement une liste de thèmes.

On peut visualiser les thèmes automatiques attribués à un message en se rendant sur sa page (accessible en cliquant sur la date du message, « il y a... minutes... »).

Cette information sémantique est exploitée de différentes manières sur Zinc. Il est notamment possible de consulter la page d’un thème automatique et de s’y abonner de la même façon qu’on peut le faire avec un #hashtag (en cliquant tout simplement sur celui-ci).

Contenus distants

Puisque le but premier de Zinc est la recommandation de liens hypertexte, ses automatismes sont également appliqués aux contenus des sites référencés.

Lorsque l’on référence une page Web,
— Zinc en récupère le contenu pertinent (c’est-à-dire uniquement le « texte » d’un article, en excluant les éléments de navigation dans le site),
— la langue de cet article est déterminée automatiquement,
— on déduit automatiquement des thèmes abordés dans cet article.

Ces différentes informations sont ensuite exploitées dans Zinc :
— les liens hypertextes indiquent la langue du site de destination (extrêmement pratique pour éviter de cliquer sur des liens vers des pages dont on ne comprend pas la langue) ;
— les thèmes de l’article distant sont exploités dans la navigation interne de Zinc. On améliore ainsi la thématisation automatique des billets, en se basant aussi sur le contenu des sites référencés (et pas uniquement sur le texte réellement saisi dans Zinc).