AlchemyAPI · GitHub

/AlchemyAPI

  • Aujourd’hui, (re-)découverte quelques outils sympas pour traiter du texte :

    #tika

    TIKA est un logiciel libre écrit en Java, qui est capable de convertir à peu près n’importe quoi en HTML (ou texte). S’intègre facilement dans #DotSPIP.

    L’installation avec brew (brew install tika) a l’avantage de fournir aussi un raccourci pour la ligne de commande :

    tika -h file.pdf  # conversion html
    tika -t file.pdf  # conversion texte

    http://tika.apache.org

    #tesseract

    Un système libre d’#OCR, qui s’intègre facilement à tika.
    brew install tesseract --all-languages

    tesseract -l fra file.jpg tmp && cat tmp.txt  # OCR, fra = langue française
    tika -t file.jpg   # via tika

    https://code.google.com/p/tesseract-ocr

    #alchemyAPI

    Outil de #NLP (natural language processing), qui permet de faire, comme OpenCalais, de l’extraction de termes, lieux, de la détection de langue, etc. C’est un système propriétaire (IBM). L’API en PHP n’est pas difficile à utiliser. Il y a moyen d’avoir des clés gratuitement pour une utilisation réduite (1000 appels/j) si on s’engage à indiquer qu’on utilise ce système. Il existe un plugin pour Drupal (mais pas pour #SPIP).

    https://github.com/AlchemyAPI
    http://www.alchemyapi.com/products/demo/alchemylanguage

    #sumy

    création automatique de résumés de textes.
    pip install sumy

    Utilisation (avec l’algo edmundson) :

    sumy edmundson --url=http://www.monde-diplomatique.fr/1996/02/BRIE/5224
    tika -t http://www.obsarm.org/publications/damocles/versionpdf/Damocles%2085.pdf | sumy lsa --length=3

    (le dernier exemple : je demande à tika de télécharger le PDF de la revue Damoclès et d’en extraire le contenu, puis je passe le résultat à sumy qui en extrait trois lignes pertinentes)
    https://github.com/miso-belica/sumy

    http://seenthis.net/messages/369110 via Fil