Obtenir une sortie détaillée
Temps de lecture estimé :
Vous pouvez éventuellement passer include_tokens: true pour obtenir des informations supplémentaires sur la tokenisation dans la sortie. Cela peut être utile si vous prévoyez d'effectuer des étapes supplémentaires de traitement de texte; cela facilite l'alignement de la sortie de notre service avec la sortie d'autres outils que vous pourriez souhaiter utiliser. Par exemple:
curl "https://api.tdoct.com/v3/parse" \
-X "POST" \
-H "App-Id: XXXXXXXX" -H "App-Key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" \
-H "Content-Type: application/json" \
-d '{"text": "I often feel sad.", "age": {"value":30}, "include_tokens": true}'
donnera la structure suivante:
{
"mentions": [
{
"id": "s_169",
"positions": [0, 2, 3],
"head_position": 2,
"name": "Depressed mood",
"common_name": "Depressed mood",
"choice_id": "present",
"orth": "I feel sad",
"type": "symptom"
}
],
"tokens": ["I", "often", "feel", "sad", "."],
"obvious": false
}
La structure étendue contient une liste nommée tokens. Les jetons sont des mots, des chiffres, des symboles et des signes de ponctuation capturés dans le texte d'entrée. Les mots de la liste sont donnés sous forme de formes orthographiques (c'est-à-dire de formes rencontrées dans le texte d'entrée), mais après correction orthographique.
De plus, la représentation de chaque mention est enrichie de références à des positions de jetons. L'attribut position contient une liste d'indices de jetons qui composent la mention (correspondant à la liste de tokens, à partir de 0). Les mentions ne sont pas toujours continues, comme vous pouvez le voir dans l'exemple ci-dessus. La tête syntaxique de la mention est désignée par l'attribut head_position. Les têtes syntaxiques sont des jetons qui déterminent le type syntaxique de la phrase entière; en d'autres termes, si l'arbre d'analyse sous-jacent à la mention entière devait être réduit en un seul mot, ce serait la tête.
En fonctionnant en include_tokens: true mode, le service ne limitera pas le nombre de mentions d'un même concept. Si le texte d'entrée mentionne le même concept plusieurs fois (éventuellement en utilisant des mots différents), chaque mention sera capturée en sortie. Par exemple, dans le texte d'entrée, le manque d'énergie et la sensation de fatigue le concept de léthargie sera capturé deux fois.
Limitations
Le service tente de capturer les mentions de symptômes présents dans notre base de connaissances. Si un symptôme n'est pas là, sa mention ne sera pas reconnue. Cependant, si un symptôme plus général est présent, il est probable qu'il soit capturé à la place (par exemple, il n'y a actuellement aucune entrée distincte pour " éruption cutanée sur les jambes " dans notre base de connaissances, mais le service comprendra " éruption cutanée " si cette phrase est expédié).
Notez également qu'en raison de l'ambiguïté des langues naturelles et du spectre infini d'expressions linguistiques possibles qui peuvent être utilisées pour véhiculer une idée, nous ne pouvons pas garantir que la reconnaissance sera précise à 100%. Néanmoins, nous continuons d'améliorer systématiquement le système de reconnaissance.