Το Markdown διευκολύνει τους αλγόριθμους AI να αναλύουν και να κατανοούν τη δομή του κειμένου λόγω της συνεπούς και προβλέψιμης σύνταξής του. Υποστηρίζεται επίσης ευρέως από δημοφιλή εργαλεία, όπως το GitHub, τα σημειωματάρια Jupyter και άλλα. Τώρα , η Microsoft δημιούργησε ένα νέο εργαλείο για αυτή την γλώσσα.
Η Microsoft κυκλοφόρησε πρόσφατα ένα εργαλείο ανοιχτού κώδικα που ονομάζεται MarkItDown στο GitHub. Το MarkItDown είναι μια βιβλιοθήκη Python για τη μετατροπή αρχείων και εγγράφων γραφείου σε Markdown. Τα αρχεία που έχουν μετατραπεί μπορούν στη συνέχεια να χρησιμοποιηθούν για ανάλυση κειμένου και πολλά άλλα. Η βιβλιοθήκη MarkItDown της Microsoft υποστηρίζει επί του παρόντος τις ακόλουθες μορφές αρχείων:
- PDF (.pdf)
- PowerPoint (.pptx)
- Word (.docx)
- Excel (.xlsx)
- Εικόνες (μεταδεδομένα EXIF και OCR)
- Ήχος (μεταδεδομένα EXIF και μεταγραφή ομιλίας)
- HTML (ειδικός χειρισμός της Wikipedia, κ.λπ.)
- Διάφορες άλλες μορφές που βασίζονται σε κείμενο (csv, json, xml, κ.λπ.)
Οι προγραμματιστές μπορούν επίσης να διαμορφώσουν τη βιβλιοθήκη MarkItDown ώστε να χρησιμοποιεί μοντέλα μεγάλων γλωσσών για την περιγραφή εικόνων. Για να γίνει αυτό, πρέπει να ορίσουν τις παραμέτρους mlm_client και mlm_model στο αντικείμενο MarkItDown.
Δεδομένου ότι η βιβλιοθήκη MarkItDown είναι διαθέσιμη υπό την άδεια ανοιχτού κώδικα του MIT, οι προγραμματιστές μπορούν ελεύθερα να τη χρησιμοποιούν, να την τροποποιούν και να τη διανέμουν. Η μόνη απαίτηση είναι να περιλαμβάνουν την αρχική άδεια χρήσης και τη σημείωση πνευματικών δικαιωμάτων στη διανομή τους.