
ทาง Microsoft ได้ปล่อย MarkitDown library สำหรับภาษา Python
สำหรับการแปลงข้อมูลจากไฟล์ต่าง ๆ มาอยู่ในรูปแบบของ Markdown
เพื่อให้สามารถนำไปใช้งานต่อได้ง่าย ๆ
เช่นการ indexing ข้อมูล และ การวิเคราะห์ข้อมูล เป็นต้น
โดยจะสนับสนุนไฟล์ต่าง ๆ ดังนี้
- กลุ่มของ Microsoft Office
- PDF ซึ่งใช้งาน library ชื่อว่า pdfminer
- รูปภาพ ทั้งการดึงค่า EXIF metadata และ OCR
- เสียง
- HTML
- รวมทั้งพวก text-based format เช่น CSV, JSON และ XML เป็นต้น
การใช้งานก็ง่ายมาก ๆ เพียงแค่ติดตั้ง
จากนั้นก็เขียน code ใช้งานเลย
หรือใช้งานผ่าน uvx ได้เลย
[code] $uvx markitdown your-file [/code]แถมยังทำงานร่วมกับ LLM provider ได้อีกด้วย
เช่นการอ่านและอธิบายข้อมูลจากไฟล์รูปภาพ
ผลการทำงานเป็นดังนี้
[gist id="e996ce1c9d254a275fb4255beeed6e0a" file="2.txt"]ลองใช้งานกันดูครับ