Quantcast
Channel: cc :: somkiat
Viewing all articles
Browse latest Browse all 2072

Microsoft ปล่อย markitdown library สำหรับแปลงข้อมูลจากไฟล์ต่าง ๆ มาอยู่ในรูปแบบของ Markdown

$
0
0

ทาง Microsoft ได้ปล่อย MarkitDown library สำหรับภาษา Python
สำหรับการแปลงข้อมูลจากไฟล์ต่าง ๆ มาอยู่ในรูปแบบของ Markdown
เพื่อให้สามารถนำไปใช้งานต่อได้ง่าย ๆ
เช่นการ indexing ข้อมูล และ การวิเคราะห์ข้อมูล เป็นต้น

โดยจะสนับสนุนไฟล์ต่าง ๆ ดังนี้

  • กลุ่มของ Microsoft Office
  • PDF ซึ่งใช้งาน library ชื่อว่า pdfminer
  • รูปภาพ ทั้งการดึงค่า EXIF metadata และ OCR
  • เสียง
  • HTML
  • รวมทั้งพวก text-based format เช่น CSV, JSON และ XML เป็นต้น

การใช้งานก็ง่ายมาก ๆ เพียงแค่ติดตั้ง
จากนั้นก็เขียน code ใช้งานเลย

[gist id="e996ce1c9d254a275fb4255beeed6e0a" file="1.py"]

หรือใช้งานผ่าน uvx ได้เลย

[code] $uvx markitdown your-file [/code]

แถมยังทำงานร่วมกับ LLM provider ได้อีกด้วย
เช่นการอ่านและอธิบายข้อมูลจากไฟล์รูปภาพ

[gist id="e996ce1c9d254a275fb4255beeed6e0a" file="2.py"]

ผลการทำงานเป็นดังนี้

[gist id="e996ce1c9d254a275fb4255beeed6e0a" file="2.txt"]

ลองใช้งานกันดูครับ


Viewing all articles
Browse latest Browse all 2072

Trending Articles