Giữa Tesseract OCR và Google OCR, cái nào nhận dạng tiếng Việt tốt hơn?
Đề tài trên Thảo luận Thành viên:Vinhtantran/Lưu Thảo luận Cấu trúc 1
Theo kinh nghiệm của anh với mấy cuốn của Tân Dân Tử thì Google tốt hơn. Hồi nút OCR mới được đặt lên Wikisource, Tesseract còn không hỗ trợ quét được tiếng Việt. Bây giờ thì được rồi.
Google OCR hay gặp tình trạng chữ ở dòng trên nhảy xuống dòng dưới hoặc nhảy xuống cuối trang, nhất là những trang có dấu — như Trang:Phật giáo.pdf/45.
Nhưng dù sao nó vẫn nhận diện chữ tốt hơn Tesseract.
Google OCR báo lỗi: We can not access the URL currently. Please download the content and pass it in thì phải làm sao?
Lỗi kỹ thuật của Google. Em có thể dùng tạm trang này https://ws-google-ocr.toolforge.org/ bằng cách dán liên kết ảnh trực tiếp vào. Google OCR không miễn phí, nó chỉ cấp API đặc biệt cho Wikimedia nên không có cách nào khác.
Em không hiểu tại sao trang https://ocr.wmcloud.org/ báo lỗi trong khi trang https://ws-google-ocr.toolforge.org/ lại hoạt động? Đây là 2 công cụ khác nhau à?
Cái này thì anh không biết.
Bây giờ trang https://ws-google-ocr.toolforge.org/ đổi hướng đến https://ocr.wmcloud.org/ rồi, và Google OCR toàn báo lỗi không truy cập được URL. Có trang em bấm nút "Tách văn bản" cả chục lần mà cũng chẳng thấy ra. Chán quá đành chuyển sang dùng Tesseract vậy.