Đề tài trên Thảo luận Thành viên:Vinhtantran/Lưu Thảo luận Cấu trúc 1

Tranminh360 (thảo luậnđóng góp)

Giữa Tesseract OCR và Google OCR, cái nào nhận dạng tiếng Việt tốt hơn?

Vinhtantran (thảo luậnđóng góp)

Theo kinh nghiệm của anh với mấy cuốn của Tân Dân Tử thì Google tốt hơn. Hồi nút OCR mới được đặt lên Wikisource, Tesseract còn không hỗ trợ quét được tiếng Việt. Bây giờ thì được rồi.

Tranminh360 (thảo luậnđóng góp)

Google OCR hay gặp tình trạng chữ ở dòng trên nhảy xuống dòng dưới hoặc nhảy xuống cuối trang, nhất là những trang có dấu — như Trang:Phật giáo.pdf/45.

Vinhtantran (thảo luậnđóng góp)

Nhưng dù sao nó vẫn nhận diện chữ tốt hơn Tesseract.

Tranminh360 (thảo luậnđóng góp)

Google OCR báo lỗi: We can not access the URL currently. Please download the content and pass it in thì phải làm sao?

Vinhtantran (thảo luậnđóng góp)

Lỗi kỹ thuật của Google. Em có thể dùng tạm trang này https://ws-google-ocr.toolforge.org/ bằng cách dán liên kết ảnh trực tiếp vào. Google OCR không miễn phí, nó chỉ cấp API đặc biệt cho Wikimedia nên không có cách nào khác.

Tranminh360 (thảo luậnđóng góp)
Vinhtantran (thảo luậnđóng góp)

Cái này thì anh không biết.

Tranminh360 (thảo luậnđóng góp)

Bây giờ trang https://ws-google-ocr.toolforge.org/ đổi hướng đến https://ocr.wmcloud.org/ rồi, và Google OCR toàn báo lỗi không truy cập được URL. Có trang em bấm nút "Tách văn bản" cả chục lần mà cũng chẳng thấy ra. Chán quá đành chuyển sang dùng Tesseract vậy.

Trả lời “OCR”