1. Thiết lập ABBYY
+ Thiết lập như trong ảnh.
+ Khi ORC với số lượng lớn nên [Đọc] bừa một hai chục ảnh (chọn ảnh rồi click Đọc), lọc ra những tấm có tỷ lệ lỗi cao nhất để tiến hành Test.
2. Chỉnh sửa hình ảnh [Ctrl + Shift + C]
Bước 1: Tăng độ tương phản (TP)
+ Mục đích: Loại bỏ dòng chữ chìm chó má, đám lá xanh mờ đến như ảnh là OK (ảnh trắng trẻo sạch sẽ, ko chữ chìm hay hoa lá cành thì bỏ qua bước này)
+ Cách làm: Xem ảnh (ở đây ka đặt độ tương phản 55)
Bước 2: Tăng giảm cấp màu xám (X) - trắng (T)
+ Mục đích: Làm đậm màu chữ để quét ảnh tốt hơn (đám lá đậm lên một chút ko sao)
+ Cách làm: Xem ảnh (ở đây ka tăng cấp màu Xám lên 0.10, giảm Trắng xuống 250)
3. Xác định tỷ lệ ký tự lỗi (%)
+ Mục đích: ??
+ Cách làm: Ctrl+R để quét ảnh đang chọn, Click [Đọc] để test tất cả ảnh cùng lúc.
===> Kết quả ka đạt "Ký tự không chắc chắn" trung bình là 3% tức độ chính xác > 97% ===> Vô Đối
Kinh nghiệm lấy Thông số của Decepticon
▼
|
Ảnh bẩn bựa, lông lá
|
Ảnh trắng trẻo, sạch sẽ |
Lần 1
|
+ TP = 65 (loại dòng chữ chìm)
+ X = 0.10
+ T = 255 |
+ TP = 0
+ X = 0.05
+ T = 255 |
Lần 2s |
+ TP = 65
+ X = 0.10
+ T = {255; 250; 245; 240}
==> To |
+ TP = 0
+ X = 0.05
+ T = {255; 250; 245; 240}
==> To |
Lần 3s |
+ TP = {65; 60; 55; 50}
+ X = 0.10
+ T = To
==> TPo |
+ TP = {0; 5; 10; 15}
+ X = 0.05
+ T = To
==> TPo |
Lần 4s |
+ TP = TPo
+ X = {0.10; 0.11; ... 0.15}
+ T = To
==> Xo |
+ TP = TPo
+ X = {0.50; 0.06; ... 0.10}
+ T = To
==> Xo |
Kết Quả
|
TPo - To - Xo |
TPo - To - Xo |
Trông có vẻ nhiều nhưng test 1 ảnh undo/redo rất nhanh.
▲
|
4. Fix chính tả tự động bằng EmEditor
+ Nếu độ chính xác đã thoả mãn (xem ảnh bước 3) thì lưu thành file TXT.
+ Chạy macro Auto Replace dành cho EmEditor của Bigbang theo hướng dẫn sau:
[Only member can see links]
Data lỗi chỉnh tả dành cho EmEditor:
[Only member can see links]
(down về dùng, ko copy preview vì thằng google tự động xóa hết khoảng trắng đầu + cuối dòng gây sai tùm lum)
Nếu add thêm dữ liệu vào data thì gửi cho ta 1 bản để hoàn thiện bộ dữ liệu và nhớ sử dụng các ký tự ä ë ï ö ü ÿ cho trường hợp đa nghĩa.
⚠ Chú ý
- Không làm ngược Bước 2 trước Bước 1 bởi cách set thông số sẽ khác hoàn toàn cách ta post.
- Tỷ lệ lỗi TB không nên vượt quá 6% và phải là ảnh nguyên gốc, ảnh qua sao chế, đóng mark ta không chịu trách nhiệm.
- Do chỉ lấy thông số 1 lần để chạy quét hàng loạt nên sẽ có những ảnh bị đậm hoặc nhạt hơn yêu cầu ~ gây ra lỗi dấu câu, điều này là ko thể tránh khỏi nhưng có thể hạn chế nếu chọn được thông số tốt và khắc phục bằng cách replace nêu ở bước 4.
Mã PHP:
+ Ảnh nhạt => dấu "sắc" và dấu "hỏi" sẽ bị mờ nét thành dấu "chấm" => ABBYY sẽ nhận định thành dấu "huyền".
Ví dụ:
ả ==> ȧ ==> à
ỏ ==> ȯ ==> ò
ô ==> ỏ
ầ ==> ằ, ẳ
+ Ảnh đậm => chữ ô, â sẽ bị nhận thành ồ, ầ ...