Hôm nay ka xin hướng dẫn phương pháp đả tự siêu tốc bằng phần mềm OCR ABBYY FineReader. Hy vong sau khi đọc xong bài viết này aE sẽ dành ra chút xíu thời gian để đả tự thay vì up ảnh trực tiếp như hiện nay


I. Crop ảnh bằng Office Picture Manager và XnConvert
* Office Picture Manager (OPM) có sẵn trong Microsoft Office 2003-2010
* XnConvert Portable (XNC): [Only member can see links]

Crop ảnh bằng Office Picture Manager và XnConvert
1. Crop ảnh PNG/JPG
+ Mục đích: Xén mấy hàng chữ linh tinh làm giảm tốc độ và độ chính xác khi ORC
+ Crop bằng OPM cho chất lượng tốt hơn XNC một chút nhưng ko crop được nhiều ảnh có kích thước khác nhau như XNC (soft vô thập toàn, free càng đừng hỏi)
=> Gom những ảnh có cùng kích thước, số lượng lớn từ 10 tấm trở lên vào folder riêng để crop bằng OPM, các ảnh kích thước lung tung còn lại crop bằng XNC

+ Cách làm: Luôn crop 35x35x35x35 pixel với mọi file ảnh (xem hình)

Spoiler
[Only member can see links]

2. Crop ảnh GIF ghẻ
Bước 1: Convert ảnh từ định dạng GIF sang PNG bằng OPM
Đừng tưởng hàng đính kèm trong Office thì lởm ko ra gì, ta đã test hơn 20 phần mềm convert/crop ảnh từ Faststone, CloudImage, RentASoft, PixResizer... cho đến Irfanview, XnConvert mà ko một thằng nào vượt qua được OPM (mấy thằng Irfanview, XnConvert cứ dính đến GIF là chết sặc tiết, lão nào có Photoshop hoặc ACDSee thì test thử giúp ta nhá)
Bước 2: Crop ảnh
+ Sài OPM hay XNC đều được, chất lượng như nhau. Vote XNC 1click cho nó nhanh.
+ Cách làm: Tượng tự như PNG cứ 35x35x35x35 mà táng

Spoiler




II. OCR với ABBYY FineReader
* ABBYY FineReader 12.0.101.264 Pro: [Only member can see links]
* Ở đây ka làm ví dụ với 5 ảnh .png nào đó của truyện Hỏa Bạo Thiên Vương

OCR với ABBYY FineReader
1. Thiết lập ABBYY
+ Thiết lập như trong ảnh.
+ Khi ORC với số lượng lớn nên [Đọc] bừa một hai chục ảnh (chọn ảnh rồi click Đọc), lọc ra những tấm có tỷ lệ lỗi cao nhất để tiến hành Test.

Spoiler



2. Chỉnh sửa hình ảnh [Ctrl + Shift + C]
Bước 1: Tăng độ tương phản (TP)
+ Mục đích: Loại bỏ dòng chữ chìm chó má, đám lá xanh mờ đến như ảnh là OK (ảnh trắng trẻo sạch sẽ, ko chữ chìm hay hoa lá cành thì bỏ qua bước này)
+ Cách làm: Xem ảnh (ở đây ka đặt độ tương phản 55)

Spoiler

Bước 2: Tăng giảm cấp màu xám (X) - trắng (T)
+ Mục đích: Làm đậm màu chữ để quét ảnh tốt hơn (đám lá đậm lên một chút ko sao)
+ Cách làm: Xem ảnh (ở đây ka tăng cấp màu Xám lên 0.10, giảm Trắng xuống 250)

Spoiler

3. Xác định tỷ lệ ký tự lỗi (%)
+ Mục đích: ??
+ Cách làm: Ctrl+R để quét ảnh đang chọn, Click [Đọc] để test tất cả ảnh cùng lúc.
===> Kết quả ka đạt "Ký tự không chắc chắn" trung bình là 3% tức độ chính xác > 97% ===> Vô Đối

Spoiler

Kinh nghiệm lấy Thông số của Decepticon
Ảnh bẩn bựa, lông lá
Ảnh trắng trẻo, sạch sẽ
Lần 1
+ TP = 65 (loại dòng chữ chìm)
+ X = 0.10
+ T = 255
+ TP = 0
+ X = 0.05
+ T = 255
Lần 2s + TP = 65
+ X = 0.10
+ T = {255; 250; 245; 240}
==> To
+ TP = 0
+ X = 0.05
+ T = {255; 250; 245; 240}
==> To
Lần 3s + TP = {65; 60; 55; 50}
+ X = 0.10
+ T = To
==> TPo
+ TP = {0; 5; 10; 15}
+ X = 0.05
+ T = To
==> TPo
Lần 4s + TP = TPo
+ X = {0.10; 0.11; ... 0.15}
+ T = To
==> Xo
+ TP = TPo
+ X = {0.50; 0.06; ... 0.10}
+ T = To
==> Xo
Kết Quả
TPo - To - Xo TPo - To - Xo

Trông có vẻ nhiều nhưng test 1 ảnh undo/redo rất nhanh.

4. Fix chính tả tự động bằng EmEditor
+ Nếu độ chính xác đã thoả mãn (xem ảnh bước 3) thì lưu thành file TXT.
+ Chạy macro Auto Replace dành cho EmEditor của Bigbang theo hướng dẫn sau: [Only member can see links]

Data lỗi chỉnh tả dành cho EmEditor: [Only member can see links]
(down về dùng, ko copy preview vì thằng google tự động xóa hết khoảng trắng đầu + cuối dòng gây sai tùm lum)

Nếu add thêm dữ liệu vào data thì gửi cho ta 1 bản để hoàn thiện bộ dữ liệu và nhớ sử dụng các ký tự ä ë ï ö ü ÿ cho trường hợp đa nghĩa.

⚠ Chú ý
- Không làm ngược Bước 2 trước Bước 1 bởi cách set thông số sẽ khác hoàn toàn cách ta post.
- Tỷ lệ lỗi TB không nên vượt quá 6% và phải là ảnh nguyên gốc, ảnh qua sao chế, đóng mark ta không chịu trách nhiệm.
- Do chỉ lấy thông số 1 lần để chạy quét hàng loạt nên sẽ có những ảnh bị đậm hoặc nhạt hơn yêu cầu ~ gây ra lỗi dấu câu, điều này là ko thể tránh khỏi nhưng có thể hạn chế nếu chọn được thông số tốt và khắc phục bằng cách replace nêu ở bước 4.
Mã PHP:
Ảnh nhạt => dấu "sắc" và dấu "hỏi" sẽ bị mờ nét thành dấu "chấm" => ABBYY sẽ nhận định thành dấu "huyền".
Ví dụ:
ả ==> ȧ ==> à
ỏ 
==> ȯ ==> ò
ô 
==> 
ầ 
==> 

Ảnh đậm => chữ ôâ sẽ bị nhận thành ồầ ... 



P/s: Hướng dẫn trên đây chỉ mang tính chất tham khảo, không khả năng chính xác hoàn toàn với mọi file ảnh. Nếu muốn pro như ka aE nên thử test lại một lần, xem kỹ độ đậm nổi tối đa ở Bước 2 để có thể nắm cách điều chỉnh độ tương phản và cấp màu sao cho hợp lý nhất (nhìn quen thì nhanh thôi rồi) :bye: