حل مشاكل OCR الشائعة

تحويل الملفات لـ OCR و حل مشاكلها

Ayman2023-01-08

458 4 دقائق

بداية صديقي العزيز زائر إفهم دوت أون لاين علينا أن نعرف سوياً ماهو الـ OCR قبل أن نتكلم سوياً عن مشاكله و طريقة حلها

الـ OCR هو تقنية التعرف الضوئي على الأحرف (OCR) وهي تقنية فعالة توفر الوقت والتكلفة والموارد الأخرى من خلال الاستفادة من قدرات الاستخراج والتخزين الآلي للبيانات.

كيف يعمل الـ OCR إذا ؟

يقوم برنامج OCR باستخراج البيانات المكتوبة من المستندات الممسوحة ضوئيًا وصور الكاميرا وملفات PDF الخاصة بالصور فقط وإعادة استخدامها لأغراض أخرى.

يفرد برنامج OCR الحروف الموجودة على الصورة ، ويضعها في كلمات ثم يضع الكلمات في جمل ، مما يتيح الوصول إلى المحتوى الأصلي وتحريره. كما أنه يلغي الحاجة إلى إدخال البيانات يدويًا.

تستخدم أنظمة التعرف الضوئي على الحروف مجموعة من الأجهزة والبرامج لتحويل المستندات الورقية المطبوعة إلى نص يمكن قراءته آليًا.

الأجهزة – مثل الماسح الضوئي – تنسخ أو تقرأ النص ؛ بعد ذلك ، يتعامل البرنامج عادةً مع المزيد من المعالجة المتقدمة لإستخراج الحروف و الأرقام و ترتيبها في ملف نصي قابل للنسخ و اللصق .

يمكن أن يستفيد برنامج OCR من الذكاء الاصطناعي (AI) لتنفيذ أساليب أكثر تقدمًا للتعرف الذكي على الأحرف (ICR) ، مثل تحديد اللغات أو أنماط الكتابة اليدوية. يتم استخدام عملية التعرف الضوئي على الحروف بشكل شائع لتحويل المستندات إلى مستندات بتنسيق pdf بحيث يمكن للمستخدمين تحرير وتنسيق والبحث في المستندات كما لو تم إنشاؤها باستخدام معالج النصوص ( أي بكل بساطة إذا كان لديك وثائق مطبوعة تحتوي على معلومات وتريد نسخ تلك المعلومات المكتوبة لكن لاتمتلك الوقت الكافي لفعل هذا , ستقوم بعمل مسح ضوئي لتلك الوثائق و من ثم تحويلها إلى شكل إلكتروني على الكمبيوتر و تقوم تقنية الـ OCR بجعل النصوص التي تحتويها تلك الوثائق قابله للنسخ و التعديل ) .

ما المشاكل التي ستواجهك عند رغبتك الإستفادة من تقنية الـ OCR ؟

كما قلنا من قبل و شرحنا أهمية تقنية الـ OCR في توفير وقت كبير مهدر في كتابة النصوص الكتابية .و يمكنك إستخدام تلك النسخه الممسوحة ضوئياً و القابلة للإستخدام بخاصة الـ OCR على برنامج Acrobat Professional .

ما هو التعرف الضوئي على الحروف (OCR) في Adobe Acrobat؟

OCR هي العملية التي يقوم Acrobat من خلالها بفحص نص أو صورة مبنية على البكسل. يتم التعرف على كل حرف وتحويله إلى نص.

يقارن Acrobat شكل الصورة وسماكة الخط بالخطوط المثبتة بالفعل على جهاز الكمبيوتر الخاص بك أثناء عملية التعرف الضوئي على الحروف.

ما هو تنسيق الملف الغير مفضل لـ OCR؟
تنسيق ملف JPEG ليس هو الأفضل للحفظ لـ OCR لأن JPEG يفقد جودته في كل مرة يتم حفظه فيها. حتى إذا قمت بتحويل JPEG إلى PDF ، فقد تظل منخفضة الجودة. من الأفضل حفظ المستندات بتنسيق PDF أو TIFF إذا كنت تنوي إجراء التعرف الضوئي على الحروف عليها.

الآن بعد أن قمت بمسح الصفحات ضوئيًا على الكمبيوتر وفتحها باستخدام Adobe Acrobat ومحاولة استخدام وظيفة OCR الموجودة في ADOBE ACROBAT للتعرف على النص ومنحك نسخة قابلة للتحرير.

ولكن للأسف Acrobat غير قادر على إستخدام خاصية OCR على النصوص في الملف ، قد تكون هناك عدة أسباب لحدوث ذلك.

Renderable/editable text
الملف الأصلي الذي قمت بسحبه ضوئياً مشوه أو غير واضح (Distorted or blurred) أو منخفض الجودة

1] مشكلة This page contains renderable text

وجدت نفسك تحصل على الخطأ Acrobat could not perform recognition (OCR) on this page because: This page contains renderable text.

بداية كما تعودنا في إفهم دوت أون لاين علينا أن نفهم أولاً المشكلة من أين تأتي قبل أن نشرح طريقة الحل

لذلك بداية , علينا أن نعرف ماهو الـ renderable text ( النصل القابل للبحث)

يتم إنشاء النص القابل للتقديم (renderable text) عند إنشاء مستند PDF من مستند يحتوي على نص في برنامج MS Word (مايكروسوفت وورد) بطريقة print to pdf .

سيبدو النص قابل للبحث (يمكنك بسهولة تكوين مربع حوله) ، ولكن عند نسخ النص ولصقه فيه
المفكرة أو مستند Word آخر ، سترى مربعات فارغة فقط وبدون نص.

الحل :

هناك طريقتان للتعامل مع الخطأ إذا كانت هذه هي المشكلة.

حاول الحصول على نسخة من المستند تم إنشاءها بطريقة مختلفة عن print to pdf من برنامج مايكروسوفت وورد.
قم بتحويل ملف PDF إلى TIFF ثم العودة إلى PDF وأعد محاولة التعرف الضوئي (OCR) على الحروف.

لتحويل ملف PDF إلى TIFF ،

افتحه في Acrobat وانتقل إلى File ثم Save as.
عندما يظهر مربع الحوار Save as ، اختر TIFF (* .tif، * .tiff) من Save As Type.
حدد الموقع الذي تريد حفظ الملف فيه ثم انقر فوق save .
يحفظ Acrobat كل صفحة من وثيقة PDF كملف TIFF منفصل مرقم تسلسليًا. ثم تفتح كل ملف من ملفات TIFF وتستخدم Acrobat لتشغيل OCR عليها.

إذا كنت تريد دمج كل تلك الصور في مستند واحد و تطبيق خاصية الـ OCR عليه ، فقم بما يلي:

افتح Acrobat ، اختر File ثم Create PDF ثم From Multiple Files.
حدد Browse لتحديد وإضافة كل ملف PDF.
أعد ترتيب الملفات بالطريقة التي تريدها أن تظهر في ملف PDF الجديد.
حدد OK.

2] حل مشكلة الملف الأصلي الذي قمت بسحبه ضوئياً مشوه أو غير واضح (Distorted or blurred)

سبب آخر لعدم تمكن Acrobat من تنفيذ OCR على المستند هو ما إذا كانت الدقة منخفضة. قد تصبح المستندات منخفضة الدقة ضبابية ، ولن يتمكن Acrobat من تنفيذ OCR عليها.

الحل:

احصل على مصدر عالي الدقة للمستند. إذا كنت تقوم بالمسح الضوئي من مستند ورقي ، فاضبط دقة الماسح الضوئي على دقة أعلى .
قد لا يتمكن Acrobat من تنفيذ OCR على مستند لم تتم محاذاته بشكل صحيح. ربما لم يتم مسح المستند ضوئيًا بشكل مباشر ، لذا لا يتمكن Acrobat من إجراء التعرف الضوئي على الحروف عليه.
تأكد من أن الورق الذي تقوم بالمسح منه مستقيماً قبل أن تبدأ المسح. يمكنك أيضًا فتح المستند المشوه في Photoshop وتسويته.