المعذرة .. لا أدري كيف نسيت أرد عليك ..
المهم : هناك نوعين من ملفات ال Pdf
الأول : قابل للتعديل و النسخ و اللصق و البحث و هذا الى حدما سهل استخلاص ونسخ أي صفحة منه الى ملف ورد أو txt ..
الثاني : غير قابل للتعديل و هو عبارة عن صور للكتاب أخذت بالاسكانر ثم جمعت في ملف واحد .. بمعنى أن الكتاب مجرد صور للصفحات و هذا ينطبق على الكتاب الذي وضعتيه ..
فهل نستطيع استخلاص النصوص من الصور ؟
الجواب : هناك برامج تقوم بقراءة النصوص من الصور و تحويلها الى نصوص قابلة للتعديل مما يسهل نسخها الى ملف وورد أو ملف txt و يطلق على هذه البرامج OCR و هناك العديد من البرامج و المواقع التي توفر هذه الخدمة مجاناً ..
لكن بطبيعة الحال فجميع هذه البرامج ليست دقيقة و تعتمد دقتها على مدى وضوح الكتابة في الصورة و دقتها و عدم تداخل الحروف مع بعضها هذا بالنسبة للغة الانجليزية و ما شابهها لكن تضاف مشكلة في اللغة العربية و هي التشكيل فالكتابة التي تحتوي على تشكيلات و نقشات يتم التعرف عليها كرموز مبهمة و لا يتعرف عليها بشكل سليم و كذلك عدم دعم كثير من البرامج الاحترافية للغة العربية ..
الخلاصة الآن : سأدعك تجربين أحد المواقع و ابدأي بتجربة صورة تحتوي على نصوص عربية بدون تشكيل و الكتابة فيها واضحة
هذا أحد المواقع ..
http://www.newocr.com/
بعد الدخول الى الموقع اختاري ملف الصورة أو ال pdf و اختاري اللغة العربية Arabic و اضغطي على Preview ..
سيبدأ الموقع برفع الملف ويعطيك معاينة له في الأسفل بعد انتهاء الرفع فإذا كان الملف صورة فستظهر لك تلك الصورة و إن كان ملف pdf من عدة صفحات فسيظهر لك خيار اضافي لتحديد الصفحة المطلوبة ..
الآن قومي بالتضليل على النص المراد استخراجه من الصورة ( المعاينة في أسفل الموقع ) بالضغط بزر الماوس و السحب وبعد ذلك قومي بالضغط على OCR .. انتظري قليلاً وسيظهر لك النص ..
هنا ستلاحظين مدى فشل البرامج في التعرف على الحروف العربية بشكل جيد و لهذا ستجدين حرف صحيح و عشرة أحرف لا تعرفين من اين أتى بها..
وضعت لك الطريقة عن طريق الموقع لأنها أسرع ولن يتطلب منك تثبيت عدة برامج في جهازك و هناك طريقة عن طريق تثبيت برامج في الكمبيوتر لكنها تعطي نفس النتيجة فإن أردتي أن أضع لك هذه البرامج سأضعها ..
تحياتي ..



المفضلات