بطرق سهلة ومبسطة: دليلك لاستخراج البيانات من ملفات PDF.... نصوص، صور، جداول وغيرها...

2021-08-10 10:36

التقارير

For English Version, Click Here

اعداد:  لورا غرانت- GIJN

يحصل الصحفيون على الكثير من البيانات على هيئة PDF – يمكن أن تحتوي تلك المعلومات على جداول للبيانات مضمّنة في التقارير أو جداول البيانات التي تم حفظها بعناية كملفات PDF قبل إرسالها إليك بالبريد الإلكتروني – ولكن قد يتعذر عليك نقل هذه البيانات المحفوظة في صورة جداول PDF.

لحسن الحظ، هناك بعض الأدوات الرائعة التي يمكنها تحرير بياناتك بسرعة وسهولة نسبيًا. لقد أدرجت بعضًا من الأدوات التي جربتها هنا (لا يوجد شك في وجود أدوات أخرى متعددة ) بالإضافة إلى بعض النصائح حول بعض الأجزاء الأكثر ملائمة لاستخراج ملفات PDF، بما في ذلك الجداول المستديرة وتحويل ملفات PDF الممسوحة ضوئيًا وملفات PDF المحمية بكلمة مرور. 

 Tabula

أنا أحب Tabula. إنه الخيار الأفضل بالنسبة لي، أولاً لأنه مجاني، وثانيًا لأنه سهل الاستخدام حقًا. يقول موقع Tabula على شبكة الإنترنت إنه تم إنشاؤه “من قِبل الصحفيين للصحفيين”، ولعل هذا هو السبب في تمتعه بشعبية كبيرة في أوساط غير التقنيين من أمثالي.

أحتاج غالبًا إلى استخراج جداول البيانات من تقارير PDF الكبيرة. يتيح لك Tabula تحميل مستند بأكمله وتحديد الجداول التي تريدها فقط. يمكنك تحويل جدول واحد في وقت واحد، أو عدة، وفقًا لإعدادات المستند الخاص بك، إلى ملف CSV، TSV من JSON، والذي يمكنك نقل البيانات إلى Google Sheets (مجانًا)، وLibre Office Calc (مجانًا)، وExcel (ليست مجانية)، أو أيا كان البرنامج الذي تفضله.

Cometdocs

وهذا التطبيق أيضا يحظى بشعبية كبيرة لدى الصحفيين – لأسباب ليس أقلها إن صحفيي التحقيقات الاستقصائية والمحررين يحصلون على عضوية مجانية متميزة – وهو سهل الاستخدام حقًا. يمكنك تحويل ما يصل إلى خمس مستندات أسبوعيًا مجانًا، ولكن عليك الاشتراك إذا أردت تحويل المزيد. يعجبني حقيقة أنه يمكنك الاشتراك لمدة شهر في المرة الواحدة مقابل 9.99 دولار، ولكن إذا كنت ترغب حقاً في الاشتراك، يمكنك الحصول على عضوية مدى الحياة مقابل 130 دولارًا تقريبًا.

هذه هي الطريقة التي يعمل بها: قم بتحميل  ملف PDF الذي تريد تحويله، وانقر فوق زر التحويل واختر بين Excel وODS (الذي يمكنك فتحه في Libre Office)، لسوء الحظ CSV ليس خيارًا. إذا لم يكن لديك أي من حزم جداول البيانات هذه، يمكنك تحميل الملف في Google Drive وفتحه من خلال Google Sheets.

هذا التطبيق يعمل بسرعة وبشكل جيد، لكن المتميز حقًا في Cometdocs هو أنه يقوم بالتعرف الضوئي على الأحرف (OCR)، بحيث يمكنه تحويل ملفات PDF الممسوحة ضوئيًا. ومع ذلك، تحتاج إلى التأكد من المستند الذي تم تحويله مقابل المستند الأصلي، فقط للتأكد من أنه انتقى كل شيء بشكل صحيح. 

Adobe Export PDF

هذا التطبيق ليس مجانيًا، لكنه ليس مكلفًا للغاية – حوالي 24 دولارًا سنويًا، إذا كنت تستخدم Adobe Reader، وهو قارئ PDF مجاني من Adobe، فإن Export PDF يسمح لك بتحويل مستند PDF الذي فتحته في Acrobat Reader إلى Excel أو Word أو PowerPoint أو RTF، يعمل بشكل جيد وسريع ويستوعب وثائق كبيرة الحجم إلى حد ما، ولكن، مثل Tabula، لا يمكنه إجراء مسح ضوئي للمستندات أو الجداول المستديرة.

Nitro Pro

إذا كان لديك جهاز يعمل بنظام Windows، فإن Nitro أداة رائعة لتحرير ملفات PDF وتحويلها إلى تنسيقات مفيدة، لكنها ليست مجانية (حوالي 160 دولارًا)، وحقيقة أنها تعمل فقط مع Windows يعني عدم إمكانية استخدامها على أجهزة MacBook. لقد جربتها على كل حال وقد أبهرتني.

Acrobat Pro

يمكن الوصول إلى هذا التطبيق لمستخدمي أجهزة Mac، لكنه أيضًا غير مجاني (حوالي 15 دولارًا في الشهر ويتطلب التزامًا سنويًا).

Zanran

طورت هذه الشركة ومقرها المملكة المتحدة برنامجًا لأتمتة معالجة ملفات PDF. إنها ليست مجانية، ولكن يمكنك أن ترى ما يمكن أن تفعله من خلال تجربة محول المستندات التوضيحي – طالما أن المستند حجمه 1.5 ميغابايت أو أصغر. يمكنك تحميل ملف PDF الخاص بك، وإخباره بما تريد تحويله إليه، ومنحه عنوان بريدك الإلكتروني وسيقوم بإرسال المستند المحول إليك عبر البريد.

Zamzar

هذه أداة تحويل أخرى عبر الإنترنت حيث يمكنك تحميل المستند، واختيار التنسيق الذي تريد تحويله إليه، وسيتم إرسال المستند الذي تم تحويله عبر البريد الإلكتروني إلى عنوان البريد الذي تختاره.

الجداول المستديرة (Rotated Tables)

في بعض الأحيان، يتم تدوير الجداول الموجودة في مستندات PDF بمقدار 90 درجة، يجب أن تكون قادرًا على تدوير الجداول مرة أخرى إلى الاتجاه الطبيعي قبل أن تتمكن أي أداة تحويل من التعرف عليها كنص، فمجرد تدوير الصفحة في Acrobat Reader أو Preview، على سبيل المثال، لن ينجح. تحتاج إلى تدوير الجدول نفسه، للقيام بذلك، تحتاج إلى محرر PDF مناسب مثل Acrobat Pro أو Nitro Pro.

إذا كان لديك برنامج Acrobat Pro، فإليك ما تفعله:

– إذا كانت الجداول الخاصة بك جزءًا من مستند أكبر، افتح المستند، وباستخدام خيار “تنظيم الصفحات”، قم باستخراج الصفحات بالجداول التي تريد تدويرها، إذا كنت ترغب في استخراج عدد من الصفحات المتتالية، فمن الأسهل استخراجها في ملفات منفصلة.

– افتح صفحة وضع الجدول عليها. انتقل إلى قائمة العرض وقم بالتدوير حتى تصبح في وضع عمودي.

– إذا كانت هناك عناوين وهوامش أو أي نص آخر لم تتم تدويره في نفس اتجاه الجدول، فقم بإزالته باستخدام خاصية تحرير PDF – إن أردت حذفها، فإن تغطيتها دون إزالتها لا يفي بالغرض

– انتقل إلى خيار تحسين المسح الضوئي واختر التعرف على النص، تحقق من الإعدادات للتأكد من تحديد خيار “حفظ كنص وصورة قابلة للتحرير”. قد يستغرق هذا الأمر بضع دقائق وعند الانتهاء من جدولك قد يتم تدويره الى 90 درجة مرة أخرى.

– ارجع إلى طريقة العرض وقم بتدوير الصفحة حتى يصبح الجدول مستقيمًا مرة أخرى، ثم احفظ الملف.

– يمكنك محاولة تحويل الصفحة إلى جدول بيانات Excel باستخدام وظيفة Export PDF، ولكن Tabula تؤدي الوظيفة بشكل أفضل بشكل عام.

تحقق دائمًا من البيانات المحولة مقارنة بالمستندات الأصلية لأنه في بعض الأحيان يمكن أن يُخطئ. ولكن حتى لو لم يكن المستند المحول مثاليًا تمامًا، فإن تحويله بهذه الطريقة سيكون أسرع بكثير من كتابته يدويًا في جدول بيانات.

تحويل ملفات PDF الممسوحة ضوئيًا

في ملف PDF الممسوح ضوئيًا، سيتم تحديد الجدول كصورة بدلاً من نص، لذلك إذا كنت ترغب في استخراج البيانات من جدول تحتاج أولاً إلى تحويله لنص يتضمن شيئاً ما به ميزة التعرف البصري على الأحرف (OCR). يمكنك استخدام Cometdocs أو Acrobat Pro أو Nitro Pro.  يمكن أن تتعرف أداة تحسين في Acrobat Pro على النص الموجود في ملف PDF طالما أن جودة المسح الضوئي ليست سيئة.

يمكنك استخدام حيلة بسيطة وهي حفظ لقطة من الجدول الذي تريد استخراجه في ملف PDF الخاص به قبل استخدام أداة تحسين المسح الضوئي. بمجرد تحويل المسح الضوئي إلى نص وصور،احتفظ بتنسيق PDF ثم قم بتحويله إلى ملف CSV باستخدام Tabula. وبالطبع، تحقق دائمًا من بياناتك مقارنة بالنسخة الأصل.

ملفات PDF المحمية بكلمة مرور

في بعض الأحيان تكون ملفات PDF محمية بكلمة مرور بحيث لا يمكنك من تحريرها أو تحويلها إلى أي تنسيق آخر، إذا كان لديك جهاز Mac مع Preview، فحاول فتح ملف PDF في Preview، ثم حدد خيار Export as PDF ضمن قائمة File. افتح الإصدار الجديد من PDF الخاص بك لترى ما إذا كنت قادرًا على تحويله إلى جدول بيانات الآن.