تحسين مراجعة عقود البناء باستخدام الذكاء الاصطناعي: NLP و ML

أولا: مقدمة

تُعتبر عقود البناء أدوات حوكمة حاسمة تحدد نطاق العمل، والمدفوعات، والمسؤوليات، وعمليات حل النزاعات بين أصحاب العمل والمقاولين. توصل هذه المستندات توقعات ومتطلبات صاحب العمل، مما يجعلها أساسية لإنجاز المشروع بنجاح. ومع ذلك، يمكن أن تصبح العقود مصادر للمخاطر إذا كانت تحتوي على غموض أو توزيع غير واضح للمسؤوليات أو إذا لم تكن الأطراف على دراية بالشروط التعاقدية. تتطلب المراجعة اليدوية لهذه المستندات المطولة خبرة وجهدًا كبيرين، وغالبًا ما تكون مقيدة بفترات تقديم العطاءات المحدودة، مما قد يؤدي إلى مخاطر متجاهلة ونزاعات محتملة. وهذا يؤكد الحاجة إلى أنظمة آلية يمكنها تحليل نصوص العقود بسرعة ودقة بأقل قدر من التدخل اليدوي. تدرس هذه المراجعة الأدبية الأبحاث الحالية حول استخدام معالجة اللغات الطبيعية (NLP) والتعلم الآلي (ML) لأتمتة مراجعة عقود البناء، مع التركيز على تقييم المخاطر والمسؤوليات.

ثانيا: المواضيع الرئيسية في مراجعة عقود البناء الآلية

ينصب التركيز الأساسي لمراجعة العقود الآلية في صناعة البناء على عدة مواضيع رئيسية:

  • تقييم المخاطر والمسؤوليات: الهدف الرئيسي هو تحديد البنود المتعلقة بالمخاطر والمسؤوليات والحقوق تلقائيًا، والتي تعتبر حاسمة لصياغة استراتيجيات وخطط إدارة المخاطر. تُعتبر العقود محركًا مهمًا لعلاوات المخاطر في قطاع البناء، مما يجعل مراجعتها الشاملة ضرورية.
  • استخراج المعلومات: استخدم الباحثون معالجة اللغات الطبيعية والتعلم الآلي لاستخراج العناصر التعاقدية الرئيسية مثل الأطراف والمدة والقانون الحاكم. وهذا يتيح تحليلًا أكثر تنظيمًا لشروط العقد.
  • تصنيف النص: يتضمن النهج الشائع تصنيف جمل العقد إلى تصنيفات محددة مسبقًا. وهذا يشمل تصنيف الجمل حسب النوع (مثل العنوان، التعريف، الالتزام، المخاطر، الحق) وحسب الأطراف ذات الصلة (مثل المقاول، صاحب العمل، المشترك).
  • التحقق من الغموض والامتثال: مجال حيوي آخر هو اكتشاف البنود الغامضة وتحديد التعديلات على نماذج العقود القياسية وضمان الامتثال للوائح. يمكن أن يؤدي الغموض إلى نزاعات، وبالتالي يتطلب تحليلًا دقيقًا.

ثالثا: نقاط الاتفاق والنقاش في البحث

يُظهر البحث الحالي عدة نقاط اتفاق، بينما يكشف أيضًا عن مجالات نقاش:

  • الاتفاق:
    • هناك إجماع على ضرورة مراجعة العقود الآلية لتسريع العملية وتحسين الدقة، ومعالجة القيود الزمنية لعمليات تقديم العطاءات.
    • يتفق الباحثون على فائدة تقنيات معالجة اللغات الطبيعية والتعلم الآلي لمعالجة بيانات العقود النصية، مما يسمح بتحليل أكثر كفاءة.
    • يتم الاعتراف على نطاق واسع بقيمة استخدام نماذج العقود القياسية، مثل تلك الصادرة عن الاتحاد الدولي للمهندسين الاستشاريين (FIDIC)، لتدريب واختبار النماذج.
  • النقاش:
    • هناك نقاش مستمر حول فعالية تقنيات معالجة اللغات الطبيعية المختلفة. تستخدم بعض الدراسات مناهج قائمة على القواعد، بينما يركز البعض الآخر على التعلم الآلي؛ وهذا يشمل الاختلافات في تضمين الكلمات (مثل Word2Vec المخصص، spaCy، GloVe، BERT).
    • لا يزال النهج الأمثل لتصنيف بنود العقد قيد الاستكشاف، حيث تستخدم بعض الأبحاث تصنيفًا متعدد الفئات بينما يستخدم البعض الآخر تصنيفًا ثنائيًا.
    • يُعد التوازن بين استخدام تضمين الكلمات المخصص والمدرّب مسبقًا نقطة نقاش أخرى. يتم تدريب التضمينات المخصصة على مجموعات بيانات محددة، بينما تستفيد التضمينات المدرّبة مسبقًا من مجموعات بيانات كبيرة للأغراض العامة.

رابعا: المنهجيات المستخدمة في الدراسات

تشمل المنهجيات المستخدمة في البحث عدة خطوات شائعة:

  • إعداد البيانات: يتضمن ذلك تحويل مستندات العقد من PDF إلى نص باستخدام مكتبات مثل Python PDFMiner. ثم يتم تنظيف النص لإزالة العناصر الغريبة مثل فواصل العناوين وأرقام الصفحات والعلامات المائية. يتم استخراج الجمل باستخدام مكتبات معالجة اللغات الطبيعية مثل spaCy، ويتم تقسيم الجمل المعقدة حسابيًا.
  • وسم مجموعة البيانات: التعليق التوضيحي اليدوي للجمل في الفئات وتعيين الأطراف ذات الصلة. هذه خطوة حاسمة في التعلم الخاضع للإشراف، ويستخدم أحيانًا مراجعة الخبراء للتحقق من صحة التصنيف.
  • تقنيات معالجة اللغات الطبيعية:
    • تحويل النص إلى متجهات: تُستخدم طرق مثل Bag of Words (BoW) و Term Frequency-Inverse Document Frequency (TF-IDF) لتحويل النص إلى بيانات رقمية للتعلم الآلي.
    • تضمين الكلمات: يتم استخدام تضمينات كلمات مختلفة مدربة مسبقًا ومخصصة (مثل Word2Vec و GloVe و BERT) لالتقاط العلاقات الدلالية بين الكلمات.
  • خوارزميات التعلم الآلي:
    • خوارزميات التعلم الخاضع للإشراف: تشمل الخوارزميات الشائعة الانحدار اللوجستي وآلات متجهات الدعم (SVM) وأشجار القرار والشبكات العصبية المتكررة (RNNs) و BERT.
    • طرق المجموعة: تُستخدم تقنيات مثل التصويت التنافسي لدمج تنبؤات نماذج متعددة لتحسين الأداء.
  • تقييم الأداء:
    • المقاييس: تُستخدم الدقة والدقة والاستدعاء ودرجات F1 لتقييم أداء النماذج.
    • إجراءات التحقق من الصحة: مراجعة الخبراء، والتصنيف الثنائي هي بعض من إجراءات التحقق من الصحة المستخدمة.

خامسا: التطورات في المجال مع مرور الوقت

تطور مجال مراجعة العقود الآلية مع مرور الوقت:

  • ركزت الدراسات المبكرة على هندسة المتطلبات واكتشاف الغموض. هدفت هذه الدراسات إلى تحسين جودة مستندات المتطلبات من خلال تحديد الغموض وحله باستخدام تقنيات معالجة اللغات الطبيعية.
  • كان هناك تحول نحو إدارة العقود الآلية، بما في ذلك التحقق من الامتثال واستخراج المعلومات. بدأ البحث يركز على أتمتة المهام اليدوية الشاقة، مثل استخراج عناصر العقد الرئيسية والتحقق من الامتثال للوائح.
  • يؤكد البحث الأحدث على تقييم المخاطر باستخدام معالجة اللغات الطبيعية والتعلم الآلي المتقدمين. تحول التركيز نحو استخدام الذكاء الاصطناعي لتحديد البنود المتعلقة بالمخاطر والمسؤولية، مما يوفر مدخلات حاسمة لإدارة المخاطر.
  • أدى ظهور أساليب التعلم العميق، ولا سيما نماذج المحولات مثل BERT، إلى تحسين الفهم السياقي لنص العقد بشكل كبير. أظهرت هذه النماذج أداءً متفوقًا مقارنة بطرق التعلم الإحصائي التقليدية.
  • يركز العمل الحالي على تعزيز عملية مراجعة العقود الآلية لاستخراج معلومات حول المخاطر والمسؤولية والحقوق، مع تخصيص الأطراف. وهذا يشمل تطوير نماذج يمكنها تحديد المخاطر والمسؤوليات المشتركة، والتي يمكن استخدامها لتحليل بنود محددة.

سادسا: رؤى نقدية وسياقية

  • التوافق: تتوافق الدراسات في هدفها العام المتمثل في أتمتة مراجعة العقود لدعم إدارة المخاطر وأنشطة إعداد العطاءات. إنها تُظهر تقدمًا من تقنيات معالجة اللغات الطبيعية الأساسية إلى أساليب التعلم العميق الأكثر تقدمًا.
  • الاختلاف: يختلف البحث في الأساليب المحددة المستخدمة، مثل اختيار تحويل النص إلى متجهات، وخوارزميات التعلم الآلي، ومناهج التصنيف (متعدد الفئات مقابل ثنائي). تركز بعض الدراسات على جوانب محددة، مثل الغموض أو التحقق من الامتثال، بينما يتخذ البعض الآخر نهجًا أوسع لتقييم المخاطر.
  • الفجوات:
    • هناك حاجة إلى مجموعات بيانات أكثر تنوعًا تتجاوز عقود FIDIC لضمان أن النماذج يمكن تعميمها على أنواع أخرى من الاتفاقيات.
    • يُمثل الاستكشاف المحدود للطرق القائمة على القواعد جنبًا إلى جنب مع خوارزميات التعلم الآلي فجوة، حيث أن الجمع بين هذه يمكن أن يحسن الأداء العام.
    • هناك حاجة إلى مزيد من العمل بشأن التعامل مع البنود الغامضة أو المعقدة، والتي غالبًا ما تكون جذر النزاعات.
    • هناك حاجة لمقارنة أداء نماذج BERT المعدلة بدقة ونماذج اللغات الكبيرة الأخرى (LLMs) مثل GPT لتحديد فعاليتها لمراجعة العقود.
  • المساهمة الإجمالية: تساهم كل ورقة بحثية في تطوير أنظمة آلية تعزز إدارة المخاطر من خلال التحديد السريع للبنود المتعلقة بالمخاطر وتخصيصها. وهذا مفيد بشكل خاص بالنظر إلى القيود الزمنية في قطاع البناء. يُظهر التقدم في البحث التطور المتزايد لتقنيات الذكاء الاصطناعي لتحليل المستندات القانونية المعقدة.

سابعا: الخاتمة

تُظهر هذه المراجعة الأدبية أن مراجعة عقود البناء الآلية باستخدام معالجة اللغات الطبيعية والتعلم الآلي قد حققت تقدمًا كبيرًا. أظهر تطبيق تقنيات الذكاء الاصطناعي مثل BERT تحسينات كبيرة في الدقة والكفاءة مقارنة بالطرق التقليدية. أدى دمج التصنيف الثنائي وأساليب المجموعة إلى تعزيز أداء هذه الأنظمة بشكل أكبر. ومع ذلك، لا تزال التحديات قائمة، لا سيما فيما يتعلق بالحاجة إلى مجموعات بيانات أكثر تنوعًا والتعامل مع اللغة الغامضة. يجب أن يستكشف البحث المستقبلي الجمع بين المناهج القائمة على القواعد والتعلم الآلي، بالإضافة إلى مقارنة أداء نماذج BERT المعدلة بدقة مع نماذج اللغات الكبيرة الأخرى. الهدف النهائي هو إنشاء أنظمة آلية يمكنها تحليل عقود البناء بشكل موثوق، مما يتيح اتخاذ قرارات أسرع وأكثر استنارة، وتقليل مخاطر النزاعات.

(Dikmen et al., 2025)

المرجع:

Dikmen, I., Eken, G., Erol, H., & Birgonul, M. T. (2025). Automated construction contract analysis for risk and responsibility assessment using natural language processing and machine learning. Computers in Industry, 166. https://doi.org/10.1016/j.compind.2025.104251

الأسئلة المتكررة: تحليل عقود البناء الآلي

لماذا يُعد تحليل العقود الآلي ضروريًا في صناعة البناء؟ عقود البناء هي مستندات معقدة تحتوي على معلومات مهمة حول المخاطر والمسؤوليات والحقوق. تتطلب مراجعة هذه المستندات المطولة يدويًا وقتًا طويلاً وتتطلب خبرة ومعرضة للأخطاء، خاصة بالنظر إلى فترات تقديم العطاءات المحدودة في كثير من الأحيان. يمكن أن يؤدي التغاضي عن البنود الرئيسية إلى نزاعات ومخاطر مالية أثناء تنفيذ المشروع. يمكن للأنظمة الآلية تحليل نصوص العقود بسرعة، وتحديد المعلومات الحاسمة وتخصيص المخاطر، ودعم إدارة المخاطر ومنع النزاعات.

ما هي الفئات الرئيسية المستخدمة لتصنيف الجمل في عقود البناء لهذه الدراسة؟ يتم تصنيف الجمل باستخدام تصنيفين أساسيين: أنواع الجمل والأطراف ذات الصلة. تشمل أنواع الجمل "العنوان" و "التعريف" و "الالتزام" و "المخاطر" و "الحق". الأطراف ذات الصلة هي "المقاول" و "صاحب العمل" و "المشترك"، مما يشير إلى الجهة المتأثرة بشكل أساسي أو المسؤولة عن الالتزام أو المخاطر أو الحق الموصوف في الجملة. ليس للعناوين والتعريفات طرف ذو صلة، ويتم تعيين الطرف ذي الصلة فقط للالتزام والحق والمخاطر.

كيف تم إعداد مستندات العقد للتحليل في هذا البحث؟ تم تحويل مستندات العقد، التي كانت في البداية بتنسيق PDF، إلى نص قابل للتحليل باستخدام مكتبات Python. وشمل ذلك استخراج النص من ملفات PDF، وتنظيف الأحرف الغريبة (مثل أرقام الصفحات والعلامات المائية)، وتقسيم النص إلى جمل، وإعادة ترتيب الجمل المعقدة إلى بنود قائمة بذاتها بناءً على قواعد نحوية. ثم تم تنظيم هذه الجمل المعالجة في ملفات Excel، جاهزة للوسم والتعلم الآلي.

ما هو نهج "التصنيف الثنائي" المستخدم في هذه الدراسة، ولماذا تم تنفيذه؟ يقسم نهج "التصنيف الثنائي" مشكلة التصنيف متعدد الفئات (التصنيف إلى أكثر من فئتين) إلى مهام تصنيف ثنائية متعددة. طبق هذا البحث ذلك على أنواع الجمل عن طريق تجميع الفئات (على سبيل المثال، التمييز أولاً بين "العنوان" و "جميع الفئات الأخرى"، ثم "التعريف" من الباقي، إلخ). هذا التقسيم يبسط عملية التصنيف، مما يسمح للنماذج بتعلم خصائص أكثر تحديدًا لكل نوع جملة وتحسين الدقة.

ما هي خوارزميات التعلم الآلي (ML) التي تم استخدامها، وكيف تم دمجها مع تقنيات معالجة اللغات الطبيعية؟ استخدمت الدراسة مجموعات مختلفة من خوارزميات التعلم الآلي وتقنيات معالجة اللغات الطبيعية. شملت خوارزميات التعلم الآلي الانحدار اللوجستي، وآلة متجهات الدعم (SVM)، وشجرة القرار، والشبكات العصبية المتكررة (RNN)، وتمثيلات التشفير ثنائية الاتجاه من المحولات (BERT). تم دمج هذه مع أساليب تحويل النص إلى متجهات مثل Bag of Words (BoW) وتردد المصطلح - تردد المستند العكسي (TF-IDF) وتضمينات كلمات spaCy وتضمينات كلمات مخصصة (باستخدام Word2Vec) وتضمينات كلمات GloVe وتضمينات كلمات BERT.

ما هو "التصويت التنافسي" كطريقة مجموعة، وما هي المزايا التي يقدمها؟ تجمع طريقة المجموعة "التصويت التنافسي" التنبؤات من أفضل النماذج أداءً عن طريق اختيار التنبؤ الذي حظي بأقوى دعم بين النماذج. تم اختيار النماذج بناءً على نتائج الاختبار الخارجية الخاصة بهم على مهمة التصنيف المحددة (إما نوع الجملة أو الطرف ذي الصلة). تستفيد طريقة المجموعة هذه من نقاط قوة النماذج المختلفة، مما يحسن في كثير من الأحيان الأداء العام والمتانة مقارنة باستخدام نموذج واحد فقط، من خلال موازنة قيود النموذج الفردي.

ما هي مقاييس الأداء الرئيسية المستخدمة لتقييم النماذج، وما هي النتائج التي تم تحقيقها؟ تم تقييم أداء النماذج باستخدام مقاييس مثل الدقة والدقة والاستدعاء ودرجة F1. تم تحسين النتائج الأولية باستخدام التصنيف الثنائي وطريقة المجموعة "التصويت التنافسي". تم تحقيق أفضل أداء بواسطة نموذج BERT بعد طريقة المجموعة، حيث حقق دقة بنسبة 89٪ ودرجة F1 بنسبة 86٪ لتصنيف نوع الجملة ودقة بنسبة 83٪ ودرجة F1 بنسبة 76٪ لتصنيف الطرف ذي الصلة، مع استخدام طريقة المجموعة.

ما هي القيود المحتملة لهذا البحث، وما هي اتجاهات البحث المستقبلية المقترحة؟ أحد القيود هو أن بيانات التدريب تستخدم بشكل أساسي عقود FIDIC، مما يحد من قابلية التعميم على أشكال العقود الأخرى. تُدخل عملية الوسم اليدوي واختيارات الفئات ذاتية محتملة. يجب أن يهدف العمل المستقبلي إلى إنشاء مجموعات بيانات تدريبية أكثر شمولاً تغطي أنواعًا مختلفة من العقود وربما تتضمن طرقًا قائمة على القواعد واكتشاف الغموض والتعلم المعزز لتوسيع قابلية تطبيق النماذج ومتانتها. علاوة على ذلك، يوصى أيضًا بإجراء تحليل مقارن لنماذج اللغات الكبيرة الأخرى مثل RoBERTa و ELECTRA و DeBERTa و LEGAL-BERT مقابل النماذج المستخدمة في هذا البحث لتقييم أداء وقابلية تطبيق نماذج اللغات الكبيرة في هذا المجال بشكل أكبر.

اضافة تعليق

تواصل معنا من خلال الواتس اب