ملخص نص تلقائي – لينكولن ، مقدمة في ملخص تلقائي – مدونة البيانات

<h1>مدونة على البيانات والذكاء الاصطناعي ومشاريعي</h1>
<blockquote>الملخص التلقائي هو أخذ نص طويل ، أو حتى مجموعة من النصوص ، وإنشاء نص أقصر بكثير يحتوي على غالبية المعلومات. بسيط ? ليس كثيرا. أولاً ، عليك أن توافق على المعلومات المهمة حقًا. بعد ذلك ، يجب أن نكون قادرين على استخراجها بشكل صحيح ، وإعادة تنظيمها ، وكل ذلك في نص نحوي وبدون تدخل بشري. وهذا دون الاعتماد على العدد الكبير من المتغيرات من الملخصات المحتملة !</blockquote>
<h2>ملخص النص التلقائي</h2>
<p>مع انفجار جمع الملمس والتخزين ، فإن الحاجة إلى تحليل واستخراج المعلومات ذات الصلة من هذه الكتلة أكثر فأكثر.</p>
<p>بالإضافة إلى ذلك ، سهلت الطفرة في نماذج التعلم العميق لمعالجة اللغة الطبيعية التلقائية (TALN) استخدام البيانات النصية في القضايا التشغيلية. يعد ملخص النص التلقائي ، بنفس طريقة سؤال الإجابة ، تحليل التشابه ، تصنيف المستند والمهام الأخرى المرتبطة بـ taln جزءًا من هذه القضايا.</p>
<p>في هذا السياق <strong>ابتكار المختبر</strong> قرر De Lincoln القيام بعمل على ملخص النص التلقائي. لقد جعلت هذه الأعمال من الممكن إنشاء معيار لنماذج الموجزة التلقائية المتاحة للغة <strong>فرنسي,</strong> للتسبب في نموذجنا الخاص وأخيراً وضعه في الإنتاج.</p>
<h2>&#55357;&#56613; تدريب النموذج</h2>
<p><img src=”https://www.lincoln.fr/wp-content/uploads/2022/01/A234-209×300.png” alt=”ملخص العالم التلقائي” width=”470″ height=”675″ /></p>
<h3>المعطيات</h3>
<p>قبل أن نتمكن من بدء عملنا ، اضطررنا أولاً إلى إنشاء قاعدة بيانات لتعلم نماذج الموجزة التلقائية. لقد استعادنا العناصر الصحفية من العديد من مواقع الأخبار الفرنسية. تحتوي هذه القاعدة على مقالات ~ 60k ويتم تحديثها بشكل مستمر.</p>
<h3>مثال رائع من الفن</h3>
<p>يمكن فصل الخوارزميات التلقائية الملخص إلى فئتين: ملخصات <strong>استخراج</strong> وملخصات <strong>جذاب</strong>. في اطار <strong>استخراج</strong>, تم تصميم الملخصات من جمل مستخرجة من النص بينما الملخصات <strong>جذاب</strong> يتم إنشاؤها من جمل جديدة.</p>
<p>النماذج الموجزة التلقائية شائعة جدًا في اللغة الإنجليزية ، لكنها أقل بكثير من الفرنسية.</p>
<h3>المقاييس</h3>
<p>لتقييم النماذج ، استخدمنا المقاييس التالية:</p>
<p><strong>أحمر :</strong> مما لا شك فيه أن القياس الذي تم الإبلاغ عنه في أغلب الأحيان في مهام موجزة ، يحسب الموجه الموجهة نحو التقييم لتقييم Gisting (Lin ، 2004) عدد Grams المماثلة بين الملخص الذي تم تقييمه والملخص المرجعي البشري.</p>
<p><strong>نيزك:</strong> <em>المقياس لتقييم الترجمة بترتيب صريح</em> (تم تصميم Banerjee و Lavie ، 2005) لتقييم نتائج الترجمة التلقائية. إنه يعتمد على المتوسط ​​التوافقي للدقة والاستدعاء على unigrams ، والاستدعاء الذي يكون له ترجيح أكبر من الدقة. غالبًا ما يتم استخدام النيزك في المنشورات الموجزة التلقائية (انظر وآخرون., 2017 ؛ دونغ وآخرون., 2019) ، بالإضافة إلى الأحمر.</p>
<p><strong>بدعة:</strong> لقد لوحظ أن بعض النماذج المجردة تعتمد كثيرًا على الاستخراج (انظر وآخرون., 2017 ؛ Krysci &lsquo;nski et al.&lsquo;، 2018). لذلك ، أصبح من الشائع قياس النسبة المئوية لخامات N الجديدة المنتجة في الملخصات التي تم إنشاؤها.</p>
<p>المصدر: ترجمة من ورقة mlsum [2].</p>
<h3>نشر النماذج</h3>
<p>للتدريب النموذجي ، استخدمنا خدمة Cloud Azure ML التي توفر بيئة كاملة للتدريب ومراقبة ونشر النماذج.</p>
<p><img src=”https://www.lincoln.fr/wp-content/uploads/2022/01/A32-300×169.png” alt=”نموذج ملخص تلقائي” width=”859″ height=”484″ /></p>
<p>لقد استخدمنا بدقة Python SDK التي تتيح لك إدارة بيئة Azureml بأكملها بطريقة برمجية ، من إطلاق “الوظائف” إلى نشر النماذج.</p>
<p>ومع ذلك ، قمنا بتغليف نموذجنا النهائي في تطبيق قارورة الحاويات ثم تم نشره عبر خطوط أنابيب CI/CD على مجموعة Kubernetes</p>
<h3>النتائج</h3>
<p>بادئ ذي بدء ، قمنا بتجهيز عدة محاولات ، وقادنا النماذج على مقالات 10K ، مما يغير عدد الرموز المميزة في بداية النموذج (512 أو 1024) والبنية المختلفة.</p>
<p>الملاحظة الأولى: لا تبدو مقاييس RED و Meteor مناسبة جدًا لتقييم الأداء لنماذجنا. لذلك اخترنا أن نبني مقارناتنا على درجة الجدة فقط واختيارهم <strong>بنيان</strong> لصالح ملخصات أكثر جاذبية.</p>
<p>بعد دفع تدريب نموذجنا على 700 ألف عنصر ، قمنا بتحسين النتائج بشكل كبير ونؤكد من صحة الإصدار الأول الذي ستجده أدناه.</p>
<h3>نقاط الانتباه</h3>
<p>بالإضافة إلى الأداء ، سمحت لنا هذه التجربة بتسليط الضوء على بعض <strong>حدود</strong> ملخص تلقائي:</p>
<p>حاليا ، حجم النص في مدخلات من نماذج النوع <em>تحول</em> يقتصر على القدرة في ذكرى وحدات معالجة الرسومات. التكلفة في الذاكرة هي التربيعية مع حجم النص كمدخلات ، وهذا يشكل مشكلة حقيقية لمهام الملخص التلقائي حيث يتم تلخيص النص في كثير من الأحيان بما فيه الكفاية.</p>
<p>من الصعب للغاية العثور على المقاييس ذات الصلة لتقييم مهام توليد النص.</p>
<p>احرص <strong>وزن المستخرج</strong> : لقد واجهنا أيضًا العديد من المشكلات المتعلقة بالبيانات في حد ذاتها. المشكلة الرئيسية هي أن مقالة المقالة كانت غالبًا ما تكون إعادة صياغة أو حتى مكررة من الجمل الأولى من المقال. كان لهذا نتيجة لتشجيع نماذجنا على أن تكون أكثر استخراجًا من الجمل ببساطة عن طريق إعادة الجمل الأولى من المقال. لذلك كان من الضروري القيام بعمل تنشيط عن طريق حذف المقالات التي تشكل مشكلة لتجنب هذا النوع من التحيز.</p>
<h2>مدونة على البيانات والذكاء الاصطناعي ومشاريعي.</h2>
<p>الملخص التلقائي هو أخذ نص طويل ، أو حتى مجموعة من النصوص ، وإنشاء نص أقصر بكثير يحتوي على غالبية المعلومات. بسيط ? ليس كثيرا. أولاً ، عليك أن توافق على المعلومات المهمة حقًا. بعد ذلك ، يجب أن نكون قادرين على استخراجها بشكل صحيح ، وإعادة تنظيمها ، وكل ذلك في نص نحوي وبدون تدخل بشري. وهذا دون الاعتماد على العدد الكبير من المتغيرات من الملخصات المحتملة !</p>
<p>تمكنت من العمل لمدة عام تقريبًا حول هذا الموضوع المثير قبل الدكتوراه مباشرة ، وبالتالي فإن هذا المنشور هو فرصة لي أن أغمر نفسي في هذا الموضوع وتقييم أحدث الابتكارات في المجال.</p>
<p>لذلك دعونا نلقي نظرة عامة على هذا الموضوع ، من خلال إنشاء الأنواع المختلفة من الملخصات الموجودة ، قبل أن نخوض نوعين من الأنظمة بالتفصيل بشكل طفيف: تلك الموجودة في الشبكات العصبية والشبكات العصبية ، وتلك التي تركز على الاستخراج الأمثل للاستخراج معلومة.</p>
<h2>الأنواع المختلفة من الملخص</h2>
<p>عندما نتحدث عن الملخص ، غالبًا ما نفكر في الغلاف الخلفي لكتاب أو وصف البرنامج النصي لفيلم. عمومًا ، يتجنبون إفساد النهاية ، عندما يكون هذا بالضبط ما قد يطلبه أحد أدوات الملخص التلقائي الكلاسيكي: لمعرفة المؤامرات ، بحيث يكون الملخص كافياً لمعرفة الأساسيات. هنا هو عن <strong>ملخصات أحادية الاستخدام</strong>, وهذا يعني أننا نلخص فقط وثيقة واحدة (فيلم ، كتاب ، مقال ، …).</p>
<p>على العكس من ذلك ، يمكن أن نريد <strong>ملخص متعدد الوثائقي</strong>, أن نلتقي بشكل متكرر في سياق مراجعات الصحافة: نريد أن يكون لدينا ملخص لأهم المعلومات كما ذكرت مختلف المنظمات الصحفية.</p>
<p>بمجرد أن نقرر نوع البيانات التي نسعى لتلخيصها ، أحادية أو متعددة الوثائقية ، لدينا الاختيار بين نهجين:<strong>استخراج</strong>, الذي يتكون في استخراج ما هو من المعلومات قبل إعادتها لإنشاء ملخص ، والنهج <strong>توليدي</strong>, وهو ما يتكون في إنشاء جمل جديدة ، لا تظهر في الأصل في المستندات ، من أجل الحصول على ملخص أكثر مرونة وحرية.</p>
<p>بالإضافة إلى هذه المعايير ، هناك العديد من الأنماط من الملخصات ، والتي لن نتعامل معها هنا: تحديث الملخصات التي تتكون من تلخيص المعلومات التي تظهر في وثيقة جديدة والتي لم يتم إدراجها حتى الآن ، تم تلخيصها الموجهة والتي تتكون من اعتماد زاوية دقيقة قدمه المستخدم ، ..</p>
<h2>منظمة العفو الدولية والشبكات العصبية تحدث ثورة في الملخص التلقائي</h2>
<p>حتى منتصف عام 2010 ، كانت معظم الملخصات مستخرجة. ومع ذلك ، كان التنوع الكبير موجودًا بالفعل في هذه الخوارزميات التي يمكن أن تتراوح من اختيار واستخراج الجمل الكاملة إلى استخراج المعلومات الدقيقة التي تم حلها ثم في النصوص مع وجود ثقوب محضرة مسبقًا تسمى القوالب. لقد غير وصول الأساليب الجديدة القائمة على الشبكات العصبية الموقف إلى حد كبير. هذه الخوارزميات أكثر فعالية بكثير من تلك السابقة لتوليد النص النحوي والسوائل ، مثل ما يمكن القيام به مع عرض GPT هذا.</p>
<p>ومع ذلك ، تتطلب الشبكات العصبية تدريب كميات كبيرة من البيانات وتكون غير متوفرة نسبيًا. إنها تعمل بشكل مثالي لتوليد تعليقات لا تعد لها أهمية ضئيلة ، ولكن قد تولد بقوة معلومات متناقضة أو غير صحيحة وهي مشكلة في سياق ملخصات المقالات الصحفية على سبيل المثال. تهتم العديد من المقالات البحثية بهذه “الهلوسة” للشبكات العصبية.</p>
<h2>مثال على أداة هجينة: بوتارا</h2>
<p>كان الملخص التلقائي هو أول موضوع بحث كنت مهتمًا به ، وأتيحت لي الفرصة للتطوير خلال برنامج Master نظامًا مختلطًا من الملخص عن طريق الاستخراج/توليد نهج متعدد الحوزة ، أي أن تلخيص مجموعة من المستندات يتحدث من نفس الموضوع.</p>
<p>كانت الفكرة هي البدء من استخراج كلاسيكي ، أي لتحديد الجمل الأكثر أهمية وتجميعها لإنشاء ملخص. المشكلة في هذا النهج هي أنه يمكن تحسين الجمل الأكثر أهمية في كثير من الأحيان. على سبيل المثال ، في مقال يتحدث عن النزوح الرئاسي ، يمكن تحسين عبارة “إيمانويل ماكرون نظيره الأمريكي وناقش الاقتصاد” يمكن تحسينها في “إيمانويل ماكرون ميت جو بايدن وناقش الاقتصاد”. الصحفيون يتجنبون بروفات بعناية ، نجد أنفسنا في كثير من الأحيان نواجه هذا النوع من الظواهر.</p>
<p>للتغلب على هذا العيب ، يمكننا تحديد جمل مماثلة موجودة في مستندات مختلفة ومحاولة دمجها من أجل الحصول على جملة أفضل. أنسي ، من الجملتين التاليتين:</p>
<ul>
<li>التقى إيمانويل ماكرون بنظيره الأمريكي في واشنطن وتحدث عن الاقتصاد بإسهاب.</li>
<li>التقى الرئيس الفرنسي جو بايدن وناقش الاقتصاد.</li>
</ul>
<p>يمكننا إنشاء جملة قصيرة وغنية بالمعلومات:</p>
<ul>
<li>التقى إيمانويل ماكرون جو بايدن في واشنطن وناقش الاقتصاد.</li>
</ul>
<p>هناك عدة خطوات ضرورية لتحقيق هذه النتيجة: العثور على جمل مماثلة ، وإيجاد أفضل اندماج ، والتحقق من أن الانصهار أفضل بكثير من الجملة الأصلية. يشاركون في العديد من التقنيات: Word2 مع الشبكات العصبية للعثور على جمل مماثلة ، ورسوم بيانية CCCCURENCE لدمجها ، وتحسين ILP لتحديد أفضل عمليات الدمج.</p>
<p>إذا كنت ترغب في رؤية المزيد ، فإن Potara مفتوح المصدر ، ولكن لم يتم الحفاظ عليه لفترة من الوقت. كان هذا المشروع بمثابة عرض معرض بشكل ملحوظ عندما تم إطلاق سراحي ، وبالتالي كان لدي توثيق واختبارات وتكامل مستمر ونشر على PYPI ، ..</p>
<h2>ما هو ملخص تلقائي جيد ?</h2>
<p>إذا كانت بعض المعايير تبدو واضحة وبسيطة نسبيًا للتقييم (النحوية للجمل على سبيل المثال) ، فإن البعض الآخر أكثر تعقيدًا. تحديد ما هو أهم المعلومات للنص هو بالفعل مهمة ذاتية للغاية في حد ذاتها. تقييم السيولة ، والاختيار الصحيح للكلمات المستخدمة ، ويعود إلى النشر ، ودعونا لا نتحدث عن التوجه السياسي الذي يمكن أن يتخذه الملخص !</p>
<p>من المحتمل أن تقدم النماذج التوليدية الجديدة المستندة إلى الشبكات العصبية أحكامًا أو تصفياتًا محلية (أو صديقًا للمستخدم) ، وهو تأثير مطلوب عندما يتعلق الأمر بتوليد ناقد الفيلم ، ولكن أقل بكثير عند الحديث عن برنامج مرشح رئاسي !</p>
<p>وبالتالي ، يظل الملخص التلقائي موضوعًا نشطًا للغاية في البحث ، وقد يكون للحظة ، خاصة فيما يتعلق بالقدرة على توجيه نتيجة الخوارزمية ، بالضبط نحو شعور معين ، أسلوب محدد ، تلوين سياسي معطى. في الصناعة ، يبدأ فقط في إدخال المديرين التنفيذيين المحددين للغاية (ملخص الاجتماعات على سبيل المثال).</p>
<p> <img src=”https://ledatablog.com/images/thumbs/catme.jpg” /></p>
<h3>الرئاسة 2022: لبياناتك !</h3>
<p>3 أمثلة لمشاريع البيانات التي سيتم تنفيذها في الانتخابات الرئاسية 2022.</p>