ONNX 模型库
返回模型

说明文档

<center> <img src="./dost_logo.png" width=350/> <img src="./ar_intro.png" width=180%/> </center>

<center> <img src="./ar_metrics_1.png" width=200%/> <b><p>表1:MIRACL开发集上的阿拉伯语检索性能(以nDCG@10衡量)</p></b> </center>

架构:

  • 模型:BERT
  • 分词器:XLM-Roberta分词器
  • 词表:250K

<br/>

<center> <h1> 目录 </h1> </center>

请求、条款、免责声明:

https://github.com/sponsors/PrithivirajDamodaran

<center> <img src="./ar_terms.png" width=250%/> </center>

详细对比与我们的贡献:

英语拥有著名的all-minilm系列模型,非常适合快速实验和某些生产工作负载。我们的想法是为其他流行语言提供同样的模型,从印度-雅利安语系和印度-德拉罗毗荼语系语言开始。我们的创新在于提供高质量、易于部署且嵌入存储成本低的模型,而无需任何预训练或昂贵的微调。例如,all-minilm是在10亿对数据上微调的。我们提供了一个非常精简的模型,但拥有巨大的词表——约25万个。 我们将在此添加更多详细信息。

<center> <img src="./ar_metrics_2.png" width=120%/> <b><p>表2:MIRACL开发集上的详细阿拉伯语检索性能(以nDCG@10衡量)</p></b>

</center>

我们模型的完整评估指标

{'NDCG@1': 0.50449, 'NDCG@3': 0.52437, 'NDCG@5': 0.55649, 'NDCG@10': 0.60599, 'NDCG@100': 0.64745, 'NDCG@1000': 0.65717}
{'MAP@1': 0.34169, 'MAP@3': 0.45784, 'MAP@5': 0.48922, 'MAP@10': 0.51316, 'MAP@100': 0.53012, 'MAP@1000': 0.53069}
{'Recall@10': 0.72479, 'Recall@50': 0.87686, 'Recall@100': 0.91178, 'Recall@200': 0.93593, 'Recall@500': 0.96254, 'Recall@1000': 0.97557}
{'P@1': 0.50449, 'P@3': 0.29604, 'P@5': 0.21581, 'P@10': 0.13149, 'P@100': 0.01771, 'P@1000': 0.0019}
{'MRR@10': 0.61833, 'MRR@100': 0.62314, 'MRR@1000': 0.62329}

<br/>

ONNX与GGUF状态:

变体 状态
FP16 ONNX
GGUF 开发中

使用方法:

使用Sentence Transformers:

from sentence_transformers import SentenceTransformer
import scipy.spatial


model = SentenceTransformer('prithivida/miniDense_arabic_v1')

corpus = [
    'أرق يمكن أن يحدث الأرق بشكل مستقل أو نتيجة لمشكلة أخرى. وتشمل الظروف التي يمكن أن تؤدي إلى الأرق : توتر، ألم مزمن، قصور القلب، فرط الدرقية، حرقة الفؤاد، متلازمة تململ الساقين، سن اليأس وبعض الأدوية، مثل كافيين، نيكوتين، و الكحول. وتشمل عوامل الخطر الأخرى العمل ليلا وانقطاع النفس النومي. ويستند التشخيص على عادات النوم للبحث عن الأسباب الكامنة. كما يمكن إجراء دراسة على النوم للبحث عن اضطرابات النوم الكامنة.  ويتم هذا الإجراء بسؤالين: \"هل تواجه صعوبة في النوم؟\" و \"هل لديك صعوبة في الدخول في النوم أو البقاء نائما؟',
    'أرق في كثير من الحالات، يشترك الأرق مع مرض آخر، كما يمكن حدوثه بسبب الآثار الجانبية من الأدوية، أو المشاكل النفسية. ما يقرب من نصف الأشخاص المصابين بالأرق يرتبطون باضطرابات نفسية. بينما في الاكتئاب \"ينبغي اعتبار الأرق حالة مرضية، بدلا من أن تكون حالة ثانوية؛\" والأرق عادة ما يسبق الأعراض النفسية. \" فمن الممكن أن يشكل الأرق خطرا كبيرا لتطوير اضطراب نفسي لاحق\". يحدث الأرق في ما بين 60٪ و 80٪ من الأشخاص الذين يعانون من الاكتئاب. وقد يرجع ذلك جزئيا إلى العلاج المستخدم لعلاج الاكتئاب.',
    'وخز جانبي لا يوجد سبب واحد دقيق معروف للوخز الجانبي، ولكن يوجد عدد من التفاسير لسبب هذا الألم ولكنها ليست تفاسير حتمية، النظرية السائدة والمنتشرة هي أن الألم من الممكن أن يحدث بسبب ارتفاع منسوب الدم إلى الكبد أو الطحال. ويؤدي ازدياد معدل نبضات القلب أثناء ممارسة الرياضة إلى دفع كرات الدم الحمراء للتوجه إلى الكبد والذي يؤدي إلى تضخم كبد وفرط ضغط الدم البابي[4][4]. فعند ممارسة الرياضة يتم ضخ الدم تدريجياً إلى العضلات وينخفض تدفق الدم في نفس الوقت إلى أجهزة الجسم الداخلية. ويمكن أن يؤدي ذلك إلى تقلصات في الكبد والمعدة والأمعاء والشعور بالألم الجانبي. وقد لوحظ أيضاً أن ألم الجنب غالباً ما يحدث عندما تكون المعدة ممتلئة، وعند الأشخاص الذين لا يتدربون بشكل كامل. فعندما تكون المعدة ممتلئة يحتاج الجسم إلى مزيد من الدم من أجل عملية الهضم. كما أن هناك أيضاً مؤشرات بأنه في حالة المعدة الممتلئة يمكن أن يتقلص الحجاب الحاجز لأعلى ويتسبب في ألم الجنب. ويمكن لألم الجنب أن يظهر عند ممارسة الأنشطة الرياضية الشاقة ولكنه شائع بصفة خاصة أثناء الجري ولا يُعرف سبب ذلك.',
    "قطع الودي الصدري بالتنظير هذه الدراسة أيضا تثبت العديد من المرضى قد ادعوا، أن الجراحة تسبب تغيرات نفسية. لا يمكننا الحد من 'رداءة' الاستجابات العاطفية، مثل الخوف أو القلق. إذا كنت تريد التقليل من الاستجابات العاطفية، أنها سوف تؤثر على المدى الكامل للعواطف وكثافتها. بازالة معدل التغير في دقات القلب ،العواطف هي أيضا 'تغطى'. {50}  العصب الحشوي واستقلال الوظائف هي المفتاح  لفهم العمليات النفسية. بول د.ماكلين يعتقد أن التجربة العاطفية  يمكن أن تكون أدق وصف بأنها استجابة ل  المركب من المحفزات في الدماغ التي تتلقاها من  البيئة الخارجية، ونتيجة للتصورات المستمرة في العالم الخارجي، والأحاسيس الداخلية أو  ردود الفعل التي تنتقل إلى الدماغ من أعضاء الجسم  واجهزته.",
    'غسيل دماغ ولا يقل الإجهاد تأثيراً على الانسان عن الجوع، بل قد يزيده إذ أن الجسم يحتاج يومياً لعدد معين من الساعات للراحة والنوم. قد يحتمل بعض الناس قلة النوم لفترة معينة، إلا ان الاستمرار في ذلك من شأنه ان يقضي على صفاء الذهن، ويسبب للمتعرض له إضطراب عقلي وفقدان إحساس قد يقوده إلى الجنون والإنتحار. ويصبح الفرد الذي عانى الحرمان أكثر قابلية لتقبل الإيحاء وأكثر إستعداداً لتنفيذ تعليمات الذين يطلبون منه ان يسلك سلوكاً معيناً، كما يقل احتمال مقاومته لمطلب اي انسان من ذوي السلطة. ويستغل المستجوبون في السجون السياسية هذا كله مهيئين بيئة يصبح فيها النوم شبه مستحيل إذ يوقظون الفرد في ساعة غير عادية أو يجبره على الإستيقاظ كلما نام، ويكون الإيقاظ بأسلوب خشن، ثم يستجوب لفترة ويعاد ثانية لزنزانته، والهدف من هذا كله إجهاد المتهم او الأسير حتى يصل في النهاية إلى درجة من الانهيار تمكن المستجوب من الايحاء اليه بما يريد.',
    'اختبار إجهاد القلب خلال الاختبار يكون قلب المريض تحت الضغط  نتيجة للمجهود الرياضي أو تحفيز كيميائيا، هذا الأخير الذي يكون عادة عن طريق حقن ""الدوبوتامين"" في وريد المريض، الشئ الذي يحاكي عملية الإجهاد الجسماني لدى المرضى الذين لا يستطيعون القيام بجهد جسماني. يكون الهدف من هذا الضغط الممارس على القلب هو مقارنة صور مخططات صدى القلب لتقييم قدرة تقلص عضلة القلب وعمل الصمامات القلبية أثناء الجهد وكشف أي تشوه قد يطال القلب أو الصمامات.',
    "المسألة الشرقية المسألة الشرقية (بالإنجليزية: Eastern Question) (بالفرنسية: Question de l'orient) : هي مسألة وجود العثمانيين المسلمين في أوروبا وطردهم منها واستعادة القسطنطينية من العثمانيين بعد سقوطها في 1453 وتهديد مصالح الدول الأوروبية في هذه المنطقة. كما يدل المصطلح على تصفية أملاك رجل أوروبا المريض في البلقان من طرف الدول الأوروبية.",
    'أرق الأرق هو عبارة عن اضطراب في النوم أو تقطعه أو انخفاض جودته، مما يعود سلباً على صحة المريض النفسية والجسدية. ويمكن أن يعرف بإنه الشكوى من صعوبة بدء النوم، أو الاستمرار فيه، أو عدم الحصول على نوم مريح خلال الليل، أو النهوض مبكراً بغير المعتاد، وهو يؤثر على نشاط المصاب خلال النهار. وتختلف أسبابه وعلاجاته من شخص لآخر حسب حالته وظروفه.',
    'الشرقية (عمارة) في الهندسة المعمارية ، الشرقية هي تجويف نصف دائري تعلوه نصف قبة، في كثير من الأحيان يقع على واجهة المبنى (ولكن يستخدم أيضاً كفتحة في الجدار الداخلي). اعتمدت الشرقية من قبل الرومان ، واستخدمت بكثرة في الحقب التاريخية المتعاقبة (من العمارة الرومانية والبيزنطية).',
    'المسألة الشرقية قامت هذه المرحلة على تعميق الحقد والكراهية للرأي العام الأوروبي ضد الدولة العثمانية عبر حملات تحسيسية من طرف الدول والجماعات الدينية والكنيسة المسيحية بتبيان الإجرام العثماني في حق أوروبا من خلال احتلال أوروبا ونشر الإسلام في نظر المسيحيين، لكن الممارسة والتطبيق أصعب من الكلام حيث جعلت القوة العثمانية من الرغبة الأوروبية في طردها أمرا مستحيلا وبعيد المدى. كانت الرغبة الدفينة في منأى عن علم العثمانيين بها ؛ فقد كان الوجه الظاهر هو الترحاب والموافقة على نقيض الوجه الآخر',
    'مسيحية شرقية المسيحية الشرقية هي عوائل الكنائس التي تطورت خارج العالم الغربي، وهي اليوم متوزعة ضمن ثلاث عوائل وهي الكنائس الأرثوذكسية الشرقية، والكنائس الأرثوذكسية المشرقية، والكنائس الكاثوليكية الشرقية، بالإضافة لكنيستين انحدرتا من كنيسة المشرق التاريخية، وهما الكنيسة المشرقية الآشورية وكنيسة المشرق القديمة. ويقابلها من الجهة الأخرى التقليد المسيحي الغربي والممثل بالكنائس الكاثوليكية والبروتستانتية الغربية. ويشير المصطلح إلى كل ما حملته وتحمله هذه الكنائس من تراث وتقليد مسيحي على مدى العصور، وتتكون الكنائس المسيحية الشرقية من التقاليد المسيحية التي تطورت بشكل مميز على مدى عدة قرون في الشرق الأوسط وشمال وشرق أفريقيا وأوروبا الشرقية وآسيا الصغرى وساحل مالابار في جنوب الهند وأجزاء من الشرق الأقصى. ولا يصف المصطلح لا يصف شركة واحدة أو طائفة دينية واحدة، وعلى الرغم من ذلك تشاركت الكنائس الشرقية بالتقليد الديني ولكنها انقسمت على نفسها خلال القرون الأولى للمسيحية وذلك بسبب خلافات عقائدية كرستولوجية ولاهوتية بالإضافة لأسباب سياسية.',
    'تاريخ المسيحية الشرقية تنشر التقاليد المسيحية الشرقية وتمثلها بشكل شامل الكنائس المنتشرة في اليونان وروسيا والبلقان وأوروبا الشرقية وآسيا الصغرى والشرق الأوسط وشمال شرق أفريقيا وجنوبي الهند. وتشير كمصطلح إلى كل ما حملته وتحمله هذه الكنائس من تراث وتقليد مسيحي على مدى العصور. ويقابلها من الجهة الأخرى التقليد المسيحي الغربي والممثل بالكنائس الكاثوليكية والبروتستانتية الغربية. وقد تشاركت الكنائس الشرقية بالتقليد الديني ولكنها انقسمت على نفسها خلال القرون الأولى للمسيحية وذلك بسبب خلافات عقائدية  كرستولوجية ولاهوتية بالإضافة لأسباب سياسية.',
    'ية (باليونانية:Ορθοδοξία) "(تعني بالعربية الصراطية المستقيمة)"، هي مذهب مسيحي يُرجع جذوره بحسب أتباعه إلى المسيح والخلافة الرسولية والكهنوتية تؤمن الكنيسة الأرثوذكسية الشرقية بالتقليد وكتابات آباء الكنيسة والمجامع إلى جانب الكتاب المقدس، فضلاً عن تمسكها بالتراتبية الهرمية للسلطة في الكنيسة والطقوس والأسرار السبعة المقدسة.',
    'ديانات غربية بالمقابل فإت المسيحية الشرقية هي عوائل الكنائس التي تطورت خارج العالم الغربي، وهي اليوم متوزعة ضمن ثلاث عوائل وهي الكنائس الأرثوذكسية الشرقية، والكنائس المشرقية، والكنائس الكاثوليكية الشرقية، بالإضافة لكنيستين انحدرتا من كنيسة المشرق التاريخية، وهما الكنيسة المشرقية الآشورية وكنيسة المشرق القديمة. ويقابلها من الجهة الأخرى التقليد المسيحي الغربي والممثل بالكنائس الكاثوليكية والبروتستانتية الغربية. ويشير المصطلح إلى كل ما حملته وتحمله هذه الكنائس من تراث وتقليد مسيحي على مدى العصور، وتتكون الكنائس المسيحية الشرقية من التقاليد المسيحية التي تطورت بشكل مميز على مدى عدة قرون في الشرق الأوسط وشمال وشرق أفريقيا وأوروبا الشرقية وآسيا الصغرى وساحل مالابار في جنوب الهند وأجزاء من الشرق الأقصى.',
    'الزي الإسلامي في أوروبا على الرغم من أن دول البلقان وأوروبا الشرقية تضم عددً كبيرًا من المسلمين الذين يُعدون السكان الأصليين في الكثير من تلك الدول، إلا أن مسألة الزي الإسلامي عادة ما ترتبط بقضايا الهجرة وموقف الإسلام من المجتمع الغربي. في تشرين الثاني/نوفمبر 2006 أكد المفوض الأوروبي فرانكو فراتيني أنه لا يؤيد فرض حظر على البرقع، ليكون بذلك هذا هو أول بيان رسمي بشأن مسألة حظر الزي الإسلامي من المفوضية الأوروبية في الاتحاد الأوروبي. أسباب حظر هذا الزي تختلف من دولة لأخرى، لكن الحظر القانوني الذي يشمل الملابس التي تُغطي الوجه عادة ما يتم تبريره لأسباب أمنية مثل تدابير مكافحة الإرهاب.',
    'المسألة المصرية لقد فتح المسألة الشرقية في مصر محمد علي باشا، إثر تفكيره بتكوين دولة عربية تقوم على أنقاض الدولة العثمانية يحكمها هو وأسرته من بعده، وكان أول ما طرح إليه محمد علي هو سوريا لأنها تكون منطقة متكاملة طبيعية مع مصر، وقد استطاب تحقيق ذلك وساعدته على ذلك ظروف هي: قام بالهجوم على بلاد الشام بقيادة إبنه إبراهيم باشا الذي إجتاحها وواصل انتصاراته إلى أن وصلت جيوشه إلى كوتاهية وأصبحت تهدد القسطنطينية نفسها فأصيب السلطاب بفزع كبير وتدخلت الدول الأوروبية وأضطر إلى توقيع صلح كوتاهية عام 1833، تضمن ما يلي: لقد أقلقت انتصارات محمد علي دول أوروبا المسيحية كما أزعجها وحدة البلاد العربية في ظل قيادة مصرية لأن ذلك يهدد مصالحها في المنطقة ويفوت عليها فرصة اقتسام أملاك الدولة العثمانية لذا رأت ضرورة إضعابها. قامت بريطانيا بحث السلطان العثماني وتحضيره لإستعادة أملاكه وخاض السلطان العثماني حربا ثانية مع إبراهيم باشا في نصيين على الفرات في 25 يونيو 1839 فانهزمت برا فيما إنظم الأسطول العثماني إلى مصر وهكذا رأت بريطانيا أن طريق الهند أصبح مهددا بالخطر، لذا سارعت دون أن تطلع فرنسا على نواياها وعقدت مع كل من بروسيا والنمسا وروسيا مرتمرا انتهى بمعاهدة لندن في 5 يوليو 1840 فأرسلت دول هذا التكتل إنذارا إلى محمد علي جاء فيه: و عندما تباطأ محمد علي على أمل أن تصله إمدادات عسكرية من فرنسا صديقته، قامت الدول بانتزاع ولايته عكا منه، ولذلك عندا أدرك أن الأمر جدي أعلن قبوله لشروط الصلح وبهذا انتهت المسألة الشرقية في مصر وبذلك ضمنت الدول الأوروبية سلامة الدولة العثمانية وبالتالي مصالحها الاستعمارية.',
    'المسألة الشرقية اعتبرت المرحلة تاريخيا تمهيدا للمرحلة الثالثة ألا وهي التنفيذ، فكانت غنية بالامتيازات العثمانية للأوروبيين والبعثات المسيحية التبشيرية والثقافية والتجارية مما وسع مناطق النفوذ الأوروبي في الدولة العثمانية ؛ كان التناسق والتكامل بين مختلف المجالات جد دقيق ومدروس.'
]

queries = [
    'هل عدم القيام بجهد جسماني ممكن ان يسبب الأرق؟',
    'ما هي المسألة الشرقية ؟'
]



corpus_embeddings = model.encode(corpus)
query_embeddings = model.encode(queries)

# 根据余弦相似度为每个查询找到语料库中最接近的3个句子
closest_n = 3
for query, query_embedding in zip(queries, query_embeddings):
    distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]

    results = zip(range(len(distances)), distances)
    results = sorted(results, key=lambda x: x[1])

    print("\n======================\n")
    print("查询:", query)
    print("\n语料库中最相似的前3个句子:\n")

    for idx, distance in results[0:closest_n]:
        print(corpus[idx].strip(), "(分数: %.4f)" % (1-distance))

# 可选:如何量化嵌入向量
# binary_embeddings = quantize_embeddings(embeddings, precision="ubinary")

使用Huggingface Transformers:

  • 待补充

常见问题:

如何降低整体推理成本?

  • 您可以通过FlashEmbed库使用这些模型的ONNX版本,无需依赖沉重的torch库即可部署这些模型。

如何降低向量存储成本?

使用二进制和标量量化

如何提供混合搜索以提高准确性?

MIRACL论文表明,简单地将BM25组合起来是混合搜索的一个良好起点: 下表数据使用的是mDPR模型,但miniDense_arabic_v1应该能提供更好的混合搜索性能。

语言 ISO nDCG@10 BM25 nDCG@10 mDPR nDCG@10 混合
阿拉伯语 ar 0.395 0.499 0.673

注意:MIRACL论文显示阿拉伯语BM25的数值不同(更高),因此我们采用BGE-M3论文中的数值,其余均来自MIRACL论文。

MTEB检索指标:

MTEB是一个通用嵌入评估基准,涵盖广泛的任务,但miniDense模型(如BGE-M3)主要针对搜索和基于信息检索的应用场景的检索任务进行了优化。 因此,在MTEB基准的检索部分评估我们的模型是有意义的。

MIRACL检索

参见上表

Sadeem问答检索

<center> <img src="./ar_metrics_6.png" width=150%/> <b><p>表3:SadeemQA评估集上的详细阿拉伯语检索性能(以nDCG@10衡量)</p></b> </center>

长文档检索

这是一个非常有挑战性的评估,因为我们没有针对长上下文进行训练,除BGE-M3(具有8192上下文长度并针对长文档进行了微调)外,所有以下模型的最大长度均为512。

<center> <img src="./ar_metrics_4.png" width=150%/> <b><p>表4:MultiLongDoc开发集上的详细阿拉伯语检索性能(以nDCG@10衡量)</p></b> </center>

跨语言检索

除BGE-M3外,所有模型都是单语阿拉伯语模型,因此它们对其他语言没有任何概念。但下表显示了我们的模型如何理解阿拉伯语与其他语言的上下文关系。 这解释了为什么与那些大得多的模型相比,我们的模型具有竞争力的整体性能。

<center> <img src="./ar_metrics_5.png" width=120%/> <b><p>表5:3个跨语言测试集上的详细阿拉伯语检索性能(以nDCG@10衡量)</p></b> </center>

<br/>

路线图

我们将根据情况或社区需求,分阶段为所有流行语言添加miniDense系列模型。我们计划中的一些语言包括

  • 西班牙语
  • 泰米尔语
  • 德语
  • 英语?

复现说明:

我们欢迎任何人复现我们的结果。以下是一些提示和观察:

  • 使用CLS池化(而非均值池化)和内积(而非余弦相似度)。
  • 复现时数值可能会有细微差异,例如BGE-M3报告MIRACL印地语的nDCG@10为59.3,而我们仅观察到58.9。

以下是我们在BGE-M3上完整印地语运行的数值

{'NDCG@1': 0.49714, 'NDCG@3': 0.5115, 'NDCG@5': 0.53908, 'NDCG@10': 0.58936, 'NDCG@100': 0.6457, 'NDCG@1000': 0.65336}
{'MAP@1': 0.28845, 'MAP@3': 0.42424, 'MAP@5': 0.46455, 'MAP@10': 0.49955, 'MAP@100': 0.51886, 'MAP@1000': 0.51933}
{'Recall@10': 0.73032, 'Recall@50': 0.8987, 'Recall@100': 0.93974, 'Recall@200': 0.95763, 'Recall@500': 0.97813, 'Recall@1000': 0.9902}
{'P@1': 0.49714, 'P@3': 0.33048, 'P@5': 0.24629, 'P@10': 0.15543, 'P@100': 0.0202, 'P@1000': 0.00212}
{'MRR@10': 0.60893, 'MRR@100': 0.615, 'MRR@1000': 0.6151}

友情提示:BGE-M3评估成本很高,可能*这就是为什么它没有被纳入任何MTEB基准的检索部分。

参考:

关于模型偏见的说明:

  • 与任何模型一样,该模型可能带有来自基础模型及其预训练和微调数据集的固有偏见。请负责任地使用。

如何引用?

Damodaran, P. (2024). MiniDense: Family of Low footprint multilingual retrievers for search and RAG pipelines (Version 1.0.0) [Computer software]."

prithivida/miniDense_arabic_v1

作者 prithivida

sentence-similarity transformers
↓ 1 ♥ 7

创建时间: 2024-07-30 04:29:52+00:00

更新时间: 2025-05-01 05:37:07+00:00

在 Hugging Face 上查看

文件 (23)

.gitattributes
1_Pooling/config.json
README.md
ar_intro.png
ar_metrics_1.png
ar_metrics_2.png
ar_metrics_3.png
ar_metrics_4.png
ar_metrics_5.png
ar_metrics_6.png
ar_terms.png
config.json
config_sentence_transformers.json
dost_logo.png
generation_config.json
modules.json
onnx/miniDense_arabic_v1.onnx ONNX
pytorch_model.bin
sentence_bert_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
unigram.json