recent

الثلاثاء، 12 مايو 2020

ماهو المحتوى الموثوق وكيف يتم قياسه من Google



مرحبًا أيها الأصدقاء ، هذا أمر تخميني. سنتحدث عن مفهوم سلطة المحتوى وبعض الأفكار حول الطرق التي قد نتمكن من قياسها.

ربما تستخدم Google هذه الطرق لقياسها ، وربما لا. ولكن في الوقت نفسه ، نأمل أن نتمكن من فعله هو التوصل إلى مفهوم أفضل للمقاييس التي يمكننا استخدامها للحصول على سلطة المحتوى.

الآن ، نعلم أن هناك الكثير من الجدل حول هذا الموضوع.
 قالت Google بوضوح تام أن الخبرة ، والسلطة ، والثقة هي أجزاء مهمة جدًا من إرشادات الجودة ، ولكن المعلومات كانت واهية جدًا بشأن أي جزء من الخوارزمية يساعد على تحديد هذا النوع من المحتوى بالضبط.
نحن نعلم أنهم لا يستخدمون بيانات تقييم الجودة لتدريب الخوارزمية ، لكنهم يستخدمونها لرفض تغييرات الخوارزمية التي لا تلبي هذه المعايير بالفعل.
كيف نقيس صلاحية المحتوى؟
كيف يمكننا قياس سلطة المحتوى؟ في نهاية المطاف ، يجب أن يتلخص أي نوع من الأفكار التي نتحدث عنها في تحسين محركات البحث بطريقة أو شكل أو شكل في مجموعة من القياسات التي يتم إجراؤها وفي شكل أو شكل ما يتم استخدامه لتصنيف صفحة واحدة على أخرى.
1 - تحليل البيانات وناخذ كلمة على سبيل المثال ALBERT
أحيانًا يكون من المنطقي في بعض الأحيان مجرد الشعور به ، كما لو كنت تكتب للبشر ، كن إنسانًا. لكن المحتوى الموثوق هو أصعب قليلاً من ذلك. من الأصعب قليلاً أن تتجاهل قمة رأسك وتعلم أن هذا المحتوى موثوق به وهذا ليس كذلك. في الواقع ، إرشادات جودة Rater واضحة حقًا في بعض الأمثلة لما يمكن اعتباره محتوى موثوقًا للغاية حقًا ، مثل ، في قسم الأخبار على سبيل المثال ، يذكرون أنه مكتوب من قبل مؤلف حائز على جائزة Pulitzer.
لذلك هذا ما أعتبره بعض التدابير المحتملة للمحتوى الموثوق. الأول ، وهذا سيفتح عش الجرذ بأكمله أنا متأكد ، ولكن حسنًا ، ALBERT. تحدثنا عن استخدام BERT لفهم اللغة بواسطة Google. حسنًا ، إن ALBERT ، وهو اختصار لـ "BERT أخف" ، هو نموذج مماثل تستخدمه Google ، وقد تم تدريبه بالفعل في ظروف محددة بهدف الإجابة على الأسئلة.
الآن قد لا يبدو هذا صفقة كبيرة بشكل خاص. لقد قمنا بالإجابة على السؤال لفترة طويلة. المقتطفات المميزة هي بالضبط ذلك. لكن ALBERT قفز على المشهد بطريقة مهيمنة بحيث تجاوز أي شيء رأيناه حقًا في هذا النوع من مشاكل البرمجة اللغوية العصبية.

لذا ، إذا كنت ستذهب إلى مسابقة مجموعة البيانات SQuAD ، وهي مسابقة ستانفورد للإجابة على الأسئلة ، حيث لديهم هذه المجموعة الضخمة من الأسئلة ومجموعة ضخمة من المستندات ، ثم يدخلون البشر ويجدون الإجابات في المستندات ويقولون أي الوثائق لا تحتوي على إجابات وأي منها ، ثم أنتجت جميع أنواع المنظمات المختلفة نماذج لمحاولة العثور على الإجابات تلقائيًا.

حسنًا ، كانت هذه المنافسة تتقدم ذهابًا وإيابًا ذهابًا وإيابًا لفترة طويلة حقًا بين مجموعة من الضربات الثقيلة ، مثل Google و Baidu والعديد من فرق Microsoft. نحن نتحدث عن أذكى الناس في العالم ، معهد ألين ، جميعهم يقاتلون ذهابًا وإيابًا.

حسنًا ، في الوقت الحالي ، ALBERT أو اختلافاتها لها أعلى 5 وظائف و 9 من أفضل 10 مواقع ، وكلها تؤدي بشكل أفضل من البشر. هذه هي الهيمنة. لذلك لدينا هنا هذه التكنولوجيا المذهلة للإجابة على الأسئلة.

حسنًا ، ما علاقة هذا بسلطة المحتوى؟ لماذا في العالم هذا الأمر يهم؟ حسنًا ، إذا فكرت في مستند أو أي نوع من المحتوى الذي ننتجه ، فإن القصد هو أننا سنجيب على الأسئلة التي يريد عملاؤنا الإجابة عليها. إذن ، أي موضوع نبدأ به ، لنفترض أن الموضوع الذي بدأناه كان علم البيانات ، حسنًا ، ربما هناك الكثير من الأسئلة التي يريد الناس معرفتها حول هذا الموضوع.

قد يرغبون في معرفة: ما هو عالم البيانات؟ كم من المال يجنون؟ ما نوع الأشياء التي تحتاج إلى معرفتها لتكون عالم بيانات؟ حسنًا ، هذا هو المكان الذي يمكن أن يأتي فيه شيء مثل ALBERT ويكون قيمًا للغاية لقياس مدى صلاحية المحتوى. ترى ، ماذا لو كان أحد مقاييس المحتوى الموثوق هو مدى جودة هذا المحتوى للإجابة على جميع الأسئلة ذات الصلة بالموضوع؟

لذا يمكنك أن تتخيل Google تبحث في جميع الصفحات التي تصنف لعلم البيانات ، وهم يعرفون أهم 10 أسئلة يتم طرحها بشأنها ، ثم رؤية أي جزء من المحتوى يجيب على هذه الأسئلة العشرة بشكل أفضل. إذا تمكنوا من القيام بذلك ، فسيكون هذا مقياسًا رائعًا جدًا لتحديد مدى شمولية ومدى أهمية وقيمة وفائدة وموثوقية هذا المحتوى.

لذا أعتقد أن هذه الخوارزمية ، ALBERT لديها الكثير من الإمكانات. لكن دعنا ننتقل من ذلك. هناك كل أنواع الأشياء الأخرى التي قد تكون ذات صلة بسلطة المحتوى.
 2. كثافة المعلومات

واحدة تعجبني حقًا هي فكرة كثافة المعلومات. لذلك في كثير من الأحيان عندما نكتب المحتوى ، خاصة عندما لا نكون على دراية بالموضوع ، ينتهي بنا الأمر بكتابة الكثير من الأخطاء.

نحن نوعًا ما نقوم فقط بوضع الكلمات هناك لتلبية طول الكلمة التي يتوقعها العقد ، على الرغم من أننا نعرف بعمق أن عدد الكلمات في الصفحة لا يحدد حقًا ما إذا كان سيتم ترتيبها أم لا. لذا فإن إحدى الطرق التي يمكنك من خلالها الحصول على ما إذا كان جزء من المحتوى ذا قيمة فعلاً أم لا أو على الأقل توفير معلومات مهمة هي استخدام برامج اللغة الطبيعية لاستخراج المعلومات.
ReVerb + OpenIE

حسنًا ، ربما بدأ المصدر المفتوح الأكثر شيوعًا لـ NLP أو على الأقل التكنولوجيا المتاحة علنًا كمشروع يسمى ReVerb وتم دمجه الآن في مشروع Open IE. ولكن بشكل أساسي ، يمكنك إعطائه جزءًا من المحتوى ، وسيستخرج كل الادعاءات الواقعية التي يقدمها هذا المحتوى.

لذا ، إذا أعطيتها فقرة تقول أن التنس هي رياضة يتم لعبها بمضرب وكرة واليوم لدي الكثير من المرح ، شيء من هذا القبيل ، سيكون قادرًا على تحديد الادعاء الواقعي ، ما هو التنس ، أنها رياضة لعبت بمضرب وكرة.

لكنها ستتجاهل الادعاء بأنني أستمتع كثيرًا اليوم ، لأن هذه ليست في الواقع معلومة ، ادعاء واقعي نقوم به. لذا فإن مفهوم كثافة المعلومات سيكون عدد الحقائق التي يمكن استخراجها من وثيقة مقابل العدد الإجمالي للكلمات. حسنا.
إذا كان لدينا هذا القياس ، فيمكننا بسهولة فحص المحتوى الذي تمت كتابته للتو للطول مقابل المحتوى الغني بالمعلومات حقًا. فقط تخيل مقالة ويكيبيديا ، كم هي كثافة المعلومات هناك نسبة إلى نوع المحتوى الذي ينتجه معظمنا. إذن ما هي بعض الأشياء الأخرى؟
3. نمط المحتوى
سيكون هذا مقياسًا سهلًا حقًا. يمكن أن نتحدث عن استخدام الاقتباسات المضمنة ، والتي تفعلها ويكيبيديا ، والتي بعد الإعلان عن حقيقة أنها ترتبط بعد ذلك بأسفل الصفحة حيث تظهر لك الاقتباس ، تمامًا كما تفعل إذا كنت تكتب ورقة في الكلية أو الأطروحة ، وهو أمر موثوق به. أو استخدام قوائم الحقائق أو جداول المحتويات ، مثلما تفعل ويكيبيديا ، أو استخدام خطوط البيانات بدقة أو تنسيق نمط AP.

هذه كلها مقاييس بسيطة حقًا ، إذا فكرت في الأمر ، فإن أنواع المواقع الأكثر موثوقية تستخدمها في الغالب. إذا كان الأمر كذلك ، فقد تكون تلميحات إلى Google بأن المحتوى الذي تنتجه موثوق. إذن هذه ليست الوحيدة السهلة التي يمكن أن ننظر إليها.
4. جودة الكتابة

هناك الكثير من الأشياء الأخرى الواضحة جدًا ، مثل التعامل مع جودة الكتابة.

ما مدى سهولة التأكد من استخدام الإملاء الصحيح والنحو الصحيح؟ ولكن هل سبق لك أن نظرت إلى مستوى القراءة؟ هل حدث لك يومًا ما للتأكد من أن المحتوى الذي تكتبه غير مكتوب بمستوى صعب للغاية بحيث لا يستطيع أحد فهمه ، أو أنه مكتوب بمستوى منخفض جدًا بحيث لا يكون بالتأكيد دقيقًا وغير موثوق به ؟؟؟ إذا تمت كتابة المحتوى الخاص بك على مستوى الصف الثالث وكانت الصفحة تتعلق ببعض المشاكل الصحية ، فأعتقد أن Google يمكن أن يستخدم هذا المقياس بسرعة كبيرة لاستبعاد موقعك.

هناك أيضًا أشياء مثل طول الجملة ، والتي تتعامل مع سهولة القراءة ، وتفرد المحتوى ، وكذلك استخدام الكلمات. هذا أمر بسيط ومباشر. تخيل أننا ننظر مرة أخرى إلى علوم البيانات ، وأن Google تنظر إلى الكلمات التي تستخدمها على صفحتك. ثم ربما بدلاً من النظر إلى جميع المواقع التي تذكر علم البيانات ، تنظر Google فقط إلى مواقع edu أو تنظر Google فقط في الأوراق المنشورة ثم تقارن استخدام اللغة هناك.

قد تكون هذه طريقة سهلة جدًا لـ Google لتحديد جزء من المحتوى مخصص للمستهلكين موثوق به مقابل محتوى مخصص للمستهلكين وليس كذلك.
5. أنماط الوسائط

شيء آخر يمكننا أن ننظر إليه هو أنماط الوسائط. هذا شيء أصعب قليلاً في فهم الكيفية التي قد تتمكن بها Google بالفعل من الاستفادة منها.

ولكن في نفس الوقت ، أعتقد أن هذه قابلة للقياس وسهلة الاستخدام لمحسنات محركات البحث ، مثلنا نحن.
الرسوم البيانية المشروحة

سيكون أحد الرسوم البيانية المشروحة. أعتقد أنه يجب علينا الابتعاد عن صور الرسم البياني والتحرك أكثر نحو استخدام مكتبات الرسوم البيانية مفتوحة المصدر. بهذه الطريقة المعلومات الواقعية الفعلية ، يمكن تقديم الأرقام إلى Google في شفرة المصدر.
صور فريدة

من الواضح أن الصور الفريدة هي شيء يهمنا. في الواقع ، إنه مدرج بالفعل في إرشادات تقييم الجودة.
إمكانية الوصول

ثم أخيرا ، أهمية الوصول. أعلم أن إمكانية الوصول لا تجعل المحتوى موثوقًا ، لكنها تقول شيئًا عن مدى اهتمام الشخص بتفاصيل الموقع والصفحة. هناك قصة مشهورة حقًا ، ولا يمكنني أن أتذكر اسم الفرقة ، لكنهم كتبوا في عقودهم أنه في كل حفلة موسيقية كانوا بحاجة إلى وعاء من M & Ms ، مع إزالة كل M & Ms البني ، في انتظارهم في الغرفة.

الآن لم يكن بسبب وجود مشكلة مع M & M البني أو أنهم أحبوا M & Ms أو أي شيء من هذا القبيل. كان فقط للتأكد من أنهم قرأوا العقد. إمكانية الوصول هي نوع من تلك الأشياء حيث يمكنهم معرفة ما إذا كنت تتعرق التفاصيل أم لا.
6. عناوين Clickbait وجودة المؤلف وباحث Google

الآن أخيرًا ، هناك زوجان آخران أعتقد أنهما مثيران للاهتمام ويجب التحدث عنه حقًا. الأول هو عناوين clickbait.
عناوين Clickbait

يتم تعريف هذا بشكل صريح على أنه شيء تنظر إليه Google أو على الأقل ينظر إليه مقيمو الجودة من أجل تحديد أن المحتوى ليس موثوقًا. اجعل عناوينك تقول ما تعنيه ، ولا تحاول المبالغة للحصول على نقرة.
جودة المؤلف
شيء آخر يقولونه على وجه التحديد هو ذكر مؤهلات مؤلفك. بالتأكيد ، ليس لديك كاتب جائزة بوليتزر ، ولكن كاتبك لديه نوع من المؤهلات ، على الأقل آمل ، وستكون هذه المؤهلات مهمة بالنسبة لـ Google في تقييم ما إذا كان المؤلف يعرف بالفعل ما الذي يتحدث عنه .
منحة جوجل

شيء آخر أعتقد أننا يجب أن نبدأ البحث عنه هو Google Scholar. كم تعتقد أن Google تجني من الباحث العلمي من Google؟ ربما ليس كثيرا. ما الفائدة من وجود قاعدة بيانات ضخمة للمعلومات الأكاديمية عندما لا تعرض الإعلانات على أي من الصفحات؟ حسنًا ، ربما يمكن استخلاص المعلومات الأكاديمية بطريقة تمكنهم من الحكم على المحتوى المصمم للمستهلكين فيما إذا كان يتماشى مع ذلك أم لا ، سواء كنا نتحدث عن حقائق أو لغة أو سلطة ، مع ما هي الأوساط الأكاديمية يقول عن نفس الموضوع.
الآن ، بالطبع ، كل هذه الأفكار مجرد أفكار. لدينا علامة استفهام عملاقة تجلس حول كيفية وصول Google تمامًا إلى سلطة المحتوى. هذا لا يعني أننا يجب أن نتجاهله. لذا نأمل أن تساعدك هذه الأفكار على الخروج ببعض الأفكار لتحسين المحتوى الخاص بك ، وربما يمكنك أن تعطيني بعض الأفكار الإضافية في قسم التعليقات.

سيكون ذلك رائعًا ويمكننا التحدث أكثر عن كيفية قياسها. أنا أتطلع إليها. شكرا لك مرة أخرى.

إرسال تعليق

مواضيع لاقت الاعجاب