آیا می خواهید به اندازه BERT گوگل یا LLaMA فیس بوک باهوش باشید؟ خوب پس، شما باید به خواندن این وبلاگ ادامه دهید، زیرا از آن برای کمک به آموزش آنها استفاده شده است.
با توجه زیادی که به نسل فعلی هوش مصنوعی آموزش داده شده بر روی مدل های زبان بزرگ مانند ChatGPT می شود، بسیاری از ما اطلاعات کمی در مورد متن مورد استفاده برای آموزش آنها داریم.
اکنون، واشنگتن پست پوشش این جعبه سیاه را برداشته است. کار با موسسه آلن برای هوش مصنوعی، آن را تجزیه و تحلیل کرد مجموعه داده های C4 گوگل، “یک ع، فوری عظیم از محتوای 15 میلیون وب سایت که برای آموزش برخی هوش مصنوعی زبان ،یسی با مشخصات بالا استفاده شده است” از جمله T5 گوگل و LLaMA فیس بوک.
سپس همه آن وبسایتها (ژورنالیسم، سرگرمی، و غیره) را دستهبندی کرد و آنها را بر اساس تعداد «توکنهایی» که از هر مجموعه داده ظاهر میشد رتبهبندی کرد – که توکنها بیتهای متنی هستند که برای پردازش اطلاعات نامرتب استفاده میشوند.
علاوه بر تجزیه و تحلیل همه این سایت ها، سپس یک پایگاه داده قابل جستجو از تمام وب سایت های موجود در مجموعه داده های گوگل ایجاد کرد. همانطور که مشخص است، این وبلاگ یکی از آنهاست.
وبلاگ LawSites با ارائه 290000 توکن یا 0.0002٪ از کل توکن های مجموعه داده، 63769 سایت مورد استفاده برای آموزش مجموعه داده را رتبه بندی کرد.
البته، LawSites به سختی تنها سایت مرتبط با قانون بود که برای آموزش داده ها استفاده می شد. بر اساس جستجو برای کلماتی مانند قانون، حقوقی، دادگاه و پرونده، برخی از سایت های حقوقی دیگری را پیدا کردم که مورد استفاده قرار گرفتند. در اینجا یک نمونه است که بر اساس رتبه آنها فهرست شده است:
- پرونده و کدهای FindLaw، 23.
- کمیسیون بورس و اوراق بهادار ایالات متحده، 39.
- Justia قانون ایالات متحده، 75.
- متن موردی، 124.
- را موسسه اطلاعات حقوقی در کرنل، 300.
- قانون خودی، م،ن قراردادها، 649.
- را کتابخانه حقوق مجازی از شرکت حقوقی فیلیپین Chan Robles، 856.
- دیگر فعال نیست شبکه وبلاگ های استاد حقوق، 1655.
- Law.com5,898.
- انجمن وکلای آمریکا، 8266.
- LexisNexis21,045.
- Fastcase108,713.
- ل، بلاگ110,534.
- زونا من164,557.
- تامسون رویترز175,911.
- تکامل حقوقی194,595.
- عصر929,143.
- قانون بلومبرگ11,209,960.
می تو،د وارد سایت شوید و سایت های قانونی مورد علاقه خود را جستجو کنید و ببینید رتبه آنها کجاست. اما، به وضوح، نکته اصلی این است که شما باید به خواندن این وبلاگ ادامه دهید.
منبع: https://www.lawnext.com/2023/04/what-makes-llm-based-ai-so-smart-well-turns-out-this-blog-played-a-part-along-with-other-legal-sites.html