ویکیدیتا، یکی از بخشهای کمتر شناختهشدهی بنیاد ویکیمدیا هست که بهعنوان یک دیتابیس ساختاریافته، اطلاعات میلیونها مدخل ویکیپدیا را در فرمتی قابل فهم برای انسان و ماشین ذخیره انجام میدهد.
اکنون، این گنجینهی اطلاعاتی به دیتابیس جدید و دوستدار هوش مصنوعی مجهز هست تا مدلهای زبانی بزرگ بتوانند راحتتر از آن استفاده کنند.
پروژه را شعبهی آلمان بنیاد ویکیمدیا هدایت انجام میدهد و در طول یک سال گذشته، ۱۹ میلیون مدخل ویکیدیتا را از دادههای با ساختار پیچیده، به «وکتور» تبدیل کرده هست؛ بردارهایی که مفهوم و ارتباط میان اطلاعات را در خود جای دادهاند.
برای درک بهتر، این فرمت وکتوری را امکان دارد مانند یک شبکهی بزرگ از نقاط و خطوط متصل به هم تصور کرد. لیدیا پینچر، مدیر پروژه، در مصاحبه با ورج توضیح میدهد که این یک تغییر زیرساختی برای توسعهدهندگان هوش مصنوعی محسوب خواهد گردید و تجربهی کاربری ویکیپدیا برای عموم تغییری نخواهد کرد.
ویکیپدیا قرار نیست به یک چتبات تبدیل شود. با این تغییر، سیستمهای هوش مصنوعی امکان داردند بهجای خواندن اطلاعات خام، «مفهوم» و ارتباط میان آنها را درک کنند.
هدف اصلی پروژه، ایجاد فرصتهای برابر برای توسعهدهندگان هوش مصنوعی خارج از حلقهی شرکتهای بزرگ و ثروتمند فناوری هست. درحالیکه شرکتهایی مانند OpenAI منابع لازم برای پردازش و وکتورسازی دادههای عظیم را در اختیار دارند، این پروژه به شرکتهای کوچکتر و استارتاپها اجازه میدهد تا به دادههای باکیفیت و آماده برای هوش مصنوعی دسترسی رایگان داشته باشند.
ازآنجاکه اکثر چتباتها بر موضوعات محبوب در اینترنت تمرکز میکنند، دسترسی آسانتر به ویکیدیتا امکان داردد به ساخت سیستمهای هوش مصنوعی جامعتری منجر شود که موضوعات تخصصی و کمتر شناختهشده را پوشش میدهند.
تیم با استفاده از مدلی از شرکت هوش مصنوعی Jina AI، دادههای ویکیدیتا تا تاریخ ۱۸ سپتامبر ۲۰۲۴ (۲۸ شهریور ۱۴۰۳) را به وکتور تبدیل کرده و زیرساخت ذخیرهسازیاش بهصورت رایگان توسط شرکت DataStax (متعلق به IBM) تأمین شده هست.
دیدگاهها