ریاضیات عجیبی که تقریبا همه‌چیز را پیش‌بینی می‌کند

کد خبر : ۸۱۴۲۸۳

تاریخ : ۱۴۰۴/۰۷/۲۹

زمان : ۱۳:۱۵

دسته بندی: فناوری

ریاضیات عجیبی که تقریبا همه‌چیز را پیش‌بینی می‌کند

یک ایده ریاضی که از دعوای دو دانشمند روس بر سر «اراده آزاد» به وجود آمد، امروز قلب الگوریتم‌های گوگل و هوش مصنوعی هست.

ریاضیات عجیبی که تقریبا همه‌چیز را پیش‌بینی انجام می‌دهد

چندین بار باید یک دسته کارت را بُر بزنید تا حقیقتاً ورق‌ها تصادفی شوند؟ چقدر اورانیوم یا پلوتونیوم برای ساختن یک بمب لازم هست؟ گوگل چطور حدس می‌زند شما دقیقاً دنبال کدام صفحه‌اید؟ و اصلاً چگونه خواهد گردید کلمه‌ی بعدی در یک جمله را پیش‌بینی کرد؟

پاسخ این سؤال‌ها همگی به یک ایده برمی‌گرد: زنجیره‌ی مارکوف.

داستان از یک دعوای عجیب در روسیه‌ی تزاری شروع گردید. ریاضیدانی به نام پاول نکراسوف ادعا کرد که تصمیمات مردم ناشی از «اراده‌ی آزاد» هست، اما رقیبش آندری مارکوف نشان داد که حتی رویدادهای به‌طور کامل وابسته هم امکان داردند الگوهای قابل پیش‌بینی داشته باشند. او مدلی ساخت که در آن، آینده فقط به وضعیت فعلی بستگی دارای بود، نه به کل تاریخچه.

ایده‌ی مارکوف که امکان داردد همه‌چیز را پیش‌بینی انجام می‌دهد،‌ دنیا را منفجر کرد؛ سفری شگفت‌انگیز که از تحلیل آماری شعرهای روسی شروع گردید، از آزمایشگاه‌های فوق‌سری پروژه‌ی منهتن عبور کرد و به هسته‌ی اصلی الگوریتم PageRank گوگل رسید. اما این «زنجیره» چطور توانست تمام این دنیاهای به‌ظاهر بی‌ربط را به هم متصل کند و امروز، چگونه به هوش مصنوعی قدرت می‌دهد تا کلمه‌ی بعدی شما را حدس بزند؟

و البته، پاسخ دقیق به آن سؤال اول: برای یک بازی منصفانه، حقیقتاً چندین بار باید کارت‌ها را بُر بزنیم؟ پاسخ دقیق‌تر از آن چیزی هست که فکرش را می‌کنید.

خلاصه صوتی و چکیده متنی

یک دعوای عجیب ریاضی در روسیه‌ی تزاری بر سر «اراده‌ی آزاد»، به تولد ایده‌ای به نام «زنجیره‌ی مارکوف» منجر گردید؛ روشی برای درک سیستم‌هایی که در آن‌ها، آینده فقط به وضعیت فعلی بستگی دارد. این ایده، که نشان می‌داد رویدادهای وابسته هم قابل پیش‌بینی هستند، سفری باورنکردنی را آغاز کرد:

ابتدا به دانشمندان پروژه‌ی منهتن کمک کرد تا با «روش مونت-کارلو» رفتار نوترون‌ها را در بمب اتم شبیه‌سازی کنند؛ دهه‌ها بعد، به لری پیج و سرگِی برین اجازه داد تا با الگوریتم PageRank اینترنت را رتبه‌بندی کنند؛ و امروز، به هسته‌ی اصلی مدل‌های زبانی هوش مصنوعی برای پیش‌بینی کلمه‌ی بعدی در یک جمله تبدیل شده هست. حتی پاسخ به این سؤال که چرا باید کارت‌های بازی را ۷ بار بُر زد، در همین ایده‌ی قدرتمند نهفته هست.

دعوای ریاضی‌دان‌ها در روسیه تزاری

سال ۱۹۰۵، روسیه‌ی تزاری در تب‌وتاب انقلاب قرار دارای بود. گروه‌های سوسیالیست علیه تزار قیام کرده بودند و جامعه به دو قطب متخاصم تقسیم شده قرار دارای بود. این شکاف آن‌قدر عمیق قرار دارای بود که حتی به دنیای خشک ریاضیات هم کشیده گردید.

در یک سو پاول نکراسوف ملقب به «تزار احتمالات» ایستاده قرار دارای بود؛ فردی عمیقاً مذهبی و طرف‌دار سرسخت تزار که از جایگاه قدرتمندش استفاده می‌کرد تا استدلال کند که ریاضیات امکان داردد «اراده‌ی آزاد» و خواست خدا را توضیح دهد.

در سوی دیگر رقیب فکری او، آندری مارکوف ملقب به «آندری خشمگین» قرار دارای بود. مارکوف آتئیست و سوسیالیست قرار دارای بود و اصلاً نامکان داردست افرادی را که در ریاضیات، «دقیق» نبودند، تحمل کند و از نظرش، نکراسوف سردسته‌ی آن‌ها قرار دارای بود. مارکوف باور دارای بود ریاضی هیچ ربطی به اراده‌ی آزاد یا مذهب ندارد و علناً کارهای نکراسوف را «سوءاستفاده از ریاضیات» می‌خواند.

قانون اعداد بزرگ (و کوچک)

موضوع جدال آن‌ها، قانونی قرار دارای بود که در دو قرن گذشته پایه و اساس نظریه‌ی احتمالات به‌شمار می‌رفت: قانون اعداد بزرگ.

این قانون را با یک مثال ساده‌ی پرتاب سکه درک می‌کنید. اگر ۱۰ بار سکه‌ای را بالا بیندازید، ممکن هست ۶ بار «شیر» و ۴ بار «خط» بیاید (نسبت ۶۰/۴۰). این نتیجه با چیزی که انتظار داریم (۵۰/۵۰) فاصله دارد. اما اگر به پرتاب سکه ادامه دهید، مثلاً ۱۰۰ بار، نتیجه چیزی شبیه ۵۱ شیر و ۴۹ خط خواهد گردید. هرچه تعداد پرتاب‌ها بیشتر شود، میانگین نتایج به مقدار موردانتظار (۵۰/۵۰) نزدیک‌تر و نزدیک‌تر خواهد گردید.

فرض کلیدی قانون اعداد بزرگ این قرار دارای بود که رویدادها مستقل از هم باشند

این قانون، که اولین‌بار توسط یاکوب برنولی در ۱۷۱۳ اثبات گردید، یک پیش‌فرض کلیدی دارای بود: رویدادها باید مستقل باشند. یعنی نتیجه‌ی هر پرتاب سکه، هیچ تأثیری بر نتیجه‌ی پرتاب بعدی ندارد.

حالا وضعیتی را در نظر بگیرید که رویدادها به‌هم‌ وابسته باشند؛ مثلاً از گروهی می‌خواهیم قیمت کالایی را حدس بزنند. اگر هر کس نظرش را جداگانه روی کاغذ بنویسد، تخمین‌ها پراکنده خواهد گردید و میانگین عددی نزدیک به ارزش واقعی کالا خواهد قرار دارای بود.

نکراسوف می‌خواست از قانون اعداد بزرگ برای اثبات اراده‌ی آزاد استفاده کند

ولی اگر افراد قیمت پیشنهادی‌شان را در یک اتاق فریاد بزنند و نفر اول قیمتی بسیار بالا، مثلاً ۲ هزار دلار اعلام کند، همین عدد روی حدس دیگران تأثیر می‌گذارد. ناگهان میانگین قیمت‌ها به سمت ۲ هزار دلار کشیده خواهد گردید، نه قیمت واقعی کالا.

اینجا قرار دارای بود که نکراسوف وارد گردید. او به آمارهای اجتماعی مثل تعداد ازدواج‌ها یا نرخ جرم و جنایت نگاه کرد و دید که این آمارها سال‌به‌سال حدوداً ثابت هستند و از قانون اعداد بزرگ پیروی می‌کنند. او از این مشاهده نتیجه‌گیری عجیبی کرد: چون این آمارها از قانون اعداد بزرگ تبعیت می‌کنند، پس رویدادهای زیربنایی آن‌ها (یعنی تصمیم افراد برای ازدواج یا ارتکاب جرم) باید مستقل باشند. از نظر او، این استقلال همان «اراده‌ی آزاد» قرار دارای بود و ریاضیات آن را اثبات می‌کرد!

ماشین پیش‌بینی مارکوف

استدلال نکراسوف، مارکوف را شدیداً به خشم آورد. به نظر او، این تفسیر نوعی تحریف علم قرار دارای بود؛ پس تصمیم گرفت نکراسوف را برای همواره ساکت کند. نقشه‌اش این قرار دارای بود که ثابت کند که حتی رویدادهای وابسته هم امکان داردند از قانون اعداد بزرگ پیروی کنند.

مارکوف می‌خواست ثابت کند رویدادهای وابسته نیز امکان داردند از قانون اعداد بزرگ پیروی کنند

او برای این کار به چیزی نیاز دارای بود که در آن، یک رویداد به‌وضوح به رویداد قبلی‌اش وابسته باشد: متن. در هر زبانی، اینکه حرف بعدی شما صدادار باشد یا بی‌صدا، به‌شدت به حرف فعلی شما بستگی دارد.

مارکوف به سراغ یکی از شاهکارهای ادبیات روسیه، یعنی شعر اوژن اونگین اثر الکساندر پوشکین رفت. او ۲۰,۰۰۰ حرف اول شعر را برداشت (بدون احتساب فاصله‌ها و نقطه‌گذاری) و آن‌ها را شمرد: ۴۳درصد حروف صدادار (V) و ۵۷درصد بی‌صدا (C) بودند.

اگر حروف مستقل بودند، شانس اینکه دو حرف صدادار پشت‌سرهم بیایند (V,V) به‌این‌ترتیب محاسبه می‌شد: ۴۳٪ × ۴۳٪ ≈ ۱۸٫۵٪

اما وقتی مارکوف متن را بررسی کرد، دید که حروف صدادار دوتایی فقط ۶درصد مواقع رخ داده‌اند! این نشان می‌داد که حروف به شدت به هم وابسته‌اند.

حالا بخش اصلی کار: مارکوف یک «ماشین پیش‌بینی» ساده ساخت. تصور کنید او دو دایره کشید، مدلی شامل دو حالت («صدادار» V و «بی‌صدا» C) و پیکان‌هایی که نشان می‌دادند از هر حالت با چه احتمالی به حالت دیگری می‌رویم.

سپس مارکوف سیستم خود را به راه انداخت: از یک حرف تصادفی شروع کرد و بر اساس احتمالات محاسبه‌شده، حرف بعدی را «تولید» کرد و این فرایند را هزاران بار تکرار نمود. نتیجه شگفت‌انگیز قرار دارای بود: پس از مدتی، نسبت حروف تولید شده توسط این مدل دقیقاً به همان ۴۳ درصد صدادار و ۵۷ درصد بی‌صدا همگرا گردید.

مارکوف پیروز شده قرار دارای بود. او سیستمی به‌طور کامل وابسته ساخته قرار دارای بود (یک زنجیره‌ی رویدادها) که همچنان از قانون اعداد بزرگ پیروی می‌کرد. بنابراین مشاهده‌ی همگرایی در آمارهای اجتماعی مثل ازدواج اصلاً ثابت نانجام می‌دهد که تصمیمات مردم مستقل یا ناشی از «اراده‌ی آزاد» هست.

زنجیره مارکوف سیستمی هست که در آن، احتمال رفتن به حالت بعدی فقط به حالت فعلی بستگی دارد، نه به تمام تاریخچه‌ی قبلی

ایده‌ای که از دل این جدال زاده گردید، بعدها زنجیره مارکوف (Markov Chain) نام گرفت: سیستمی که در آن، احتمال رفتن به حالت بعدی فقط به حالت فعلی بستگی دارد، نه به تمام تاریخچه‌ی قبلی.

مارکوف در پایان مقاله‌اش، تیر خلاص را به رقیبش زد: «بنابراین، برای احتمالات نیازی به اراده‌ی آزاد نیست. در واقع، حتی نیازی به استقلال هم نیست.»

زنجیره‌ی ماکوف باید دنیای علم را منفجر می‌کرد، اما در آن زمان، حدوداً «هیچ‌کس متوجه‌اش نشد». حتی خود مارکوف هم اهمیتی به این موضوع نداد و بیان کرد: «من فقط به مسائل تحلیل محض علاقه‌مندم.» او نمی‌دانست که این شکل جدید از احتمالات، قرار هست نقشی کلیدی در یکی از مهم‌ترین تحولات قرن بیستم ایفا کند.

از شعر تا بمب اتم: تولد روش مونت-کارلو

صبح روز ۱۶ ژوئیه ۱۹۴۵، ایالات متحده اولین بمب اتمی جهان یعنی «گجت» (Gadget) را در صحرای نیومکزیکو منفجر کرد. این انفجار که معادل ۲۵ هزار تن TNT قرار دارای بود، از حدود ۶ کیلوگرم پلوتونیوم نیرو می‌گرفت و اوج پروژه‌ی فوق‌سری منهتن قرار دارای بود: جایی که ذهن‌های درخشانی چون جی. رابرت اوپنهایمر، جان فون نویمان و ریاضی‌دان لهستانی، استانیسلاو اولام، کنار هم ایستادند.

کار بمب اتمی بر اساس «واکنش زنجیره‌ای» پیش می‌رود: یک نوترون به هسته‌ی یک اتم «شکافت‌پذیر» (مانند اورانیوم-۲۳۵ یا پلوتونیوم) برخورد انجام می‌دهد، هسته می‌شکافد، انرژی آزاد انجام می‌دهد و مهم‌تر از آن، ۲ یا ۳ نوترون جدید آزاد می‌شوند.

اگر به طور متوسط بیش از یکی از این نوترون‌های جدید به هسته‌های دیگر برخورد کنند، واکنش به‌صورت نمایی رشد انجام می‌دهد و انفجار رخ می‌دهد. حالا سؤال کلیدی این قرار دارای بود که دقیقاً چقدر از این ماده‌ی گران‌بها و کمیاب لازم هست تا واکنش به مرز «بحرانی» برسد؟ پاسخ به رفتار تریلیون‌ها نوترون در حال حرکت بستگی دارای بود.

استانیسلاو اولام ایده‌ی شبیه‌سازی تصادفی را از بازی سالیتر الهام گرفت

سال ۱۹۴۶، اولام ناگهان به التهاب مغز دچار گردید و ماه‌ها در دوران نقاهت ماند. روی تخت برای سرگرمی با ورق، سالیتر بازی می‌کرد که ذهنش درگیر سؤالی گردید: شانس بردن در یک بازی سالیتر که کارت‌هایش تصادفی بُرخورده، چقدر هست؟

این مسئله تاحدی فریبنده قرار دارای بود. تعداد کل حالت‌های ممکن برای چیدمان ۵۲ کارت، عددی نجومی هست (۵۲ فاکتوریل، یعنی ۸ با ۶۷ صفر جلوی آن). حل این مسئله به روش تحلیلی کلافه‌کننده به‌نظر می‌رسید.

ناگهان جرقه‌ای در ذهن اولام زده گردید: «چه خواهد گردید اگر به‌جای محاسبه، صدها بار بازی کنم و فقط بشمارم که چندین بار برده‌ام؟» طبق آمار اگر هزار بار بازی کنید و ۳۰ بار ببرید، امکان داردید با اطمینان خوبی بگویید شانس برد حدود ۳درصد هست.

فون نویمان در ایده اولام، ردی از زنجیره‌های مارکوف دید: رویدادهایی که هر کدام به قبلی وابسته‌اند

وقتی اولام به آزمایشگاه لوس آلاموس بازگشت، همکارانش همچنان با مسئله‌ی نوترون‌ها دست‌وپنجه نرم می‌کردند. اولام همان ایده‌ی خود را مطرح کرد: «چه خواهد گردید اگر این سیستم را با تولید هزاران نتیجه‌ی تصادفی شبیه‌سازی کنیم، درست مثل کاری که من با سالیتر کردم؟»

جان فون نویمان بلافاصله قدرت این ایده را تشخیص داد اما مشکل کلیدی ماجرا را هم دید: بازی‌های سالیتر از هم مستقل هستند و نتیجه‌ی یک بازی روی بازی بعدی تأثیر ندارد. اما رفتار نوترون‌ها این‌طور نیست. رفتار یک نوترون به مکانش و کاری که پیش‌تر انجام داده وابسته هست.

فون نویمان متوجه گردید که صرفاً نامکان داردند نتایج تصادفی را نمونه‌برداری کنند؛ بلکه باید یک زنجیره‌ی کامل از رویدادها را مدل‌سازی کنند. گروه دقیقاً به چیزی نیاز دارای بود که آندری مارکوف اختراع کرده قرار دارای بود: یک زنجیره‌ی مارکوف.

فون نویمان و اولام یک زنجیره‌ی مارکوف برای نوترون‌ها طراحی کردند. حالت اولیه را یک نوترون در حال حرکت در هسته‌ی شکافت‌پذیر در نظر گرفتند تا گذارها (اتفاقات ممکن) به ترتیب زیر تعریف شود:

البته احتمالات این گذارها ثابت نبود و به انرژی و موقعیت نوترون بستگی دارای بود. بعد گروه این مدل را روی اولین کامپیوترهای الکترونیکی مانند ENIAC اجرا کرد. کامپیوتر هزاران بار این شبیه‌سازی را تکرار کرد و هر بار، «ضریب تکثیر (K)» را اندازه گرفت: یعنی به طور متوسط هر نوترون چندین نوترون جدید تولید انجام می‌دهد.

آن‌ها راهی آماری برای حل معادلاتی پیدا کرده بودند که تحلیلی‌شان غیرممکن به‌نظر می‌رسید. اولام، به یاد عمویش و کازینوی معروف موناکو، نام این رویکرد را روش مونت-کارلو (Monte Carlo Method) گذاشت. این روش، که ترکیبی از ایده‌ی نمونه‌گیری آماری اولام و قدرت محاسباتی فون نویمان قرار دارای بود، به‌سرعت به ابزاری کلیدی در فیزیک، مهندسی و محاسبات مالی تبدیل گردید.

از آزمایشگاه تا اینترنت: PageRank گوگل

زنجیره‌های مارکوف بار دیگر در دهه‌ی ۱۹۹۰، در مکانی غیرمنتظره، احیا شدند: اینترنت. با انفجار وب در اواسط دهه‌ی ۹۰، مشکل جدیدی به‌وجودآمد: چطور در این دریای اطلاعات چیزی را پیدا کنیم؟ در آن زمان موتورهای جستجوی اولیه مثل یاهو (Yahoo) وجود داشتند. یاهو پادشاه اینترنت قرار دارای بود، اما نقطه‌ضعفی اساسی دارای بود.

سرگی برین و لری پیج، وب را مانند زنجیره‌ای مارکوفی از صفحات و لینک‌ها مدل کردند

یاهو و رقبایش صفحات را صرفاً بر اساس «تطبیق کلمه‌ی کلیدی» رتبه‌بندی می‌کردند؛ یعنی اگر شما واژه‌ای را جست‌وجو می‌کردید، موتور بررسی می‌کرد که آن واژه چندین بار در صفحه تکرار شده هست. در این روش «کیفیت» هیچ مفهومی نداشت و به‌راحتی می‌شد آن را فریب داد؛ مثلاً با نوشتن صدها کلمه‌ی کلیدی با رنگ سفید در پس‌زمینه‌ی سفید.

برای درک کیفیت، به سراغ کتابخانه‌ها می‌رویم. در کتاب‌های قدیمی کتابخانه، کارتی وجود دارای بود که تاریخ‌های تحویل کتاب روی آن مهر می‌خورد. اگر کتابی را برمی‌داشتید که پر از مهر قرار دارای بود، می‌فهمیدید که «این کتاب خوبی هست.» مهرها نقش «تأیید» یا «رأی» را داشتند.

در دانشگاه استنفورد، دو دانشجوی دکترا به نام‌های سرگِی برین و لری پیج، تصمیم گرفتند همین ایده را در وب پیاده کنند. آن‌ها گفتند هر «لینک» از صفحه‌ای به صفحه‌ی دیگر، مانند یک رأی یا تأیید هست، البته صفحاتی که خودشان لینک‌های باکیفیتی دریافت کرده‌اند، «رأی» باارزش‌تری می‌دهند.

تاریخچه کامل اینترنت: از آزمایشگاه‌های جنگ سرد تا دهکده‌ جهانی و وب ۳

برین و پیج متوجه شدند که امکان داردند کل شبکه‌ی وب را به‌عنوان یک زنجیره‌ی مارکوف غول‌پیکر مدل کنند. حالت‌ها: تمام صفحات وب در اینترنت. گذارها: لینک‌های بین صفحات. آن‌ها نیز استعاره‌ی دیگری را هم مطرح کردند؛ «موج‌سوار تصادفی» (Random Surfer) که در اینترنت سرگردان هست.

فرض کنید یک اینترنت کوچک با چهار صفحه داریم: A، B، C و D.

اگر موج‌سوار از صفحه‌ی A شروع کند، روی لینک آن کلیک انجام می‌دهد و به B می‌رود، از B ممکن هست به A یا C برود، از C دوباره به A برگردد، و این چرخه ادامه یابد.

پس از مدتی، اگر حساب کنیم او چندین درصد از وقتش را در هر صفحه گذرانده، می‌بینیم بیشتر زمانش در حلقه‌ی A–B–C صرف خواهد گردید و صفحه‌ی D سهم ناچیزی دارد. چون گرچه به B لینک می‌دهد، اما هیچ صفحه‌ی مهمی به D لینک نداده هست.

نسبت زمانی که موج‌سوار در هر صفحه می‌گذراند، همان امتیاز PageRank آن صفحه محسوب خواهد گردید. اینجا باید دو مسئله روشن می‌شد:

اول، آیا می‌شد این سیستم را فریب داد؟ مثلاً من ۱۰۰ صفحه‌ی اسپم بسازم که همگی به سایت من لینک بدهند؟ پاسخ «نه» قرار دارای بود. چون هیچ صفحه‌ی باکیفیتی به آن ۱۰۰ صفحه‌ی اسپم لینک نداده، موج‌سوار تصادفی ما هرگز به آن‌ها نمی‌رسد که بخواهد روی لینکشان کلیک کند. پس رأی آن‌ها اصلاً شمرده نخواهد گردید.

دوم مشکل «گیرافتادن»: چه می‌شد اگر موج‌سوار به صفحه‌ای می‌رسید که هیچ لینک خروجی نداشت یا در یک حلقه‌ی کوچک (مثل A-B-C) برای همواره گیر می‌افتاد؟

ضریب میرایی تضمین کرد موج‌سوار تصادفی در هیچ گوشه‌ای از اینترنت گیر نکند

برین و پیج برای حل این مشکل، ضریبی به الگوریتم اضافه کردند به نام ضریب میرایی (Damping Factor). طبق این فرض، موج‌سوار در ۸۵درصد مواقع یکی از لینک‌های موجود را دنبال انجام می‌دهد، اما در ۱۵درصد مواقع از روی بی‌حوصلگی یا کنجکاوی، ناگهان به صفحه‌ای تصادفی در کل اینترنت می‌پرد. این پرش‌های تصادفی تضمین می‌کردند که موج‌سوار هرگز گیر نمی‌افتد و سرانجام تمام وب را می‌گردد.

سال ۱۹۹۸، آن‌ها موتور جستجوی خود را راه‌اندازی کردند و نامش را Google گذاشتند. گوگل یاهو را نابود کرد، نه با بازاریابی، بلکه با فناوری برتر. در قلب این الگوریتم میلیارددلاری، همان ایده‌ی قدیمی آندری مارکوف نهفته قرار دارای بود.

از پیش‌بینی حروف تا هوش مصنوعی

در دهه‌ی ۱۹۴۰، کلود شانون، ریاضی‌دان و مهندس آمریکایی که بعدها «پدر نظریه‌ی اطلاعات» لقب گرفت، دوباره به ایده‌ی اصلی مارکوف یعنی پیش‌بینی متن بازگشت اما کار را یک‌قدم جلوتر برد.

کلود شانون با الهام از مارکوف، پیش‌بینی زبان را از حروف به کلمات گسترش داد

مارکوف فقط به یک حرف قبلی (صدادار یا بی‌صدا) نگاه می‌کرد. شانون پرسید: چه خواهد گردید اگر به ۲ حرف قبلی نگاه کنیم؟ متنی که تولید گردید، «کلمات» قابل تشخیصی دارای بود مثل «way of off». در مرحله‌ی بعد پرسید: چه خواهد گردید اگر به‌جای حروف، از کلمات کامل قبلی استفاده کنیم؟ متنی که بر اساس کلمات قبلی تولید گردید، شبیه این قرار دارای بود:

The head and in frontal attack on an English writer that the character of this...

البته جمله در کل بی‌معنی قرار دارای بود، اما تکه‌های چهار یا پنج کلمه‌ای آن مثل حمله به یک نویسنده‌ی انگلیسی، به‌طور کامل معنی‌دار به نظر می‌رسیدند. شانون فهمید که هرچه کلمات قبلی بیشتری را در نظر بگیرید، پیش‌بینی شما برای کلمه‌ی بعدی بهتر خواهد گردید.

این دقیقاً همان کاری هست که قابلیت «تکمیل خودکار» در ایمیل یا موتور جست‌وجو انجام می‌دهد. هسته‌ی اصلی مدل‌های زبانی بزرگ امروزی (LLMs مثل ChatGPT) هم بر همین ایده‌ی زنجیره‌های مارکوف بنا شده هست. آن‌ها پیش‌بینی می‌کنند که محتمل‌ترین «توکن» (کلمه یا بخشی از کلمه) بعدی، باتوجه‌به رشته‌ی توکن‌های قبلی چیست.

هرچه وابستگی به گذشته بیشتر لحاظ شود، پیش‌بینی دقیق‌تر خواهد شد

اما اینجا با یک تفاوت کلیدی آشنا می‌شویم: مدل‌های مدرن «فقط» زنجیره‌های مارکوف ساده نیستند و از شبکه‌های عصبی پیچیده و مکانیزمی به نام «توجه» (Attention) استفاده می‌کنند. به‌عبارتی مدل فقط به ۳ یا ۴ کلمه‌ی آخر نگاه نانجام می‌دهد؛ بلکه یاد دریافت می‌کند که برای پیش‌بینی کلمه‌ی فعلی، به کدام کلمات در تمام متن قبلی (حتی ۵۰ کلمه قبل) باید «توجه» بیشتری کند یا وزن بیشتری بدهد.

مثلاً در جمله‌ی «ساختار... سلول»، اگر مدل پیش‌تر کلماتی مانند «خون» و «میتوکندری» را دیده باشد، مکانیزم «توجه» به این کلمات وزن بیشتری می‌دهد و می‌فهمد که منظور از «سلول»، سلول بیولوژیکی هست، نه سلول زندان.

محدودیت‌ها و حلقه‌های بازخورد

باوجود تمام این موفقیت‌ها، زنجیره‌های مارکوف همه‌جا کار نمی‌کنند. نقطه‌ی ضعف اصلی آن‌ها، سیستم‌هایی هستند که حلقه‌ی بازخورد (Feedback Loop) دارند.

در زنجیره‌های مارکوف، فرض کلیدی این هست که حالت بعدی فقط به وضعیت فعلی بستگی دارد. اما در بسیاری از پدیده‌های واقعی، خروجی امروز بر ورودی روز آتی اثر می‌گذارد. این یعنی سیستم، خودش رفتار خودش را تغییر می‌دهد.

وقتی خروجی سیستم بر ورودی آینده اثر بگذارد، پیش‌بینی ساده‌ی مارکوفی دیگر کافی نیست

درمیان مثال‌های امروزی، امکان داردیم به مدل‌های زبانی بزرگ اشاره کنیم. این مدل‌ها با متن‌هایی آموزش می‌بینند که در اینترنت وجود دارد. اما حالا بخش فزاینده‌ای از همین اینترنت را متن‌هایی تشکیل می‌دهد که توسط خود مدل‌های هوش مصنوعی نوشته شده‌اند.

نگرانی جدی از جایی ناشی خواهد گردید که مدل‌های آینده با داده‌هایی آموزش ببینند که مدل‌های گذشته ساخته‌اند و به‌تبع حلقه‌ای بسته شکل بگیرد: مدلی که از محصولات خودش یاد دریافت می‌کند. در این وضعیت، یک «حالت پایدار کسل‌کننده» ایجاد خواهد گردید و به‌تدریج تنوع زبانی و خلاقیت کاهش می‌یابد و مدل شروع انجام می‌دهد به «تکرار خودش». در اصطلاح فنی، این همان حلقه بازخورد داده‌ای هست؛ مدلی که دُم خودش را می‌بلعد.

برای درک روشن‌ترِ مفهوم بازخورد، مثال تغییرات اقلیمی را در نظر بگیرید. وقتی غلظت افزایش پیدا انجام می‌دهد، دمای زمین بالا می‌رود. هوای گرم‌تر بخار آب بیشتری در خود نگه می‌دارد و بخار آب نیز خودش یکی از گازهای گلخانه‌ای مؤثر هست.

بنابراین، افزایش دما باعث افزایش بخار آب خواهد گردید، و بخار آبِ بیشتر دوباره دمای زمین را بالاتر می‌برد. این حلقه بازخورد مثبت یکی از دلایل اصلی دشواری پیش‌بینی دقیق آب‌وهواست؛ چون در آن، خود نتیجه (گرما) به ورودی جدیدی برای فرایند تبدیل خواهد گردید.

ریاضیات، ابداع بشریت یا بخشی جدایی‌ناپذیر از هستی؟

سخت‌ترین مسائل ریاضی حل نشده؛ از فرضیه ریمان تا P درمقابل NP

پاسخی به پرسش اول: کارت‌های تصادفی

قدرت زنجیره‌ی مارکوف به خاصیت «بی‌حافظه» (Memoryless) بودن آن برمی‌گردد. برای بسیاری از سیستم‌های پیچیده (مثل رفتار نوترون‌ها یا موج‌سوار وب)، لازم نیست تمام تاریخچه‌ی بلندمدت را بدانید؛ فقط دانستن حالت فعلی کافی هست تا گذار بعدی را پیش‌بینی کنید. همین ساده‌سازی، تحلیل پدیده‌هایی را ممکن انجام می‌دهد که در نگاه اول بی‌نهایت پیچیده به نظر می‌رسند.

حالا بیایید به سؤال ابتدای مقاله بازگردیم: چندین بار باید یک دسته کارت را بُر بزنیم تا کارت‌ها حقیقتاً تصادفی شوند؟ اگر از روش «بُر زدن ریفلی» (Riffle Shuffle) استفاده کنید؛ یعنی دسته‌ی کارت را به دو نیم تقسیم کرده و کارت‌ها را در هم ببافید؛ عدد جادویی هفت بار هست.

پس از هفت بُر ریفلی، چیدمان کارت‌ها به توزیع یکنواخت نزدیک خواهد شد

چرا؟ چون بُر زدن کارت‌ها هم در قالب یک زنجیره‌ی مارکوف تعریف خواهد گردید: حالت‌ها: تمام ۵۲ فاکتوریل چیدمان ممکن کارت‌ها. گذار: یک‌بار بُر زدن.

تحقیقات ریاضی نشان داده هست که پس از ۷ بار شافل ریفلی، توزیع کارت‌ها به اندازه‌ی کافی به «توزیع یکنواخت» نزدیک خواهد گردید. این یعنی شانس ظاهرشدن هر چیدمان خاصی (مثلاً همه‌ی آس‌ها پشت‌هم) حدوداً با شانس ظاهرشدن هر چیدمان به‌هم‌ریخته‌ی دیگری برابر خواهد گردید. در این نقطه، دسته کارت «تصادفی» در نظر گرفته خواهد گردید.

جالب هست بدانید که اگر از آن روش ساده‌تر استفاده کنید که در آن فقط بخشی از کارت‌ها را برمی‌دارید و روی بقیه می‌گذارید، باید بیش از دو هزار بار این کار را تکرار کنید تا به همان میزان تصادفی‌بودن برسید.

و به‌این‌ترتیب، دعوای دو ریاضی‌دان روس بر سر اراده‌ی آزاد، به ابزاری تبدیل گردید که ساخت بمب اتم را ممکن کرد، اینترنت را سامان داد، پایه‌های هوش مصنوعی را بنا نهاد و حتی به ما بیان کرد که برای یک بازی منصفانه، دقیقاً چندین بار باید کارت‌ها را بُر بزنیم.