TL;DR
- به سرعت بهعنوان بخشی از اقامتگاه اینهاون نوشته شده است.
- در سطح بالا،.
- بازخورد پژوهشی که به همکاران پژوهشی جوانتر ارائه میدهم اغلب میتواند در یکی از سه دسته قرار گیرد:.
چه اتفاقی افتاد
به سرعت بهعنوان بخشی از اقامتگاه اینهاون نوشته شده است. در سطح بالا،.
بازخورد پژوهشی که به همکاران پژوهشی جوانتر ارائه میدهم اغلب میتواند در یکی از سه دسته قرار گیرد:. انجام بررسیهای سریع سلامت عقل گفتن دقیق آنچه میخواهید بگویید پرسیدن چرایی یک بار دیگر در هر مورد،.
فکر میکنم توصیهها را میتوان به حدی رساند که من دیگر آن را تأیید نمیکنم. بر این اساس،.
من سعی کردهام درجهای را که باید توصیهها را اجرا کنید،. و همچنین اینکه «بیش از حد آن را دور انداختن» ممکن است بیان کنم.
این بخش انجام بررسیهای سریع سلامت عقل را پوشش میدهد،. که رایجترین توصیهای است که من به محققان جوان میکنم.
من دو توصیه دیگر را در مقاله بعدی پوشش خواهم داد. انجام سریع بررسیهای سلامت عقل تحقیق سخت است (تقریباً طبق تعریف) و مردم اغلب اشتباه میکنند.
هر محققی ساعتها یا روزهای بی شماری را هدر داده است،. اگر نه هفتهها یا ماهها،.
در تعقیب خطوط بی نتیجه تحقیق. [1] اغلب، این بار میتوانست با چند بررسی اولیه سلامت عقل نجات یافته است.
آیا ایده شما اصلا منطقی است؟ آیا دادههای شما دارای منابع آشکار سوگیری (مانند اشکال سوگیری انتخاب) یا مسائل دیگر (مثلاً استفاده از دستور.
اشتباه) هستند؟ آیا قضیه شما ادعاهای بی اهمیتی دارد، یا خالی است؟
[2]هنگام انجام تجزیه و تحلیل دادهها،. یکی از نمونههای آن بررسی همبستگیهای اساسی بین متغیرهای کلیدی است.
برای مثال،. اگر معتقدید که مدلهای زبانی کمتر توانا نمیتوانند تا حدودی وظایفی را بهطور مخفیانه انجام دهند،.
زیرا آنها وجود یک کار جانبی را مستقیماً در خروجی خود ذکر میکنند،. چند وقت یکبار عباراتی مانند «تکلیف پنهان» یا «هشدار دادن به ناظر» را در خروجی خود قرار میدهند،.
و هر چند وقت یکبار زمانی که آن عبارات را انجام میدهند یا نمیکنند دستگیر میشوند؟ (این به شما شواهدی میدهد که آیا این عامل تعیین کننده است یا اینکه مدلهای ضعیف.
تر نشانههای دیگری دارند). سطح، که میتواند به شما در تشخیص خطاهای آشکار کمک کند.
میانگین و انحراف معیار آمار خلاصه کلیدی چیست؟ ابعاد کلیدی که دادههای شما در آنها تغییر میکند چیست؟
برای مثال،. اگر در حال مطالعه عوامل LLM در داربست خود هستید،.
مدلها از چند فراخوانی ابزار استفاده میکنند و چه تعداد از آنها موفق هستند؟ (من نمونههای زیادی را دیده ام،.
به خصوص یک یا دو سال پیش،. که در آن داربست شکسته شده است یا عامل LLM بهطور کامل نحوه استفاده از آن را درک.
نمیکند.) اگر از LLM با استدلال استفاده میکنید،. زنجیرههای استدلال چقدر طولانی هستند؟
(من شخصاً در تحقیقاتی شرکت کردهام که در آن استدلال تصادفی انجام شده است.) مثال «معمولی» مجموعه دادههای. شما چگونه به نظر میرسد و موارد پرت چیست؟
بهعنوان مثال،. اگر متوجه شوید که LLMها برای نوشتن مراحل در مسئله n=10 برج هانوی شما عملکرد صفر دارند،.
زنجیره فکری آن چگونه است؟ آیا خطا میکند یا گرفتن در مورد الگوریتم اصلی اشتباه گرفته اید؟
(اغلب،. LLMها در انجام وظایف «شکست میخورند» نه لزوماً به این دلیل که توانایی ندارند،.
بلکه به این دلیل که به هیچ وجه از انجام کار خودداری میکنند.) پاسخ نمونه از Claude. Opus 4،.
جایی که برج n=10هانوی را «بسیار خسته کننده و مستعد خطا» مینامد و از انجام آن. امتناع میورزد.
با این حال،. پاسخ نشان میدهد که میتواند الگوریتم مورد نیاز برای حل مسئله را پیادهسازی کند و قویاً نشان میدهد.
که شکست آن در کار ناشی از عدم درک نیست. برای بحث بیشتر در مورد این مثال خاص، به پست قبلی من مراجعه کنید.
یکی دیگر از نمونههای خاص این توصیه، ساختن نمونههای عینی کوچک است. یک توصیه کلاسیک هنگام تلاش برای بررسی اینکه آیا یک الگوریتم ساده را به درستی پیادهسازی میکنید (مثلاً.
هنگام اشکالزدایی کد یا انجام مصاحبههای کدنویسی) این است که کد خود را خط به خط در یک. مثال کوچک مرور کنید.
برای مثال،. اگر شما هستید با اجرای جستجوی A*،.
آیا روی یک گراف کوچک 4 گرهی با چند یال با هزینههای عدد صحیح کار میکند؟ (زمانی که من در حال آموزش مقدماتی کلاس هوش مصنوعی بودم،.
این شاید نیمیاز اشکالاتی را که در ساعات اداری برای من آورده شده بود،. شناسایی میکرد.) یک توصیه مرتبط این است که هنگام انجام تحقیقات نظری،.
نمونههای عینی کوچکی تهیه کنید. [3] بهعنوان مثال،.
اگر مدعی هستید معیار تشابه شما یک متریک فاصله است،. آیا متقارن است و آیا نابرابری مثلث را در سه نقطه مشخص برآورده میکند؟
(قابل توجه،. واگرایی KL یک معیار نیست!) بخش "سریع" "بررسی سریع سلامت عقل" بخش مهمیاز این توصیه است.
این به معنای ایجاد معاوضه در جهت سرعت به جای سخت گیری است. در عوض اگر هر خروجی یک کار مخفی را ذکر میکند،.
میتوانیم 30 دقیقه وقت صرف امتیاز هوش مصنوعی دیگر کنیم،. یا جستجوی A* را روی یک مشکل واقعی اجرا کنیم،.
اما انجام این کار در هر یک از این موارد احتمالاً زودرس خواهد بود. زمانی که یک چک بهداشتی ارزانتر میتواند بسیاری از مسائل را حل کند.
تمرکز بر این است که یک بررسی عقلانی انجام دهید،. نه بهطور جدی به همه ایرادات احتمالی به کار خود رسیدگی کنید،.
و نه ایجاد یک نظریه یکپارچه بزرگ از کل رشته خود. اگر نشستید تا پنج دقیقهای بررسی کنید و سه ساعت بعد متوجه شدید که در حال ساخت یک.
خط لوله پردازش داده عظیم برای استفاده از هوش مصنوعی برای طبقهبندی تک تک متغیرهای احتمالی که میتوانید. تصور کنید،.
دارید،. احتمالاً خیلی از آن دور شده اید.
^ در مقیاس بزرگتر،. پست طولانیتری درباره نحوه گم شدن کل حوزهها و پایان یافتن اساساً انجام علم محمولهها و پیامدهای آن.
برای ایمنی هوش مصنوعی وجود دارد که ممکن است در آینده درباره آن بنویسم. برای مثالهایی از این موضوع در زمینه روانشناسی انسانی،.
به بررسی انتقادی اسکات الکساندر در زمینه مطالعات 5-HTTLPR،. یا Bertram Gastique politeski بیشتر مراجعه کنید.
تستها. ^برعکس،.
هنگام ارائه در تحقیق خود،. باید به دنبال ارائه اطلاعات کافی باشید تا افراد دیگر بتوانند بررسیهای سریع سلامت عقل را انجام.
دهند تا به نتایج شما اعتماد کنند. یک نسخه اصلی این است که دادههای خود را منبعباز کنید.
راههای دیگر برای انجام این کار عبارتند از گنجاندن نمونههایی از دادههای شما در پیوست،. و همچنین بسیاری از جداول و شکلهایی که رابطه بین متغیرهای کلیدی را نشان میدهند.
^این گزیدهای از زندگی نامه ریچارد فاینمن را نیز ببینید،. مطمئناً شما شوخی میکنید،.
آقای فاینمن!:. من طرحی داشتم که هنوز هم امروز وقتی کسی چیزی را توضیح میدهد که من سعی می.
کنم بفهمم از آن استفاده میکنم:. من مدام مثالهایی میسازم.
بهعنوان مثال، ریاضیدانان با یک قضیه فوق العاده وارد میشوند و همه آنها هیجان زده هستند. همانطور که آنها شرایط قضیه را به من میگویند،.
من چیزی میسازم که با همه شرایط مطابقت دارد. میدانید، شما یک مجموعه (یک توپ) دارید - غیر متمایز (دو سالن).
سپس توپها رنگ میگیرند،. موها رشد میکنند یا هر چیز دیگری سر من بهعنوان آنها شرایط بیشتری را در.
در نهایت قضیه را بیان میکنند،. که یک چیز احمقانه در مورد توپ است که برای توپ سبز پرمو من درست نیست،.
بنابراین من میگویم:. «نادرست است!» ^مثال اصلی موجود در اینجا درباره هسین بهعنوان روشی برای اندازهگیری پهنای حوضه در مناظر تلفات.
بود:. یک فرضیه برای اینکه چرا برخی از شبکههای عصبی بهتر از دیگران تعمیم میدهند:.
مدلهایی که از دست دادن چشمانداز کوچکتر هستند. از اوزان، و بنابراین تعمیم بهتر است.
روش استانداردی که محققان تلاش کردند تا «وسعت» یک حوضه را مدل کنند،. نگاه کردن به هسین (ماتریس مشتقات دوم از دست دادن) است.
اما برای مثالهای اساسی مانند x^2 + y^2 و x^4 + y^4 چگونه کار میکند و وقتی Hessian. مفرد است چه اتفاقی میافتد؟
(اشکال:. Hessian واقعاً در مبدأ x^4 + y^4 مفرد است (در واقع،.
همه آنها صفر است) و Hessian نمیتواند گستردگی این حوضه را بهطور کامل مشخص کند.) برای بحث. بیشتر در مورد این موضوع و مثالهای مرتبط،.
به مقدمهای از پست تئوری یادگیری منفرد مراجعه کنید. بحث کنید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
