Poprosiłem algorytm, aby zoptymalizował moje życie. Oto, co się stało

0
84

Przy odcięciu wynoszącym pięć wybrałbym losową opcję dla mniej więcej jednej na 20 decyzji, które podjąłem za pomocą mojego algorytmu. Wybrałem pięć jako punkt odcięcia, ponieważ wydawało mi się to rozsądną częstotliwością dla okazjonalnej przypadkowości. Dla przebojowych dostępne są dalsze procesy optymalizacyjne służące do decydowania, jakiego odcięcia użyć, a nawet zmiany wartości odcięcia w miarę kontynuacji nauki. Najlepiej jest często wypróbować niektóre wartości i zobaczyć, która jest najbardziej skuteczna. Algorytmy uczenia się przez wzmacnianie czasami podejmują przypadkowe działania, ponieważ opierają się na przeszłych doświadczeniach. Zawsze wybieranie przewidywanej najlepszej opcji może oznaczać utratę lepszego wyboru, którego nigdy wcześniej nie próbowano.

Wątpiłem, czy ten algorytm naprawdę poprawi moje życie. Ale ramy optymalizacji, poparte dowodami matematycznymi, recenzowanymi artykułami i miliardowymi przychodami z Doliny Krzemowej, miały dla mnie ogromny sens. Jak dokładnie miałoby się to rozpaść w praktyce?

08:30

Pierwsza decyzja? Czy wstać o 8:30 tak jak planowałem. Wyłączyłem budzik, otworzyłem RNG i wstrzymałem oddech, gdy zakręciło się i wypluło… 9!

A teraz najważniejsze pytanie: czy w przeszłości spanie lub wstawanie o czasie dawało mi lepsze wyniki? Moja intuicja krzyczała, że ​​powinienem pominąć wszelkie rozumowanie i po prostu się przespać, ale ze względu na uczciwość starałem się to zignorować i podsumować mgliste wspomnienia porannych drzemek. Radość z pozostania w łóżku był większy niż niespieszny weekendowy poranek, zdecydowałem, o ile nie przegapię niczego ważnego.

09:00

Rano miałem spotkanie w ramach projektu grupowego i trochę czytania uczenia maszynowego, zanim się zaczęło („Bayesian Deep Learning via Subnetwork Inference”, ktoś?), więc nie mogłem długo spać. RNG poinstruował mnie, abym zdecydował na podstawie wcześniejszych doświadczeń, czy opuścić spotkanie; Zdecydowałem się wziąć udział. Aby zdecydować, czy czytać, rzuciłem ponownie i wypadło 5, co oznaczało, że wybrałbym losowo między przeczytaniem a pominięciem.

To była taka mała decyzja, ale byłem zaskakująco zdenerwowany, przygotowując się do wyrzucenia kolejnej losowej liczby na moim telefonie. Gdybym dostał 50 lub mniej, pominąłem czytanie, aby uhonorować komponent „eksploracji” algorytmu podejmowania decyzji, ale tak naprawdę nie chciałem. Najwyraźniej unikanie czytania jest zabawne tylko wtedy, gdy robisz to celowo.

Nacisnąłem przycisk GENERUJ.

65. Mimo wszystko przeczytałbym.

11:15 rano

Napisałem listę opcji, jak spędzić wolny czas, przed którym teraz stanąłem. Mogłem pójść do odległej kawiarni, którą chciałem wypróbować, zadzwonić do domu, zacząć odrabiać lekcje, przejrzeć programy doktoranckie, do których można się zgłosić, wejść do nieistotnej króliczej nory internetowej lub zdrzemnąć się. Duża liczba wyszła z RNG — musiałbym podjąć decyzję opartą na danych, co robić.

To była pierwsza decyzja tego dnia bardziej skomplikowana niż Tak Lub NIE, i w chwili, gdy zacząłem się zastanawiać, jak „preferowana” jest każda opcja, stało się jasne, że nie mam sposobu na dokładne oszacowanie. Kiedy agent sztucznej inteligencji postępując zgodnie z algorytmem takim jak mój, podejmuje decyzje, informatycy już mu powiedzieli, co kwalifikuje się jako „preferowane”. Przekładają to, czego agent doświadcza, na wynik nagrody, którą sztuczna inteligencja próbuje następnie zmaksymalizować, na przykład „czas spędzony w grze wideo” lub „pieniądze zarobione na giełdzie”. Funkcje nagrody mogą być jednak trudne do zdefiniowania. Klasycznym przykładem jest inteligentny robot sprzątający. Jeśli poinstruujesz robota, aby po prostu maksymalizował ilość wyrzucanych śmieci, może nauczyć się przewracać kosz na śmieci i ponownie wkładać te same śmieci, aby zwiększyć swój wynik.

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj