Anthropic odhaľuje vnútorné procesy modelu Claude

Nové štúdie Anthropic odhaľujú vnútorné procesy Claude 3.5 Haiku pomocou ‚AI mikroskopu‘. Ukazujú, ako Claude plánuje slová dopredu, myslí v jazykovo nezávislom koncepčnom priestore a niekedy vytvára presvedčivé, no nesprávne odôvodnenia.

https://www.anthropic.com/research/tracing-thoughts-language-model