Pesquisadores da Universidade de San Diego conduziram o que eles dizem ser o teste de Turing mais rigoroso dos modelos de IA até o momento e descobriram que era quase impossível para os participantes notabilizar os seres humanos dos modelos de IA em conversas curtas.
Introduzido em um cláusula de 1950 computando o pioneiro Alan Turing, o “Teste de Turing” ou o que ele chamou de “jogo de imitação” é um teste clássico de perceptibilidade de máquinas na qual um juiz interage com um humano e uma IA ou máquina e tenta estimar qual é o humano.
“Turing abre o cláusula com a pergunta: ‘As máquinas podem pensar?’ E logo ele diz que essa é uma pergunta sem resposta, vamos nos concentrar em uma pergunta mais fácil, uma pergunta prática ”, diz Cameron Jones, um pós -doutorado no laboratório de idiomas e cognição da UC San Diego. Jones acrescenta, Turing continua sugerindo: “que, se uma máquina pode imitar um humano em qualquer tópico, se pode produzir comportamentos indistinguíveis de um humano, não devemos ter motivos para expor que o ser humano é inteligente, mas a máquina não é”.
Embora Jones observe que há qualquer debate sobre o quão sério a Turing foi, o teste se tornou uma referência comumente citada da perceptibilidade da máquina.
GPT-4.5 e o teste de Turing
Para seu estudo, Jones e colegas realizaram duas experiências separadas. Primeiro, eles recrutaram 126 participantes de graduação por meio do Programa de Psicologia da UC San Diego. Eles também recrutaram 158 participantes pagos de uma plataforma de estudo de estudo chamada Prolific.
Nesses experimentos, Jones e seus colaboradores testaram vários modelos de IA. A pesquisa descobriu que “quando solicitado a adotar uma persona humana, GPT-4.5 foi considerado o humano 73% das vezes: significativamente mais frequentemente do que os interrogadores selecionavam o verdadeiro participante humano. ”
Oferecido o mesmo aviso, o LLAMA-3.1 foi considerado humano 56% das vezes, aproximadamente o mesmo que os humanos com os quais foram comparados. Enquanto isso, pensava-se que o GPT-4O era humano somente 21% das vezes.
Os resultados desses dois experimentos foram publicados uma vez que um Estudo de pré -impressãologo ainda não foram revisados por pares. No entanto, Jones acredita que o que sua pesquisa encontrou tem várias implicações para os educadores sobre a maneira uma vez que ensinamos, testamos e preparamos os alunos para a força de trabalho.
Resultados dos testes de Turing e instrução
“A idéia por trás do teste de Turing é esse tipo de idéia de indistinguibilidade. E, portanto, se os modelos podem produzir comportamentos indistinguíveis do comportamento humano, dizemos que os modelos são tão inteligentes quanto as pessoas”, diz Jones. “Se as pessoas não sabem expor a diferença entre um humano e uma máquina, não está simples que o humano terá qualquer valor marginal nessa tarefa. Portanto eu acho que isso deve ser uma grande preocupação na instrução: tentando pensar sobre quais são os tipos de atividades que terão uma vantagem comparativa para os seres humanos no horizonte. ”
Ele acrescenta: “Uma coisa que nossos resultados sugerem é que os modelos talvez já tenham chegado a esse estágio para conversas curtas com estranhos, e pode possuir muitos trabalhos que tenham esse componente para eles”.
O que exatamente esses empregos à prova de A são ainda é uma “questão de um milhão de dólares”. Em termos gerais, no entanto, Jones diz que os modelos de IA ainda lutam com coisas uma vez que alucinações. A maioria também tem uma tendência a falhar em seus “empregos”, por razões inexplicáveis, e que mesmo uma taxa de omissão de 5% pode ser um grande problema em certos papéis.
Os modelos mais significativamente de IA tendem a falhar no “Planejamento do Horizonte Longo e Uso do Contexto”, diz ele. “Um funcionário que está na empresa há três anos acabou de comprar muito conhecimento implícito sobre onde as coisas estão e por que as coisas são feitas da maneira que elas são feitas”.
Ele acrescenta: “Manufatura e manutenção de uma janela de contexto para incluir todas essas informações para um LLM pode ser muito provocador. Isso significa que as tarefas que levam uma pessoa por mais tempo do que algumas horas geralmente são complexas demais para os modelos, porque eles não têm contexto suficiente ou seus erros compostos, ou sua janela de contexto fica muito inchada”.
Portanto, até que os programas de IA obtenham memória de longo prazo e/ou conhecimento institucional e possam integrar tudo isso consistentemente em tarefas, os humanos ainda serão necessários.
Avaliações daqui para frente
A incapacidade de notabilizar entre criações humanas e de máquinas nas tarefas da escola já é um problema com o qual muitos professores estão familiarizados e lutando. A pesquisa de Jones destaca que esse risco de trapaça é real. Ou por outra, levanta questões sobre uma vez que avaliamos os alunos.
Nesse sentido, Jones diz que os educadores precisarão debutar a se fazer perguntas uma vez que: “Para que é a avaliação? O que você está tentando aprender se você está avaliando as pessoas sobre coisas que você não pode notabilizar entre humanos e modelos?”
Essas são perguntas com as quais os educadores estão enfrentando e debatendo desde que o ChatGPT foi lançado, mas esse tipo de pesquisa destaca a urgência de resolvê -los à medida que a IA continua a melhorar.