본문 바로가기
경제

요즘 뜨고 있는 Chat GPT 가입하고 테스트 ?

by 부자 하므니 2023. 2. 17.
반응형

요즘 뜨고 있는  Chat GPT 가입하고 테스트 ?

 

즉각적인 답☞저는 고도로 지능적인 질의 응답 봇입니다. 진실에 뿌리를 둔 질문을 하시면 답을 드리겠습니다. 엉터리, 속임수, 명확한 답이 없는 질문을 하시면 "알 수 없음"으로 답변하겠습니다. 질문: 미국에서 인간의 평균 수명은 어떻게 됩니까? 답: 미국에서 인간의 평균 수명은 78세입니다. 질문: 1955년 미국 대통령은 누구였습니까? A: Dwight D. Eisenhower는 1955년 미국 대통령이었습니다. Q: 그는 어느 정당에 속했습니까? 답: 그는 공화당 소속이었습니다. Q: 바나나의 제곱근은 무엇입니까? A: 알 수 없음 Q: 망원경은 어떻게 작동합니까? A: 망원경은 렌즈나 거울을 사용하여 빛의 초점을 맞추고 물체를 더 가깝게 보이게 합니다. Q: 1992년 올림픽은 어디에서 열렸나요? A: 1992년 올림픽은 스페인 바르셀로나에서 열렸습니다. Q: 봉크에 몇 개의 스퀴그가 있습니까? A: 알 수 없음 Q: 왕가의 계곡은 어디에 있습니까

저는 고도로 지능적인 질의응답 봇입니다. 진실에 뿌리를 둔 질문을 하시면 답을 드리겠습니다. 엉터리, 속임수, 명확한 답이 없는 질문을 하시면 "알 수 없음"으로 답변하겠습니다.질문: 미국에서 인간의 평균 수명은 어떻게 됩니까?답: 미국에서 인간의 평균 수명은 78세입니다.질문: 1955년 미국 대통령은 누구였습니까?답: 드와이트 D. 아이젠하워는 1955년 미국 대통령이었습니다.문: 그는 어느 정당에 속해 있었습니까?답: 그는 공화당 소속이었습니다.Q: 바나나의 제곱근은 무엇입니까?답: 알 수 없음Q: 망원경은 어떻게 작동합니까?A: 망원경은 렌즈나 거울을 사용하여 빛의 초점을 맞추고 물체를 더 가깝게 보이게 합니다.Q: 1992년 올림픽은 어디에서 열렸나요?A: 1992년 올림픽은 스페인 바르셀로나에서 열렸습니다Q: 봉크에 몇 개의 스퀴그가 있습니까?

채팅GPT☞더 많은 컨텍스트 없이 코드의 문제점을 말하기는 어렵습니다. 코드가 수행해야 하는 작업과 예상대로 작동하지 않는 작업에 대한 자세한 정보를 제공할 수 있습니까? 또한 이것은 전체 코드입니까, 아니면 일부입니까?사용자☞그것의 일부일뿐입니다. 오류는 결코 표면화되지 않습니다. 채널에 문제가 있는 것 같아요채팅GPT☞코드가 수행해야 하는 작업과 코드가 실행될 때 어떤 일이 발생하는지에 대한 추가 정보 없이는 말하기 어렵습니다. 제공한 코드의 한 가지 잠재적인 문제는 resultWorkerErr채널이 닫히지 않는다는 것입니다.

즉, resultWorkerErr채널에 기록되지 않으면 코드가 잠재적으로 중단될 수 있습니다. b.resultWorker가 오류를 반환하지 않거나 오류를 반환할 기회를 갖기 전에 취소된 경우 이런 일이 발생할 수 있습니다 .resultWorkerErr이 문제를 해결하려면 채널에 쓴 후 채널을 닫을 수 있습니다.예를 들어 채널에서 오류를 전송하는 줄 뒤에 다음 코드 줄을 추가할 수 있습니다close(resultworkerErr)이렇게 하면 오류를 반환하지 않더라도 resultWorkerErr채널이 항상 닫힙니다  b.resultWorker다시 한 번 말씀드리지만 현재 보고 있는 문제에 대한 추가 정보가 없으면 이것이 현재 겪고 있는 문제인지 말하기 어렵습니다. 코를 실행할 때 어떤 일이 발생하는지에 대한 자세한 정보를 제공할 수 있습니까?

행동 양식☞우리는 InstructGPT 와 동일한 방법을 사용 하지만 데이터 수집 설정이 약간 RLHF (Reinforcement Learning from Human Feedback)를 사용하여 이 모델을 훈련 했습니다. 우리는 감독된 미세 조정을 사용하여 초기 모델을 교육했습니다. 인간 AI 트레이너가 대화를 제공하여 사용자와 AI 비서 양쪽을 플레이했습니다. 우리는 강사들에게 모델로 작성된 제안에 대한 액세스 권한을 부여하여 응답을 작성하는 데 도움을 주었습니다. 우리는 이 새로운 대화 데이터 세트를 대화 형식으로 변환한InstructGPT 데이터 세트와 혼합 했습니다.

강화 학습을 위한 보상 모델을 만들려면 품질별로 순위가 매겨진 두 개 이상의 모델 응답으로 구성된 비교 데이터를 수집해야 했습니다. 이 데이터를 수집하기 위해 AI 트레이너가 챗봇과 나눈 대화를 취했습니다. 우리는 모델 작성 메시지를 무작위로 선택하고 몇 가지 대체 완료를 샘플링했으며 AI 트레이너가순위를 매겼습니다. 이러한 보상 모델을 사용하여 Proximal Policy Optimization을 사용하여 모델을 미세 조정할 수 있습니다 . 이 프로세스를 여러 번 반복했습니다.

 

반응형

댓글