이 글은 최근 가장 실용적인 ChatGPT 신규 기능 몇 가지를 하나씩 풀어 설명한다: 더 자연스러운 음성 대화부터 데스크톱 협업, 그리고 채팅 검색과 메모리(기억) 제어까지. 사용법을 새로 바꿀 필요는 없고, 진입 경로와 제한만 정확히 알면 시간을 확실히 아낄 수 있다.
1. GPT-4o가 가져온 “하나의 입력·출력” 경험
이제 ChatGPT는 멀티모달 통합을 더 강조한다: 텍스트, 이미지, 음성을 한 대화 안에서 매끄럽게 섞어 쓸 수 있다. 실제로는 스크린샷 한 장을 보내고 음성으로 한마디 설명을 덧붙이면, ChatGPT가 둘을 같은 작업으로 이해해 주며, 사용자가 다시 ‘순수 텍스트’로 옮겨 적어가며 “번역”할 필요가 없다.
자료 정리, 도표 확인, 문구 수정 등을 자주 한다면, 여러 도구를 따로 여는 것보다 이런 통합형 워크플로가 더 매끄럽다. 사용할 때는 요구를 분명히 하자: “설명”이 필요한지, “핵심 요점 추출”인지, “복사 가능한 결론 생성”인지 말하면 출력이 더 안정적이다.
2. 고급 음성: 끼어들 수 있고, 응답이 더 빠르며, 더 대화 같다
ChatGPT의 음성 모드는 더 이상 단순히 “음성을 텍스트로 바꾼 뒤 답하는” 방식이 아니다. 핵심은 대화의 리듬이 더 자연스러워졌다는 점이다. ChatGPT가 말하는 도중에도 끼어들어 방향을 바로잡을 수 있어, “끝까지 듣고 다시 처음부터” 하는 낭비를 줄일 수 있다.
ChatGPT 음성을 더 잘 쓰려면 짧은 문장으로 끊어 질문하는 것을 권한다. 예를 들어 “먼저 요약하고, 그다음 내게 세 가지 조언을 줘”처럼. 시끄러운 환경에서는 반복 재연결보다, 시스템 마이크 권한과 입력 장치가 제대로 선택됐는지 먼저 확인하는 편이 더 효과적이다.
3. 데스크톱 앱: 스크린샷, 파일, 그리고 지금 하는 일을 연결하기
데스크톱용 ChatGPT는 “하면서 바로 묻기”에 더 적합하다. 대표적인 사용 장면은 이메일 일부, 스크린샷, 파일을 대화에 넣고 ChatGPT에게 답장 초안을 쓰게 하거나, 리스크 포인트를 추려내게 하거나, 표의 결론을 명확히 설명하게 하는 것이다.


