네트워크 정보 검색의 현황과 발전
네트워크 정보 검색 현황 및 개발
1990 년 이전에는 인터넷 정보 검색의 현황과 발전 중 누구도 인터넷에서 정보를 검색할 수 없었다. 모든 네트워크 정보 검색 도구는 1990 년 Alan Emtage 등이 발명한 Archie 에서 시작되었다고 말해야 한다. 비록 당시에는 단순한 의미의 FTP 파일 검색만 할 수 있었다. WorldWide 웹이 등장하고 발전함에 따라 웹 기반 정보 검색 도구가 등장하여 빠르게 발전하고 있습니다. 1995 년 인터넷 정보 검색 도구 자체를 기반으로 한 검색 도구인 메타 검색 엔진은 미국 워싱턴 대학의 에릭 셀버그 등이 발명했다. 네트워크 기술의 발전과 함께 네트워크 정보 검색 도구도 완전히 발전했습니다. 그렇다면 이러한 검색 도구의 현황과 발전 추세는 어떻습니까? 이 글은 시험 삼아 토론할 것이다.
1. 웹 기반 네트워크 정보 검색 도구의 현황과 발전 추세
1.1 현상. 홈페이지는 인터넷의 가장 중요한 구성 요소이자 사람들이 인터넷 정보를 얻는 가장 중요한 원천이며, 사람들이 대량의 잡다한 웹 페이지에서 자신이 필요로 하는 정보를 쉽게 찾을 수 있도록 이런 검색 도구가 가장 빠르게 발전하고 있다. 일반적으로 웹 기반 정보 검색 도구에는 주로 웹 검색 엔진과 네트워크 분류 디렉토리가 있습니다. 웹 검색 엔진은' 웹 거미' 와 같은 웹 페이지 자동 검색 소프트웨어를 통해 웹 페이지를 검색한 다음 웹 페이지의 일부 또는 모든 문자를 자동으로 인덱스화하여 대상 요약 형식 파일과 네트워크에서 액세스할 수 있는 데이터베이스를 형성하여 사람들이 네트워크 정보를 검색할 수 있도록 하는 검색 도구입니다. 네트워크 디렉토리는 검색 엔진과 완전히 다릅니다. 전체 네트워크의 모든 웹 사이트의 모든 페이지를 넣는 대신 전문가가 신중하게 웹 사이트의 홈 페이지를 선택하여 해당 범주에 넣습니다. 네트워크 디렉토리의 정보량은 검색 엔진보다 훨씬 적고, 게다가 서로 다른 네트워크 디렉토리 분류 기준이 다소 혼란스럽고, 사람들이 사용하기 불편하기 때문에, 색인 품질이 비교적 높지만, 그것을 이용하는 사람은 검색 엔진을 이용하는 사람보다 훨씬 적다.
그러나 네트워크 정보의 복잡성과 네트워크 검색 기술의 제한으로 인해 이러한 검색 도구에도 뚜렷한 결함이 있습니다. (1) 홈페이지 수가 급격히 늘어남에 따라 수동으로는 효과적으로 분류, 색인 및 이용할 수 없다. 인터넷 사용자들은 엄청난 수의 조직되지 않은 정보, 간단한 키워드 검색, 반환된 정보의 양이 많아 사용자가 감당할 수 없다. (2) 정보 유용성 평가의 어려움. 일부 사이트는 웹 페이지에서 특정 키워드를 대량으로 반복하기 때문에 일부 유명한 검색 엔진에서 쉽게 선택하여 사이트의 지위를 높일 수 있지만, 실제로는 사용자에게 가치 있는 정보를 제공하지 못할 수도 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 웹 페이지, 웹 페이지, 웹 페이지, 웹 페이지) (3) 인터넷 정보가 나날이 새로워지면서 사람들은 항상 최신 정보를 골라 낼 것을 기대한다. 그러나 인터넷 정보가 시시각각 바뀌면서 실시간 검색은 거의 불가능합니다. 방금 방문한 웹 페이지도 언제든지 업데이트, 만료, 삭제가 가능합니다.
1.2 발전 추세. 네트워크 정보 검색 도구의 개발은 주로 검색 서비스 품질을 향상시키고 네트워크 정보 검색이 만족스럽지 못한 부분을 변경하기 위해 검색 도구 및 검색 기술을 더욱 개선하고 개선하는 데 반영됩니다. 주로 다음과 같은 측면에 반영됩니다.
1.21 네트워크 검색 도구 개발 공급업체 간의 협력이 점점 더 긴밀해지고 있습니다. 과거에는 일반 네트워크 검색 도구 공급자가 자신이 설정한 데이터베이스에만 의존하여 검색 서비스를 제공했습니다. 검색 범위가 제한되어 있습니다. 현재 일부 유명한 검색 엔진은 다른 회사의 데이터베이스나 기술 커널을 구입하고 있으며, 일부는 사용자가 사용할 수 있도록 다른 검색 엔진과 파트너십을 맺고 있습니다. 예를 들어 유명한 야후는 현재 구글의 검색 커널을 채택하고 있으며, 인터넷도 구글의 검색 커널 기술을 이용하여 자신의 검색 엔진 데이터베이스를 풍부하게 했다. 실리콘 밸리 파워, 광저우 윈도우, 시나, 소호, Chinaren, 21cn, 263, Tom 등 검색 엔진은 바이두가 융합된 검색 커널 기술 등을 사용한다.
1.22 정보 검색 도구 전문화 및 서비스 내용 심화
일부 검색 도구는 더 이상 맹목적으로 수록과 색인량을 늘리는 대신 전문적인 특징을 강조하는 데 더 많은 관심을 기울이고 있습니다. Lycos 검색 엔진 카탈로그에서 비즈니스 검색 엔진, IT 검색 엔진, 인재 검색 엔진, 금융 검색 엔진, 의료 검색 엔진 등 전문화된 네트워크 정보 검색이 잇따르고 있으며, 정보 검색 도구의 전문화는 이미 돌이킬 수 없는 추세가 되고 있습니다. 정보 검색 서비스 제공 업체는 서비스를 더욱 심화시킵니다. 구글은 웹 페이지 인용 조회 서비스를 출시하여 자신이 조회하고자 하는 자료가 다른 웹 사이트에 의해 참조되는 상황을 볼 수 있도록 하여 사용자가 웹 페이지 정보의 품질을 더 잘 파악할 수 있도록 합니다. 2003 년 8 월, 제 3 세대 중국어 검색 엔진인 혜총이 등장해' 광범위한 지역 검색',' 강력한 산업 검색',' 완벽한 MP3, 플래시 검색' 의 다양한 검색 기능을 하나로 통합했으며' 콘텐츠에 대한 관련성 조회' 와' 중국어 특성에 맞는 모호한 조회' 를 개발했다.
1.23 네트워크 정보 도구 지능화의 발전 추세: (1) 정보 검색 도구의 지능화는 우선 인터넷 거미의 지능화다. 인터넷 정보의 동적 교체에 대해 인터넷 거미는 계발적 학습을 통해 가장 효과적인 검색 전략을 채택하여 인터넷에서 자동으로 수집하고 정리한 정보를 얻을 수 있는 가장 좋은 시기를 선택합니다. 인터넷 거미는 인터넷 어느 곳에서나 일할 수 있고, 가능한 한 정보를 발굴하고 얻을 수 있다. 인터넷 거미는 웹 추적 모니터링 기능도 갖추고 있어, 웹 페이지가 업데이트, 삭제 등의 상황이 발생하면 제때에 데이터베이스에서 업데이트해야 한다. 웹 거미는 여러 플랫폼에서 작업하고 다양한 혼합 문서 구조를 처리할 수 있는 기능을 갖추고 있습니다. (2) 둘째, 검색 소프트웨어의 지능. 지금은 주로 스마트 검색 엔진, 스마트 브라우저, 스마트 에이전트가 있습니다. 이러한 네트워크 검색 도구는 자연어 형식에 기반한 입력을 개발하는 데 매우 중점을 두고 있으며, 검색자는 자신의 검색질문과 익숙한 구, 구, 문장 등 자연어로 입력할 수 있으며, 지능적인 검색 소프트웨어는 자동으로 분석하고 검색 전략을 형성하여 검색할 수 있습니다. 예를 들어, 현재의 바이두 검색은 키워드를 입력한 후 원하는 결과를 찾을 때까지 비슷한 키워드를 계속 제공할 수 있다. (윌리엄 셰익스피어, 햄릿, 검색명언) 구글은 기계 번역 기술을 사용하여 한 자연어를 다른 자연어로 변환함으로써 사용자가 모국어로 모국어가 아닌 웹 페이지를 검색하고 모국어로 검색 결과를 탐색할 수 있도록 합니다. 유레카, 질문, 외국의 ASK Jeeves 는 의미 기술과 검색 기술의 결합을 통해 검색어에 대한 의미 계층 이해를 실현하여 사용자에게 가장 정확한 검색 서비스를 제공합니다.
2. FTP 파일 기반 검색 도구.
2.1 현황. 앞서 언급했듯이 검색 엔진의 프로토타입과 가장 오래된 검색 엔진은 FTP 파일을 기반으로 검색됩니다. 가장 초기의 FTP 검색 엔진은 텍스트 기반 아키입니다. 이후 웹의 출현으로 FTP 검색 엔진 발전에 어느 정도 영향을 받았다. 웹 기반 FTP 검색 엔진이 등장하기 전까지는 점점 더 많은 사람들이 환영받고 있고, 이용자 수도 급속히 증가하고 있으며, 중요성도 나날이 드러나고 있다. (윌리엄 셰익스피어, 스튜어트, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어) FTP 검색 엔진의 기능은 익명 FTP 서버가 제공하는 디렉토리 목록을 수집하고 사용자에게 파일 정보를 제공하는 쿼리 서비스입니다. 현재 국내에서 가장 크고 규모가 큰 것은 스카이넷 FTP 파일 검색 엔진이며, 현재 2400 만 개의 파일 (데이터는 스카이넷 홈페이지에서 유래) 을 검색할 수 있으며, 2002 년 통계일 방문량은 40 만 회로 세계 FTP 검색 엔진계에서도 선두주자로 꼽힌다. 또 국내에는 청화 9# 검색 엔진, 서안 교대 사원 검색, 화남 목면 검색 엔진, 인터넷 나침반, 중과대천늑대 검색 엔진, 난징 이공의' 일망 타진' 검색 엔진 등이 있다. 외국에는 Philes.com, AlltheWeb.com, Filese 등이 있다.
최근 몇 년 동안 FTP 검색 엔진 기술은 빠르게 발전했지만, WWW 검색 엔진에 비해 FTP 검색 엔진은 많지 않고 기술적으로 아직 성숙하지 않았으며 개선해야 할 점이 많습니다. (1)FTP 검색 엔진의 수가 아직 적고 검색 엔진의 규모와 품질은 유지 관리하는 정보의 양에 따라 달라집니다. 세계 익명 FTP 서비스가 제공하는 문서 항목은 이미 수억 개로 집계됐다. 현재 가장 규모가 큰 Philes.com 에서도 진화 이효명은 2002 년 7 월 통계로 209,698,206 개에 불과하다. (2) 검색 기능이 아직 완벽하지 않습니다. 검색 기능은 검색 엔진의 가장 중요한 부분이며, 많은 검색 엔진이 "and" 및 "or" 와 같은 간단한 부울 검색을 지원하지 않아 데이터베이스의 파일을 검색할 수 없습니다. (3)FTP 서버 자체의 특성에 따라 FTP 검색 엔진의 약점이 결정됩니다. 즉, FTP 서버의 개방 시간, IP 주소 제한, 로그인 제한 사용자 수, 서버마다 설정된 조인 포트 번호 등이 다르기 때문에 검색 결과 중 일부는 액세스할 수 없는 것으로 결정되어 사용자 만족도가 크게 떨어집니다.
2.2 발전 추세. 앞서 언급했듯이 FTP 파일 검색 엔진 기술은 아직 성숙하지는 않지만 빠르게 성장하고 있으며 (1) 검색 기능이 점점 더 풍부해지고 있습니다. 스카이넷 FTP 파일 검색 엔진은 이제 파일 크기, 파일 업로드 날짜, 네트워크 세그먼트 (예: 화북망, 화동망 등) 등의 여러 조건에 대한 고급 검색으로 검색 결과를 제한할 수 있습니다. AlltheWeb.com 은 검색 방법 (규칙 표현 검색, 정확한 검색, 찾아보기, 대/소문자를 구분하는지 여부 등), 호스트 제한 (edu, gov, com 등), 파일 유형, 파일 크기, 날짜 등의 기능을 추가합니다. (2) 검색 서비스의 개인화. 현재 FTP 검색 엔진 연구자들은 이미 이에 주목하기 시작했다. 스카이넷 FTP 검색 엔진에는 이미 개인화할 수 있는 옵션이 많다. 사용자가 다른 선호하는 정렬 방법을 설정할 수 있고, 외국 파일 우선 순위를 설정할 수도 있고, 자국 파일 우선 순위를 설정할 수도 있고, 외국 사용자가 외국 파일 우선 순위를 가져야 하는지, FTP 의 파일 우선 순위인지, WWW 의 파일 우선 순위인지, 중국어 또는 영어 등을 선택할 수 있다. AlltheWeb.com 은 보다 풍부한 개인 설정을 할 수 있습니다. 예를 들어 호스트를 선택하여 결과 제공, 언어 설정, 검색한 파일 크기 설정, 검색 키워드 표시 여부, 사용자 언어 설정, 키보드 바로 가기 등을 제공할 수 있습니다.
3. 인터넷 검색 도구를 기반으로 한 검색 기술의 현황과 발전 추세.
3.1 온라인 정보 자원의 확장과 함께 검색 엔진은 아무리 완벽해도 한 사람의 모든 검색 요구를 충족시킬 수 없다. 문헌 조사, 주제 조회, 뉴스 조사 및 추적, 소프트웨어 및 MP3 다운로드 주소 검색 등의 상황이 발생하면 다양한 검색 엔진을 사용하여 비교, 필터링 및 상호 증명할 필요가 있습니다. 각 검색 엔진에 하나씩 로그인하기 위해 각 검색 엔진에 동일한 검색 요청 (검색 문자열) 과 같은 번거로운 작업을 여러 번 입력하여 웹 검색 도구를 기반으로 하는 검색 도구가 만들어졌습니다.
현재 이 검색 도구에는 통합 검색 엔진과 메타 검색 엔진의 두 가지 유형이 있습니다. 통합 검색 엔진이란 하나의 검색 인터페이스에서 여러 개의 독립적인 검색 엔진을 연결하는 것입니다. 검색 시 한 번에 입력을 검색할 수 있습니다. 검색 엔진을 지정할 수도 있고 여러 엔진을 동시에 검색해야 할 수도 있습니다. 검색 결과는 각 검색 엔진이 각각 다른 페이지로 제출하는 네트워크 검색 도구입니다. 실제로 웹 사이트 링크 기술을 이용하여 형성된 검색 엔진 모음입니다. 통합 검색 엔진 제작 및 유지 관리 기술은 간단합니다. 연결된 검색 엔진을 언제든지 추가, 삭제 및 업데이트할 수 있습니다. 특히 FLASH, MP3 등과 같은 대규모 전문 검색 엔진 통합 링크는 특정 사용자 커뮤니티에서 인기가 있습니다.
국내 스카이넷 수색패와 바이두 수색패와 같은 외국은' 수색의 집' (/),' 인터넷 스위스 군도' (,야후! , Infoseek, Lycos 등 일반적으로 사용되는 검색 엔진, NorthernLight, HotBot 등과 같은 일부 대형 검색 엔진은 제외되어 검색 자원의 이용을 인위적으로 제한하고 있습니다. (5) 검색 결과에서 메타 검색 엔진은 10 개, 수십 개의 "관련성" 이 높은 결과만 반환할 수 있으며, 잠재적으로 가치가 있을 수 있는 많은 소스 검색 엔진의 검색 결과는 무시되어 검색 결과의 포괄성에 영향을 줍니다.
3.2 발전 추세. 이러한 검색 도구의 발전 추세는 주로 (1) 검색 결과 정리의 심화라는 측면에서 나타난다. Vivisimo, EZ2WWW, MetaCrawler 등과 같은 검색 결과를 자동으로 분류하여 사용자가 기존 방식으로 결과를 탐색하거나 동일한 화면의 분류 결과 힌트를 사용하여 원하는 내용을 찾을 수 있습니다. EZ2WWW 고급 검색 기능은 카탈로그 검색을 위한 1000 개 이상의 임시 리소스 검색을 제공합니다. SurfWax 에는 다른 메타 검색 엔진에서 볼 수 없는 고유한 기능이 있습니다. 즉, 각 결과의 왼쪽에 있는 "웹 주소 버튼" 아이콘을 클릭하여 결과에 포함된 모든 페이지를 찾아보고 파일에서 검색문의 위치를 표시하거나 나중에 사용할 수 있도록 검색 결과와 파일을 저장할 수 있습니다. 스카이넷 수색패는 이미 몇 초 안에 현재 페이지 쿼리 결과에 액세스할 수 있는지 확인하는 고유한 링크 감지 기능을 갖추고 있으며, 녹색으로 표시된 경우 링크가 연결됩니다 (현재 페이지 내에서 HTTP://및 FTP://로 시작하는 링크만 감지) (2) 인터페이스의 개인화된 추세를 검색합니다. 스카이넷 수색패와 구글은 IE 브라우저의 플러그인을 제공합니다. 설치 후 IE 의 도구 모음에 내장되므로 사용자는 스카이넷의 홈페이지에 로그인하지 않고도 검색할 수 있습니다. 사용자가 좋아하는 검색 엔진을 기본 검색으로 설정하거나 사용자가 좋아하는 검색 엔진을 추가할 수 있습니다. 스카이넷 수색패는 얼마 전 Windows 시스템 작업 표시줄에 내장할 수 있는 플러그인을 출시했는데, 이제 사용자는 IE 브라우저를 열 필요도 없다. Mamma 는 구문 검색 기능 사용, 검색 시간 설정, 페이지당 표시할 수 있는 레코드 수 설정, 페이지 파일 제목을 특별히 검색하는 특수 검색 서비스, 전자 메일을 통한 검색 결과 전송 등의 기능을 선택할 수 있습니다. MetaCrawler 는 검색 엔진 선택 호출, 도메인 이름, 지역 또는 국가를 기준으로 검색 결과 필터링, 최대 검색 시간 설정, 페이지당 표시 및 검색 엔진당 반환되는 검색 결과 수 허용 설정, 검색 결과 정렬 기준 (상관 관계, 도메인 이름, 소스 검색 엔진 포함) 을 설정하여 저장을 사용자 정의할 수 있습니다. (3) 지능화. ProFusion 은 Excite, InfoSeek, WebCrawler 를 호출할 때' NEAR' 를' AND' 로 변환하고 GoTo, Yahoo 를 호출할 때' NOT' 과 같은 특수 검색 구문 요구 사항을 충족하는 변환을 자동화합니다. Mamma 는 또한 다른 검색 엔진에서 공통 검색 구문의 변환을 지원합니다. C4 는 자연어 검색을 지원할 수 있지만 자체 데이터베이스는 없지만 온라인 검색 결과를 제공합니다.