오늘날 인터넷은 우리의 삶속에 지대한 영향을 끼치고 있고, 그것의 근간이 되는 웹페이지 역시도 수십억개에 달하고 있습니다. 인터넷을 흔히 정보의 바다라고 비유하지만, 너무 방대한 자료가 있기 때문에 우리가 특정한 자료를 찾는데에 어려움도 마찬가지로 존재합니다. 또한, 우리는 어떤 자료를 얻기 위한 최단거리, 그리고 가장 정확한 내용을 포함하고 있는 웹문서를 찾을 수 있기를 바랍니다. 이러한 기대와 바람들이 모여 만들어 진 것이 아마 검색엔진이라고 할 수 있을겁니다.

 

검색엔진의 가장 기본적인 기능은 사용자가 입력한 키워드에 가장 정확한 정보를 보여주는 것입니다. 항해에 필요한 GPS라고 생각할 수 있겠네요. 하지만 이 기능은 기본적인 만큼 그 정확도를 높이는데에 많은 어려움이 있습니다. 사람이 수십억개의 페이지를 직접 보고 수작업으로 점수를 메길 수 없고, 결국은 특정 알고리즘에 의하여 자동적으로 처리하게 되는데 이럴 경우 높은 정확도를 유지하는것이 어렵기 때문입니다. 해당 키워드를 포함한 페이지를 쭉 보여준다면 정확도의 문제는 한결 덜하겠지만, 여기서 보다 중요한 점은 그 정확도에 순위를 메기는 것입니다. 어느것이 더 정확하고 덜 정확한지를 말입니다.

 

해당 페이지의 정확도를 메기는데에는 여러가지 방법이 있을 수 있겠지만, 크게 분류해보면 두 가지로 나눠볼 수 있습니다. 첫째는 해당 페이지에 담겨있는 내용을 분석하여 정확도를 메기는 방법입니다. 사용자가 '영화 미스트'라는 키워드로 검색을 실시했다면 미스트라는 단어를 중심으로 웹 페이지를 분석해 나가는 것이지요. 또 다른 방법으로는, 해당 페이지가 위치하는 사이트의 랭킹을 메기는 방법입니다. 예컨데 영화 리뷰를 중점적으로 다루는 사이트에서 미스트라는 영화에 대한 게시물이 검색되었다면, 굳이 정확도를 분석하지 않더라도 이 페이지의 정확도는 어느정도 인정받았다고 할 수 있겠지요.

 

물론 그것 하나만으로 해당 페이지의 정확도를 판단하는 것은 무리지만, 여러가지 지표들과 함께 사용된다면 이는 유효한 값을 가질 수 있을겁니다. 바로 그런식으로, 해당 웹 문서의 출처가 어디서 나왔는지, 그리고 이에 대해서 랭킹을 매김으로써 정확도에 반영하는 일련의 방법들이 구글의 '페이지 랭킹'입니다.

 

페이지 랭킹이란 무엇인가?

 

Originally from en.wikipedia; description page is/was here.

Original uploader was Gnix at en.wikipedia

the original image was converted to SVG format by RobertG

 

앞선 단락에서 간략하게나마 페이지 랭크의 개념에 대해서 살펴봤습니다. 앞선 단락에서는 페이지 랭크를 '해당 웹 문서의 출처를 분석한다'고 언급했지만, 사실은 이 보다 더 복잡한 내용이 담겨져 있습니다. 보다 정확하게 페이지 랭크의 개념을 다시한번 정의하자면, '하이퍼 링크 구조를 가지는 문서에 상대적 중요도에 따라 가중치를 부여하는 일련의 방법'이라고 할 수 있습니다.

 

문서의 상대적 중요도를 판단하는 방법은 간단하게만 살펴본다면, 바로 백링크의 수를 계산하는 겁니다. 인터넷이 아니라 논문이나 책과 같은 학술적인 세계로 눈을 돌려보면 왜 그런지 그 이유를 쉽게 이해할 수 있습니다. 우리가 알고 있는 유명한 논문이나 책은 이곳 저곳에서 인용되기 마련입니다. 바로 그러한 인용된 것을 백링크라고 보시면 됩니다. 인용은 어느정도 신뢰할만한 가치가 있는 곳에서 하기 마련이고, 반대로 생각하자면 인용이 많이 된 논문이나 책의 경우에는 그만큼의 신뢰도를 가지고 있다는 뜻으로도 이해할 수 있습니다. 웹에서도 이를 동일하게 적용할 수 있습니다.

 

페이지 랭킹을 메기는 방법은?

 

페이지 랭킹을 보다 구체적으로 정의해보겠습니다. 어떤 웹 페이지 u의 페이지 랭크란, u페이지를 가리키는 페이지의 집합들 중 특정한 하나의 페이지에서 그 페이지의 단순 랭킹을 페이지에서 나가는 링크의 개수로 나눈값을 u페이지를 가리키는 페이지의 집합들의 모든 원소에 대응한 것의 총 합입니다. 다만 이 경우 특정한 페이지 간에서 무한대로 루프가 되는 랭크 싱크가 생겨날 수 있기 때문에 식에 약간의 수정이 가해질 수 있습니다. 어쨌거나 이를 해석하자면 페이지 랭크가 높은 곳에서 백링크를 받는다면 높은 페이지 랭크를 얻게 되고, 페이지 랭크도 낮고, 이곳저곳 링크를 많이 해놓은 사이트에서 백링크는 받으나 마나 소용이 없다는 이야기입니다.

 

또한 페이지 랭크에서는 랜덤 서퍼라는, 페이지를 임의로 방문하며 탐색하는 모델을 가정하고 있습니다. 이 모델에서는 특정한 페이지 u를 방문한 서퍼가 해당 페이지를 보고 만족하여 탐색을 종료하거나, 또는 해당 페이지 u에서 만족하지 못하고 다른페이지를 방문할 수 있을것입니다. 이러한 확률을 \alpha라 했을때, u페이지에서 백링크를 받는 특정 페이지는 해당 페이지의 단순 랭킹에서 \alpha가 곱해진 만큼의 페이지 랭킹을 받게 됩니다. 물론, 여기서 이렇게 자세한 정의를 짚고 넘어갈 필요는 없습니다. 앞선 문단에서 살펴본 내용 정도면 충분합니다.

 

- 페이지 랭킹에 대한 보다 자세한 내용은 http://goo.gl/vL7FR 이곳을 참고해 주시기 바랍니다.

- 본인의 블로그 페이지 랭킹은 http://goo.gl/369zZ 이곳에서 확인해볼 수 있습니다.