Информационный поиск. Экзамен
=============================

1. Дан набор документов:
D1 = "this is a yellow banana"
D2 = "banana grows on tree"
D3 = "lemon tree is yellow"
Составьте терм-документную матрицу для этого набора документов,
используя бинарную локальную и бинарную глобальную весовую функции. (17)

2. Составьте терм-документную матрицу для набора документов из п.1,
используя вес по tf-idf. (17)

3. Найдите сингулярное разложение терм-документной матрицы из задания 1 или 2. (17)

4. Найдите сингулярное разложение матрицы (17)
|| 1 3 5 0 1 ||
|| 2 4 4 2 3 ||
|| 3 5 3 4 5 ||

5. Предположим, что весь Интернет состоит из сильно связной компоненты
(множества всех узлов со всеми возможными дугами из одного в другое),
состоящей из n узлов, и одного дополнительного узла, на который ссылается
каждый из n узлов сильно связной компоненты (сам этот узел не ссылается никуда,
даже на себя). Определите PageRank каждой страницы как функцию n и beta. (17)

6. Даны две скрытые марковские модели H0 и H1 и последовательность наблюдений:
0 1 0 1 0 1 0 1.
Вычислите вероятности этой последовательности для каждой из данных
скрытых марковских моделей. Какая из скрытых марковских моделей более правдоподобна для
данной последовательности налюдений? (17)

H0:                          H1:                    
Скрытые состояния: A, B      Скрытые состояния: A, B
Наблюдаемые: 0, 1            Наблюдаемые: 0, 1, 2   
Вероятности:                 Вероятности:           
p(A|A) = 0.8                 p(A|A) = 0.5           
p(A|B) = 0.8                 p(A|B) = 0.5           
p(B|A) = 0.2                 p(B|A) = 0.5           
p(B|B) = 0.2                 p(B|B) = 0.5           
q(0|A) = 0.8                 q(0|A) = 0.8           
q(0|B) = 0.2                 q(0|B) = 0             
q(1|A) = 0.2                 q(1|A) = 0.2           
q(1|B) = 0.8                 q(1|B) = 0.6           
                             q(2|A) = 0             
                             q(2|B) = 0.4           

Задания можно выполнять как вручную, так и используя любые программные средства.
Вернуться