Программирование Викиданных/Корпус текстов

Факультет компьютерных технологий
Иконка программы Pywikibot

Программирование Викиданных

Главы (2021):

Алгоритм работы (для авторов):

Названия темы

    Цели работы

    Исследуем корпуса текстов.

    1. Выявить и систематизировать структуры данных (утверждения), связанные с корпусами.
    2. Проанализировать такие объекты. Оценить ситуацию по языкам.

    Объекты исследований

    Рассмотрим объекты следующих типов:

    1. Корпус текстов text corpus (Q461183).
    2. Электронная библиотека digital library (Q212805).
    3. Детские писатели.
    Детские писатели

    Детские писатели - это такие персоны (instance of = human), у которых свойство occupation (P106) включает children's writer (Q4853732).

    Например, Samuil Marshak (Q435584) и Korney Chukovsky (Q347685).

    Задачи:

    1. написать SPARQL-запрос для поиска детских писателей,
    2. найти соответствующие категории (списки) детских писателей,
    3. добавить им утверждение: occupation = children's writer
    4. добавить такие иные свойства этим писателям, которые позволят выполнить интересный и содержательный анализ статей об этих людях.

    I. Поиск утверждений (statements)

    Задача состоит в поиске и выявлении утверждений Викиданных, связанных с описанием корпусов, библиотек.

    Следует просмотреть объекты Викиданных в следующих категориях:

    В корпусах и библиотеках используются утверждения (в дальнейшем заполняем):

    1. instance of (P31) = text corpus (Q461183), 10 результатов на 2017-01
    2. language of work or name (PP407)

    Постановка задачи

    Экземпляры объекта "Корпус текста"

    #added 2017-02
    #List of `instances of` "text corpus" 
    SELECT ?lang ?langLabel
    WHERE
    {
        ?lang wdt:P31 wd:Q461183.
        SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
    }
    

    SPARQL query 11 Results

    👍 Наиболее полными и проработанными корпусами на Викиданных являются: Послания Павла, Тексты Саркофагов

    👎 Почти пустыми и малоинформативными корпусами оказались: American National Corpus, Europarl corpus, Чешский национальный корпус, Письменный корпус татарского языка

    Полнота Викиданных

    По данным монографии [1], изданной в 2014 году, уже тогда существовало как минимум 27 корпусов, 19 из которых англоязычные. Это если мы говорим о рассмотренных в книге корпусах. На самом же деле не исключено, что существует куда больше корпусов, просто не все из них достаточно известны. Что может подтвердить следующий источник http://web-corpora.net, ссылающийся на 16 корпусов, не указанных в ранее упомянутом издании. По данным же категории text corpus проекта Википедии Викиданные существует 11 корпусов. Точнее при поиске корпусов текстов с помощью SPARQL-запроса Викиданные выдают 11 ссылок на статьи о корпусах в Википедии. Не трудно заметить, посетив статью Корпус текстов Русской Википедии, что данная статья ссылается на 2 корпуса НКРЯ и ГИКРЯ, последний из которых НЕ выводится при поиске по Викиданным. Написанное выше говорит о том, что:

    • существуют малоизвестные корпуса, не имеющие статьи в Википедии
    • поиск по Викиданным не даёт полного результата, отражающего действительно существующие объекты и, как следствие, следующий пункт
    • объекты Википедии (статьи) нуждаются в отнесении их к категориям для улучшения поиска по Викиданным


    Экземпляры объекта "Детский писатель"

    #added 2017-02
    #List of `instances of` "children's writer" 
    SELECT ?item ?itemLabel
    WHERE
    {
       #humans only
       ?item wdt:P31 wd:Q5;
       #occupation = children's writer
       wdt:P106/wdt:P279* wd:Q4853732. 
      
       SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
    }
    

    SPARQL query 6862 Results

    👍 Наиболее полными и проработанными корпусами на Викиданных являются:

    👎 Почти пустыми и малоинформативными корпусами оказались:

    Детские русские писатели

    #added 2017-02
    #List of `instances of` "children's writer" 
    SELECT ?item ?itemLabel
    WHERE
    {
       #humans only
       ?item wdt:P31 wd:Q5;
       #occupation = children's writer
       wdt:P106/wdt:P279* wd:Q4853732;
       wdt:P1412 wd:Q7737.
      
       SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
    }
    

    SPARQL query 313 Results

    👍 Наиболее полными и проработанными статьями на Викиданных являются: Лев Толстой, Аркадий Гайдар, Борис Акунин

    👎 Почти пустыми и малоинформативными статьями оказались: Ершов Пётр Павлович, произведение - сказка «Конёк-Горбунок», Антоний Погорельский, произведение - сказка «Чёрная курица, или Подземные жители», Александр Николаевич Афанасьев, произведение - «Русские народные сказки» в 3х томах. Подходит ли так как специализируется на фольклоре?, Саша Чёрный, произведение - ?, Борис Степанович Жидков, произведение - «Метель».


    old vers: 👎 Почти пустыми и малоинформативными корпусами оказались: Полякова Надежда, Носов Игорь, Михаил Жестев

    Детские писатели, умершие более 70 лет назад (до 1947 года) и отсортированные по возрастанию года смерти

    #added 2017-02
    #List of `instances of` "children's writers who died before 1947 year"
    SELECT DISTINCT ?item WHERE
    {
      ?item wdt:P31 wd:Q5 ;
      wdt:P106/wdt:P279* wd:Q4853732 .
      ?item wdt:P570 ?dateofdeath .
      FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
    }
    ORDER BY ASC (?dateofdeath)
    

    SPARQL query 573 Results

    Детские русские писатели, умершие более 70 лет назад

    #added 2017-02
    PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
    
    SELECT ?item WHERE {
      ?item wdt:P31 wd:Q5.
      ?item (wdt:P106/wdt:P279*) wd:Q4853732.
      ?item wdt:P1412 wd:Q7737.
      ?item wdt:P570 ?dateofdeath.
      FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
       
    }
    ORDER BY ?dateofdeath
    

    SPARQL query 49 Results

    #added 2017-10
    PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
    
    SELECT ?item ?itemLabel 
    WHERE {
      ?item wdt:P31 wd:Q5.
      ?item (wdt:P106/wdt:P279*) wd:Q4853732.
      ?item wdt:P1412 wd:Q7737.
      ?item wdt:P570 ?dateofdeath.
      FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
      SERVICE wikibase:label { bd:serviceParam wikibase:language "ru"}    
    }
    
    ORDER BY ?dateofdeath
    

    SPARQL query 49 Results

    👍 Наиболее полными и проработанными статьями на Викиданных являются: Лев Толстой, Аркадий Гайдар, Ершов Пётр Павлович

    👎 Почти пустыми и малоинформативными статьями оказались: Бурнашева Софья Петровна, Альмединген Екатерина Николаевна, Ишимова Александра Осиповна

    Экземпляры объекта "Электронная библиотека"

    #added 2017-02
    #List of `instances of` "text corpus" 
    SELECT ?lang ?langLabel
    WHERE
    {
        ?lang wdt:P31 wd:Q212805.
        SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
    }
    

    SPARQL query 78 Results

    👍 Наиболее полными и проработанными корпусами на Викиданных являются:

    👎 Почти пустыми и малоинформативными корпусами оказались:

    Литература

    Котов А. А., Минеева З. И., Рогов А. А., Седов А. В., Сидоров Ю. В. Лингвистические корпусы. — Петрозаводск: ПетрГУ, 2014. — С. 9-14. — 140 с.

    Примечания

    1. Лингвистические корпусы, 2014, с. 9-14.