Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...

 
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
Herausforderungen und Lösungen für
 die europäische Sprachtechnologie-
     Forschung und -Entwicklung
                    Dr. Georg Rehm
                        DFKI GmbH
                    georg.rehm@dfki.de

   Research Fellow-Präsentation – Berlin, 30. Oktober 2018
                         14. Juli 2017
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
1. Herausforderung
          Das mehrsprachige Europa:
Sprachtechnologien für alle europäischen Sprachen?
               2. Herausforderung
      Online-Desinformationskampagnen:
 Technische Lösungsansätze gegen „Fake News“?
               3. Herausforderung
                Digitaler Content:
Technologien für die effiziente Content-Kuratierung?
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
• Mehrsprachigkeit ist der Kern der europäischen Idee
• 24 EU Sprachen – alle besitzen den gleichen Status
• Dutzende von regionalen und Minderheitensprachen
  sowie Sprachen von Migranten und Handelspartnern
• Viele ökonomische, gesellschaftliche und technische
  Herausforderungen:
  – Mehrsprachigkeit für den digitalen Binnenmarkt
  – Technologien für sprachübergreifende sowie auch
    kulturübergreifende Kommunikation
  – Sprachtechnologien gegen den wachsenden
    Nationalismus und für die europäische Identität?
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
veröffentlicht 2013   31 Bände, veröffentlicht 2012

 60 Forschungszentren in 34 Ländern.
 Vorsitzender: Jan Hajic (CUNI)
 Vizev.: J. van Genabith (DFKI), A. Vasiljevs (Tilde)
 Generalsekretär: Georg Rehm (DFKI)

 Multilingual Europe
 Technology Alliance.
 900+ Mitglieder in
 67 Ländern

  NET     Multilingual Europe Technology Alliance
T4ME (META-NET)                                     CESAR        META-NORD                    METANET4U
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
Cracking the Language Barrier
                                        Coordination, Evaluation and Resources for European MT Research
Coordination and Support Action, H2020-ICT17, 2015–2017, 36 Monate – http://www.cracker-project.eu
                                                       Zusammenführung und Integration von Communitys
 1   DFKI        Deutschland    Georg Rehm
                                                      •         META-NET mit META-SHARE und META
 2   CUNI        Tschechien     Jan Hajic             •         MT Evaulierungsinitiativen (WMT, IWSLT, MT Marathon)
 3   ELDA        Frankreich     Khalid Choukri        •         MT und andere LT-Industrien
 4   FBK         Italien        Marcello Federico     •         Sprachressourcen – META-SHARE, ELRA
 5   ATHENA RC   Griechenland   Stelios Piperidis     •         HT/MT Evaluationswerkzeuge – translate5
                                                     THREE PRIORITY AREAS FOR ACHIEVING THE MULTILINGUAL DIGITAL SINGLE MARKET
                                                      •         Übersetzungsindustrie
 6   UEDIN       UK             Philipp Koehn       1• Nutzeraccessmaschineller
                                                               Multilingual     to all digital goods and services across Europe
                                                                                                           Übersetzung
 7   USFD        UK             Lucia Specia         Customers are six times more likely to buy from sites in their native language.
                                                       Strategic Agenda for the Multilingual Digital Single Market
                                                                                                                                                 English is not the answer

                                                           Likelihood of purchasing
                                                      •         Version     6x more             52% of EU customers do not purchase
                                                                            likely to 0.5 präsentiert beim META-FORUM 2015
                                                                           purchase
                                                      •THREE PRIORITY AREAS FOR ACHIEVINGAdding
                                                                Version                          THE even
                                                                                      0.9 präsentiert        a few languages toDIGITAL
                                                                                                        MULTILINGUAL            an SME’s website
                                                                                                can have a major impact on revenue. beim  SINGLE beyond English
                                                                                                                                                     MARKET
                                                                                                                                                      META-FORUM
                                                                                                                                       Large organizations today 2016
                                                     1• Version                       1.0     präsentiertgoods and servicesbeim                       META-FORUM 2017
                                                                                                         Site in foreign
                                                                                                to increase market share.     Site in buyer’s
                                                                 Multilingual access   to all digital       language                 across Europe
                                                                                                                             native language

                                                     Most EU languages address less than 3% of the market, fundamentally limiting SMEs operating in countries where those
                                                        Customers
                                                     languages          are six times more likely to buy from sites in their native language.
                                                               are spoken.

                                                                                                                                                 English is not the answer

                                                                              Likelihood of purchasing
                                                       Language can be expensive for SMEs
                                                                                      6x more                                     Even do
                                                                                                                52% of EU customers        notsites
                                                                                                                                        when   purchase
                                                                                                                                                    are translated, the vast majority of                        Strategic Research and Innovation Agenda
                                                                                         likely
                                                       Online businesses face around €5,000     to
                                                                                            in up-front costs for each            SMEs cannot respond to support requests or
                                                       new language they translate their purchase
                                                                                             websites into, plusAdding            customer feedback in other languages. Such
                                                                                                                 similar even a few                                                                            Language Technologies for
                                                                                                                                    languages to an SME’s website beyond English
                                                                                                                                  responsiveness is needed to achieve customer
                                                       and marketing costs.
                                                                                                                can have a major impact on revenue. Large organizations today
                                                                                                                                  satisfaction and build brand loyalty.
                                                                                                                                                                                                                  Multilingual Europe
                                                                                                           Site in foreign     Site in buyer’s   to increase market share.
                                                                                                              language        native language
                                                                                                                                                                                                               Towards a Human Language Project

                                                     Lack of language technology support (automatic translation, tools to assist human translators, and multilingual support in
                                                       Most EU languages address less than 3% of the market, fundamentally limiting SMEs operating in countries where those
                                                       languages
                                                     European     are spoken.
                                                               businesses.

                                                                                                                                                                                                                              SRIA Editorial Team
                                                          Language can be expensive for SMEs
                                                                                                              Geo-blocking and language-blocking are  barriers
                                                                                                                                                 Even when sites are to  access
                                                                                                                                                                     translated, the vast majority of                       Version 1.0 – December 2017
                                                         Online businesses face around €5,000 in up-front costs for each                                        SMEs cannot respond to support requests or
                                                       Geo-blocking:
                                                         new language they translate their websites into, plus similar                                      Language-blocking:
                                                                                                                                                                customer feedback in other languages. Such
                                                                                                                                                                responsiveness is needed to achieve customer
                                                            duemarketing
                                                          and   to nationality,
                                                                         costs. location, or residence                                                         languages
                                                                                                                                                                satisfactionthey
                                                                                                                                                                              anddobuild
                                                                                                                                                                                     notbrand
                                                                                                                                                                                         speakloyalty.

                                                           customers
                                                                                                                                however, current online translation is insufficient
                                                       Lack of language technology support (automatic translation, tools to assist human translators, and multilingual support in
                                                                                                                                                               trying to conduct
                                                      European
                                                      Both     businesses. and language-blocking are
                                                            geo-blocking
                                                      daily problems for tens of millions of EU citizens.                                                       common languages
                                                                                                                                                                                                                                                          5
                                                                                                                Geo-blocking and language-blocking are barriers to access
                                                          Geo-blocking:                                                                                      Language-blocking:

                                                                                      due to nationality, location, or residence                                 languages they do not speak
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
META-SHARE

     q      META-SHARE adressiert Technologie- bzw. Infrastrukturbedarfe in
            Bezug auf die
               q Sichtbarkeit
               q Dokumentation
               q Identifizierung
               q Verfügbarkeit
               q Langzeitspeicherung
               q Interoperabilität
             von LRs und LTs
     q      35 META-SHARE-Mitglieder und Organisationen in 25 Ländern
     q      http://www.meta-share.org
Stelios Piperidis, Harris Papageorgiou, Christian Spurk, Georg Rehm, Khalid Choukri, Olivier Hamon, Nicoletta Calzolari, Riccardo del Gratta, Bernardo Magnini, and Christian Girardi.
“META-SHARE: One year after.” In Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios
Piperidis, editors, Proceedings of the 9th Language Resources and Evaluation Conference (LREC 2014), pages 1532-1538, Reykjavik, Iceland, May 2014.

Georg Rehm. “The Language Resource Life Cycle: Towards a Generic Model for Creating, Maintaining, Using and Distributing Language Resources”. In Nicoletta Calzolari (Conference
                                                                                                                                                                                     6
Chair), Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the 10th Language
Resources and Evaluation Conference (LREC 2016), pages 2450-2454, Portorož, Slovenia, May 2016.
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
q   Baskisch              q   Italienisch*    q   Serbisch
q   Bulgarisch*           q   Katalanisch     q   Slowakisch*
q   Deutsch*              q   Kroatisch*      q   Slowenisch*
q   Dänisch*              q   Lettisch*       q   Spanisch*
q   Englisch*             q   Litauisch*      q   Tschechisch*
q   Estnisch*             q   Maltesisch*     q   Ungarisch*
q   Finnisch*             q   Niederländisch* q   Walisisch
q   Französisch*          q   Norwegisch
q   Galizisch             q   Polnisch*
q   Griechisch*           q   Portugiesisch*
q   Irisch*               q   Rumänisch*
q   Isländisch            q   Schwedisch*
    http://www.meta-net.eu/whitepapers        * Offizielle EU-Sprache
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
exzellente    gute           moderate                     fragmentarische                  schwache/keine Unterstützung

                                                                                                             Baskisch, Bulgarisch, Kroatisch,
                                                                                                        Tschechisch, Dänisch, Estnisch, Finnisch,
MT
                                                                    Katalanisch, Niederländisch,         Galizisch, Griechisch, Isländisch, Irisch,
                            Englisch   Französisch, Spanisch       Deutsch, Ungarisch, Italienisch,           Lettisch, Litauisch, Maltesisch,
                                                                       Polnisch, Rumänisch                Norwegisch, Portugiesisch, Serbisch,
                                                                                                          Slowakisch, Slowenisch, Schwedisch,
                                                                                                                         Walisisch
Textanalytik

               exzellente    gute           moderate                     fragmentarische                  schwache/keine Unterstützung

                                                                  Baskisch, Bulgarisch, Katalanisch,
                                                                   Tschechisch, Dänisch, Finnisch,
                                           Niederländisch,                                               Kroatisch, Estnisch, Isländisch, Irisch,
                                                                  Galizisch, Griechisch, Ungarisch,
                            Englisch   Französisch, Deutsch,                                            Lettisch, Litauisch, Maltesisch, Serbisch,
                                                                 Norwegisch, Polnisch, Portugiesisch,
                                        Italienisch, Spanisch                                                            Walisisch
                                                                 Rumänisch, Slowakisch, Slowenisch,
                                                                             Schwedisch

               exzellente    gute           moderate                     fragmentarische                  schwache/keine Unterstützung
Speech

                                           Tschechisch,
                                                                  Baskisch, Bulgarisch, Katalanisch,
                                          Niederländisch,
                                                                     Dänisch, Estnisch, Galizisch,            Kroatisch, Isländisch, Lettisch,
                                       Finnisch, Französisch,
                            Englisch                                Griechisch, Ungarisch, Irisch,          Litauisch, Maltesisch, Rumänisch,
                                        Deutsch, Italienisch,
                                                                   Norwegisch, Polnisch, Serbisch,                       Walisisch
                                           Portugiesisch,
                                                                 Slowakisch, Slowenisch, Schwedisch
                                             Spanisch
Ressourcen

               exzellente    gute           moderate                     fragmentarische                  schwache/keine Unterstützung

                                           Tschechisch,           Baskisch, Bulgarisch, Katalanisch,
                                          Niederländisch,           Kroatisch, Dänisch, Estnisch,
                                       Französisch, Deutsch,       Finnisch, Galizisch, Griechisch,             Isländisch, Irisch, Lettisch,
                            Englisch
                                       Ungarisch, Italienisch,       Norwegisch, Portugiesisch,              Litauisch, Maltesisch, Walisisch
                                        Polnisch, Spanisch,       Rumänisch, Serbisch, Slowakisch,
                                           Schwedisch                        Slowenisch
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
Excellent

                                      Selbst die besten Technologien sind
                                      weit davon entfernt, perfekt zu sein!
                         Good

                                                              Languages with names in red
                                                              have little or no MT support
Level of support

                     Moderate

                   Fragmentary

                    Weak/none
                                        English
                                         French
                                       Spanish
                                          Dutch
                                       German
                                         Italian
                                         Czech
                                    Hungarian
                                          Polish
                                        Catalan
                                       Finnish
                                  Portuguese
                                     Swedish
                                      Basque
                                   Bulgarian
                                       Danish
                                      Galician
                                         Greek
                                  Norwegian
                                    Romanian
                                        Slovak
                                      Slovene
                                     Estonian
                                      Serbian
                                     Croatian
                                           Irish
                                    Icelandic
                                      Latvian
                                  Lithuanian
                                      Maltese
                                         Welsh
                                       META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York,
                                       Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors)
Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung - Dr. Georg Rehm - Deutsches Forschungszentrum ...
Excellent

                         Good
                                       21 europäische    Sprachen
                                                   Languages    with names  in redsehr
                                                                          sind
                                        schlecht unterstützt,
                                                   have little or nosie  sind vom
                                                                     MT support
Level of support

                                      „digitalen Sprachensterben“ bedroht.
                     Moderate

                   Fragmentary

                    Weak/none
                                        English
                                         French
                                       Spanish
                                          Dutch
                                       German
                                         Italian
                                         Czech
                                    Hungarian
                                          Polish
                                        Catalan
                                       Finnish
                                  Portuguese
                                     Swedish
                                      Basque
                                   Bulgarian
                                       Danish
                                      Galician
                                         Greek
                                  Norwegian
                                    Romanian
                                        Slovak
                                      Slovene
                                     Estonian
                                      Serbian
                                     Croatian
                                           Irish
                                    Icelandic
                                      Latvian
                                  Lithuanian
                                      Maltese
                                         Welsh
                                         META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York,
                                         Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors)
Excellent

                         Good
                                   Die Studie wurde 2011/2012 durchgeführt. Für viele Sprachen
                                                              Languages with names in red
                                   hat sich die Unterstützung in der Zwischenzeit verbessert,
                                                              have little or no MT support
Level of support

                                   aber das allgemeine Bild ist letztlich unverändert.
                     Moderate

                   Fragmentary

                    Weak/none
                                        English
                                         French
                                       Spanish
                                          Dutch
                                       German
                                         Italian
                                         Czech
                                    Hungarian
                                          Polish
                                        Catalan
                                       Finnish
                                  Portuguese
                                     Swedish
                                      Basque
                                   Bulgarian
                                       Danish
                                      Galician
                                         Greek
                                  Norwegian
                                    Romanian
                                        Slovak
                                      Slovene
                                     Estonian
                                      Serbian
                                     Croatian
                                           Irish
                                    Icelandic
                                      Latvian
                                  Lithuanian
                                      Maltese
                                         Welsh
                                                  META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York,
                                                  Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors)
Excellent                                                                                                                                400

                                                                                                                                                                          350

                                                                                                                                                                                Millions of Native Speakers (Worldwide)
                                               q   Unsere Sprachen genießen zwar den gleichen Status – dennoch sind die
                                    Good           meisten EU Sprachen vom digitalen Aussterben bedroht.               300

                                               q   Die große Herausforderung der Mehrsprachigkeit in Europa kann weder
                                                   ignoriert noch an andere Kontinente delegiert werden.          250
                                               Ø   Europa hat sehr großen Bedarf für Sprachtechnologien made in Europe!
Language Technology Support

                                Moderate                                                                                                                                  200

                                                                                                                                                                          150

                              Fragmentary                                                                                                                                 100

                                                                                                                                                                          50

                                 Weak/no
                                                                                                                                                                          0
                                  support
                                                     Spanish
                                                      English
                                                 Portuguese
                                                     German
                                                       French
                                                       Italian
                                                       Turkish
                                                        Polish
                                                 Romanian
                                                        Dutch

                                                 Hungarian
                                                         Czech
                                                      Serbian
                                                     Swedish
                                                    Albanian
                                                     Catalan
                                                   Bulgarian
                                                       Danish
                                                     Croatian
                                                      Hebrew

                                                       Finnish
                                                 Norwegian
                                                      Galician
                                                  Lithuanian
                                                     Romany
                                                      Bosnian
                                                      Occitan
                                                      Slovene
                                                Macedonian
                                                       Yiddish
                                                      Latvian
                                                 Limburgish
                                                     Estonian
                                                       Basque
                                                Vlax Romani
                                                        Welsh
                                                        Frisian
                                                      Maltese
                                             Luxembourgish
                                                      Friulian
                                                    Icelandic
                                                       Breton
                                                     Asturian
                                                           Irish
                                                         Scots
                                                         Greek

                                                        Slovak

   Georg Rehm, Hans Uszkoreit, Ido Dagan, Vartkes Goetcherian, Mehmet Ugur Dogan, Coskun Mermer, Tamás Váradi, Sabine Kirchmeier-Andersen, Gerhard Stickel, Meirion Prys
   Jones, Stefan Oeter, and Sigve Gramstad. An Update and Extension of the META-NET Study “Europe's Languages in the Digital Age”. In Proceedings of the Workshop on
   Collaboration and Computing for Under-Resourced Languages in the Linked Open Data Era (CCURL 2014), Reykjavik, Iceland, May 2014.

   Georg Rehm, Hans Uszkoreit, Sophia Ananiadou, Núria Bel, Audronė Bielevičienė, Lars Borin, Antón io Branco, Gerhard Budin, Nicoletta Calzolari, Walter Daelemans, Radovan
   Garabík, Marko Grobelnik, Carmen García-Mateo, Josef van Genabith, Jan Hajič, Inma Hernáe z, John Judge, Svetla Koeva, Simon Krek, Cvetana Krstev, Krister Lindén , Bernardo
   Magnini, Joseph Mariani, John McNaught, Maite Melero, Monica Monachini, Asunción Moreno, Jan Odjik, Maciej Ogrodniczuk, Piotr Pęzik, Stelios Piperidis, Adam Przepiórkowski,
   Eiríkur Rög nvaldsson, Mike Rosner, Bolette Sandford Pedersen, Inguna Skadiņa , Koenraad De Smedt, Marko Tadić, Paul Thompson, Dan Tufiş, Tamás Váradi, Andrejs Vasiļjevs,
   Kadri Vider, and Jolanta Zabarskaite. The Strategic Impact of META-NET on the Regional, National and International Level. Language Resources and Evaluation, 50(2):351-374, 2016.
META-NET SRA, veröffentlicht im Frühjahr 2013
                                                         •                          Erste strategische Forschungsagenda unseres Gebiets
                                                         •                          Komplexer Prozess der Sammlung von Technologievisionen
                                                         •                          Etwa 200 Forscherinnen und Forscher haben mitgewirkt

                                                         SRIA V0.5 präsentiert beim
    Strategic Agenda for the
Multilingual Digital Single Market
                                                         •                          Basiert auf Strategiepapieren und Roadmaps, die von diversen
                         FT

 Technologies for Overcoming Language Barriers towards
       a truly integrated European Online Market

                                                                                    EU-Projekten erstellt wurden, inklusive META-NET SRA (s.o.)
         RA
 D

                                                          Strategic Research and Innovation Agenda
                                                                                                                        SRIA V0.9 präsentiert beim
                                                         Language as a Data Type and

                                                                                                                        •   Vorbereitet, präsentiert und unterstützt von der
              Version 0.5 – April 22, 2015
                                                          Key Challenge for Big Data
                                                               Enabling the Multilingual Digital Single Market
                                                          through technologies for translating, analysing, processing

                                                                                                                            Cracking the Language Barrier Föderation
                                                                    and curating natural language content

                                                                                                                        •
                                                                              SRIA Editorial Team
 Strategic Research and Innovation Agenda

Language Technologies for
   Multilingual Europe
                                                                               Version 0.9 – July 2016

                                                                                                                            Erläutert, wie die LT-Community für Mehrsprachig-
Towards a Human Language Project

                                                                                                                            keit im digitalen Binnenmarkt sorgen kann.
                   SRIA Editorial Team

                                                         SRIA V1.0 präsentiert beim
               Version 1.0 beta – November 2017

                                                         •                          Unterstützt und komplementiert die STOA-Studie.
                                                         •                          Wichtigste Empfehlung: Das Human Language Project initiieren.
Georg Rehm and Hans Uszkoreit, editors. The META-NET Strategic Research Agenda for Multilingual Europe 2020. Springer, Heidelberg, New York, Dordrecht, London, 2013.

Georg Rehm, editor. Language Technologies for Multilingual Europe: Towards a Human Language Project. Strategic Research and Innovation Agenda. Dec. 2017. Version 1.0.
Unveiled at META-FORUM 2017 in Brussels, Belgium, on Nov. 13/14, 2017. Prepared by the Cracking the Language Barrier federation, supported by CRACKER.

Georg Rehm, editor. Language as a Data Type and Key Challenge for Big Data. Strategic Research and Innovation Agenda for the Multilingual Digital Single Market. CRACKER and
Cracking the Language Barrier federation, July 2016. Version 0.9. 04 July 2016. Supported by CRACKER and LT_Observatory.

Georg Rehm, editor. Strategic Agenda for the Multilingual Digital Single Market – Technologies for Overcoming Language Barriers towards a truly integrated European Online Market.
CRACKER and LT_Observatory, April 2015. Version 0.5. 22 April 2015. Prepared by the EU-funded projects CRACKER and LT_Observatory.
“Multilingual Europe”-Umfrage
•      Durchgeführt im Mai/Juni 2017
•      29 Fragen (16 offene, 13 multiple choice)
•      634 Teilnehmer aus 52 Ländern
•      Sehr hohe Komplettierungsrate (27%)
•      Durchschnitt: 35,48 Minuten (!)
•      97% unterstützen das HLP
•      87% glauben, dass „tiefes maschinelles
       Sprachverstehen bis 2030“ ein adäquates
       wissenschaftliches Ziel ist.
Georg Rehm, Jan Hajic, Josef van Genabith, and Andrejs Vasiļjevs. “Fostering the Next Generation of European Language Technology: Recent Developments – Emerging
Initiatives – Challenges and Opportunities.” In Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani,
Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the 10th Language Resources and Evaluation Conference (LREC 2016), pages 1586-1592, Portorož,
Slovenia, May 2016. European Language Resources Association (ELRA).

Georg Rehm and Stefanie Hegele. “Language Technology for Multilingual Europe: An Analysis of a Large-Scale Survey regarding Challenges, Demands, Gaps and Needs.” In
Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion
Moreno, Jan Odijk, Stelios Piperidis, and Takenobu Tokunaga, editors, Proceedings of the 11th Language Resources and Evaluation Conference (LREC 2018), pages 3282-
3289, Miyazaki, Japan, May 2018. European Language Resources Association (ELRA).

                                    Europäische Sprachtechnologie – Herausforderungen und Lösungen                                                                       14
STOA Workshop
                            STUDY                          Europaparlament
           Science and Technology Options Assessment        10. Januar 2017
          EPRS | European Parliamentary Research Service
                   Scientific Foresight Unit (STOA)
                               PE 581.621

•   STOA-Studie – veröffentlicht im März 2017
•   Empfiehlt der EC, das Human Language Project (HLP) zu initiieren
•   Drei wesentliche Vorschläge im Bereich Forschungspolitik:
     – Forschung stärken und auf das HLP fokussieren
     – Europäische LT-Plattform von Daten und Services aufbauen
     – Technologiekluft zwischen den europäischen Sprachen überbrücken
“Language equality”-Resolution
•   EP-Resolution “Language equality in the digital age”
    P8_TA(2018)0332 – basiert partiell auf der STOA-Studie
•   Abstimmung im EP am 11. Sept. 2018:
    592 Ja- vs. 45 Nein-Stimmen!                                    European Parliament
                                                                    2014-2019

•   Unsere aktuellen Initiativen adressieren
                                                                                                        TEXTS ADOPTED
                                                                                                         Provisional edition

    sehr viele der 45 Empfehlungen                                  P8_TA-PROV(2018)0332
                                                                    Language equality in the digital age
                                                                    European Parliament resolution of 11 September 2018 on language equality in the
                                                                    digital age (2018/2028(INI))

     – 25. Establish a large-scale, long-term                       The European Parliament,

                                                                    – having regard to Articles 2 and 3(3) of the Treaty on the Functioning of the European

       LT funding programme                                           Union (TFEU),

                                                                    – having regard to Articles 21(1) and 22 of the Charter of Fundamental Rights of the
                                                                      European Union,

                                                                    – having regard to the 2003 UNESCO Convention for the Safeguarding of the Intangible

     – 27. Europe has to secure its leadership                        Cultural Heritage,

                                                                    – having regard to Directive 2003/98/EC of the European Parliament and of the Council of
                                                                      17 November 2003 on the re-use of public sector information1,

       in language-centric AI                                       – having regard to Directive 2013/37/EU of the European Parliament and of the Council of
                                                                      26 June 2013 amending Directive 2003/98/EC on the re-use of public sector information2,

                                                                    – having regard to Decision (EU) 2015/2240 of the European Parliament and of the Council
                                                                      of 25 November 2015 establishing a programme on interoperability solutions and

     – 29. Create a European LT platform                              common frameworks for European public administrations, businesses and citizens (ISA2
                                                                      programme) as a means for modernising the public sector3,

                                                                    – having regard to the Council resolution of 21 November 2008 on a European strategy for

       for sharing of services                                        multilingualism (2008/C 320/01)4,

                                                                    – having regard to the Council decision of 3 December 2013 establishing the specific
                                                                      programme implementing Horizon 2020 – the Framework Programme for Research and

     – 31. Recommends an update of the                              1
                                                                    2
                                                                        OJ L 345, 31.12.2003, p. 90.
                                                                        OJ L 175, 27.6.2013, p. 1.

       META-NET white paper series
                                                                    3
                                                                        OJ L 318, 4.12.2015, p. 1.
                                                                    4
                                                                        OJ C 320, 16.12.2008, p. 1.

                   Europäische Sprachtechnologie – Herausforderungen und Lösungen                                                                              16
?
ELG – Die Sprachtechnologie-
Cloud-Plattform für Europa
                                                                                                       ELG
                                                                                              1 Jan. 2019 – 31 Dez. 2021

•     Entwicklung einer funktionalen Sprachtechnologie-Cloud-Plattform für Europa
•     Marktplatz für die europäische Sprachtechnologie-Industrie
•     Hunderte von LT-Services und -Ressourcen für alle europäischen Sprachen
•     30+ nationale Kompetenzzentren als starkes europäisches Netzwerk
•     Stärkung des mehrsprachigen digitalen Binnenmarktes                                   Konsortium
•     Evaluation durch 15-20 Pilotprojekte                                         •   DFKI GmbH (Koordinator) (DE)
                                                                                   •   ILSP, R.C. “Athena“ (GR)
•     Interoperabilität von Services durch Containerisierung                       •   Universität Sheffield (UK)
•     Gründung eines Spin-offs, um den langfristigen Betrieb                       •   Charles Universität (CZ)
                                                                                   •   ELDA (FR)
      und das Wachstum der Plattform zu gewährleisten
                                                                                   •   Tilde (LV)
                                                                                   •   SAIL LABS GmbH (AT)
    Web-Interface                                           APIs
                                                                                   •   Expert System Iberia (ES)
    European Language Grid – Katalog der Inhalte                                   •   Universität Edinburgh (UK)
         LT Services, Tools, Komponenten, Technologien
                                                                     • ICT-29-2018: Multilingual Next Generation Internet
         Sprachressourcen und Datensets                                  Ø Zwei Sub-Topics (Gesamtbudget 25M€)
         Organisationen, Sprachen, Service-Typen etc.                • ICT-29 a) European Language Grid
    Cloud-Infrastruktur                                                  Ø Eine Innovation Action (7M€)
                                                                     • ICT-29 b) Domain-specific/challenge-oriented HLT
                                                                         Ø Sechs Research and Innovation Actions (je
                                                                           3M€)
                             Europäische Sprachtechnologie – Herausforderungen und Lösungen                       18
Human Language Project
• Ziel: Tiefes maschinelles Sprachverstehen bis 2030
• Alle offiziellen europäischen und viele weitere Sprachen
• Breite Abdeckung, hohe Qualität, hohe Präzision
• Ganz neue Ansätze, Algorithmen, Datensets
• Alle Modalitäten: Text, Texttypen, Speech, Video etc.
• Alle Plattformen: Messaging, Telefonie, Social, Mobil, IoT,
  Roboter, smarte Geräte, persönliche Assistenten etc.
• Kulturübergreifend: Wissen, Bräuche, Formalitäten,
  Humor, Emotion, Subjektivität, Meinungen, Filterblase etc.
• Wie? Als das nächste EU FET Flagship-Projekt!

              Europäische Sprachtechnologie – Herausforderungen und Lösungen   19
Antrag
• FET Flagship Projekte: 1 Mrd. € Förderung für 10 Jahre
• Aktuelle Flagships: HBP, Graphene, Quantum (2019)
• H2020 FETFLAG-01-2018 für kleine Projekte zur
  Vorbereitung von Anträgen (1M€, 12 Monate Laufzeit)
• Unser Antrag: “Human Language Project Preparation”
• Konsortium mit 16 Partnern, koordiniert vom DFKI
• Bislang 375+ Unterstützungsbriefe, inklusive 16
  Ministerien und 24 nationalen Sprachinstitutionen
• Mehr Informationen: http://human-language-project.eu

            Europäische Sprachtechnologie – Herausforderungen und Lösungen   20
Das HLP ist ein großes, langfristig
                                                              Schaffung einer
angelegtes Forschungs-, Entwick-                              mehrsprachigen
lungs- und Innovationsprogramm,                                europäischen
in dem Grundlagen- und ange-                                 Gesellschaft ohne
                                                                  jegliche
wandte Forschung und Entwick-                                 Sprachbarrieren
lung sowie Innovation und Kom-
merzialisierung eng zusammen
                                                                                   Stand der Kunst
arbeiten, um bahnbrechende            Innovation stärken,
                                                                                     definieren im
                                          neue Ideen
Technologien für das tiefe             entwickeln, neue
                                                                                       Bereich
                                                                                  Sprachtechnologie
maschinelle Sprachverstehen              Unternehmen
                                                                                         sowie
                                           gründen
bis 2030 zu entwickeln.                                                           sprachzentrierte KI

Im HLP werden u.a. die folgenden
Gebiete kollaborieren:                                       Human
Primäre Gebiete:                                            Language
•   Computerlinguistik & LT                                  Project
•   Linguistik
•   Künstliche Intelligenz                Europa als                              Europas Wirtschaft
•   Wissenstechnologien                     globalen                               stärken durch die
                                        Marktführer für                             Schaffung des
                                      innovative Sprach-                            mehrsprachigen
Sekundäre Gebiete:                       technologien                                   digitalen
                                           etablieren                               Binnenmarktes
• Gesellschaftswissenschaften
  und Digital Humanities                                      Ausbildung des
• Informatik                                                 wissenschaftlichen
                                                               Nachwuchses,
• Kognitionswissenschaft                                         Schaffung
                                                               attraktiver und
                                                                nachhaltiger
                                                                Arbeitsplätze
                                                                                                21
HLP Core Project
                                                         • Koordination des Flagships (CP und PPs)
                                                         • Weiterentwicklung der Roadmap
                                                         • Allgemeine Forschung und Technologieentwicklung
                                                         • Daten, Ressourcen, Computing- und
                        HLP                                Kollaborationsinfrastruktur
                    Core Project                                                                             PP

                                                                                                                         HLP
                                                                                                                       Partnering
                                                                                                PP                      Project:
                                                                                                                       Baltische
                                                                                                                       Sprachen

                                                                          HLP                                                       HLP
                                                                                                                               Partnering
                                                                        Partnering
                                                                                                                                Project:
                                                                          Project:
                                                                                                                                Polnisch
                                                                          Nieder-
                                                                         ländisch

                                                                                                                          HLP
                                                                                                                       Partnering
                                                                                                                        Project:
HLP Partnering Projects                      HLP                                                                        Deutsch
                                           Partnering
• Sprachspezifische und/oder regiona-       Project:
  le Konsortien, die Forschung für ihre    Spanisch
  eigenen Sprachen betreiben                                                                                      PP
• Enge Kooperation mit dem Core Project
• CP und PP teilen sich einige Partner                            PP
                                                                                                                                          HLP
                                                                                                                                      Partnering
Wichtige Daten und nächste Schritte
                                                                                                                                       Project:
• 11. Sep. 2018: EP “Language equality” Beschluss                                                                                       Grie-
                                                                                                                                       chisch
• 18. Sep. 2018: HLP Prep Hauptantrag eingereicht
• 27. Sep. 2018: “Language equality” Konferenz (EP)
                                                                              HLP
• 29. Nov. 2018: Bekanntgabe der Ergebnisse                                 Partnering
• 04. Dez. 2018: Ankündigung der Gewinner bei der ICT 2018                    Project:
                                                                            Italienisch
• 01. Mrz. 2019: Ggf. Start des HLP Prep Vorbereitungsprojekts
• 29. Feb. 2020: Ggf. Ende des HLP Prep Vorbereitungsprojekts
1. Herausforderung
          Das mehrsprachige Europa:
Sprachtechnologien für alle europäischen Sprachen?
               2. Herausforderung
      Online-Desinformationskampagnen:
 Technische Lösungsansätze gegen „Fake News“?
               3. Herausforderung
                Digitaler Content:
Technologien für die effiziente Content-Kuratierung?
Europäische Sprachtechnologie – Herausforderungen und Lösungen   24
Europäische Sprachtechnologie – Herausforderungen und Lösungen   25
Relevanz Digitaler Medien
• Immens zunehmende (global)politische,
  gesellschaftliche und ökonomische
  Relevanz
• Facebook: >2 Mrd. Nutzer
• WhatsApp: >1 Mrd. Nutzer
• Instagram: >1 Mrd. Nutzer
• Öffentliche Debatten finden
  in erster Linie online statt.
• Diskussionen zu aktuellen Themen,
  Parteien, Wahlen, Personen etc. werden
  durch Social-Media-Kampagnen sehr
  geschickt beeinflusst und manipuliert.

               Europäische Sprachtechnologie – Herausforderungen und Lösungen   26
Viralität und „Fake News“
• Inhalte werden ohne Kontrollinstanz publiziert, über
  soziale Medien entdeckt und, falls relevant, zügig geteilt
• Dies geschieht oft ohne Lektüre oder kritische Prüfung
• Ziel: Viralität ➟ Reichweite ➟ Klicks ➟ Werbeeinnahmen
• Ziel: die Meinung bestimmter Personen manipulieren
• Nicht alle „journalistisch“ aussehenden Inhalte fühlen sich
  tatsächlich der Wahrheit verpflichtet
• Bürde der kritischen Prüfung liegt heute bei den Lesern
• „Fake News“: Etikett für mehrere Klassen von Inhalten
                Georg Rehm. “An Infrastructure for Empowering Internet Users to handle Fake News and other Online Media Phenomena”. In Georg
                Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL
                Conference 2017, Berlin, September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V. 13.-15. September 2017.

             Europäische Sprachtechnologie – Herausforderungen und Lösungen                                                                 27
Irreführen-
                                                 Satire oder                 der Inhalt:                                             Fabrizierter
                                                                Falscher                     Falscher                 Manipulier-
                                                  Parodie:                    Nutzung                     Betrüge-                      Inhalt:
               Sieben                               führt
                                                                Zusam-
                                                                                 von
                                                                                             Kontext:
                                                                                                            rische
                                                                                                                       ter Inhalt:
                                                                                                                                      basiert zu
                                                               menhang:                    wenn echte                  Manipula-
            Klassen von                          Menschen
                                                    aber
                                                               wenn Titel
                                                                            Informatio-
                                                                              nen, um
                                                                                            Inhalte im
                                                                                                          Inhalte:
                                                                                                         wenn echte
                                                                                                                        tion von
                                                                                                                                     100% nicht
                                                                                                                                          auf
                                                               und Fotos                     falschen                   Inhalten
              Falsch-                             dennoch
                                                               den Inhalt
                                                                            etwas/jmd.
                                                                                              Kontext
                                                                                                          Quellen
                                                                                                                      zum Zweck
                                                                                                                                     Tatsachen,
                                                 manchmal                       In ein                     imitiert                   geschrie-
            nachrichten                           auf das
                                                                 nicht
                                                                            schlechtes
                                                                                           präsentiert
                                                                                                          werden
                                                                                                                           der
                                                                                                                                     ben um zu
                                                                stützen                       werden                  Täuschung
                                                  Glatteis                    Licht zu                                                täuschen
                                                                               rücken

                          Clickbait                                X            X              ?                           ?              ?
Charakteristika

                          Desinformation                                        X              X                          X              X
                          Politisch gefärbt                        ?            X              ?                           ?             X
                          Schlechter
                          Journalismus                             X            X              X

                          Parodie                    X                                                       ?                            ?
Intentionen der Urheber

                          Provokation                                                                        X            X              X
                          Profit                     ?             X                                         X                           X
                          Täuschung                                X            X              X             X            X              X
                          Politik beeinflussen                                  X              X                          X              X
                          Meinungen
                          beeinflussen                                          X              X             X            X              X
                              Unterschiedliche Klassen von Falschnachrichten und ihre jeweiligen Charakteristika und Intentionen
                                                                                                                                         28
                                  (nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)
Irreführen-
                                                 Satire oder                 der Inhalt:                                             Fabrizierter
                                                                Falscher                     Falscher                 Manipulier-
                                                  Parodie:                    Nutzung                     Betrüge-                      Inhalt:
                                                                Zusam-                       Kontext:                  ter Inhalt:
                                                    führt                        von                        rische                    basiert zu
                                                               menhang:                    wenn echte                  Manipula-
                                                 Menschen                   Informatio-                   Inhalte:                   100% nicht
                                                               wenn Titel                   Inhalte im                  tion von
                                                    aber                      nen, um                    wenn echte                       auf
                                                               und Fotos                     falschen                   Inhalten
                                                  dennoch                   etwas/jmd.                    Quellen                    Tatsachen,
                                                               den Inhalt                     Kontext                 zum Zweck
                                                 manchmal                       In ein                     imitiert                   geschrie-
                                                                 nicht                     präsentiert                     der
                                                  auf das                   schlechtes                    werden                     ben um zu
                                                                stützen                       werden                  Täuschung
                                                  Glatteis                    Licht zu                                                täuschen
                                                                               rücken

                          Clickbait                                X            X              ?                           ?              ?
Charakteristika

                          Desinformation                                        X              X                          X              X
                          Politisch gefärbt                        ?            X              ?                           ?             X
                          Schlechter                                                                              Desinformation
                          Journalismus                             X            X              X
                                                                           Clickbait                           Bewusste Täuschung
                                                 Parodie
                                                                    Schlechter Journalismus                  Versuch der Beeinflussung
                          Parodie                    X                                                       ?                       ?
                                                                                                             von Meinungen und Politik
Intentionen der Urheber

                          Provokation                                                                        X            X              X
                          Profit                     ?             X                                         X                           X
                          Täuschung                                X            X              X             X            X              X
                          Politik beeinflussen                                  X              X                          X              X
                          Meinungen
                          beeinflussen                                          X              X             X            X              X
                              Unterschiedliche Klassen von Falschnachrichten und ihre jeweiligen Charakteristika und Intentionen
                                                                                                                                         29
                                  (nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)
Beispiel 1: Clickbait-Erkennung
•      Automatische Prüfung arbiträrer Behauptungen bis auf Weiteres technisch nicht möglich
•      Annäherung: Ermittlung der Haltung eines Textes zu einem Thema („Stance Detection“)

Annotierte Titel/Artikel-Paare                                  49.972            100%
                                                                                                  Schritt 1: Klassifikation related vs.
Klasse: unrelated                                               36.545             73%            unrelated = Clickbait-Erkennung
Klasse: discuss                                                   8.909            18%
                                                                                                  Schritt 2: Nur wenn sich der Titel auf den
Klasse: agree                                                     3.678             7%            Text bezieht, kann discuss, agree,
                                                                                                  disagree klassifiziert werden.
Klasse: disagree                                                      840           2%

                                  Relatedness                             93,29                        Mit einer Präzision von 89,59
          DFKI-                                                                                       haben wir bei der ersten Fake
                                  Drei Klassen                            88,36
         System                                                                                       News Challenge (FNC1) Platz 9
                                  Gewichtet                               89,59                           von 50 Teams erreicht.

Peter Bourgonje, Julian Moreno Schneider, and Georg Rehm. “From Clickbait to Fake News Detection: An Approach based on Detecting the Stance of Headlines to Articles”. In Octavian
Popescu and Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism – EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September
2017. 7. September.

                                        Europäische Sprachtechnologie – Herausforderungen und Lösungen                                                                     30
Beispiel 2: Beleidigende Sprache
           •      Beleidigende Beiträge verhindern konstruktive Online-Debatten
           •      Klassifikationsexperimente mit verschiedenen Datensets
           •      Englische Tweets: neutral, rassistisch, sexistisch
           •      Deutsche Tweets: hasserfüllt vs. nicht hasserfüllt
           •      Wikipedia-Talk-Seiten mit Nutzerkommentaren
                    • A1: Angriff auf eine Person vs. kein Angriff auf eine Person
                    • A2: Aggression vs. keine Aggression

                                          Tweets EN                       Tweets DE                      Wikipedia A1                     Wikipedia A2
                                           (15.979)                         (469)                          (11.304)                         (11.304)
                Precision                      85,67                           78,19                            80,90                            80,42
                Recall                         77,45                           78,16                            80,97                            80,46

  Schlussfolgerungen: Viel versprechende Ergebnisse, allerdings stellt die
  Aufgabe eine große Herausforderung dar – Teilnahme an SemEval 2019.
Peter Bourgonje, Julian Moreno Schneider, and Georg Rehm. “Automatic Classification of Abusive Language and Personal Attacks in Various Forms of Online Communication”. In Georg
Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL Conference 2017, Berlin, September 2017. Gesellschaft für
Sprachtechnologie und Computerlinguistik e.V. 13.-15. September 2017.

Julian Moreno Schneider, Roland Roller, Peter Bourgonje, Stefanie Hegele, and Georg Rehm. “Towards the Automatic Classification of Offensive Language and Related Phenomena in
German Tweets”. In Josef Ruppenhofer, Melanie Siegel, and Michael Wiegand, editors, Proceedings of the GermEval Workshop 2018 – Shared Task on the Identification of Offensive
Language, pages 95-103, Vienna, Austria, September 2018. 21 September 2018.
Lösungsvorschlag: Infrastruktur
 • Inhalte werden im/über das World Wide Web konsumiert
 • Ziel: Leser im Umgang mit Inhalten unterstützen, Fakten
   prüfen, Täuschungsversuche erkennen etc.
 • Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün
 • Somit Filterblasen- und Netzwerkeffekte ausbalancieren
 • Kombination aus automatischen Werkzeugen und
   menschlicher Schwarmintelligenz
 • 2019: Kollaboration mit W3C Credible Web CG
 • 2019: Re-submission des EU-Antrags PROTECT-IT
    Georg Rehm. “An Infrastructure for Empowering Internet Users to handle Fake News and other Online Media Phenomena”. In Georg Rehm and Thierry Declerck,
    editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL Conference 2017, Berlin, September 2017. 13.-15.09.2017.

    Georg Rehm, Julian Moreno Schneider, and Peter Bourgonje. “Automatic and Manual Web Annotations in an Infrastructure to handle Fake News and other
    Online Media Phenomena.” In Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard,
    Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis, and Takenobu Tokunaga, editors, Proceedings of the 11th Language Resources
    and Evaluation Conference (LREC 2018), pages 2416-2422, Miyazaki, Japan, May 2018. European Language Resources Association (ELRA).

                               Europäische Sprachtechnologie – Herausforderungen und Lösungen                                                                          32
Dezentrale Filter verarbeiten Inhalte automatisch und schicken                                                 andere
                   Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)                                                         Nutzer
                                                                                          UGA
                       Service1

 Website                     Detektion von                                               Web
mit Inhalten                  Hassrede                                                                       UGM
                                                    Klassifikation des                Annotations
                                                  politischen Spektrums                  DB1
                                                                                                               UGM
                                  Faktenchecker         Service3

                                     Service2                                                              Web
                                                                                                        Annotations
                                                                                                           DB2             UGA
                            MGM                              MGM
                                                                              Dezentrale Repositorien
                                           MGM
                                                                             speichern alle Annotationen
                                                                                                                            Web
                                                                                        UGA                              Annotations
                                                                                                                            DB3

                                                                   Annotationen anderer Nutzer
                                                                                                           Web
                                                                                                        Annotations
                                                                                UGM                        DB4
                                                                   Beispiel: Nutzer bewertet Qualität
                                                                     eines Inhalts im Hinblick auf
                                                                     ein standardisiertes Schema

               Browser unterstützt Infrastruktur nativ und aggregiert               UGA: User-generierte Annotationen (Freitext)
           unterschiedlichen Bewertungen, Kommentare und Meinungen                  UGM: User-generierte Metadaten (standardisiert)
              über einen Inhalt in klare Botschaften oder Warnungen                 MGM: Maschinen-generierte Metadaten (standardisiert)
Dezentrale Filter verarbeiten Inhalte automatisch und schicken                                                 andere
                   Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)                                                         Nutzer
                                                                                          UGA
                       Service1

 Website                     Detektion von                                               Web
mit Inhalten                  Hassrede                                                                       UGM
                                                    Klassifikation des                Annotations
                                                  politischen Spektrums                  DB1
                                                                                                               UGM
                                  Faktenchecker         Service3

                                     Service2                                                              Web
                                                                                                        Annotations
                                                                                                           DB2             UGA
                            MGM                              MGM
                                                                              Dezentrale Repositorien
                                           MGM
                                                                             speichern alle Annotationen
                                                                                                                            Web
                                                                                        UGA                              Annotations
                                                                       Werkzeuge analysieren                                DB3
                                                                       Inhalt automatisch

                                                                   Annotationen anderer Nutzer
                                                                                                           Web
                                                                                                        Annotations
                                                                                UGM                        DB4
                                                                   Beispiel: Nutzer bewertet Qualität
                                                                     eines Inhalts im Hinblick auf
                                                                     ein standardisiertes Schema

               Browser unterstützt Infrastruktur nativ und aggregiert               UGA: User-generierte Annotationen (Freitext)
           unterschiedlichen Bewertungen, Kommentare und Meinungen                  UGM: User-generierte Metadaten (standardisiert)
              über einen Inhalt in klare Botschaften oder Warnungen                 MGM: Maschinen-generierte Metadaten (standardisiert)
Dezentrale Filter verarbeiten Inhalte automatisch und schicken
• Maschinelle   Ergebnisse
              Ergebnisse            sowie
                           zum Browser        auch
                                          (wichtig: Mehrsprachigkeit)
                                                                                                                             andere
                                                                                                                             Nutzer
  Freitext-Anmerkungen werden als
                                                                                         UGA
  W3C Web Annotations
                    Tool1         gespeichert.
 Website                    Detektion von                                               Web
mit Inhalten                 Hassrede                                                                       UGM
                                                   Klassifikation des                Annotations
                                                 politischen Spektrums                  DB1
                                                                                                              UGM
                                 Faktenchecker         Service3

                                    Service2                                                              Web
                                                                                                       Annotations
                                                                                                          DB2             UGA
                          MGM                              MGM
                                                                             Dezentrale Repositorien
                                         MGM
                                                                            speichern alle Annotationen
                                                                                                                           Web
                                                                                       UGA                              Annotations
                                                                                                                           DB3

                                                                  Annotationen anderer Nutzer
                                                                                                          Web
                                                                                                       Annotations
                                                                               UGM                        DB4
                                                                  Beispiel: Nutzer bewertet Qualität
                                                                    eines Inhalts im Hinblick auf
                                                                    ein standardisiertes Schema

               Browser unterstützt Infrastruktur nativ und aggregiert              UGA: User-generierte Annotationen (Freitext)
           unterschiedlichen Bewertungen, Kommentare und Meinungen                 UGM: User-generierte Metadaten (standardisiert)
              über einen Inhalt in klare Botschaften oder Warnungen                MGM: Maschinen-generierte Metadaten (standardisiert)
Dezentrale Filter verarbeiten Inhalte automatisch und schicken                                                andere
                   Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)                                                        Nutzer
                                                                                         UGA
                         Tool1

 Website         • Maschinelle Analyse von Freitext-
                        Detektion von                                                   Web
mit Inhalten       Annotationen
                          Hassrede (NLP, IE,      RE etc.).
                                            Klassifikation des                       Annotations
                                                                                                            UGM
                 • Extraktion von Meinungen,
                                          politischen Spektrums                         DB1
                                                                                                              UGM
                   Argumenten,      Behauptungen
                            Faktenchecker          Tool3 etc.

                                     Service2                                                             Web
                                                                                                       Annotations
                                                                                                          DB2             UGA
                            MGM                              MGM
                                                                             Dezentrale Repositorien
                                           MGM
                                                                            speichern alle Annotationen
                                                                                                                           Web
                                                                                       UGA                              Annotations
                                                                                                                           DB3

                                                                 Annotationen anderer Nutzer
                                                                                                          Web
                                                                                                       Annotations
                                                                                UGM                       DB4
                                                                  Beispiel: Nutzer bewertet Qualität
                                                                    eines Inhalts im Hinblick auf
                                                                    ein standardisiertes Schema

               Browser unterstützt Infrastruktur nativ und aggregiert              UGA: User-generierte Annotationen (Freitext)
           unterschiedlichen Bewertungen, Kommentare und Meinungen                 UGM: User-generierte Metadaten (standardisiert)
              über einen Inhalt in klare Botschaften oder Warnungen                MGM: Maschinen-generierte Metadaten (standardisiert)
Dezentrale Filter verarbeiten Inhalte automatisch und schicken                                                  andere
                   Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)                                                          Nutzer
                                                                                           UGA
                       Service1

 Website                     Detektion von                                                Web
mit Inhalten                  Hassrede                                                                        UGM
                                                     Klassifikation des                Annotations
                                                   politischen Spektrums                  DB1
                                                                                                                UGM
                                   Faktenchecker         Service3

                                      Service2                                                              Web
                                                                                                         Annotations
                                                                                                            DB2             UGA
                            MGM                              MGM
                                                                               Dezentrale Repositorien
                                           MGM
                                                                              speichern alle Annotationen
                                                                                                                             Web
                                                                                         UGA                              Annotations
                                                                                                                             DB3

                                  • Standardisierte Metadaten-Schemata für effiziente RDF-
                                                       Annotationen
                                    Annotationen, z.B. „Inhalt  ist anderer
                                                                    bewussteNutzer Täuschung.“
                                                                                       Web
                                  • W3C Provenance Ontology,UGM     Schema.org Annotations
                                                                                     (ClaimReview).
                                                                                       DB4
                                                                    Beispiel: Nutzer bewertet Qualität
                                  • W3C Credible Web Community             Group
                                                       eines Inhalts im Hinblick auf arbeitet seit Kurzem
                                                       ein standardisiertes Schema
                                    an den notwendigen Konzepten.
               Browser unterstützt Infrastruktur nativ und aggregiert                UGA: User-generierte Annotationen (Freitext)
           unterschiedlichen Bewertungen, Kommentare und Meinungen                   UGM: User-generierte Metadaten (standardisiert)
              über einen Inhalt in klare Botschaften oder Warnungen                  MGM: Maschinen-generierte Metadaten (standardisiert)
Dezentrale Filter verarbeiten Inhalte automatisch und schicken                                                 andere
                   Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)                                                         Nutzer
                                                                                          UGA
                       Service1

 Website                     Detektion von                                               Web
mit Inhalten                  Hassrede                                                                       UGM
                                                    Klassifikation des                Annotations
                                                  politischen Spektrums                  DB1
                                                                                                               UGM
                                  Faktenchecker         Service3

                                       Tool2                                                               Web
         Ziel: Nutzern Technologien an die Hand geben,          Annotations mit
                                                                   DB         UGA                              2
         denen sie  MGM digitale Medien
                                  MGM    besser             rezipieren,
                                         Dezentralle Repositorien
                           MGM
         analysieren, verifizieren und einschätzen
                                        speichern alle Annotationen
                                                                   können
                                                                                Web
         und die automatisch Hinweise auf UGA    problematische              Annotations
                                                                                DB                                               3

         Inhalte liefern.
                                                                   Annotationen anderer Nutzer
                                                                                                           Web
                                                                                                        Annotations
                                                                                UGM                        DB4
                                                                   Beispiel: Nutzer bewertet Qualität
                                                                     eines Inhalts im Hinblick auf
                                                                     ein standardisiertes Schema

               Browser unterstützt Infrastruktur nativ und aggregiert               UGA: User-generierte Annotationen (Freitext)
           unterschiedlichen Bewertungen, Kommentare und Meinungen                  UGM: User-generierte Metadaten (standardisiert)
              über einen Inhalt in klare Botschaften oder Warnungen                 MGM: Maschinen-generierte Metadaten (standardisiert)
1. Herausforderung
          Das mehrsprachige Europa:
Sprachtechnologien für alle europäischen Sprachen?
               2. Herausforderung
      Online-Desinformationskampagnen:
 Technische Lösungsansätze gegen „Fake News“?
               3. Herausforderung
                Digitaler Content:
Technologien für die effiziente Content-Kuratierung?
Relevanz von Content
• Content spielt wichtige Rolle in Gesellschaft und Industrie
• In vielen Branchen herrscht Druck, regelmäßig Content zu
  publizieren; man spricht auch von der Content-Industrie.
• Ziel: Smarter, effizienter Umgang mit Content
      Beschaffung, Konvertierung, Anreicherung, Analyse,
      Zusammenfassung, Übersetzung, Verknüpfung,
      Zusammenstellung und Publikation von Content.
      Ausspielen von Content auf div. Kanälen inkl. Social Media.

• Riesiges Potenzial für Disruptionen in allen Branchen
  durch Technologien für die Kuratierung von Content.

             Europäische Sprachtechnologie – Herausforderungen und Lösungen   40
Was ist digitale Kuratierung?

                                                                               ?
    ?
Information
Information
Information
Information
                                    ?
Information                                                                    Information
Information
Information
Information
                                                   ?
Information

Input           Prozesse                             Software                  Output
              Europäische Sprachtechnologie – Herausforderungen und Lösungen          41
Branchen
         Input             Prozesse              Software                          Output
Tweet                Analysieren         Textverarbeitung               Zeitungsartikel
Zeitungsartikel      Auswählen           Präsentationen                 Multimedia-Website
Agenturmeldung       Fokussieren         Tabellenkalkulation            TV-Beitrag
Facebook-Meldung     Überarbeiten        Email                          Ausstellungskatalog
Suchergebnis         Einlesen            Browser                        Mobile Applikation
Email                Schreiben           Groupware                      Mashup (z.B. Karte)
SMS                  Gestalten           Branchenapplikationen          Textbeitrag
Konzept              Recherchieren       CMS                            Konzept
Textdateien          Bewerten            ECMS                           Zeitstrahl
Video                Evaluieren          CRM                            Fachartikel
Karte                Ordnen              Unternehmens-Software          Studie
Stockfotos           Sortieren           Grafik-/Layout-Software        Präsentation
In-house Datenbank   Strukturieren       Telefonie                      Faktensammlung
Kalendereintrag      Zusammenfassen      etc.                           Exponatsartikel
Spreadsheets         Kürzen                                             Analysen
Archiv               Übersetzen                                         etc.
etc.                 Informieren
                     Kombinieren                        Merkmale und Dimensionen
                     Abstrahieren
                     Einordnen            •    Content: Text, Ton, Bild, Video, Multimedia, AR/VR
                     Visualisieren        •    Mehrsprachigkeit: Text, Ton, ggf. mehrere Sprachen
                     Generieren           •    Diverse Content-Typen: U.a. Hunderte von Textsorten
                     Annotieren           •    Beteiligte: Content wird oft in verteilten Teams kuratiert
                     Referenzieren
                                          •    Branchen: Branchenspezifische Anforderungen
                     etc.
                                          •    Workflows: Flexible Komponierung und Konfigurierung
                                          •    Services: Spektrum – generisch bis branchenspezifisch
                                          •    Geschwindigkeit und Effizienz: Einsatz im Arbeitsalltag
                                                                                               42
Digitale Kuratierungstechnologien
                                     •      Digitaler Kuratierung mit Sprach- und Wissenstechnologien
                                     •      Entwicklung innovativer Prototypen mit den KMU-Partnern
                                     •      Unterstützung der Experten – „human in the loop“!
                                     •      Weiterentwicklung der DFKI-Technologien und Transfer mittels
                                            Plattform für digitale Kuratierungstechnologien

     Branchenlösungen

                  Branchentechnologien
                                                            Plattformtechnologie

                Kuratierungstechnologien

            Sprach- und Wissenstechnologien

Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual
Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016
                                                                                                         DKT Auftaktveranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente
Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der
Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139,
Duisburg, 2015
                                                                                                                                                     43
Prototypisch implementierte Plattform und Services
                                                        Output

                  Client nutzt
                   das API

                                         Inp
                                            ut
                                                   Plattform für digitale Kuratierungstechnologien
                  Client nutzt                                                                                                                                                                                       Externer
                   das API                                                                                                                                                                                           Service 1
                                                          Broker REST API

                                                                                                                Kuratierungsservice 1

                  Client nutzt
                                                                                                                                                                                                                         Externer
                   das API
                                                                  Kuratierungs-Workflow                  Kuratierungsservice 2                                                                                           Service 2

                                                                                                                                                                                                     NLP Interchange
                                                                                                                     @prefix rdf:       .
                                                                                                                     @prefix xsd:       .

                  Client nutzt                                                                                       @prefix itsrdf:
                                                                                                                     @prefix rdfs:
                                                                                                                                        .
                                                                                                                                        .

                   das API
                                                                                                                     @prefix geo:
                                                                                                                     @prefix nif:
                                                                                                                                        .
                                                                                                                                                                                                      Format (NIF)
                                                                                                                                        .

                                                                                                                      a                            nif:RFC5147String , nif:String , nif:Context ;
                                                                                                                      nif:beginIndex               "0"^^xsd:nonNegativeInteger ;
                                                                                                                      nif:endIndex                 "26"^^xsd:nonNegativeInteger ;
                                                                                                                      nif:isString                 "Welcome to Berlin in 2016. "^^xsd:string ;           “Welcome to Berlin in 2016.”
                                                                                                                      dfkinif:averageLatitude      "52.516666666666666"^^xsd:double ;
                                                                                                                      dfkinif:averageLongitude "13.383333333333333"^^xsd:double ;
 •        Durch (Semi-)Automatisierung der Kuratierungsprozesse Reduktion                                             dfkinif:stdDevLatitude       "0.0"^^xsd:double ;
                                                                                                                      dfkinif:stdDevLongitude "0.0"^^xsd:double ;

          zeitlicher und finanzieller Aufwände                                                                        nif:meanDateRange            "20160101010000_20170101010000"^^xsd:string .

 •
                                                                                                                      a                         nif:RFC5147String , nif:String ;
          Flexible, robuste, skalierbare Services                                                                     itsrdf:taIdentRef
                                                                                                                      nif:anchorOf
                                                                                                                                                 ;
                                                                                                                                                "2016"^^xsd:string ;

 •        Interoperabilität durch generische APIs                                                                     nif:beginIndex
                                                                                                                      nif:endIndex
                                                                                                                      nif:entity
                                                                                                                                                "21"^^xsd:nonNegativeInteger ;
                                                                                                                                                "25"^^xsd:nonNegativeInteger ;
                                                                                                                                                .
                                                                                                                                                                                               • RDF/OWL-basiertes                     Format für NLP-
                                                                                                                                                                                                                 Anwendungen
                                                                                                                     
                                                                                                                      a                         nif:RFC5147String , nif:String ;
                                                                                                                                                                                                             •   Ermöglicht Interoperabilität
     Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit Srivastava.           nif:anchorOf              "Berlin"^^xsd:string ;                                       •   Durch pures RDF „natürliche“
     “Towards a Platform for Curation Technologies: Enriching Text Collections with a Semantic-Web Layer.” In         nif:beginIndex
                                                                                                                      nif:endIndex
                                                                                                                                                "11"^^xsd:nonNegativeInteger ;
                                                                                                                                                "17"^^xsd:nonNegativeInteger ;                                   Integration von Linked-Data-Daten
     Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer, and Christoph Lange,                  itsrdf:taClassRef          ;                     •   Entwickelt von der Universität Leipzig
                                                                                                                      nif:referenceContext       ;
     editors, The Semantic Web, number 9989 in LNCS, pages 65-68. Springer, June 2016. ESWC 2016                      geo:lat                   "52.516666666666666"^^xsd:double ;                           •   Plattform unterstützt neben NIF auch
                                                                                                                      geo:long                  "13.383333333333333"^^xsd:double ;
     Satellite Events. Heraklion, Crete, Greece, May 29 - June 2, 2016 Revised Selected Papers.                       itsrdf:taIdentRef          .
                                                                                                                                                                                                                 Web Annotations
Exemplarische Basisdienste
     NER, Linking, Geolokalisierung                                                                                                                                                                                     NER und Linking                                                                                                        Zeitausdrücke
•      Modus 1: Modell-basiert (für Domänen, für                                           •    Entity-Linking durch SPARQL-Querys auf DBPedia.
       die annotierte Trainingsdaten verfügbar sind)                                       •    Für Lokationen werden GPS-Koordinaten bezogen.                                           • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner

•      Modus 2: Wörterbuch-basiert (für Domänen,                                                                                                                                 A       • Falls lediglich Listen von Namen oder Termen und deren URIs in einer • Falls annotierte Trainingsdaten zur Verfügung stehen                    B
                                                                                           •    Es werden Durchschnittsangaben berechnet auf                                               Ontologie zur Verfügung stehen.                                                                                                                      ...
       für die lediglich Namenslisten verfügbar sind)                                           Dokumentebene (über alle Lokationen), um diese auf                                                                                                                                                                                              The ships were scuttled there
•      Basiert auf OpenNLP (mit NIF-Integration)                                                einer Karte visualisieren zu können.                                                                                                                                                                                                            in the 11th century, to block a
                                                                                                                                                                                                                                                                                                                                                                                                                                               900
                                                                                                                                                                                                                                                                                                                                                navigation channel and thus
      ...                                                                                                                                                                                                                                                                                                                                       protect Roskilde, then
      In the Viking colony of Iceland,                                                                                                                                                                                                                                                                                                          Copenhagen from seaborne
      an extraordinary vernacular                                                                                                                                                                                                                                                                                                               assault
      literature blossomed in the 12th
      through 14th centuries
                                                                                                                                                                                                                                                                                                                                                ...                                                                                                                   •       Sortiert Dokumente auf einer
                                                                                                                                                                                 Datenbank-Dump der                                    • Linking per Extraktion der DBpedia-URI                                                                 ...
      ...                                                                                                                                                                        Mendelsohn-Briefe                                                                                                                                              Viking Age inscriptions have
                                                                                                                                                                                                                                                                                                                                                                                                                                                                              chronologischen Skala.
                                                                                                                                                                                                                                       • NE-Typspezifische SPARQL-Querys für
      ...                                                                                                                                                                                                                                Personen (Geburtsdatum), Lokationen                          statistisches                             also been discovered on the                                                                                           •       Regelbasiertes System, um
      The ships were scuttled there                                                                                                                                                                                                                                                                                                             Manx runestones on the
      in the 11th century, to block a
                                                                                                                                                                                                                                         (Koordinaten), Organisationen (Typ)                          NER-Modell                                                                                                                                                              unsere Zielsprachen
                                                                                                                                                                                                                                       • Wörterbuch kann URIs enthalten                                                                         Isle of Man.
      navigation channel and thus                                                                                                                                                                                                                                                                                                               ...                                                                                                                           bestmöglich bedienen zu
      protect Roskilde, then                                                                                                                                                                                                                                                                                                                    ...                                                                                                                           können (EN, DE).
      Copenhagen from seaborne                                                                                                                                                                                                                                                                                                                  In the Viking colony of Iceland,
      assault                                                                                                                                                                    Mittlere Qualität                                                                                                         Hohe Qualität                        an extraordinary vernacular
                                                                                                                                                                                                                                                                                                                                                                                                                                                                      •       Analyse von Zeitausdrücken
      ...                                                                                                                                                                        Benötigt weniger annotierte Daten                                                                                         Benötigt annotierte Daten            literature blossomed in the 12th                                                                                              in einem Dokument.
      ...                                                                                                                                                                                                                                      auf neuem Input nutzbar                                                                          through 14th centuries
      Viking Age inscriptions have                                                                                                                                                                                                                  (auch gemeinsam)                                                                            …
                                                                                                                                                                                                                                                                                                                                                                                                                                              1600                    •       Berechnet Durchschnittswerte
      also been discovered on the                                                                                                                                                                                                                                                                                                                                                                                                                                             und Intervalle.
      Manx runestones on the                                                              Geolokalisierung als visuelles Zusammenfassen!                                                                                                                                                                                                                Plain-Text                                NIF-Anreicherung                        Visualisierung
                                                                                                                                                                                          • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B)                          Mittlere Qualität                                                                                                                                                       •       Plan: Mechanismus für
      Isle of Man.                                                                                                                                                               C          vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.                          Menschliche Intervention notwendig
                                                                                                                                                                                                                                                                                                                                               http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp
      …                                                                                                                                                                                   • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als                                                                                                                                   http://dev.digitale-kuratierung.de/admini/pages/timelining.php              nutzerbasierte Regeln.
                                                                                                                                                                                                                                                                                              Benötigt keine annotierten Daten
           Plain Text                                NIF-Anreicherung                                                 Visualisierung                                                        Wörterbuch (A) eingesetzt werden.                                                                                                                                                                                                                                         •       Verwandte Arbeiten: SUTime,
       http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner        http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php                                                                                                                                                                                                                                                                                                     HeidelTime, Tango, Tarsgi.
                                                            Technologien für Digitale Medien – Georg Rehm                                                                   53                                                     Technologien für Digitale Medien – Georg Rehm                                                   54                                                                   Technologien für Digitale Medien – Georg Rehm                                                                         55

                      Maschinelle Übersetzung                                                                                                                                                                Textzusammenfassen
•     Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.)                                                                                                                                                                                                                                                                                               Semantic Storytelling
•     Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a.                                                                                                  •     Kuratierungsservice rankt Sätze – basierend auf div.
•     Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF                                                                                              Features – hinsichtlich ihrer Wichtigkeit.
                                                                                                                                                                                                                                                                                    Im letzten Monat und den letzten
                                                                                                                                                                                                                                                                                    3 Monaten verlor die RWE-Aktie
                                                                                                                                                                                                                                                                                                                                                   • Eingabe: Kohärente, in sich geschlossene Textkollektion
•     Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet)
                                                                                                                                                                                                                                                                                     3,79% bzw. 18,95% und in den
                                                                                                                                                                                     •     Modul ist in der Entwicklung.
                                                                                                                                                                                                                                                                                         letzten 3 Tagen 3,55%.
                                                                                                                                                                                                                                                                                                                                                   • Ausgabe: Semantisch angereicherte Kollektion
                                                                                                                                                                                     •     Beispiel: Artikel über den fallenden Aktienkurs von
                                                                                                   Herr Modi befindet sich auf einer fünftägigen
                                                                                                    Reise nach Japan, um die wirtschaftlichen                                              RWE (Daten stammen von Condat).                                                                                                                         • Idee:                                Aufgabenspezifisch multiple Rezeptionspfade
                                                                                                        Beziehungen mit der drittgrößten
                                                                                                     Wirtschaftsnation der Welt zu festigen.                                         •     Ausblick: Integration der Analyseergebnisse anderer                                                                                                                                            generieren, vorschlagen, präsentieren
                                                                                                                                                                                           DKT-Services in den Algorithmus.
                                                                                                                                           Beispiel                                                                                                                                                                                                • Lösung: Identifizierung, Ranking und Empfehlung
                                                                                          Named Entity
                                                                                          Recognition                                                              Metadata                                                                                                                                                                                  sinnvoller, überraschender Hypertextpfade
                                                                                                                                                                  Processing
                                            Workflow
                                            Workflow
                                                                                          Entity Linking
                                                                                                                                                                                     Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am
                                                                                                                                                                                                                                                                                                                                                   • Es gibt noch zahlreiche Herausforderungen.
                                                                                                                                                                   Post-Edit
                                                           Language &                       Temporal                                                               Retraining        Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79                                                                       Peter Bourgonje, Julian Moreno Schneider, Georg Rehm und Felix Sasaki. Processing
                                                            Translation&
                                                           Language                        Expressions                                                                               Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen                                                                      Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies
                                                          Models trained                                                                                                                                                                                                                                                                      for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the
                                                          on
                                                            Translation
                                                             DGT,trained
                                                                   News,
                                                                                                                                                                                     bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE-                                                                   2nd International Workshop on Natural Language Generation and the Semantic Web
                                                          Models                                                                                                                                                                                                                                                                              (WebNLG 2016), S. 13-16, Edinburgh, UK, Sept. 2016. Association for Comp.Linguistics.
                                                          Europarl,
                                                          on        TED
                                                             DGT, News,                                                                                                              Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der
                                                                                                                                                                                                                                                                                                                                                                                                                                                 Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki
                                                          Europarl, TED                                                                                                              Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB-                                                                 Julian Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit         und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text
                                                                                                                                                                                                                                                                                                                                              Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry            Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine
    Ankit Srivastava, Georg Rehm, and Felix Sasaki. Improving Machine                              Mr Modi is located on a five-day trip to Japan to                                 Werte jeweils bei 11,77 bzw. 2,13 liegen.                                                                                                                Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language          Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic
    Translation through Linked Data. The Prague Bulletin of Mathematical                           strengthen the economic ties with the third largest                                                                                                                                                                                        Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016.                 Web: ESWC 2016 Satellite Events, Juni 2016.
    Linguistics, 108(1):355-366, June 2017. Proceedings of the 20th Annual
    Conference of the European Association for Machine Translation (EAMT 2017).                    economy in the world.

                                                            Technologien für Digitale Medien – Georg Rehm                                                                   56                                                     Technologien für Digitale Medien – Georg Rehm                                                   57                                                                   Technologien für Digitale Medien – Georg Rehm                                                                         58

                                                                                                                                       Europäische Sprachtechnologie – Herausforderungen und Lösungen                                                                                                                                                                                                                                                                                                        45
You can also read
Next slide ... Cancel